WO2024085444A1 - 콘텐트를 제공하는 방법 및 디스플레이 장치 - Google Patents

콘텐트를 제공하는 방법 및 디스플레이 장치 Download PDF

Info

Publication number
WO2024085444A1
WO2024085444A1 PCT/KR2023/013579 KR2023013579W WO2024085444A1 WO 2024085444 A1 WO2024085444 A1 WO 2024085444A1 KR 2023013579 W KR2023013579 W KR 2023013579W WO 2024085444 A1 WO2024085444 A1 WO 2024085444A1
Authority
WO
WIPO (PCT)
Prior art keywords
display device
audio content
user
speakers
location
Prior art date
Application number
PCT/KR2023/013579
Other languages
English (en)
French (fr)
Inventor
박재성
박성수
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020230009540A external-priority patent/KR20240054139A/ko
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2024085444A1 publication Critical patent/WO2024085444A1/ko

Links

Images

Definitions

  • a display device that provides content including spatially customized audio optimized for a user and a method of operating the same are provided.
  • a method for a display device to provide content may be provided.
  • the method may include obtaining video content representing a virtual space.
  • the method may include obtaining first audio content corresponding to the video content.
  • the method may include obtaining spatial information representing features related to audio in user space.
  • the method may include generating second audio content by converting the first audio content based on metadata of the video content, metadata of the first audio content, and the spatial information.
  • the second audio content may be space-customized audio content.
  • the method may include obtaining at least one of the location or specifications of one or more speakers connected to the display device.
  • the method includes determining output settings of the one or more speakers for the second audio content based on the spatial information and at least one of the spatial information, the location of the one or more speakers, or the specifications of the one or more speakers. may include.
  • the method may include outputting the second audio content based on the output settings while the video content is displayed on the screen of the display device.
  • a display device may be provided.
  • the display device includes a communication interface; display; a memory storing one or more instructions; and at least one processor executing the one or more instructions stored in the memory.
  • the at least one processor may obtain video content representing a virtual space by executing the one or more instructions.
  • the at least one processor may acquire first audio content corresponding to the video content by executing the one or more instructions.
  • the at least one processor may obtain spatial information indicating audio-related features of the user space by executing the one or more instructions.
  • the at least one processor executes the one or more instructions, thereby converting the first audio content based on the metadata of the video content, the metadata of the first audio content, and the spatial information, according to the spatial information.
  • Second audio content which is space-customized audio content converted into sound optimized for the user space, can be generated.
  • the at least one processor may obtain at least one of the location or specifications of one or more speakers connected to the display device by executing the one or more instructions. By executing the one or more instructions, the at least one processor configures the one or more speakers for the second audio content based on at least one of the location of the one or more speakers or the specifications of the one or more speakers and the spatial information. You can decide the output settings.
  • the at least one processor may execute the one or more instructions to output the second audio content based on the output settings while the video content is displayed on the display of the display device.
  • a display device may provide a computer-readable recording medium on which a program for executing any one of the above and below-described methods for providing content is recorded.
  • FIG. 1 is a diagram schematically showing content provided by a display device according to an embodiment of the present disclosure.
  • FIG. 2 is a flowchart illustrating a method of providing content by a display device according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram illustrating operations in which a display device generates second audio content, which is space-customized audio content, according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram illustrating a user space where a display device is located according to an embodiment of the present disclosure.
  • FIG. 5 is a flowchart illustrating an operation of a display device generating audio metadata according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram for explaining an operation of a display device generating second audio content according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram illustrating an operation of a display device adjusting second audio content based on speaker specifications according to an embodiment of the present disclosure.
  • FIG. 8 is a diagram illustrating an operation of a display device determining the positions of one or more speakers according to an embodiment.
  • FIG. 9 is a diagram illustrating an operation of a display device acquiring a user's location according to an embodiment of the present disclosure.
  • FIG. 10 is a diagram illustrating an operation of updating a user location by a display device according to an embodiment of the present disclosure.
  • Figure 11 is a block diagram showing the configuration of a display device according to an embodiment of the present disclosure.
  • Figure 12 is a block diagram showing the configuration of a display device according to an embodiment of the present disclosure.
  • FIG. 13 is a block diagram showing modules used by a display device according to an embodiment of the present disclosure.
  • the expression “at least one of a, b, or c” refers to “a”, “b”, “c”, “a and b”, “a and c”, “b and c”, “a, b and c”, or variations thereof.
  • FIG. 1 is a diagram schematically showing content provided by a display device according to an embodiment of the present disclosure.
  • a display device 2000 may be located in the user space 120. Additionally, one or more speakers connected to the display device 2000 may be located in the user space 120. The display device 2000 may display video content representing the virtual space 100 on the screen. Additionally, one or more speakers may play audio content corresponding to video content representing the virtual space 100.
  • the display device 2000 may process audio content corresponding to the virtual space 100 to provide an immersive experience of the virtual space 100 to the user. Specifically, the display device 2000 may change the audio content corresponding to the virtual space into audio content tailored to the user space 120 (also referred to as immersive audio content in the present disclosure). For example, the display device 2000 may analyze video content and metadata of the video content and use the analysis results to generate realistic audio content. For example, the display device 2000 may analyze audio and metadata of audio content and generate realistic audio content using the analysis result. For example, the display device 2000 may acquire spatial information indicating audio-related characteristics of the user space 120 and generate realistic audio content using the spatial information.
  • the display device 2000 may obtain the specifications and positions of one or more speakers connected to the display device 2000 and generate realistic audio content based on the specifications and positions of the one or more speakers. Meanwhile, the above-described examples of data/information used by the display device 2000 to generate realistic audio content do not have to be applied independently. Two or more of the above examples may be combined.
  • the display device 2000 generates and provides realistic audio using various information/data will be described in more detail through the drawings and descriptions described later. Additionally, hereinafter, the audio content before being processed by the display device 2000 will be referred to as first audio content, and the realistic audio content will be referred to as second audio content.
  • FIG. 2 is a flowchart illustrating a method of providing content by a display device according to an embodiment of the present disclosure.
  • step S210 the display device 2000 according to one embodiment acquires video content representing a virtual space.
  • the video content may be content representing a virtual space.
  • Video content may be, for example, a video game, metaverse graphics, etc., but is not limited thereto.
  • the display device 2000 may load video content stored in an internal memory of the display device 2000 or may receive video content from an external device (eg, a server, etc.).
  • video content may include metadata of the video content.
  • Metadata of video content may include, but is not limited to, at least one of the type of object present in the video content, sound generation location, object movement trajectory, location, and time zone.
  • the display device 2000 acquires first audio content corresponding to video content.
  • the first audio content corresponding to the video content may be audio content provided together with the video content.
  • the first audio content may include, for example, background sound, sound of an object in the virtual space, input sound of a user, input sound of a user other than the user in the virtual space, etc., but is not limited thereto.
  • the first audio content may include metadata of the first audio content.
  • the metadata of the first audio content may include at least one of sound appearance/disappearance time, sound size, object location in virtual space, object location movement trajectory, type of object, and sound corresponding to the object, but is limited thereto. no.
  • the display device 2000 may identify whether metadata of the first audio content exists.
  • the display device 2000 may generate metadata of the first audio content based on the fact that metadata of the first audio content does not exist.
  • the display device 2000 may analyze the video content and/or the first audio content to generate metadata of the first audio content.
  • the video content and the first audio content may be one integrated content. That is, video content and first audio content may be included in the integrated content.
  • the metadata of the integrated content may include the metadata of the video content and the metadata of the first audio content in integrated or separate form.
  • step S230 the display device 2000 according to an embodiment acquires spatial information indicating characteristics related to audio in the user space.
  • User space refers to the real space of a user using the display device 2000.
  • the user space may be, for example, an audio room where the display device 2000 is located, but is not limited thereto.
  • spatial information may include information representing characteristics related to audio in user space.
  • Spatial information may include, for example, at least one of information related to a three-dimensional spatial layout, objects in space, and bass traps, sound absorbers, and sound diffusers in space, It is not limited to this.
  • the 3D space layout information may include information such as the area of the space, floor height, location and size of walls, pillars, doors/windows, etc., but is not limited to this.
  • Object information in space may include information such as size, location, and shape of various objects existing in space, such as tables, chairs, speakers, and TV stands, but is not limited to this.
  • Information on the base trap, sound absorbing material, and sound dispersing material in the space may include, but is not limited to, the size, location, and direction of the sound absorbing material and/or sound dispersing material installed in the user space.
  • step S240 the display device 2000 according to an embodiment generates second audio content by converting the first audio content based on metadata of the video content, metadata of the first audio content, and spatial information.
  • the second audio content may be spatially customized content.
  • Space-customized audio content may be audio content converted into sound optimized for the user space by reflecting spatial information of the user space. For example, a user can experience a virtual space using the display device 2000 and one or more speakers in the user space.
  • the second audio content refers to realistic audio content that has been converted to realistically deliver sounds played in a virtual space to users in the user space.
  • the display device 2000 determines the output size and output direction of the sound occurring in the virtual space (for example, the sound output from the object in the virtual space). , output location, etc. can be changed. Specific operations by which the display device 2000 generates second audio content will be described later in the following drawings.
  • the display device 2000 acquires at least one of the location or specifications of one or more speakers connected to the display device 2000.
  • One or more speakers may be multi-channel speakers.
  • one or more speakers may be speakers of a 5.1 channel configuration capable of providing surround sound, but are not limited thereto.
  • the display device 2000 may include one or more microphones.
  • the display device 2000 may receive test sounds from one or more speakers using one or more microphones.
  • the display device 2000 may determine the location and direction of one or more speakers based on the received test sound.
  • the display device 2000 may receive a user input inputting the location of one or more speakers.
  • the display device 2000 may obtain identification information (eg, model name, identification number, etc.) of one or more speakers connected to the display device 2000. Based on the identification information of one or more speakers, the display device 2000 may search the database for speaker specification information corresponding to the identification information. In one embodiment, the display device 2000 may receive a user input for entering specifications of one or more speakers.
  • identification information eg, model name, identification number, etc.
  • step S260 the display device 2000 according to an embodiment determines output settings of one or more speakers for the second audio content based on the location of one or more speakers or specifications and spatial information of one or more speakers.
  • the display device 2000 determines the output settings of one or more speakers for the second audio content based on spatial information, the location of one or more speakers, and the specifications of one or more speakers, thereby providing realistic audio according to the characteristics of the user space. can do. For example, even if speakers with the same specifications are installed in the first user's first space and the second user's second space, spatial information indicating the spatial characteristics of each user and the locations of the speakers in each user's space are Since they are different, different output settings may be determined for the first user's first space and the second user's second space.
  • step S270 the display device 2000 according to an embodiment outputs second audio content based on output settings while video content is displayed on the screen of the display device.
  • a user of the display device 2000 can experience a virtual space through video content and secondary audio content.
  • FIG. 3 is a diagram illustrating operations in which a display device generates second audio content, which is space-customized audio content, according to an embodiment of the present disclosure.
  • the display device 2000 may acquire video content 310 and first audio content 320.
  • the video content 310 may correspond to the graphics of the virtual space 100
  • the first audio content 320 may correspond to the sound of the virtual space 100.
  • the display device 2000 may perform video analysis 332 on the video content 310 using the video analysis module 330.
  • the display device 2000 may acquire various data for changing the first audio content 320 into the second audio content 360 using various known video analysis algorithms.
  • the display device 2000 may use various known deep neural network architectures and algorithms, or may use artificial intelligence models implemented through variations of various known deep neural network architectures and algorithms, to perform video analysis 332.
  • the display device 2000 may detect and recognize one or more objects in scenes included in the video content 310. Additionally or alternatively, the display device 2000 may classify scenes of the video content 310 into categories. Additionally or alternatively, the display device 2000 may detect a human skeleton in a video and classify the human action based on the detected skeleton. Additionally or alternatively, display device 2000 may detect and recognize human faces within a video. Additionally or alternatively, the display device 2000 may extract 2D/3D distance information (eg, depth information) within the video.
  • 2D/3D distance information eg, depth information
  • the display device 2000 may perform video metadata analysis 334 on the video content 310 using the video analysis module 330.
  • Video metadata may be composed of a data format including predefined data elements, but is not limited to this.
  • Video metadata may include, but is not limited to, at least one of, for example, the type of object existing in the video content 310, a sound generation location, an object movement trajectory, a location, and a time zone. Additionally or alternatively, information related to sound in video metadata may be provided as audio metadata rather than video metadata.
  • video metadata corresponding to the video content 310 may also be acquired.
  • video metadata may be generated by the display device 2000.
  • the display device 2000 may generate and update video metadata based on the results of the video analysis 332 described above.
  • the display device 2000 may perform audio analysis 342 on the first audio content 320 using the audio analysis module 340.
  • the display device 2000 may acquire various data for changing the first audio content 320 into the second audio content 360 using various known audio analysis algorithms.
  • the display device 2000 may use various known deep neural network architectures and algorithms, or may use artificial intelligence models implemented through variations of various known deep neural network architectures and algorithms, to perform audio analysis 334.
  • the display device 2000 may identify sound events included in the first audio content 320.
  • the display device 2000 can identify the appearance and disappearance time of the sound and the sound size within the first audio content 320. Additionally or alternatively, the display device 2000 may classify events corresponding to sounds.
  • the display device 2000 may perform audio metadata analysis 342 on the first audio content 320 using the audio analysis module 340.
  • Audio metadata of audio content may be configured in a data format including predefined data elements, but is not limited thereto.
  • Audio metadata may include, but is not limited to, at least one of, for example, sound appearance/disappearance time, sound size, object location in virtual space, object location movement trajectory, type of object, and sound corresponding to the object. no.
  • audio metadata corresponding to the first audio content 320 may also be acquired.
  • the display device 2000 may supplement and update audio metadata based on the results of the audio analysis 342.
  • the data processing results of the video analysis module 330 and the audio analysis module 340 are transmitted to the realistic audio generation module 350.
  • the immersive audio generation module 350 generates the first audio content 320 based on at least one of metadata of the video content 310, metadata of the first audio content 320, and spatial information. By converting, the second audio content 360, which is realistic audio, can be generated.
  • the display device 2000 may perform user peripheral device analysis 352 using the realistic audio generation module 350.
  • a user peripheral device may include one or more speakers. Specifications of one or more speakers include, for example, driver unit (e.g., 2way, 3way, etc.), frequency response, sound pressure level (SPL), amplifier output, impedance, sensitivity, vertical/horizontal coverage angle, etc. It may include, but is not limited to this.
  • driver unit e.g., 2way, 3way, etc.
  • SPL sound pressure level
  • amplifier output e.g., impedance, sensitivity, vertical/horizontal coverage angle, etc. It may include, but is not limited to this.
  • the display device 2000 can analyze the specifications and locations of one or more speakers. For example, the display device 2000 may determine a frequency band in which the first audio content 320 will be output separately from each speaker based on the specifications of one or more speakers. For example, the display device 2000 determines whether the sound of the first audio content will be output from one of the one or more speakers based on the distance and direction from the display device 2000 to the one or more speakers. You can.
  • the results of the user's surrounding device analysis (352) can be used for metadata-based realistic audio rendering (356).
  • the display device 2000 may perform user environment analysis 354 using the realistic audio generation module 350.
  • the user environment may include spatial information of the user space where the display device 2000 is installed, the user's location, etc., but is not limited thereto.
  • spatial information may include, but is limited to, at least one of information related to three-dimensional spatial layout, objects in space, and bass trap, sound absorber, and sound diffuser in space. It doesn't work.
  • the display device 2000 can analyze audio-related characteristics of the user environment. For example, the display device 2000 may calculate the degree of sound absorption and degree of sound reflection according to the sound direction based on layout information of the user space, information on sound absorbers installed in the user space, and information on sound dispersion materials. For example, the display device 2000 may calculate frequency band information that the user can hear based on layout information of the user space and the user's location. The display device 2000 may calculate the hearing distance (e.g., half the length of the wavelength) at which the wavelength of the low-band sound can be heard and/or the lowest audible frequency in the user space.
  • the hearing distance e.g., half the length of the wavelength
  • the wavelength of the audible sound signal at the user's location can be calculated as 10 m.
  • the results of the user environment analysis 354 can be used in metadata-based realistic audio rendering 356.
  • the display device 2000 may perform metadata-based immersive audio rendering 356 using the immersive audio generation module 350.
  • the display device 2000 may render the second audio content 360, which is immersive audio, based on the metadata of the video content 310 and the metadata of the first audio content 320.
  • the display device 2000 includes metadata of the video content 310 (e.g., type of object existing in the video content, sound generation location, object movement trajectory, location, time zone, etc.) and first audio Based on the metadata of the content 320 (e.g., sound appearance/disappearance time, sound size, object location in virtual space, object location movement trajectory, object type, etc.), within the virtual space of the video content 310
  • the first audio content 320 may be mapped to existing objects.
  • the display device 2000 may render the output size, output direction, output location, etc. of sound occurring in the virtual space based on the arrangement, distance, and direction of objects existing in the virtual space of the video content 310. .
  • information in the metadata of the video content 310 may be supplemented or updated as a result of the video analysis 332.
  • the display device 2000 may perform metadata-based realistic audio rendering 356 based on the video analysis result 332 and render the second audio content 360. For example, at least one of the type of object existing in the video content 310, the sound generation location, the object movement trajectory, location, and time zone obtained as a result of the video analysis 332 may be used.
  • information in the metadata of the first audio content 320 may be supplemented or updated as a result of the audio analysis 342.
  • the display device 2000 may perform metadata-based realistic audio rendering 356 based on the results of the audio analysis 342 and render the second audio content 360. For example, at least one of the appearance and disappearance time of the sound of the first audio content 310, the sound size, and an event classification corresponding to the sound obtained as a result of the audio analysis 332 may be used.
  • the display device 2000 when the display device 2000 performs metadata-based immersive audio rendering 356, the results of the user peripheral device analysis 352 may be used.
  • the display device 2000 includes specifications of one or more speakers connected to the display device 2000 (e.g., driver unit (e.g., 2way, 3way, etc.), frequency response, sound pressure level (SPL),
  • SPL sound pressure level
  • the second audio content 360 can be generated by changing the attribute values of the sound based on (amplifier output, impedance, sensitivity, vertical/horizontal coverage angle, etc.).
  • the display device 2000 when the display device 2000 performs metadata-based immersive audio rendering 356, the results of the user environment analysis 354 may be used.
  • the display device 2000 may generate the second audio content 360 by changing attribute values of the sound based on spatial information of the user space where the display device 2000 is installed, the user's location, etc.
  • the display device 2000 may perform metadata-based realistic audio rendering 356 by combining two or more of the above-described examples.
  • the display device 2000 may perform video analysis 332, video metadata analysis 334, audio analysis 342, audio metadata analysis 344, user peripheral device analysis 352, user environment analysis ( Based on a combination of at least two of 354), metadata-based realistic audio rendering 356 may be performed.
  • FIG. 4 is a diagram illustrating a user space where a display device is located according to an embodiment of the present disclosure.
  • user space 120 where display device 2000 is located may be an audio room.
  • the display device 2000 may obtain spatial information indicating audio-related characteristics of the user space 120.
  • the audio-related characteristics of user space 120 may refer to reflection 410, absorption 420, and diffusion 430.
  • reflection 410 is a feature of reflecting an input sound
  • absorption 420 is a feature of absorbing at least a portion of the input sound
  • diffusion 430 is a feature of diffusing the input sound.
  • sound absorbing material 440 may be present in user space 120.
  • the sound absorbing material 440 can absorb sound in a highly reflective mid-range frequency band.
  • the display device 2000 may obtain information related to the sound absorbing material 440.
  • the display device 2000 may obtain information related to the position, size, direction, and absorbing frequency band of the sound absorbing material 440.
  • the display device 2000 may use information related to the sound absorbing material 440.
  • the display device 2000 may strengthen or weaken a specific frequency band in the first audio content, but is not limited to this.
  • bass traps 450 and 460 may exist in user space 120.
  • the bass traps 450 and 460 can absorb low-range sound with a large wavelength and cancel out the energy of the low-range sound.
  • a first base trap 450 may exist at a vertex where walls and a ceiling meet
  • a second base trap 460 may exist at a corner where walls meet a wall.
  • the display device 2000 may obtain information related to the base traps 450 and 460.
  • the display device 2000 may obtain information related to the location, size, direction, and absorbing frequency band of the base traps 450 and 460.
  • the display device 2000 may use information related to the base traps 450 and 460.
  • sound dispersion material 470 may be present in user space 120.
  • the sound dispersing material 470 can disperse high-frequency sounds with relatively low energy.
  • a sound dispersion material 470 may exist on the ceiling.
  • the display device 2000 may obtain information related to the sound dispersion material 470 (e.g., information related to location, size, direction, dispersing frequency band, etc.). In the above description, when the display device 2000 converts the first audio content into the second audio content, the display device 2000 may use information related to the sound dispersion material 470.
  • audio-related features of user space 120 may include three-dimensional spatial layout and information related to objects within the space.
  • the 3D space layout information may include information such as the area of the space, floor height, location and size of walls, pillars, doors/windows, etc., but is not limited to this.
  • Object information in space may include information such as size, location, and shape of various objects existing in space, such as tables, chairs, speakers, and TV stands, but is not limited to this.
  • the display device 2000 when the display device 2000 converts the first audio content into the second audio content, the display device 2000 may use information related to the three-dimensional spatial layout and objects in the space.
  • FIG. 5 is a flowchart illustrating an operation of a display device generating audio metadata according to an embodiment of the present disclosure.
  • the steps of FIG. 5 may be performed at least before step S240 of FIG. 2 is performed.
  • the display device 2000 identifies whether metadata of the first audio content exists. For example, the display device 2000 may obtain first audio content corresponding to video content and identify whether metadata of the first audio content exists. The display device 2000 may determine whether to generate metadata of the first audio content when all or part of it does not exist.
  • step S520 if metadata of the first audio content exists, the display device 2000 may perform step S240 of FIG. 2 using the existing metadata of the first audio content. Alternatively, if metadata of the first audio content exists, the display device 2000 may update the metadata of the first audio content by performing step S530.
  • the display device 2000 may perform step S530.
  • step S530 the display device 2000 generates metadata of the first audio content based on at least one of video content, metadata of the video content, and first audio content.
  • the display device 2000 may analyze at least one of video content, metadata of the video content, and first audio content, and generate metadata of the first audio content based on the analysis result. For example, the display device 2000 analyzes video content and/or metadata of the video content to obtain the type of object present in the video content, the location of sound generation, object movement trajectory, location, time zone, etc., and audio By analyzing the content, the appearance and disappearance time of the sound, sound size, events corresponding to the sound, etc. can be obtained. The display device 2000 displays metadata of the first audio content (e.g., sound appearance/disappearance time, sound volume, object location in virtual space) based on the video content, metadata of the video content, and analysis results of the audio content. , object position movement trajectory, type of object, sound corresponding to the object, etc.) can be generated.
  • metadata of the first audio content e.g., sound appearance/disappearance time, sound volume, object location in virtual space
  • step S530 operations S240 to S270 of FIG. 2 may be performed. Since this was described above in the description of FIG. 2, repeated descriptions are omitted for brevity.
  • FIG. 6 is a diagram for explaining an operation of a display device generating second audio content according to an embodiment of the present disclosure.
  • steps S610 to S620 may correspond to step S240 of FIG. 2.
  • step S610 the display device 2000 maps the first audio content to the virtual space 100 based on the metadata of the video content and the metadata of the first audio content.
  • the display device 2000 may map a sound corresponding to an object based on at least one of the type, size, location, distance, and direction of the object existing in the virtual space 100 of the video content.
  • the display device 2000 may map a sound corresponding to the event based on a specific event that occurs within the virtual space 100 of the video content.
  • the mapped sound is mapped to a specific location and/or a specific object in the virtual space 100, so that the user's character 602 within the virtual space 100 is located at a specific location and/or a specific object within the virtual space 100.
  • the mapped sound can be output when a specific event occurs in the virtual space 100, providing realistic sound effects to the user.
  • step S620 the display device 2000 transmits the first audio content heard to the user's character 602 at the location of the user's character 602 in the virtual space 100 to the user in the user space 120, based on spatial information.
  • the position at 604 is changed to the second audio content heard by the user.
  • the display device 2000 can change audio characteristics.
  • the display device 2000 may change the frequency indicating the pitch of the sound, the amplitude indicating the intensity or size of the sound, the output speaker information indicating the location from which the sound is output, the equalizer settings, etc., but is not limited thereto. .
  • the display device 2000 displays the user's character 602 in the virtual space 100.
  • Characteristics of the first audio content may be changed as if 604 is listening to the first sound from a first direction and a first distance based on the actual location within the user space 120 .
  • the display device 2000 displays the user 604 in the user space 120.
  • FIG. 7 is a diagram illustrating an operation of a display device adjusting second audio content based on speaker specifications according to an embodiment of the present disclosure.
  • the display device 2000 generates the second audio content 710 and then generates the second audio content (710) based on the specifications of one or more speakers connected to the display device 2000. 710), signal level matching can be performed for each frequency band.
  • the display device 2000 may obtain identification information (eg, model name, identification number, etc.) of one or more speakers connected to the display device 2000.
  • identification information eg, model name, identification number, etc.
  • the database 700 of the display device 2000 may store specification information according to the types and model names of speakers.
  • the display device 2000 may search the database 700 of the display device 2000 for speaker specification information corresponding to the identification information.
  • the display device 2000 may adjust the signal level for each frequency band of the second audio content 710 based on the identified speaker specifications.
  • the display device 2000 may generate adjusted second audio content by strengthening and/or weakening the low/mid/high range frequencies of the second audio content 710 based on the specifications of one or more speakers. there is.
  • the output performance of the one or more speakers connected to the display device 2000 may be different.
  • a first speaker and a second speaker may be connected to the display device 2000, and the first speaker may produce higher output performance than the second speaker.
  • the display device 2000 may adjust the signal level of the second audio content 710 to provide balanced sound in the user space based on the different output performance of one or more speakers. Specifically, the display device 2000 may reduce the signal level of the second audio content 710 to be played from the first speaker with high output performance, so that balanced sound is output from the first and second speakers. .
  • FIG. 8 is a diagram illustrating an operation of a display device determining the positions of one or more speakers according to an embodiment.
  • the display device 2000 can calculate the positions of one or more speakers connected to the display device 2000.
  • the display device 2000 may include one or more microphones to calculate the positions of one or more speakers.
  • the display device 2000 may receive the test sound 812 from the first speaker 810.
  • the test sound 812 may be received from the first microphone 830 and the second microphone 840 included in the display device 2000.
  • the display device 2000 determines the distance and direction from the display device 2000 to the first speaker 810 based on the time difference in which the test sound 812 is received by the first microphone 830 and the second microphone 840. can be calculated.
  • the display device 2000 may receive a test sound from each of all speakers existing in the space and determine the location of each speaker.
  • the display device 2000 may further use other sensors included in the display device 2000 to determine the positions of one or more speakers.
  • the display device 2000 may determine the location of one or more speakers using a Time of Flight (ToF) sensor, an RGB camera, an RGB-D camera, etc.
  • ToF Time of Flight
  • the display device 2000 may receive a user input inputting the location of one or more speakers.
  • the display device 2000 may verify and update the positions of one or more speakers input by user input based on the test sound 812.
  • the display device 2000 may update the positions of one or more speakers determined based on the test sound 812 based on user input.
  • the display device 2000 may determine output settings of one or more speakers for the second audio content based on the positions of the one or more speakers, thereby providing realistic audio suited to the characteristics of the user space. For example, even if speakers with the same specifications are installed in the first user's first space and the second user's second space, spatial information indicating the spatial characteristics of each user and the locations of the speakers in each user's space are Since they are different, different output settings may be determined for the first user's first space and the second user's second space.
  • FIG. 9 is a diagram illustrating an operation of a display device acquiring a user's location according to an embodiment of the present disclosure.
  • the display device 2000 may include a camera 910. There may be more than one camera 910.
  • One or more cameras 910 may be, for example, an RGB camera, RGB-D, stereo camera, or multi-camera, but are not limited thereto.
  • the display device 2000 may use the camera 910 to identify the location of the user 920 using the display device 2000. For example, the display device 2000 may detect and recognize the user 920 in an image acquired through the camera 910 and calculate the distance and direction from the display device 2000 to the user 920. . In some embodiments, the display device 2000 may use vision recognition. The display device 2000 uses various known deep neural network architectures and algorithms to recognize the user 920 and determine the user's location through vision recognition, or uses artificial intelligence implemented through variations of various known deep neural network architectures and algorithms. Intelligence models can be used.
  • the display device 2000 may include one or more sensors to determine the location of the user 920.
  • the display device 2000 may include an infrared sensor, an ultrasonic sensor, etc., but is not limited thereto.
  • the display device 2000 may determine output settings of one or more speakers for the second audio content based on the location of the user 920, thereby providing realistic audio suited to the characteristics of the user space. For example, when the user 920 is located closer to the second speaker than the first speaker, the display device 2000 may set the output of the first speaker farther from the user 920 to be louder.
  • FIG. 10 is a diagram illustrating an operation of updating a user location by a display device according to an embodiment of the present disclosure.
  • the display device 2000 can identify the user's location.
  • the display device 2000 can identify and update the user's location in real time. For example, when the user moves from the first location 1010 to the second location 1020 in space, the display device 2000 may track the location of the moving user in real time.
  • the display device 2000 may update the output settings of one or more speakers in real time based on the user's real-time location change.
  • the display device 2000 may use one or more speakers corresponding to the first location 1010 to provide optimal sound to the first location 1010. You can decide their output settings.
  • the display device 2000 changes the output settings of one or more speakers to the second location 1020 to provide optimal sound to the second location 1020. You can change to the corresponding output setting.
  • the display device 2000 can provide optimal output of realistic audio to the user by changing the output settings of the one or more speakers as the user's location changes in real time.
  • Figure 11 is a block diagram showing the configuration of a display device according to an embodiment of the present disclosure.
  • the display device 2000 may include a communication interface 2100, a display 2200, a camera 2300, a memory 2400, and a processor 2500.
  • the communication interface 2100 may include a communication circuit.
  • the communication interface 2100 may include, for example, wired LAN, wireless LAN, Wi-Fi, Bluetooth, ZigBee, Wi-Fi Direct (WFD), and infrared communication (IrDA). infrared Data Association), BLE (Bluetooth Low Energy), NFC (Near Field Communication), Wibro (Wireless Broadband Internet, Wibro), WiMAX (World Interoperability for Microwave Access, WiMAX), SWAP (Shared Wireless Access Protocol), WiGig It may include a communication circuit capable of performing data communication between the server 2000 and other devices using at least one of data communication methods including (Wireless Gigabit Alliances, WiGig) and RF communication.
  • the communication interface 2100 can transmit and receive data for performing the operation of the server 2000 with an external electronic device.
  • the display device 2000 transmits various data used by the display device 2000 to generate and provide realistic audio content to an external electronic device (e.g., the user's smart phone) through the communication interface 2100.
  • You can send and receive data to and from a phone, server, etc.).
  • the display 2200 may output an image signal on the screen of the display device 2000 under the control of the processor 2500.
  • the display device 2000 may output video content representing a virtual space through the display 2200.
  • the camera 2300 may acquire video and/or images by photographing a space and/or an object. There may be more than one camera 2300.
  • the camera 2300 may include, for example, an RGB camera, a depth camera, an infrared camera, etc., but is not limited thereto.
  • the display device 2000 can use the camera 2300 to identify a user using the display device 2000 and determine the user's location.
  • the display device 2000 can use the camera 2300 to identify one or more objects (eg, speakers, etc.) existing in a space and determine their location. Since the specific type and detailed functions of the camera 2300 can be clearly deduced by a person skilled in the art, descriptions are omitted.
  • the memory 2400 may store instructions, data structures, and program code that the processor 2500 can read. There may be more than one memory 2400. In the disclosed embodiments, operations performed by the processor 2500 may be implemented by executing instructions or codes of a program stored in the memory 2400.
  • the memory 2400 includes read-only memory (ROM) (e.g., programmable read-only memory (PROM), erasable programmable read-only memory (EPROM), electrically erasable programmable read-only memory (EEPROM)), and flash memory.
  • ROM read-only memory
  • PROM programmable read-only memory
  • EPROM erasable programmable read-only memory
  • EEPROM electrically erasable programmable read-only memory
  • flash memory e.g., memory card, solid-state drive (SSD)
  • analog recording types e.g., hard disk drive (HDD), magnetic tape, optical disk
  • RAM random-access memory
  • DRAM dynamic random-access memory
  • SRAM static random-access memory
  • the processor 2500 may control overall operations of the display device 2000.
  • the processor 2500 may control overall operations for the display device 2000 to render immersive audio content by executing one or more instructions of a program stored in the memory 2400.
  • One or more processors 2500 may include a Central Processing Unit (CPU), a Graphics Processing Unit (GPU), an Accelerated Processing Unit (APU), a Many Integrated Core (MIC), a Digital Signal Processor (DSP), and a Neural Processing Unit (NPU). It can contain at least one.
  • One or more processors 2500 may be implemented in the form of an integrated system-on-chip (SoC) including one or more electronic components. Each of the one or more processors 2500 may be implemented as separate hardware (H/W).
  • SoC system-on-chip
  • the plurality of operations may be performed by one processor 2500 or may be performed by a plurality of processors 2500.
  • the first operation, the second operation, and the third operation may all be performed by the first processor.
  • the first operation and the second operation may be performed by a first processor (eg, a general-purpose processor) and the third operation may be performed by a second processor (eg, an artificial intelligence-specific processor).
  • a first processor eg, a general-purpose processor
  • the third operation may be performed by a second processor (eg, an artificial intelligence-specific processor).
  • an example of the second processor may be an artificial intelligence-specific processor, and the artificial intelligence-specific processor may perform operations for training/inference of an artificial intelligence model.
  • embodiments of the present disclosure are not limited thereto.
  • One or more processors 2500 according to the present disclosure may be implemented as a single-core processor or as a multi-core processor.
  • the plurality of operations may be performed by one core or by a plurality of cores included in one or more processors 2500. .
  • Figure 12 is a block diagram showing the configuration of a display device according to an embodiment of the present disclosure.
  • the display device 2000 includes a communication interface 2100, a display 2200, a camera 2300, a memory 2400, a processor 2500, a video processing module 2600, and an audio processing module 2700. , may include a power module 2800 and an input/output interface 2900.
  • the communication interface 2100, display 2200, camera 2300, memory 2400, and processor 2500 of FIG. 12 are the communication interface 2100, display 2200, camera 2300, and memory of FIG. 11. Since they correspond to the processor 2400 and the processor 2500, repeated descriptions will be omitted.
  • the video processing module 2600 processes video data played by the display device 2000.
  • the video processing module 2600 can perform various image processing such as decoding, scaling, noise filtering, frame rate conversion, and resolution conversion on video data.
  • the display 2200 may generate a driving signal by converting the image signal, data signal, OSD signal, and control signal processed by the processor 2500, and display the image according to the driving signal.
  • the audio processing module 2700 performs processing on audio data.
  • various processes such as decoding, amplification, noise filtering, etc. may be performed on audio data.
  • the audio processing module 2700 may include a plurality of audio processing units to process audio corresponding to a plurality of contents.
  • the power module 2800 supplies power input from an external power source to components within the display device 2000 under the control of the processor 2500. Additionally, the power module 2800 may supply power output from one or more batteries (not shown) located inside the display device 2000 to internal components under the control of the processor 2500.
  • the input/output interface 2900 receives video (e.g., video, etc.), audio (e.g., voice, music, etc.), and additional information (e.g., EPG, etc.) from the outside of the display device 1200. Receive.
  • the input/output interface 2900 includes HDMI (High-Definition Multimedia Interface), MHL (Mobile High-Definition Link), USB (Universal Serial Bus), DP (Display Port), Thunderbolt, and VGA (Video Graphics Array). ) port, RGB port, D-SUB (D-subminiature), DVI (Digital Visual Interface), component jack, or PC port.
  • the display device 2900 may be connected to one or more speakers through the input/output interface 2900.
  • FIG. 13 is a block diagram showing modules used by a display device according to an embodiment of the present disclosure.
  • the memory 2400 of FIG. 13 may correspond to the memory of FIGS. 11 and 12 .
  • the memory 2400 may store one or more instructions and programs that allow the display device 2000 to operate to generate realistic audio content.
  • the memory 2400 may store a video analysis module 2410, an audio analysis module 2420, and a realistic audio generation module 2430.
  • the display device 2000 may perform video analysis on video content using the video analysis module 2410.
  • the display device 2000 may use various known video analysis algorithms to obtain various data for changing the first audio content into the second audio content.
  • the display device 2000 may use various known deep neural network architectures and algorithms, or may use artificial intelligence models implemented through variations of various known deep neural network architectures and algorithms, to perform video analysis.
  • the display device 2000 may detect and recognize one or more objects in scenes included in video content. Additionally or alternatively, the display device 2000 may classify scenes of video content into categories. Additionally or alternatively, the display device 2000 may detect a human skeleton in a video and classify the human action based on the detected skeleton. Additionally or alternatively, display device 2000 may detect and recognize human faces within a video. Additionally or alternatively, the display device 2000 may extract 2D/3D distance information (eg, depth information) within the video.
  • 2D/3D distance information eg, depth information
  • Video metadata may be composed of a data format including predefined data elements, but is not limited to this.
  • Video metadata may include, but is not limited to, at least one of, for example, the type of object present in the video content, a sound generation location, an object movement trajectory, a location, and a time zone.
  • video metadata corresponding to the video content may also be acquired.
  • video metadata may be generated by the display device 2000.
  • the display device 2000 may generate and update video metadata based on the above-described video analysis results.
  • the display device 2000 may perform audio analysis on the first audio content using the audio analysis module 2420.
  • the display device 2000 may use various known audio analysis algorithms to obtain various data for changing the first audio content into the second audio content.
  • the display device 2000 may utilize various known deep neural network architectures and algorithms, or may utilize artificial intelligence models implemented through variations of various known deep neural network architectures and algorithms, to perform audio analysis.
  • the display device 2000 may identify sound events included in the first audio content.
  • the display device 2000 can identify the appearance and disappearance time of the sound and the sound size within the first audio content. Additionally or alternatively, the display device 2000 may classify events corresponding to sounds.
  • the display device 2000 may perform audio metadata analysis on the first audio content using an audio analysis module.
  • Audio metadata of audio content may be configured in a data format including predefined data elements, but is not limited thereto.
  • Audio metadata may include, but is not limited to, at least one of, for example, sound appearance/disappearance time, sound size, object location in virtual space, object location movement trajectory, type of object, and sound corresponding to the object. no.
  • audio metadata corresponding to the first audio content may also be acquired.
  • the display device 2000 may supplement and update audio metadata based on audio analysis results.
  • the data processing results of the video analysis module 2410 and the audio analysis module 2420 may be transmitted to the realistic audio generation module 2430 for processing.
  • the display device 2000 uses the immersive audio generation module 2430 to generate the first audio content based on at least one of metadata of the video content, metadata of the first audio content, and spatial information. By converting , second audio content that is realistic audio can be created.
  • the display device 2000 may render second audio content that is realistic audio based on metadata of the video content and metadata of the first audio content.
  • the display device 2000 includes metadata of the video content (e.g., type of object existing in the video content, sound generation location, object movement trajectory, location, time zone, etc.) and metadata of the first audio content.
  • metadata of the video content e.g., type of object existing in the video content, sound generation location, object movement trajectory, location, time zone, etc.
  • metadata of the first audio content e.g., type of object existing in the video content, sound generation location, object movement trajectory, location, time zone, etc.
  • data e.g., sound appearance/disappearance time, sound size, object position in virtual space, object position movement trajectory, object type, etc.
  • first audio content is sent to objects existing in the virtual space of the video content. can be mapped.
  • the display device 2000 may render the output size, output direction, output location, etc. of sound occurring in the virtual space based on the arrangement, distance, and direction
  • modules stored and executed in the above-described memory 2400 are for convenience of explanation and are not necessarily limited thereto.
  • Other modules may be added to implement the above-described embodiments, and one module may be divided into a plurality of modules distinguished according to detailed functions, and some of the modules among the above-described modules may be combined to form one module. It can also be implemented as a module.
  • This disclosure presents a method of generating realistic audio customized to the user's space in order to provide the user with content that allows the user to experience a virtual environment.
  • the technical problems to be achieved in the present disclosure are not limited to those mentioned above, and other technical problems not mentioned can be clearly understood by those skilled in the art from the description of this specification. There will be.
  • a method for a display device to provide content may be provided.
  • the method may include obtaining video content representing a virtual space.
  • the method may include obtaining first audio content corresponding to the video content.
  • the method may include obtaining spatial information representing features related to audio in user space.
  • the method may include generating second audio content by converting the first audio content based on metadata of the video content, metadata of the first audio content, and the spatial information.
  • the second audio content may be space-customized audio content.
  • the method may include obtaining at least one of the location or specifications of one or more speakers connected to the display device.
  • the method may include determining output settings of the one or more speakers for the second audio content based on the spatial information and at least one of a location of the one or more speakers or specifications of the one or more speakers. there is.
  • the method may include outputting the second audio content based on the output settings while the video content is displayed on the screen of the display device.
  • the metadata of the first audio content may include at least one of sound appearance/disappearance time, sound size, object location in virtual space, object location movement trajectory, type of object, and sound corresponding to the object.
  • the metadata of the video content may include at least one of the type of object existing in the video content, a sound generation location, an object movement trajectory, a location, and a time zone.
  • the spatial information may include at least one of information related to a three-dimensional spatial layout of the space, objects in the space, and a bass trap, sound absorber, and sound diffuser in the space. .
  • the method may include identifying whether metadata of the first audio content exists.
  • the method may include generating metadata of the first audio content based on the metadata of the first audio content not existing.
  • the step of generating metadata of the first audio content may include generating metadata of the first audio content based on at least one of the video content, metadata of the video content, and the first audio content. .
  • Generating the second audio content may include mapping the first audio content to a virtual space based on metadata of the video content and metadata of the first audio content.
  • the step of generating the second audio content includes, based on the spatial information, transmitting the first audio content that is heard to the user's character at the user's character location in the virtual space to the user at the user's location in the user space. It may include changing the second audio content to be heard.
  • Obtaining at least one of the location or specifications of the one or more speakers may include receiving a test sound from the one or more speakers using one or more microphones.
  • Obtaining at least one of the location or specifications of the one or more speakers may include determining the location of the one or more speakers based on the test sound.
  • the method may include identifying the location of a user of the display device using one or more sensors.
  • Determining the output settings of the one or more speakers may include determining the output settings of the one or more speakers based further on the user's location.
  • the step of identifying the user's location may be identifying the user's location in real time.
  • the step of determining the output settings of the one or more speakers may involve changing the output settings of the one or more speakers as the user's location changes in real time.
  • a display device may be provided.
  • the display device includes a communication interface; display; a memory storing one or more instructions; and at least one processor executing the one or more instructions stored in the memory.
  • the at least one processor may obtain video content representing a virtual space by executing the one or more instructions.
  • the at least one processor may acquire first audio content corresponding to the video content by executing the one or more instructions.
  • the at least one processor may obtain spatial information indicating audio-related features of the user space by executing the one or more instructions.
  • the at least one processor executes the one or more instructions, thereby converting the first audio content based on the metadata of the video content, the metadata of the first audio content, and the spatial information, thereby converting the first audio content according to the spatial information.
  • Second audio content which is space-customized audio content converted into sound optimized for the user space, can be created.
  • the at least one processor may obtain at least one of the location or specifications of one or more speakers connected to the display device by executing the one or more instructions.
  • the at least one processor configures the one or more speakers for the second audio content based on at least one of the location of the one or more speakers or the specifications of the one or more speakers and the spatial information. You can decide the output settings.
  • the at least one processor may execute the one or more instructions to output the second audio content based on the output settings while the video content is displayed on the display of the display device.
  • the metadata of the first audio content may include at least one of sound appearance/disappearance time, sound size, object location in virtual space, object location movement trajectory, type of object, and sound corresponding to the object.
  • the metadata of the video content may include at least one of the type of object existing in the video content, a sound generation location, an object movement trajectory, a location, and a time zone.
  • the spatial information may include at least one of information related to a three-dimensional spatial layout of the space, objects in the space, and a bass trap, sound absorber, and sound diffuser in the space. there is.
  • the at least one processor may identify whether metadata of the first audio content exists by executing the one or more instructions.
  • the at least one processor may generate metadata of the first audio content by executing the one or more instructions, based on the fact that metadata of the first audio content does not exist.
  • the at least one processor may execute the one or more instructions to map the first audio content to a virtual space based on metadata of the video content and metadata of the first audio content.
  • the at least one processor By executing the one or more instructions, the at least one processor outputs the first audio content heard to the user's character at the user's character location within the virtual space based on the spatial information. can be changed to the second audio content heard by the user.
  • the display device may include one or more microphones.
  • the at least one processor may receive test sound from the one or more speakers using the one or more microphones by executing the one or more instructions.
  • the at least one processor may determine the positions of the one or more speakers based on the test sound by executing the one or more instructions.
  • the display device may include one or more cameras.
  • the at least one processor may identify the location of the user of the display device using one or more sensors.
  • the at least one processor may determine output settings of the one or more speakers based on the user's location by executing the one or more instructions.
  • the at least one processor may identify the user's location in real time by executing the one or more instructions.
  • the at least one processor may change the output settings of the one or more speakers as the user's location changes in real time by executing the one or more instructions.
  • Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and non-volatile media, removable and non-removable media. Additionally, computer-readable media may include computer storage media and communication media. Computer storage media includes both volatile and non-volatile, removable and non-removable media implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules, or other data. Communication media typically may include computer-readable instructions, data structures, or other data, such as modulated data signals, or program modules.
  • computer-readable storage media may be provided in the form of non-transitory storage media.
  • 'non-transitory storage medium' only means that it is a tangible device and does not contain signals (e.g. electromagnetic waves). This term refers to cases where data is semi-permanently stored in a storage medium and temporary storage media. It does not distinguish between cases where it is stored as .
  • a 'non-transitory storage medium' may include a buffer where data is temporarily stored.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • a computer program product may be distributed in the form of a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or through an application store or between two user devices (e.g. smartphones). It may be distributed in person or online (e.g., downloaded or uploaded). In the case of online distribution, at least a portion of the computer program product (e.g., a downloadable app) is stored on a machine-readable storage medium, such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be temporarily stored or created temporarily.
  • a machine-readable storage medium such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be temporarily stored or created temporarily.

Landscapes

  • Stereophonic System (AREA)

Abstract

디스플레이 장치가 콘텐트를 제공하는 방법이 제공된다. 상기 방법은, 가상 공간을 나타내는 비디오 콘텐트를 획득하는 단계; 상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득하는 단계; 사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득하는 단계; 상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써, 상기 공간 정보에 따라 상기 사용자 공간에 최적화된 사운드로 변환된 공간 맞춤형 오디오 콘텐트인 제2 오디오 콘텐트를 생성하는 단계; 상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계; 상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계; 및 상기 비디오 콘텐트가 상기 디스플레이 장치의 화면에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력하는 단계를 포함할 수 있다.

Description

콘텐트를 제공하는 방법 및 디스플레이 장치
사용자에게 최적화된 공간 맞춤형 오디오를 포함하는 콘텐트를 제공하는, 디스플레이 장치 및 그 동작 방법이 제공된다.
가상 현실, 증강 현실 등 컴퓨터 그래픽 등을 이용하여 가상 공간을 보여주는 다양한 기술/기법들이 개발되고 있다. 사용자는 시각적으로 몰입감 있게 구현된 가상 공간을 디스플레이 장치를 통해 제공받을 수 있으나, 가상 공간에 대응하는 오디오 콘텐트는 사용자의 현실 공간 내 여러 환경적인 요소들을 반영하지 못한다.
이러한 문제 해결을 위해, 사용자 공간의 공간 정보에 맞게 최적화된 실감형 오디오를 제공하여 개선된 가상 공간 경험을 제공하기 위한, 다양한 알고리즘들이 최근 사용되고 있다.
본 개시의 일 측면에 따르면, 디스플레이 장치가 콘텐트를 제공하는 방법이 제공될 수 있다. 상기 방법은, 가상 공간을 나타내는 비디오 콘텐트를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득하는 단계를 포함할 수 있다. 상기 방법은, 사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써 제2 오디오 콘텐트를 생성하는 단계를 포함할 수 있다. 상기 제2 오디오 콘텐트는 공간 맞춤형 오디오 콘텐트일 수 있다. 상기 방법은, 상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계를 포함할 수 있다. 상기 방법은, 상기 공간 정보, 상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계를 포함할 수 있다. 상기 방법은, 상기 비디오 콘텐트가 상기 디스플레이 장치의 화면에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력하는 단계를 포함할 수 있다.
본 개시의 일 측면에 따르면, 디스플레이 장치가 제공될 수 있다. 상기 디스플레이 장치는, 통신 인터페이스; 디스플레이; 하나 이상의 인스트럭션들을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 가상 공간을 나타내는 비디오 콘텐트를 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써, 상기 공간 정보에 따라 상기 사용자 공간에 최적화된 사운드로 변환된 공간 맞춤형 오디오 콘텐트인 제2 오디오 콘텐트를 생성할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정할 수 있다. 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트가 상기 디스플레이 장치의 상기 디스플레이에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력할 수 있다.
본 개시의 일 측면에 따르면, 디스플레이 장치가 콘텐트를 제공하는, 전술 및 후술하는 방법들 중 어느 하나를 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능 기록매체를 제공할 수 있다.
도 1은 본 개시의 일 실시예에 따른 디스플레이 장치가 콘텐트를 제공하는 것을 개략적으로 도시한 도면이다.
도 2는 본 개시의 일 실시예에 따른 디스플레이 장치가 콘텐트를 제공하는 방법을 설명하기 위한 흐름도이다.
도 3은 본 개시의 일 실시예에 따른 디스플레이 장치가 공간 맞춤형 오디오 콘텐트인 제2 오디오 콘텐트를 생성하는 동작들을 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시예에 따른 디스플레이 장치가 위치하는 사용자 공간을 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시예에 따른 디스플레이 장치가 오디오 메타데이터를 생성하는 동작을 설명하기 위한 흐름도이다.
도 6은 본 개시의 일 실시예에 따른 디스플레이 장치가 제2 오디오 콘텐트를 생성하는 동작을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시예에 따른 디스플레이 장치가 스피커 사양에 기초하여 제2 오디오 콘텐트를 조정하는 동작을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 디스플레이 장치가 하나 이상의 스피커들의 위치를 결정하는 동작을 설명하기 위한 도면이다.
도 9는 본 개시의 일 실시예에 따른 디스플레이 장치가 사용자의 위치를 획득하는 동작을 설명하기 위한 도면이다.
도 10은 본 개시의 일 실시예에 따른 디스플레이 장치가 사용자 위치를 갱신하는 동작을 설명하기 위한 도면이다.
도 11은 본 개시의 일 실시예에 따른 디스플레이 장치의 구성을 도시한 블록도이다.
도 12는 본 개시의 일 실시예에 따른 디스플레이 장치의 구성을 도시한 블록도이다.
도 13은 본 개시의 일 실시예에 따른 디스플레이 장치가 이용하는 모듈들을 도시한 블록도이다.
본 개시에서, "a, b 또는 c 중 적어도 하나" 표현은 " a", " b", " c", "a 및 b", "a 및 c", "b 및 c", "a, b 및 c 모두", 혹은 그 변형들을 지칭할 수 있다.
본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 또한, 본 명세서에서 사용되는 '제1' 또는 '제2' 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용할 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. 또한, 각각의 도면에서 사용된 도면 부호는 각각의 도면을 설명하기 위한 것일 뿐, 상이한 도면들 각각에서 사용된 상이한 도면 부호가 상이한 요소를 나타내기 위한 것은 아니다. 이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 본 개시의 일 실시예에 따른 디스플레이 장치가 콘텐트를 제공하는 것을 개략적으로 도시한 도면이다.
도 1을 참조하면, 일 실시예에 따른 디스플레이 장치(2000)는 사용자 공간(120)에 위치할 수 있다. 또한, 사용자 공간(120)에는 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들이 위치할 수 있다. 디스플레이 장치(2000)는 화면을 통해 가상 공간(100)을 나타내는 비디오 콘텐트를 표시할 수 있다. 또한, 하나 이상의 스피커들은 가상 공간(100)을 나타내는 비디오 콘텐트에 대응하는 오디오 콘텐트를 재생할 수 있다.
일 실시예에서, 디스플레이 장치(2000)는 사용자에게 몰입감 있는 가상 공간(100) 경험을 제공하기 위해, 가상 공간(100)에 대응하는 오디오 콘텐트를 처리할 수 있다. 구체적으로, 디스플레이 장치(2000)는 가상 공간에 대응하는 오디오 콘텐트를 사용자 공간(120)에 대한 공간 맞춤형 오디오 콘텐트(본 개시에서, 실감형 오디오 콘텐트라고도 지칭됨)로 변경할 수 있다. 예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트 및 비디오 콘텐트의 메타데이터를 분석하고, 분석 결과에 이용하여 실감형 오디오 콘텐트를 생성할 수 있다. 예를 들어, 디스플레이 장치(2000)는 오디오 및 오디오 콘텐트의 메타데이터를 분석하고, 분석 결과를 이용하여 실감형 오디오 콘텐트를 생성할 수 있다. 예를 들어, 디스플레이 장치(2000)는 사용자 공간(120)의 오디오와 관련된 특징을 나타내는, 공간 정보를 획득하고, 공간 정보를 이용하여 실감형 오디오 콘텐트를 생성할 수 있다. 예를 들어, 디스플레이 장치(2000)는 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 사양 및 위치를 획득하고, 하나 이상의 스피커들의 사양 및 위치에 기초하여 실감형 오디오 콘텐트를 생성할 수 있다. 한편, 디스플레이 장치(2000)가 실감형 오디오 콘텐트를 생성하기 위해 이용하는 데이터/정보의 전술한 예시들은, 각각 독립적으로 적용되어야 하는 것은 아니다. 전술한 예시들 중 둘 이상이 조합될 수도 있다.
이하에서, 디스플레이 장치(2000)가 다양한 정보/데이터를 이용하여 실감형 오디오를 생성 및 제공하는 구체적인 동작들에 대하여, 후술하는 도면들과 그에 대한 설명을 통해 더 상세하게 기술하기로 한다. 또한, 이하에서, 디스플레이 장치(2000)에 의해 처리되기 이전의 오디오 콘텐트를 제1 오디오 콘텐트라고 지칭하고, 실감형 오디오 콘텐트를 제2 오디오 콘텐트라고 지칭할 것이다.
도 2는 본 개시의 일 실시예에 따른 디스플레이 장치가 콘텐트를 제공하는 방법을 설명하기 위한 흐름도이다.
단계 S210에서, 일 실시예에 따른 디스플레이 장치(2000)는 가상 공간을 나타내는 비디오 콘텐트를 획득한다.
일 실시예에서, 비디오 콘텐트는 가상 공간을 나타내는 콘텐트일 수 있다. 비디오 콘텐트는 예를 들어, 비디오 게임, 메타버스 그래픽 등일 수 있으나, 이에 한정되는 것은 아니다. 디스플레이 장치(2000)는 디스플레이 장치(2000)의 내 메모리에 저장된 비디오 콘텐트를 로드하거나, 외부 장치(예를 들어, 서버 등)로부터 비디오 콘텐트를 수신할 수 있다.
일 실시예에서, 비디오 콘텐트는 비디오 콘텐트의 메타데이터를 포함할 수 있다. 비디오 콘텐트의 메타데이터는 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
단계 S220에서, 일 실시예에 따른 디스플레이 장치(2000)는 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득한다. 비디오 콘텐트에 대응하는 제1 오디오 콘텐트는 비디오 콘텐트가 제공될 때 함께 제공되는 오디오 콘텐트일 수 있다. 제1 오디오 콘텐트는 예를 들어, 배경음, 가상 공간 내 객체의 사운드, 사용자의 입력 사운드, 가상 공간 내 사용자 외 다른 사용자의 입력 사운드 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 제1 오디오 콘텐트는 제1 오디오 콘텐트의 메타데이터를 포함할 수 있다. 제1 오디오 콘텐트의 메타데이터는 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 디스플레이 장치(2000)는 제1 오디오 콘텐트의 메타데이터의 존재 여부를 식별할 수 있다. 디스플레이 장치(2000)는 제1 오디오 콘텐트의 메타데이터가 존재하지 않는 것에 기초하여, 제1 오디오 콘텐트의 메타데이터를 생성할 수 있다. 예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트 및/또는 제1 오디오 콘텐트를 분석하여 제1 오디오 콘텐트의 메타데이터를 생성할 수 있다.
한편, 비디오 콘텐트 및 제1 오디오 콘텐트는 통합된 하나의 콘텐트일 수 있다. 즉, 통합된 콘텐트에 비디오 콘텐트 및 제1 오디오 콘텐트가 포함될 수 있다. 이 경우, 통합된 콘텐트의 메타데이터에는 비디오 콘텐트의 메타데이터 및 제1 오디오 콘텐트의 메타데이터가 통합 또는 분리된 형태로 포함될 수 있다. 이하에서, 디스플레이 장치(2000)가 비디오 콘텐트, 비디오 콘텐트의 메타데이터, 제1 오디오 콘텐트 및 제1 오디오 콘텐트의 메타데이터를 이용하는 동작들은, 통합된 콘텐트에 대해서도 동일하게 적용될 수 있다.
단계 S230에서, 일 실시예에 따른 디스플레이 장치(2000)는 사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득한다.
사용자 공간은 디스플레이 장치(2000)를 이용하는 사용자의 현실 공간을 말한다. 사용자 공간은 예를 들어, 디스플레이 장치(2000)가 위치한 오디오 룸 등일 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 공간 정보는 사용자 공간의 오디오와 관련된 특징을 나타내는 정보들을 포함할 수 있다. 공간 정보는 예를 들어, 3차원 공간 레이아웃, 공간 내 객체 및 공간 내 베이스트랩(bass trap), 사운드 흡수재(sound absorber), 사운드 분산재(sound diffuser)와 관련된 정보 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 3차원 공간 레이아웃 정보는 공간의 면적, 층고, 벽, 기둥, 문/창문 등의 위치, 크기 등의 정보를 포함할 수 있으나, 이에 한정되는 것은 아니다. 공간 내 객체 정보는 공간 내 존재하는 다양한 객체들 예를 들어, 테이블, 의자, 스피커, TV 장(TV stand) 등의 크기, 위치, 모양 등의 정보를 포함할 수 있으나, 이에 한정되는 것은 아니다. 공간 내 베이스트랩, 사운드 흡수재 및 사운드 분산재 정보는 사용자 공간에 설치된 사운드 흡수재 및/또는 사운드 분산재의 크기, 위치, 방향 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
단계 S240에서, 일 실시예에 따른 디스플레이 장치(2000)는 비디오 콘텐트의 메타데이터, 제1 오디오 콘텐트의 메타데이터 및 공간 정보에 기초하여 제1 오디오 콘텐트를 변환함으로써 제2 오디오 콘텐트를 생성한다.
일 실시예에서, 제2 오디오 콘텐트는 공간 맞춤형 콘텐트일 수 있다. 공간 맞춤형 오디오 콘텐트란, 사용자 공간의 공간 정보를 반영하여 사용자 공간에 최적화된 사운드로 변환된 오디오 콘텐트일 수 있다. 예를 들어, 사용자는 사용자 공간에서 디스플레이 장치(2000) 및 하나 이상의 스피커들을 이용하여 가상 공간을 체험할 수 있다. 이 경우, 제2 오디오 콘텐트란, 가상 공간에서 재생되는 사운드를 사용자 공간의 사용자에게 현실감 있게 전달할 수 있도록 변환된 실감형 오디오 콘텐트를 말한다.
디스플레이 장치(2000)는 비디오 콘텐트의 메타데이터 및 제1 오디오 콘텐트의 메타데이터에 기초하여, 가상 공간 내에서 발생하는 사운드(예를 들어, 가상 공간 내 객체로부터 출력되는 사운드)의 출력 크기, 출력 방향, 출력 위치 등을 변경할 수 있다. 디스플레이 장치(2000)가 제2 오디오 콘텐트를 생성하는 구체적인 동작들은 이후의 도면들에서 후술한다.
단계 S250에서, 일 실시예에 따른 디스플레이 장치(2000)는 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득한다. 하나 이상의 스피커들은, 멀티 채널 스피커일 수 있다. 예를 들어, 하나 이상의 스피커들은, 서라운드 사운드 제공이 가능한, 5.1 채널 구성의 스피커들일 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 디스플레이 장치(2000)는 하나 이상의 마이크를 포함할 수 있다. 디스플레이 장치(2000)는 하나 이상의 마이크를 이용하여, 하나 이상의 스피커들로부터 테스트 사운드를 수신할 수 있다. 디스플레이 장치(2000)는 수신된 테스트 사운드에 기초하여, 하나 이상의 스피커들의 위치 및 방향을 결정할 수 있다. 일 실시예에서, 디스플레이 장치(2000)는 하나 이상의 스피커들의 위치를 입력하는 사용자 입력을 수신할 수 있다.
일 실시예에서, 디스플레이 장치(2000)는 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 식별 정보(예를 들어, 모델 명, 식별 번호 등)를 획득할 수 있다. 디스플레이 장치(2000)는 하나 이상의 스피커들의 식별 정보에 기초하여, 데이터베이스에서 식별 정보에 대응하는 스피커의 사양 정보를 검색할 수 있다. 일 실시예에서, 디스플레이 장치(2000)는 하나 이상의 스피커들의 사양을 입력하는 사용자 입력을 수신할 수 있다.
단계 S260에서, 일 실시예에 따른 디스플레이 장치(2000)는 하나 이상의 스피커들의 위치 또는 하나 이상의 스피커들의 사양 및 공간 정보에 기초하여, 제2 오디오 콘텐트에 대한 하나 이상의 스피커들의 출력 설정을 결정한다.
디스플레이 장치(2000)는 공간 정보 및 하나 이상의 스피커들의 위치, 하나 이상의 스피커들의 사양에 기초하여 제2 오디오 콘텐트에 대한 하나 이상의 스피커들의 출력 설정을 결정하므로, 사용자 공간의 특성에 맞게 실감형 오디오를 제공할 수 있다. 예를 들어, 제1 사용자의 제1 공간과 제2 사용자의 제2 공간에 동일한 사양의 스피커들이 설치되어 있더라도, 각각의 사용자의 공간 특징을 나타내는 공간 정보 및 각각의 사용자의 공간 내 스피커들의 위치가 상이하므로, 제1 사용자의 제1 공간과 제2 사용자의 제2 공간에 서로 다른 출력 설정이 결정될 수 있다.
단계 S270에서, 일 실시예에 따른 디스플레이 장치(2000)는 비디오 콘텐트가 상기 디스플레이 장치의 화면에 표시되는 동안, 출력 설정에 기초하여 제2 오디오 콘텐트를 출력한다. 디스플레이 장치(2000)의 사용자는 비디오 콘텐트 및 제2 오디오 콘텐트를 통해 가상 공간 경험을 할 수 있다.
도 3은 본 개시의 일 실시예에 따른 디스플레이 장치가 공간 맞춤형 오디오 콘텐트인 제2 오디오 콘텐트를 생성하는 동작들을 설명하기 위한 도면이다.
일 실시예에서, 디스플레이 장치(2000)는 비디오 콘텐트(310) 및 제1 오디오 콘텐트(320)를 획득할 수 있다. 비디오 콘텐트(310)는 가상 공간(100)의 그래픽에 대응되며, 제1 오디오 콘텐트(320)는 가상 공간(100)의 사운드에 대응될 수 있다.
일 실시예에 따른 디스플레이 장치(2000)는 비디오 분석 모듈(330)을 이용하여, 비디오 콘텐트(310)에 대한 비디오 분석(332)을 수행할 수 있다. 디스플레이 장치(2000)는 알려진 다양한 비디오 분석 알고리즘을 이용하여, 제1 오디오 콘텐트(320)를 제2 오디오 콘텐트(360)로 변경하기 위한 다양한 데이터들을 획득할 수 있다. 디스플레이 장치(2000)는 비디오 분석(332)을 수행하기 위해, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘을 이용하거나, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘의 변형을 통해 구현된 인공지능 모델을 이용할 수 있다.
예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트(310)에 포함되는 장면들에 대해서, 하나 이상의 객체들을 검출 및 인식할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 콘텐트(310)의 장면의 카테고리를 분류할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 내 사람의 스켈레톤을 검출하고, 검출된 스켈레톤에 기초하여 사람의 액션을 분류할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 내 사람의 얼굴을 검출 및 인식할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 내 2차원/3차원 거리 정보(예를 들어, 깊이 정보)를 추출할 수 있다.
일 실시예에 따른 디스플레이 장치(2000)는 비디오 분석 모듈(330)을 이용하여, 비디오 콘텐트(310)에 대한 비디오 메타데이터 분석(334)을 수행할 수 있다. 비디오 메타데이터는 미리 정의된 데이터 요소들을 포함하는 데이터 포맷으로 구성될 수 있으나, 이에 한정되는 것은 아니다. 비디오 메타데이터는 예를 들어, 비디오 콘텐트(310) 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 추가적으로 또는 대안적으로, 비디오 메타데이터의 사운드와 관련된 정보는 비디오 메타데이터가 아닌, 오디오 메타데이터로 제공될 수도 있다.
일 실시예에서, 디스플레이 장치(2000)가 비디오 콘텐트(310)를 획득할 때 비디오 콘텐트(310)에 대응되는 비디오 메타데이터가 함께 획득될 수 있다. 일 실시예에서, 비디오 메타데이터는 디스플레이 장치(2000)에 의해 생성될 수 있다. 디스플레이 장치(2000)는 전술한 비디오 분석(332) 결과에 기초하여 비디오 메타데이터를 생성 및 업데이트할 수 있다.
디스플레이 장치(2000)는 오디오 분석 모듈(340)을 이용하여, 제1 오디오 콘텐트(320)에 대한 오디오 분석(342)을 수행할 수 있다. 디스플레이 장치(2000)는 알려진 다양한 오디오 분석 알고리즘을 이용하여, 제1 오디오 콘텐트(320)를 제2 오디오 콘텐트(360)로 변경하기 위한 다양한 데이터들을 획득할 수 있다. 디스플레이 장치(2000)는 오디오 분석(334)을 수행하기 위해, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘을 이용하거나, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘의 변형을 통해 구현된 인공지능 모델을 이용할 수 있다.
예를 들어, 디스플레이 장치(2000)는 제1 오디오 콘텐트(320)에 포함되는 사운드 이벤트들을 식별할 수 있다. 디스플레이 장치(2000)는 제1 오디오 콘텐트(320) 내에서, 사운드의 등장 및 사라짐 시간, 사운드 크기를 식별할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 사운드에 대응하는 이벤트를 분류할 수 있다.
디스플레이 장치(2000)는 오디오 분석 모듈(340)을 이용하여, 제1 오디오 콘텐트(320)에 대한 오디오 메타데이터 분석(342)을 수행할 수 있다. 오디오 콘텐트의 오디오 메타데이터는, 미리 정의된 데이터 요소들을 포함하는 데이터 포맷으로 구성될 수 있으나, 이에 한정되는 것은 아니다. 오디오 메타데이터는 예를 들어, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 디스플레이 장치(2000)가 제1 오디오 콘텐트(320)를 획득할 때 제1 오디오 콘텐트(320)에 대응되는 오디오 메타데이터가 함께 획득될 수 있다. 일 실시예에서, 디스플레이 장치(2000)는 오디오 분석(342) 결과에 기초하여 오디오 메타데이터를 보완 및 업데이트할 수 있다.
비디오 분석 모듈(330) 및 오디오 분석 모듈(340)의 데이터 처리 결과는, 실감형 오디오 생성 모듈(350)로 전달된다.
일 실시예에서, 실감형 오디오 생성 모듈(350)은 비디오 콘텐트(310)의 메타데이터, 제1 오디오 콘텐트(320)의 메타데이터 및 공간 정보 중 적어도 하나에 기초하여 제1 오디오 콘텐트(320)를 변환함으로써 실감형 오디오인 제2 오디오 콘텐트(360)를 생성할 수 있다.
일 실시예에서, 디스플레이 장치(2000)는 실감형 오디오 생성 모듈(350)을 이용하여, 사용자 주변 기기 분석(352)을 수행할 수 있다. 사용자 주변 기기는 하나 이상의 스피커들을 포함할 수 있다. 하나 이상의 스피커들의 사양은 예를 들어, 드라이버 유닛(예를 들어, 2way, 3way 등), 주파수 응답, 음압 레벨(Sound Pressure Level; SPL), 앰프 출력, 임피던스, 감도, 수직/수평 커버리지 각도 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
디스플레이 장치(2000)는 하나 이상의 스피커들의 사양 및 위치를 분석할 수 있다. 예를 들어, 디스플레이 장치(2000)는 하나 이상의 스피커들의 사양에 기초하여, 제1 오디오 콘텐트(320)가 각각의 스피커에서 분리되어 출력될 주파수 대역을 결정할 수 있다. 예를 들어, 디스플레이 장치(2000)는 디스플레이 장치(2000)로부터 하나 이상의 스피커들까지의 거리 및 방향에 기초하여, 제1 오디오 콘텐트의 사운드가 하나 이상의 스피커들 중 어떤 스피커에서 출력될 지 여부를 결정할 수 있다. 사용자 주변 기기 분석(352)의 결과는, 메타데이터 기반 실감형 오디오 렌더링(356)의 작업에 이용될 수 있다.
일 실시예에서, 디스플레이 장치(2000)는 실감형 오디오 생성 모듈(350)을 이용하여, 사용자 환경 분석(354)을 수행할 수 있다. 사용자 환경은 디스플레이 장치(2000)가 설치된 사용자 공간의 공간 정보, 사용자의 위치 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 또한, 공간 정보는 3차원 공간 레이아웃, 공간 내 객체 및 공간 내 베이스트랩(bass trap), 사운드 흡수재(sound absorber), 사운드 분산재(sound diffuser)와 관련된 정보 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
디스플레이 장치(2000)는 사용자 환경의 오디오와 관련된 특징을 분석할 수 있다. 예를 들어, 디스플레이 장치(2000)는 사용자 공간의 레이아웃 정보 및 사용자 공간에 설치된 사운드 흡수재 정보, 사운드 분산재 정보 등에 기초하여, 사운드 방향에 따른 사운드 흡수 정도, 사운드 반사 정도를 계산할 수 있다. 예를 들어, 디스플레이 장치(2000)는 사용자 공간의 레이아웃 정보 및 사용자 위치에 기초하여, 사용자가 청취 가능한 주파수 대역 정보를 계산할 수 있다. 디스플레이 장치(2000)는 저역대 사운드의 파장을 들을 수 있도록 하는 청취 거리(예를 들어, 파장의 절반 길이) 및/또는 사용자 공간에서 청취 가능한 최저 주파수를 계산할 수 있다. 구체적으로, 음속을 340m/s, 사용자 공간 내에서 스피커로부터 사용자까지의 청취 거리가 5m인 것을 예시를 들면, 사용자의 위치에서 청취 가능한 사운드 신호의 파장은 10m로 계산될 수 있다, 이 경우, 사용자 공간에서 정확하게 청취 가능한 최저 주파수는 음속/파장, 즉 340(m/s)/10m = 34Hz로 결정될 수 있다. 사용자 환경 분석(354)의 결과는, 메타데이터 기반 실감형 오디오 렌더링(356)의 작업에 이용될 수 있다.
일 실시예에서, 디스플레이 장치(2000)는 실감형 오디오 생성 모듈(350)을 이용하여, 메타데이터 기반 실감형 오디오 렌더링(356)을 수행할 수 있다. 디스플레이 장치(2000)는 비디오 콘텐트(310)의 메타데이터 및 제1 오디오 콘텐트(320)의 메타데이터에 기초하여, 실감형 오디오인 제2 오디오 콘텐트(360)를 렌더링할 수 있다. 예를 들어, 디스플레이 장치(2000)는, 비디오 콘텐트(310)의 메타데이터(예를 들어, 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 등) 및 제1 오디오 콘텐트(320)의 메타데이터(예를 들어, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 등)에 기초하여, 비디오 콘텐트(310)의 가상 공간 내 존재하는 객체들에 제1 오디오 콘텐트(320)를 맵핑할 수 있다. 디스플레이 장치(2000)는 비디오 콘텐트(310)의 가상 공간 내 존재하는 객체들의 배치, 거리 및 방향에 기초하여, 가상 공간 내에서 발생하는 사운드의 출력 크기, 출력 방향, 출력 위치 등을 렌더링할 수 있다.
일 실시예에서, 비디오 분석(332)의 결과에 의해 비디오 콘텐트(310)의 메타데이터의 정보가 보완되거나 업데이트될 수 있다. 디스플레이 장치(2000)는 비디오 분석(332) 결과에 기초하여 메타데이터 기반 실감형 오디오 렌더링(356)을 수행하고, 제2 오디오 콘텐트(360)를 렌더링할 수 있다. 예를 들어, 비디오 분석(332) 결과 획득된, 비디오 콘텐트(310) 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나가 이용될 수 있다.
일 실시예에서, 오디오 분석(342)의 결과에 의해 제1 오디오 콘텐트(320)의 메타데이터의 정보가 보완되거나 업데이트될 수 있다. 디스플레이 장치(2000)는 오디오 분석(342) 결과에 기초하여 메타데이터 기반 실감형 오디오 렌더링(356)을 수행하고, 제2 오디오 콘텐트(360)를 렌더링할 수 있다. 예를 들어, 오디오 분석(332) 결과 획득된, 제1 오디오 콘텐트(310)의 사운드의 등장 및 사라짐 시간, 사운드 크기, 사운드에 대응하는 이벤트 분류 중 적어도 하나가 이용될 수 있다.
일 실시예에서, 디스플레이 장치(2000)가 메타데이터 기반 실감형 오디오 렌더링(356)을 수행할 때, 사용자 주변 기기 분석(352) 결과가 이용될 수 있다. 디스플레이 장치(2000)는, 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 사양(예를 들어, 드라이버 유닛(예를 들어, 2way, 3way 등), 주파수 응답, 음압 레벨(Sound Pressure Level; SPL), 앰프 출력, 임피던스, 감도, 수직/수평 커버리지 각도 등)에 기초하여, 사운드의 속성 값들을 변경함으로써 제2 오디오 콘텐트(360)를 생성할 수 있다.
일 실시예에서, 디스플레이 장치(2000)가 메타데이터 기반 실감형 오디오 렌더링(356)을 수행할 때, 사용자 환경 분석(354) 결과가 이용될 수 있다. 디스플레이 장치(2000)는, 디스플레이 장치(2000)가 설치된 사용자 공간의 공간 정보, 사용자의 위치 등에 기초하여, 사운드의 속성 값들을 변경함으로써 제2 오디오 콘텐트(360)를 생성할 수 있다.
한편, 전술한 메타데이터 기반 실감형 오디오 렌더링(356) 작업의 예시들은, 각각 독립적으로 수행되어야 하는 것은 아니다. 디스플레이 장치(2000)는 전술한 예시들 중 둘 이상을 조합하여 메타데이터 기반 실감형 오디오 렌더링(356)을 수행할 수 있다. 예를 들어, 디스플레이 장치(2000)는 비디오 분석(332), 비디오 메타데이터 분석(334), 오디오 분석(342), 오디오 메타데이터 분석(344), 사용자 주변 기기 분석(352), 사용자 환경 분석(354) 중 적어도 둘 이상의 조합에 기초하여, 메타데이터 기반 실감형 오디오 렌더링(356)을 수행할 수 있다.
도 4는 본 개시의 일 실시예에 따른 디스플레이 장치가 위치하는 사용자 공간을 설명하기 위한 도면이다.
일 실시예에서, 디스플레이 장치(2000)가 있는 사용자 공간(120)은 오디오룸일 수 있다. 디스플레이 장치(2000)는 사용자 공간(120)의 오디오와 관련된 특징을 나타내는, 공간 정보를 획득할 수 있다.
일 실시예에서, 사용자 공간(120)의 오디오와 관련된 특징은 반사(410), 흡수(420), 확산(430)을 지칭하는 것일 수 있다. 도 4에 도시된 것과 같이, 반사(410)는 사운드를 입력 사운드를 반사하는 특징이고, 흡수(420)는 입력 사운드의 적어도 일부를 흡수하는 특징이며, 확산(430)은 입력 사운드를 확산시키는 특징을 말한다.
일 실시예에서, 사용자 공간(120)에는 사운드 흡수재(440)가 존재할 수 있다. 사운드 흡수재(440)는 반사가 잘되는 중역대의 주파수 대역의 사운드를 흡수할 수 있다. 사용자 공간(120)에는 예를 들어, 벽면에 설치된 사운드 흡수재(440)가 존재할 수 있다. 다만, 이는 설명의 편의를 위한 예시적인 도면이며, 사용자 공간(120)의 오디오와 관련된 특징이 이에 한정되는 것은 아니다. 디스플레이 장치(2000)는 사운드 흡수재(440)와 관련된 정보를 획득할 수 있다. 예를 들어, 디스플레이 장치(2000)는 사운드 흡수재(440)의 위치, 크기, 방향, 흡수하는 주파수 대역 등에 관련된 정보를 획득할 수 있다. 전술한 설명에서 디스플레이 장치(2000)가 제1 오디오 콘텐트를 제2 오디오 콘텐트로 변환할 때, 디스플레이 장치(2000)는 사운드 흡수재(440)와 관련된 정보를 이용할 수 있다. 구체적으로, 디스플레이 장치(2000)는 제1 오디오 콘텐트에서 특정 주파수 대역을 강화하거나, 약화할 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 사용자 공간(120)에는 베이스 트랩(bass trap)(450, 460)이 존재할 수 있다. 베이스 트랩(450, 460)은 파장이 큰 저역대의 사운드를 흡수하여 저역대 사운드의 에너지를 상쇄시킬 수 있다. 사용자 공간(120)에는 예를 들어, 벽들과 천장이 만나는 꼭지점에 제1 베이스 트랩(450)이 존재하고, 벽과 벽이 만나는 모서리에 제2 베이스 트랩(460)이 존재할 수 있다. 다만, 이는 설명의 편의를 위한 예시적인 도면이며, 사용자 공간(120)의 오디오와 관련된 특징이 이에 한정되는 것은 아니다. 디스플레이 장치(2000)는 베이스 트랩(450, 460)과 관련된 정보를 획득할 수 있다. 예를 들어, 디스플레이 장치(2000)는 베이스 트랩(450, 460)의 위치, 크기, 방향, 흡수하는 주파수 대역 등에 관련된 정보를 획득할 수 있다. 전술한 설명에서 디스플레이 장치(2000)가 제1 오디오 콘텐트를 제2 오디오 콘텐트로 변환할 때, 디스플레이 장치(2000)는 베이스 트랩(450, 460)과 관련된 정보를 이용할 수 있다.
일 실시예에서, 사용자 공간(120)에는 사운드 분산재(470)가 존재할 수 있다. 사운드 분산재(470)는 에너지가 상대적으로 작은 고역대의 사운드를 분산시킬 수 있다. 사용자 공간(120)에는 예를 들어, 천장에 사운드 분산재(470)가 존재할 수 있다. 다만, 이는 설명의 편의를 위한 예시적인 도면이며, 사용자 공간(120)의 오디오와 관련된 특징이 이에 한정되는 것은 아니다. 디스플레이 장치(2000)는 사운드 분산재(470)와 관련된 정보(예를 들어, 위치, 크기, 방향, 분산시키는 주파수 대역 등에 관련된 정보 등)를 획득할 수 있다. 전술한 설명에서 디스플레이 장치(2000)가 제1 오디오 콘텐트를 제2 오디오 콘텐트로 변환할 때, 디스플레이 장치(2000)는 사운드 분산재(470)와 관련된 정보를 이용할 수 있다.
일 실시예에서, 사용자 공간(120)의 오디오와 관련된 특징은 3차원 공간 레이아웃, 공간 내 객체와 관련된 정보를 포함할 수 있다. 3차원 공간 레이아웃 정보는 공간의 면적, 층고, 벽, 기둥, 문/창문 등의 위치, 크기 등의 정보를 포함할 수 있으나, 이에 한정되는 것은 아니다. 공간 내 객체 정보는 공간 내 존재하는 다양한 객체들 예를 들어, 테이블, 의자, 스피커, TV 장(TV stand) 등의 크기, 위치, 모양 등의 정보를 포함할 수 있으나, 이에 한정되는 것은 아니다. 전술한 설명에서 디스플레이 장치(2000)가 제1 오디오 콘텐트를 제2 오디오 콘텐트로 변환할 때, 디스플레이 장치(2000)는 3차원 공간 레이아웃, 공간 내 객체와 관련된 정보를 이용할 수 있다.
도 5는 본 개시의 일 실시예에 따른 디스플레이 장치가 오디오 메타데이터를 생성하는 동작을 설명하기 위한 흐름도이다.
도 5를 참조하면, 도 5의 단계들은 적어도 도 2의 단계 S240이 수행되기 이전에 수행될 수 있다.
단계 S510에서, 디스플레이 장치(2000)는 제1 오디오 콘텐트의 메타데이터의 존재 여부를 식별한다. 예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득하고, 제1 오디오 콘텐트의 메타데이터가 존재하는지 여부를 식별할 수 있다. 디스플레이 장치(2000)는 전부 또는 일부가 존재하지 않는 경우, 제1 오디오 콘텐트의 메타데이터를 생성할 지 여부를 결정할 수 있다.
단계 S520에서, 디스플레이 장치(2000)는 제1 오디오 콘텐트의 메타데이터 존재하는 경우, 존재하는 제1 오디오 콘텐트의 메타데이터를 이용하여 도 2의 단계 S240을 수행할 수 있다. 또는, 디스플레이 장치(2000)는 제1 오디오 콘텐트의 메타데이터 존재하는 경우, 단계 S530을 수행하여 제1 오디오 콘텐트의 메타데이터를 업데이트할 수 있다.
디스플레이 장치(2000)는 제1 오디오 콘텐트의 메타데이터 존재하지 않는 경우, 단계 S530을 수행할 수 있다.
단계 S530에서, 디스플레이 장치(2000)는 비디오 콘텐트, 비디오 콘텐트의 메타데이터 및 제1 오디오 콘텐트 중 적어도 하나에 기초하여 제1 오디오 콘텐트의 메타데이터를 생성한다.
디스플레이 장치(2000)는 비디오 콘텐트, 비디오 콘텐트의 메타데이터 및 제1 오디오 콘텐트 중 적어도 하나를 분석하고, 분석 결과에 기초하여 제1 오디오 콘텐트의 메타데이터를 생성할 수 있다. 예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트 및/또는 비디오 콘텐트의 메타데이터를 분석하여, 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 등을 획득하고, 오디오 콘텐트를 분석하여, 사운드의 등장 및 사라짐 시간, 사운드 크기, 사운드에 대응하는 이벤트 등을 획득할 수 있다. 디스플레이 장치(2000)는 비디오 콘텐트, 비디오 콘텐트의 메타데이터, 오디오 콘텐트의 분석 결과에 기초하여, 제1 오디오 콘텐트의 메타데이터(예를 들어, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 등)를 생성할 수 있다.
단계 S530이 수행된 이후에, 도 2의 단계 S240 내지 S270의 동작이 수행될 수 있다. 이는 도 2에 대한 설명에서 전술하였으므로, 반복되는 설명은 간결함을 위해 생략한다.
도 6은 본 개시의 일 실시예에 따른 디스플레이 장치가 제2 오디오 콘텐트를 생성하는 동작을 설명하기 위한 도면이다.
도 6을 참조하면, 단계 S610 내지 S620은, 도 2의 단계 S240에 대응될 수 있다.
단계 S610에서, 디스플레이 장치(2000)는 비디오 콘텐트의 메타데이터 및 제1 오디오 콘텐트의 메타데이터에 기초하여, 제1 오디오 콘텐트를 가상 공간(100)에 맵핑한다.
예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트의 가상 공간(100) 내에 존재하는 객체의 종류, 크기, 위치 및 거리, 방향 중 적어도 하나에 기초하여 객체에 대응하는 사운드를 맵핑할 수 있다. 예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트의 가상 공간(100) 내에서 발생하는 특정 이벤트에 기초하여, 이벤트에 대응하는 사운드를 맵핑할 수 있다. 이 경우, 맵핑되는 사운드는 가상 공간(100)에서 특정 위치 및/또는 특정 객체에 맵핑되므로, 가상 공간(100) 내의 사용자의 캐릭터(602)가 가상 공간(100) 내에서 특정 위치 및/또는 특정 객체에 접근하거나 멀어짐에 따라, 사용자에게 제공되는 사운드가 커지거나 작아지고, 사운드의 방향이 바뀌는 효과를 제공할 수 있다. 또한, 맵핑되는 사운드는 가상 공간(100)에서 특정 이벤트가 발생할 때 출력되어, 사용자에게 현실감 있는 사운드 효과를 제공할 수 있다.
단계 S620에서, 디스플레이 장치(2000)는 공간 정보에 기초하여, 가상 공간(100) 내의 사용자의 캐릭터(602) 위치에서 사용자의 캐릭터(602)에게 들리는 제1 오디오 콘텐트를 사용자 공간(120) 내의 사용자(604)의 위치에서 사용자에게 들리는 제2 오디오 콘텐트로 변경한다.
디스플레이 장치(2000)는 오디오의 특성을 변경할 수 있다. 예를 들어, 디스플레이 장치(2000)는 소리의 높낮이를 나타내는 주파수, 소리의 강도나 크기를 나타내는 진폭, 소리가 출력되는 위치를 나타내는 출력 스피커 정보, 이퀄라이저 설정 등을 변경할 수 있으나, 이에 한정되는 것은 아니다.
예를 들어, 가상 공간(100) 내 사용자의 캐릭터(602) 위치를 기준으로, 제1 방향 및 제1 거리에서 제1 사운드가 발생하는 경우, 디스플레이 장치(2000)는 사용자 공간(120) 내의 사용자(604)가 사용자 공간(120) 내 현실 위치를 기준으로 제1 방향 및 제1 거리에서 제1 사운드를 듣는 것처럼 제1 오디오 콘텐트의 특성을 변경할 수 있다. 마찬가지로, 가상 공간(100) 내 사용자의 캐릭터(602) 위치를 기준으로, 제2 방향 및 제2 거리에서 제2 사운드가 발생하는 경우, 디스플레이 장치(2000)는 사용자 공간(120) 내의 사용자(604)가 사용자 공간(120) 내 현실 위치를 기준으로 제2 방향 및 제2 거리에서 제2 사운드를 듣는 것처럼 되도록 제1 오디오 콘텐트의 특성을 변경할 수 있다.
디스플레이 장치(2000)가 제1 오디오 콘텐트를 변경하여 제2 오디오 콘텐트를 생성하는 것은 도 3에 대한 설명에서 전술하였으므로, 간결함을 위해 반복되는 설명은 생략한다.
도 7은 본 개시의 일 실시예에 따른 디스플레이 장치가 스피커 사양에 기초하여 제2 오디오 콘텐트를 조정하는 동작을 설명하기 위한 도면이다.
도 7을 참조하면, 일 실시예에 따른 디스플레이 장치(2000)는 제2 오디오 콘텐트(710)를 생성한 후, 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 사양에 기초하여, 제2 오디오 콘텐트(710)의 주파수 대역별로 신호 레벨 매칭 작업을 수행할 수 있다.
일 실시예에서, 디스플레이 장치(2000)는 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 식별 정보(예를 들어, 모델 명, 식별 번호 등)를 획득할 수 있다. 예를 들어, 디스플레이 장치(2000)의 데이터베이스(700)에는 스피커들의 종류, 모델명에 따른 사양 정보가 저장되어 있을 수 있다. 디스플레이 장치(2000)는 하나 이상의 스피커들의 식별 정보에 기초하여, 디스플레이 장치(2000)의 데이터베이스(700)에서 식별 정보에 대응하는 스피커의 사양 정보를 검색할 수 있다.
디스플레이 장치(2000)는 식별된 스피커 사양에 기초하여, 제2 오디오 콘텐트(710)의 주파수 대역별로 신호 레벨을 조정할 수 있다.
예를 들어, 디스플레이 장치(2000)는 하나 이상의 스피커들의 사양에 기초하여, 제2 오디오 콘텐트(710)의 저역대/중역대/고역대 주파수를 강화 및/또는 약화하여 조정된 제2 오디오 콘텐트를 생성할 수 있다.
예를 들어, 디스플레이 장치(2000)가 디스플레이 장치(2000)에 연결된 하나 이상의 스피커들의 사양을 분석한 결과, 연결된 하나 이상의 스피커들의 출력 성능이 서로 상이할 수 있다. 예를 들어, 디스플레이 장치(2000)에 제1 스피커 및 제2 스피커가 연결되어 있을 수 있고, 제1 스피커가 제2 스피커보다 높은 출력 성능을 낼 수 있다. 이 경우, 디스플레이 장치(2000)는 하나 이상의 스피커들의 출력 성능이 상이한 것에 기초하여, 사용자 공간 내에서 밸런스 있는 사운드가 제공되도록 제2 오디오 콘텐트(710)의 신호 레벨을 조정할 수 있다. 구체적으로, 디스플레이 장치(2000)는 출력 성능이 높은 제1 스피커에서 재생될 제2 오디오 콘텐트(710)의 신호 레벨을 감소시켜, 제1 스피커 및 제2 스피커에서 밸런스 있는 사운드가 출력되도록 할 수 있다.
도 8은 일 실시예에 따른 디스플레이 장치가 하나 이상의 스피커들의 위치를 결정하는 동작을 설명하기 위한 도면이다.
도 8을 참조하면, 디스플레이 장치(2000)는 디스플레이 장치(2000)와 연결된 하나 이상의 스피커들의 위치를 계산할 수 있다. 디스플레이 장치(2000)는 하나 이상의 스피커들의 위치를 계산하기 위해, 하나 이상의 마이크들을 포함할 수 있다.
예를 들어, 디스플레이 장치(2000)는 제1 스피커(810)로부터 테스트 사운드(812)를 수신할 수 있다. 테스트 사운드(812)는 디스플레이 장치(2000)에 포함된 제1 마이크(830) 및 제2 마이크(840)에서 수신될 수 있다. 디스플레이 장치(2000)는 제1 마이크(830) 및 제2 마이크(840)로 테스트 사운드(812)가 수신된 시간차에 기초하여, 디스플레이 장치(2000)로부터 제1 스피커(810)까지의 거리 및 방향을 계산할 수 있다. 디스플레이 장치(2000)는 공간 내에 존재하는 모든 스피커들 각각으로부터 테스트 사운드를 수신하고, 각각의 스피커의 위치를 결정할 수 있다.
일 실시예에서, 디스플레이 장치(2000)는 하나 이상의 스피커들의 위치를 결정하기 위해, 디스플레이 장치(2000)에 포함된 다른 센서를 더 이용할 수 있다. 예를 들어, 디스플레이 장치(2000)는 ToF(Time of Flight) 센서, RGB 카메라, RGB-D 카메라 등을 이용하여 하나 이상의 스피커들의 위치를 결정할 수 있다.
일 실시예에서, 디스플레이 장치(2000)는 하나 이상의 스피커들의 위치를 입력하는 사용자 입력을 수신할 수 있다. 디스플레이 장치(2000)는 사용자 입력에 의해 입력된 하나 이상의 스피커들의 위치를, 테스트 사운드(812)에 기초하여 검증 및 업데이트할 수 있다. 또는, 디스플레이 장치(2000)는 테스트 사운드(812)에 기초하여 결정된 하나 이상의 스피커들의 위치를, 사용자 입력에 기초하여 업데이트할 수 있다.
일 실시예에서, 디스플레이 장치(2000)는 하나 이상의 스피커들의 위치에 기초하여 제2 오디오 콘텐트에 대한 하나 이상의 스피커들의 출력 설정을 결정함으로써 사용자 공간의 특성에 맞게 실감형 오디오를 제공할 수 있다. 예를 들어, 제1 사용자의 제1 공간과 제2 사용자의 제2 공간에 동일한 사양의 스피커들이 설치되어 있더라도, 각각의 사용자의 공간 특징을 나타내는 공간 정보 및 각각의 사용자의 공간 내 스피커들의 위치가 상이하므로, 제1 사용자의 제1 공간과 제2 사용자의 제2 공간에 서로 다른 출력 설정이 결정될 수 있다.
도 9는 본 개시의 일 실시예에 따른 디스플레이 장치가 사용자의 위치를 획득하는 동작을 설명하기 위한 도면이다.
설명의 편의를 위해, 도 9에서 사용자 공간 내 있는 하나 이상의 스피커들은 도시를 생략하였다. 도 9를 참조하면, 디스플레이 장치(2000)는 카메라(910)를 포함할 수 있다. 카메라(910)는 하나 이상일 수 있다. 하나 이상의 카메라(910)들은 예를 들어, RGB 카메라, RGB-D, 스테레오 카메라 또는 멀티카메라 등일 수 있으나, 이에 한정되는 것은 아니다.
디스플레이 장치(2000)는 카메라(910)를 이용하여 디스플레이 장치(2000)를 사용하는 사용자(920)의 위치를 식별할 수 있다. 디스플레이 장치(2000)는 예를 들어, 카메라(910)를 통해 획득되는 이미지 내에서 사용자(920)를 검출 및 인식하고, 디스플레이 장치(2000)로부터 사용자(920)까지의 거리 및 방향을 계산할 수 있다. 일부 실시예에서, 디스플레이 장치(2000)는 비전 인식을 이용할 수 있다. 디스플레이 장치(2000)는 비전 인식을 통해 사용자(920)를 인식하고 사용자의 위치를 결정하기 위해, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘을 이용하거나, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘의 변형을 통해 구현된 인공지능 모델을 이용할 수 있다.
일 실시예에서, 디스플레이 장치(2000)는 사용자(920)의 위치를 결정하기 위한 하나 이상의 센서를 포함할 수 있다. 예를 들어, 디스플레이 장치(2000)는 적외선 센서, 초음파 센서 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 디스플레이 장치(2000)는 사용자(920)의 위치에 기초하여 제2 오디오 콘텐트에 대한 하나 이상의 스피커들의 출력 설정을 결정함으로써 사용자 공간의 특성에 맞게 실감형 오디오를 제공할 수 있다. 예를 들어, 사용자(920)가 제1 스피커보다 제2 스피커에 가까이 위치하는 경우, 디스플레이 장치(2000)는 사용자(920)로부터 더 멀리 있는 제1 스피커의 출력을 더 크게 설정할 수 있다.
도 10은 본 개시의 일 실시예에 따른 디스플레이 장치가 사용자 위치를 갱신하는 동작을 설명하기 위한 도면이다.
일 실시예에서, 도 9에서 설명한 것과 같이, 디스플레이 장치(2000)는 사용자의 위치를 식별할 수 있다. 이 경우, 디스플레이 장치(2000)는 사용자의 위치를 실시간으로 식별하면서 갱신할 수 있다. 예를 들어, 디스플레이 장치(2000)는 사용자가 공간 내 제1 위치(1010)에서 제2 위치(1020)로 이동하는 경우에, 이동하는 사용자의 위치를 실시간으로 추적할 수 있다.
디스플레이 장치(2000)는 사용자의 실시간 위치 변경에 기초하여, 하나 이상의 스피커들의 출력 설정을 실시간으로 업데이트할 수 있다.
예를 들어, 디스플레이 장치(2000)는 사용자가 공간 내 제1 위치(1010)에 있는 경우, 제1 위치(1010)에 최적의 사운드를 제공하기 위해 제1 위치(1010)에 대응하는 하나 이상의 스피커들의 출력 설정을 결정할 수 있다. 디스플레이 장치(2000)는 사용자의 위치가 공간 내 제2 위치(1020)로 변경되는 경우, 제2 위치(1020)에 최적의 사운드를 제공하기 위해 하나 이상의 스피커들의 출력 설정을 제2 위치(1020)에 대응하는 출력 설정으로 변경할 수 있다.
디스플레이 장치(2000)는 사용자의 위치가 실시간으로 변경됨에 따라 상기 하나 이상의 스피커들의 출력 설정을 변경함으로써, 사용자에게 실감형 오디오를 최적의 출력으로 제공할 수 있다.
도 11은 본 개시의 일 실시예에 따른 디스플레이 장치의 구성을 도시한 블록도이다.
일 실시에서, 디스플레이 장치(2000)는 통신 인터페이스(2100), 디스플레이(2200), 카메라(2300), 메모리(2400) 및 프로세서(2500)를 포함할 수 있다.
통신 인터페이스(2100)는 통신 회로를 포함할 수 있다. 통신 인터페이스(2100)는 예를 들어, 유선 랜, 무선 랜(Wireless LAN), 와이파이(Wi-Fi), 블루투스(Bluetooth), 지그비(ZigBee), WFD(Wi-Fi Direct), 적외선 통신(IrDA, infrared Data Association), BLE (Bluetooth Low Energy), NFC(Near Field Communication), 와이브로(Wireless Broadband Internet, Wibro), 와이맥스(World Interoperability for Microwave Access, WiMAX), SWAP(Shared Wireless Access Protocol), 와이기그(Wireless Gigabit Alliances, WiGig) 및 RF 통신을 포함하는 데이터 통신 방식 중 적어도 하나를 이용하여, 서버(2000)와 다른 디바이스들 간의 데이터 통신을 수행할 수 있는, 통신 회로를 포함할 수 있다.
통신 인터페이스(2100)는 서버(2000)의 동작을 수행하기 위한 데이터를 외부 전자 장치와 송수신할 수 있다. 예를 들어, 디스플레이 장치(2000)는 통신 인터페이스(2100)를 통해 디스플레이 장치(2000)가 실감형 오디오 콘텐트를 생성 및 제공하기 위해 사용하는 다양한 데이터를 외부의 전자 장치(예를 들어, 사용자의 스마트폰, 서버 등)로와 송수신할 수 있다.
디스플레이(2200)는 프로세서(2500)의 제어에 의해 디스플레이 장치(2000)의 화면에 영상 신호를 출력할 수 있다. 예를 들어, 디스플레이 장치(2000)는 가상 공간을 나타내는 비디오 콘텐트를 디스플레이(2200)를 통해 출력할 수 있다.
카메라(2300)는 공간 및/또는 객체를 촬영하여 비디오 및/또는 이미지를 획득할 수 있다. 카메라(2300)는 하나 이상일 수 있다. 카메라(2300)는 예를 들어, RGB 카메라, 깊이 카메라, 적외선 카메라 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 디스플레이 장치(2000)는 카메라(2300)를 이용하여 디스플레이 장치(2000)를 이용하는 사용자를 식별하고 사용자의 위치를 결정할 수 있다. 디스플레이 장치(2000)는 카메라(2300)를 이용하여 공간 내 존재하는 하나 이상의 객체(예를 들어, 스피커 등)를 식별하고, 위치를 결정할 수 있다. 카메라(2300)의 구체적인 종류 및 세부 기능은 통상의 기술자가 명확하게 추론할 수 있으므로, 설명을 생략한다.
메모리(2400)는 프로세서(2500)가 판독할 수 있는 명령어들, 데이터 구조, 및 프로그램 코드(program code)가 저장될 수 있다. 메모리(2400)는 하나 이상일 수 있다. 개시된 실시예들에서, 프로세서(2500)가 수행하는 동작들은 메모리(2400)에 저장된 프로그램의 명령어들 또는 코드들을 실행함으로써 구현될 수 있다.
메모리(2400)는 ROM(Read-only memory)(예를 들어, PROM(Programmable read-only memory), EPROM(Erasable programmable read-only memory), EEPROM(Electrically erasable programmable read-only memory)), 플래시 메모리(Flash memory)(예를 들어, 메모리 카드, SSD(Solid-state drive)) 및 아날로그 기록 타입(예를 들어, HDD(Hard disk drive), 자기테이프, 광학 디스크)와 같은 비휘발성 메모리 및, RAM(random-access memory)(예를 들어, DRAM(Dynamic random-access memory), SRAM(Static random-access memory))과 같은 휘발성 메모리를 포함할 수 있다.
프로세서(2500)는 디스플레이 장치(2000)의 전반적인 동작들을 제어할 수 있다. 예를 들어, 프로세서(2500)는 메모리(2400)에 저장된 프로그램의 하나 이상의 명령어들(instructions)을 실행함으로써, 디스플레이 장치(2000)가 실감형 오디오 콘텐트를 렌더링하기 위한 전반적인 동작들을 제어할 수 있다. 프로세서(2500)는 하나 이상일 수 있다.
하나 이상의 프로세서(2500)는 CPU (Central Processing Unit), GPU (Graphics Processing Unit), APU (Accelerated Processing Unit), MIC (Many Integrated Core), DSP (Digital Signal Processor), 및 NPU (Neural Processing Unit) 중 적어도 하나를 포함할 수 있다. 하나 이상의 프로세서(2500)는, 하나 이상의 전자부품을 포함하는 집적된 시스템 온 칩(SoC) 형태로 구현될 수 있다. 하나 이상의 프로세서(2500) 각각은 별개의 하드웨어(H/W)로 구현될 수도 있다.
본 개시의 일 실시예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 하나의 프로세서(2500)에 의해 수행될 수도 있고, 복수의 프로세서(2500)에 의해 수행될 수도 있다. 예를 들어, 일 실시예에 따른 방법에 의해 제1 동작, 제2 동작, 제3 동작이 수행될 때, 제1 동작, 제2 동작, 및 제3 동작 모두 제1 프로세서에 의해 수행될 수도 있고, 제1 동작 및 제2 동작은 제1 프로세서(예를 들어, 범용 프로세서)에 의해 수행되고 제3 동작은 제2 프로세서(예를 들어, 인공지능 전용 프로세서)에 의해 수행될 수도 있다. 여기서, 제2 프로세서의 예시는 인공지능 전용 프로세서일 수 있으며, 인공지능 전용 프로세서는, 인공지능 모델의 훈련/추론을 위한 연산들이 수행될 수도 있다. 그러나, 본 개시의 실시예들이 이에 한정되는 것은 아니다.
본 개시에 따른 하나 이상의 프로세서(2500)는 싱글 코어 프로세서(single-core processor)로 구현될 수도 있고, 멀티 코어 프로세서(multi-core processor)로 구현될 수도 있다.
본 개시의 일 실시예에 따른 방법이 복수의 동작을 포함하는 경우, 복수의 동작은 하나의 코어에 의해 수행될 수도 있고, 하나 이상의 프로세서(2500)에 포함된 복수의 코어에 의해 수행될 수도 있다.
도 12는 본 개시의 일 실시예에 따른 디스플레이 장치의 구성을 도시한 블록도이다.
일 실시예에서, 디스플레이 장치(2000)는 통신 인터페이스(2100), 디스플레이(2200), 카메라(2300), 메모리(2400), 프로세서(2500), 비디오 처리 모듈(2600), 오디오 처리 모듈(2700), 전원 모듈(2800) 및 입력/출력 인터페이스(2900)를 포함할 수 있다.
도 12의 통신 인터페이스(2100), 디스플레이(2200), 카메라(2300), 메모리(2400) 및 프로세서(2500)는, 도 11의 통신 인터페이스(2100), 디스플레이(2200), 카메라(2300), 메모리(2400) 및 프로세서(2500)에 각각 대응되므로, 반복되는 설명은 생략한다.
비디오 처리 모듈(2600)은 디스플레이 장치(2000)가 재생하는 비디오 데이터에 대한 처리를 수행한다. 비디오 처리 모듈(2600)에서는 비디오 데이터에 대한 디코딩, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 해상도 변환 등과 같은 다양한 이미지 처리를 수행할 수 있다. 디스플레이(2200)는, 프로세서(2500)에서 처리된 영상 신호, 데이터 신호, OSD 신호, 제어 신호 등을 변환하여 구동 신호를 생성하고, 구동 신호에 따라 영상을 표시할 수 있다.
오디오 처리 모듈(2700)은 오디오 데이터에 대한 처리를 수행한다. 오디오 처리 모듈(2700)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다. 한편, 오디오 처리 모듈(2700)에는 복수의 콘텐트에 대응되는 오디오를 처리하기 위해 복수의 오디오 처리 유닛이 포함될 수 있다.
전원 모듈(2800)은 프로세서(2500)의 제어에 의해 디스플레이 장치(2000) 내부의 구성 요소들로 외부의 전원 소스에서부터 입력되는 전원을 공급한다. 또한, 전원 모듈(2800)은 프로세서(2500)의 제어에 의해 디스플레이 장치(2000) 내부에 위치하는 하나 또는 둘 이상의 배터리(미도시)에서부터 출력되는 전원을 내부의 구성 요소들에게 공급할 수 있다.
입력/출력 인터페이스(2900)는 디스플레이 장치(1200)의 외부에서부터 비디오(예를 들어, 동영상 등), 오디오(예를 들어, 음성, 음악 등) 및 부가 정보(예를 들어, EPG 등) 등을 수신한다. 입력/출력 인터페이스(2900)는 HDMI (High-Definition Multimedia Interface), MHL(Mobile High-Definition Link), USB(Universal Serial Bus), DP(Display Port), 썬더볼트(Thunderbolt), VGA(Video Graphics Array) 포트, RGB 포트, D-SUB(D-subminiature), DVI(Digital Visual Interface), 컴포넌트 잭(component jack), PC 포트(PC port) 중 어느 하나를 포함할 수 있다. 디스플레이 장치(2900)는 입력/출력 인터페이스(2900)를 통해 하나 이상의 스피커들과 연결될 수 있다.
도 13은 본 개시의 일 실시예에 따른 디스플레이 장치가 이용하는 모듈들을 도시한 블록도이다.
도 13의 메모리(2400)는, 도 11 및 도 12의 메모리에 대응될 수 있다.
메모리(2400)는 디스플레이 장치(2000)가 실감형 오디오 콘텐트를 생성하기 위해 동작하도록 하는 하나 이상의 인스트럭션 및 프로그램을 저장할 수 있다. 예를 들어, 메모리(2400)에는 비디오 분석 모듈(2410), 오디오 분석 모듈(2420) 및 실감형 오디오 생성 모듈(2430)이 저장될 수 있다.
디스플레이 장치(2000)는 비디오 분석 모듈(2410)을 이용하여, 비디오 콘텐트에 대한 비디오 분석을 수행할 수 있다. 디스플레이 장치(2000)는 알려진 다양한 비디오 분석 알고리즘을 이용하여, 제1 오디오 콘텐트를 제2 오디오 콘텐트로 변경하기 위한 다양한 데이터들을 획득할 수 있다. 디스플레이 장치(2000)는 비디오 분석을 수행하기 위해, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘을 이용하거나, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘의 변형을 통해 구현된 인공지능 모델을 이용할 수 있다.
예를 들어, 디스플레이 장치(2000)는 비디오 콘텐트에 포함되는 장면들에 대해서, 하나 이상의 객체들을 검출 및 인식할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 콘텐트의 장면의 카테고리를 분류할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 내 사람의 스켈레톤을 검출하고, 검출된 스켈레톤에 기초하여 사람의 액션을 분류할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 내 사람의 얼굴을 검출 및 인식할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 비디오 내 2차원/3차원 거리 정보(예를 들어, 깊이 정보)를 추출할 수 있다.
디스플레이 장치(2000)는 비디오 분석 모듈(2410)을 이용하여, 비디오 콘텐트에 대한 비디오 메타데이터 분석을 수행할 수 있다. 비디오 메타데이터는 미리 정의된 데이터 요소들을 포함하는 데이터 포맷으로 구성될 수 있으나, 이에 한정되는 것은 아니다. 비디오 메타데이터는 예를 들어, 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 디스플레이 장치(2000)가 비디오 콘텐트를 획득할 때 비디오 콘텐트에 대응되는 비디오 메타데이터가 함께 획득될 수 있다. 일 실시예에서, 비디오 메타데이터는 디스플레이 장치(2000)에 의해 생성될 수 있다. 디스플레이 장치(2000)는 전술한 비디오 분석 결과에 기초하여 비디오 메타데이터를 생성 및 업데이트할 수 있다.
디스플레이 장치(2000)는 오디오 분석 모듈(2420)을 이용하여, 제1 오디오 콘텐트에 대한 오디오 분석을 수행할 수 있다. 디스플레이 장치(2000)는 알려진 다양한 오디오 분석 알고리즘을 이용하여, 제1 오디오 콘텐트를 제2 오디오 콘텐트로 변경하기 위한 다양한 데이터들을 획득할 수 있다. 디스플레이 장치(2000)는 오디오 분석을 수행하기 위해, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘을 이용하거나, 알려진 다양한 심층 신경망 아키텍처 및 알고리즘의 변형을 통해 구현된 인공지능 모델을 이용할 수 있다.
예를 들어, 디스플레이 장치(2000)는 제1 오디오 콘텐트에 포함되는 사운드 이벤트들을 식별할 수 있다. 디스플레이 장치(2000)는 제1 오디오 콘텐트 내에서, 사운드의 등장 및 사라짐 시간, 사운드 크기를 식별할 수 있다. 추가적으로 또는 대안적으로, 디스플레이 장치(2000)는 사운드에 대응하는 이벤트를 분류할 수 있다.
디스플레이 장치(2000)는 오디오 분석 모듈을 이용하여, 제1 오디오 콘텐트에 대한 오디오 메타데이터 분석을 수행할 수 있다. 오디오 콘텐트의 오디오 메타데이터는, 미리 정의된 데이터 요소들을 포함하는 데이터 포맷으로 구성될 수 있으나, 이에 한정되는 것은 아니다. 오디오 메타데이터는 예를 들어, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시예에서, 디스플레이 장치(2000)가 제1 오디오 콘텐트를 획득할 때 제1 오디오 콘텐트에 대응되는 오디오 메타데이터가 함께 획득될 수 있다. 일 실시예에서, 디스플레이 장치(2000)는 오디오 분석 결과에 기초하여 오디오 메타데이터를 보완 및 업데이트할 수 있다.
비디오 분석 모듈(2410) 및 오디오 분석 모듈(2420)의 데이터 처리 결과는, 실감형 오디오 생성 모듈(2430)로 전달되어 처리될 수 있다.
일 실시예에서, 디스플레이 장치(2000)는 실감형 오디오 생성 모듈(2430)을 이용하여, 비디오 콘텐트의 메타데이터, 제1 오디오 콘텐트의 메타데이터 및 공간 정보 중 적어도 하나에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써 실감형 오디오인 제2 오디오 콘텐트를 생성할 수 있다.
디스플레이 장치(2000)는 비디오 콘텐트의 메타데이터 및 제1 오디오 콘텐트의 메타데이터에 기초하여, 실감형 오디오인 제2 오디오 콘텐트를 렌더링할 수 있다. 예를 들어, 디스플레이 장치(2000)는, 비디오 콘텐트의 메타데이터(예를 들어, 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 등) 및 제1 오디오 콘텐트의 메타데이터(예를 들어, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 등)에 기초하여, 비디오 콘텐트의 가상 공간 내 존재하는 객체들에 제1 오디오 콘텐트를 맵핑할 수 있다. 디스플레이 장치(2000)는 비디오 콘텐트의 가상 공간 내 존재하는 객체들의 배치, 거리 및 방향에 기초하여, 가상 공간 내에서 발생하는 사운드의 출력 크기, 출력 방향, 출력 위치 등을 렌더링할 수 있다. 실감형 오디오 생성 모듈(2430) 동작은 전술한 도면들에 대한 설명에서 이미 서술하였으므로, 반복되는 설명은 간결함을 위해 생략한다.
한편, 전술한 메모리(2400)에 저장되어 실행되는 모듈들은, 설명의 편의를 위한 것이며 반드시 이에 한정되는 것은 아니다. 전술한 실시예들을 구현하기 위해 다른 모듈이 추가될 수 있으며, 하나의 모듈이 세부적인 기능들에 따라 구별되는 복수의 모듈들로 분할될 수 있고, 전술한 모듈들 중 일부의 모듈들이 합쳐져 하나의 모듈로 구현될 수도 있다.
본 개시는, 사용자에게 가상 환경을 체험할 수 있는 콘텐츠를 제공하기 위해, 사용자의 공간에 맞춤형으로 변경된 실감형 오디오를 생성하는 방법을 제시한다. 본 개시에서 이루고자 하는 기술적 과제는, 이상에서 언급한 것으로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 본 명세서의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 측면에 따르면, 디스플레이 장치가 콘텐트를 제공하는 방법이 제공될 수 있다.
상기 방법은, 가상 공간을 나타내는 비디오 콘텐트를 획득하는 단계를 포함할 수 있다.
상기 방법은, 상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득하는 단계를 포함할 수 있다.
상기 방법은, 사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득하는 단계를 포함할 수 있다.
상기 방법은, 상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써 제2 오디오 콘텐트를 생성하는 단계를 포함할 수 있다.
상기 제2 오디오 콘텐트는 공간 맞춤형 오디오 콘텐트일 수 있다.
상기 방법은, 상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계를 포함할 수 있다.
상기 방법은, 상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계를 포함할 수 있다.
상기 방법은, 상기 비디오 콘텐트가 상기 디스플레이 장치의 화면에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력하는 단계를 포함할 수 있다.
상기 제1 오디오 콘텐트의 메타데이터는, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함할 수 있다.
상기 비디오 콘텐트의 메타데이터는, 상기 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함할 수 있다.
상기 공간 정보는, 상기 공간의 3차원 공간 레이아웃, 공간 내 객체 및 공간 내 베이스트랩(bass trap), 사운드 흡수재(sound absorber), 사운드 분산재(sound diffuser)와 관련된 정보 중 적어도 하나를 포함할 수 있다.
상기 방법은, 상기 제1 오디오 콘텐트의 메타데이터의 존재 여부를 식별하는 단계를 포함할 수 있다.
상기 방법은, 상기 제1 오디오 콘텐트의 메타데이터가 존재하지 않는 것에 기초하여, 상기 제1 오디오 콘텐트의 메타데이터를 생성하는 단계를 포함할 수 있다.
상기 제1 오디오 콘텐트의 메타데이터를 생성하는 단계는, 상기 비디오 콘텐트, 상기 비디오 콘텐트의 메타데이터 및 상기 제1 오디오 콘텐트 중 적어도 하나에 기초하여 상기 제1 오디오 콘텐트의 메타데이터를 생성하는 것일 수 있다.
상기 제2 오디오 콘텐트를 생성하는 단계는, 상기 비디오 콘텐트의 메타데이터 및 상기 제1 오디오 콘텐트의 메타데이터에 기초하여, 상기 제1 오디오 콘텐트를 가상 공간에 맵핑하는 단계를 포함할 수 있다.
상기 제2 오디오 콘텐트를 생성하는 단계는, 상기 공간 정보에 기초하여, 상기 가상 공간 내 사용자의 캐릭터 위치에서 상기 사용자의 캐릭터에게 들리는 상기 제1 오디오 콘텐트를 상기 사용자 공간 내에서 사용자의 위치에서 사용자에게 들리는 상기 제2 오디오 콘텐트로 변경하는 단계를 포함할 수 있다.
상기 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계는, 하나 이상의 마이크를 이용하여 상기 하나 이상의 스피커들로부터 테스트 사운드를 수신하는 단계를 포함할 수 있다.
상기 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계는, 상기 테스트 사운드에 기초하여 상기 하나 이상의 스피커들의 위치를 결정하는 단계를 포함할 수 있다.
상기 방법은, 하나 이상의 센서를 이용하여 상기 디스플레이 장치의 사용자의 위치를 식별하는 단계를 포함할 수 있다.
상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계는, 상기 사용자의 위치에 더 기초하여 상기 하나 이상의 스피커들의 출력 설정을 결정하는 것일 수 있다.
상기 사용자의 위치를 식별하는 단계는, 실시간으로 상기 사용자의 위치를 식별하는 것일 수 있다.
상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계는, 상기 사용자의 위치가 실시간으로 변경됨에 따라 상기 하나 이상의 스피커들의 출력 설정이 변경되는 것일 수 있다.
본 개시의 일 측면에 따르면, 디스플레이 장치가 제공될 수 있다.
상기 디스플레이 장치는, 통신 인터페이스; 디스플레이; 하나 이상의 인스트럭션들을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 가상 공간을 나타내는 비디오 콘텐트를 획득할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써 상기 공간 정보에 따라 상기 사용자 공간에 최적화된 사운드로 변환된 공간 맞춤형 오디오 콘텐트인 제2 오디오 콘텐트를 생성할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트가 상기 디스플레이 장치의 상기 디스플레이에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력할 수 있다.
상기 제1 오디오 콘텐트의 메타데이터는, 사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함하는 것일 수 있다.
상기 비디오 콘텐트의 메타데이터는, 상기 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함하는 것일 수 있다.
상기 공간 정보는, 상기 공간의 3차원 공간 레이아웃, 공간 내 객체 및 공간 내 베이스트랩(bass trap), 사운드 흡수재(sound absorber), 사운드 분산재(sound diffuser)와 관련된 정보 중 적어도 하나를 포함하는 것일 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제1 오디오 콘텐트의 메타데이터의 존재 여부를 식별할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 제1 오디오 콘텐트의 메타데이터가 존재하지 않는 것에 기초하여, 상기 제1 오디오 콘텐트의 메타데이터를 생성할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 비디오 콘텐트의 메타데이터 및 상기 제1 오디오 콘텐트의 메타데이터에 기초하여, 상기 제1 오디오 콘텐트를 가상 공간에 맵핑할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 공간 정보에 기초하여, 상기 가상 공간 내 사용자의 캐릭터 위치에서 상기 사용자의 캐릭터에게 들리는 상기 제1 오디오 콘텐트를 상기 사용자 공간 내에서 사용자의 위치에서 사용자에게 들리는 상기 제2 오디오 콘텐트로 변경할 수 있다.
상기 디스플레이 장치는, 하나 이상의 마이크를 포함할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 하나 이상의 마이크를 이용하여 상기 하나 이상의 스피커들로부터 테스트 사운드를 수신할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 테스트 사운드에 기초하여 상기 하나 이상의 스피커들의 위치를 결정할 수 있다.
상기 디스플레이 장치는, 하나 이상의 카메라를 포함할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 하나 이상의 센서를 이용하여 상기 디스플레이 장치의 사용자의 위치를 식별할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 사용자의 위치에 기초하여 상기 하나 이상의 스피커들의 출력 설정을 결정할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 실시간으로 상기 사용자의 위치를 식별할 수 있다.
상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 사용자의 위치가 실시간으로 변경됨에 따라 상기 하나 이상의 스피커들의 출력 설정을 변경할 수 있다.
한편, 본 개시의 실시예들은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 또는 프로그램 모듈과 같은 변조된 데이터 신호의 기타 데이터를 포함할 수 있다.
또한, 컴퓨터에 의해 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.

Claims (15)

  1. 디스플레이 장치가 콘텐트를 제공하는 방법에 있어서,
    가상 공간을 나타내는 비디오 콘텐트를 획득하는 단계(S210);
    상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득하는 단계(S220);
    사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득하는 단계(S230);
    상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써 제2 오디오 콘텐트를 생성하되, 상기 제2 오디오 콘텐트는 상기 공간 정보에 따라 상기 사용자 공간에 최적화된 사운드로 변환된 공간 맞춤형 오디오 콘텐트인, 단계(S240);
    상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계(S250);
    상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계(S260); 및
    상기 비디오 콘텐트가 상기 디스플레이 장치의 화면에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력하는 단계(S270)를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 제1 오디오 콘텐트의 메타데이터는,
    사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함하는 것인, 방법.
  3. 제2항에 있어서,
    상기 비디오 콘텐트의 메타데이터는,
    상기 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함하는 것인, 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 제2 오디오 콘텐트를 생성하는 단계는,
    상기 비디오 콘텐트의 메타데이터 및 상기 제1 오디오 콘텐트의 메타데이터에 기초하여, 상기 제1 오디오 콘텐트를 가상 공간에 맵핑하는 단계; 및
    상기 공간 정보에 기초하여, 상기 가상 공간 내 사용자의 캐릭터 위치에서 상기 사용자의 캐릭터에게 들리는 상기 제1 오디오 콘텐트를 상기 사용자 공간 내에서 사용자의 위치에서 사용자에게 들리는 상기 제2 오디오 콘텐트로 변경하는 단계를 포함하는, 방법.
  5. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하는 단계는,
    하나 이상의 마이크를 이용하여 상기 하나 이상의 스피커들로부터 테스트 사운드를 수신하는 단계; 및
    상기 테스트 사운드에 기초하여 상기 하나 이상의 스피커들의 위치를 결정하는 단계를 포함하는, 방법.
  6. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 방법은,
    하나 이상의 센서를 이용하여 상기 디스플레이 장치의 사용자의 위치를 식별하는 단계를 더 포함하고,
    상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계는,
    상기 사용자의 위치에 더 기초하여 상기 하나 이상의 스피커들의 출력 설정을 결정하는 것인, 방법.
  7. 제6항에 있어서,
    상기 사용자의 위치를 식별하는 단계는,
    실시간으로 상기 사용자의 위치를 식별하는 것이고,
    상기 하나 이상의 스피커들의 출력 설정을 결정하는 단계는,
    상기 사용자의 위치가 실시간으로 변경됨에 따라 상기 하나 이상의 스피커들의 출력 설정이 변경되는 것인, 방법.
  8. 디스플레이 장치(2000)에 있어서,
    통신 인터페이스(2100);
    디스플레이(2200);
    하나 이상의 인스트럭션들을 저장하는 메모리(2400); 및
    상기 메모리(2400)에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서(2500)를 포함하고,
    상기 적어도 하나의 프로세서(2500)는 상기 하나 이상의 인스트럭션을 실행함으로써,
    가상 공간을 나타내는 비디오 콘텐트를 획득하고,
    상기 비디오 콘텐트에 대응하는 제1 오디오 콘텐트를 획득하고,
    사용자 공간의 오디오와 관련된 특징을 나타내는 공간 정보를 획득하고,
    상기 비디오 콘텐트의 메타데이터, 상기 제1 오디오 콘텐트의 메타데이터 및 상기 공간 정보에 기초하여 상기 제1 오디오 콘텐트를 변환함으로써 제2 오디오 콘텐트를 생성하되, 상기 제2 오디오 콘텐트는 상기 공간 정보에 따라 상기 사용자 공간에 최적화된 사운드로 변환된 공간 맞춤형 오디오 콘텐트이고,
    상기 디스플레이 장치와 연결된 하나 이상의 스피커들의 위치 또는 사양 중 적어도 하나를 획득하고,
    상기 하나 이상의 스피커들의 위치 또는 상기 하나 이상의 스피커들의 사양 중 적어도 하나 및 상기 공간 정보에 기초하여, 상기 제2 오디오 콘텐트에 대한 상기 하나 이상의 스피커들의 출력 설정을 결정하고,
    상기 비디오 콘텐트가 상기 디스플레이 장치의 상기 디스플레이에 표시되는 동안, 상기 출력 설정에 기초하여 상기 제2 오디오 콘텐트를 출력하는, 디스플레이 장치.
  9. 제8항에 있어서,
    상기 제1 오디오 콘텐트의 메타데이터는,
    사운드 등장/사라짐 시간, 사운드 크기, 가상 공간 상의 객체 위치, 객체 위치 이동 궤적, 객체의 종류 및 객체에 대응하는 사운드 중 적어도 하나를 포함하는 것인, 디스플레이 장치.
  10. 제9항에 있어서,
    상기 비디오 콘텐트의 메타데이터는,
    상기 비디오 콘텐트 내 존재하는 객체의 종류, 사운드 발생 위치, 객체 이동 궤적, 장소, 시간대 중 적어도 하나를 포함하는 것인, 디스플레이 장치.
  11. 제8항 내지 제10항 중 어느 한 항에 있어서,
    상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 비디오 콘텐트의 메타데이터 및 상기 제1 오디오 콘텐트의 메타데이터에 기초하여, 상기 제1 오디오 콘텐트를 가상 공간에 맵핑하고,
    상기 공간 정보에 기초하여, 상기 가상 공간 내 사용자의 캐릭터 위치에서 상기 사용자의 캐릭터에게 들리는 상기 제1 오디오 콘텐트를 상기 사용자 공간 내에서 사용자의 위치에서 사용자에게 들리는 상기 제2 오디오 콘텐트로 변경하는, 디스플레이 장치.
  12. 제8항 내지 제10항 중 어느 한 항에 있어서,
    상기 디스플레이 장치는,
    하나 이상의 마이크를 더 포함하고,
    상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 하나 이상의 마이크를 이용하여 상기 하나 이상의 스피커들로부터 테스트 사운드를 수신하고,
    상기 테스트 사운드에 기초하여 상기 하나 이상의 스피커들의 위치를 결정하는, 디스플레이 장치.
  13. 제8항 내지 제12항 중 어느 한 항에 있어서,
    상기 디스플레이 장치는,
    하나 이상의 카메라를 더 포함하고,
    상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    하나 이상의 센서를 이용하여 상기 디스플레이 장치의 사용자의 위치를 식별하고,
    상기 사용자의 위치에 더 기초하여 상기 하나 이상의 스피커들의 출력 설정을 결정하는, 디스플레이 장치.
  14. 제13항에 있어서,
    상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    실시간으로 상기 사용자의 위치를 식별하고,
    상기 사용자의 위치가 실시간으로 변경됨에 따라 상기 하나 이상의 스피커들의 출력 설정을 변경하는, 디스플레이 장치.
  15. 제1항 내지 제7항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2023/013579 2022-10-18 2023-09-11 콘텐트를 제공하는 방법 및 디스플레이 장치 WO2024085444A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220134466 2022-10-18
KR10-2022-0134466 2022-10-18
KR1020230009540A KR20240054139A (ko) 2022-10-18 2023-01-25 콘텐트를 제공하는 방법 및 디스플레이 장치
KR10-2023-0009540 2023-01-25

Publications (1)

Publication Number Publication Date
WO2024085444A1 true WO2024085444A1 (ko) 2024-04-25

Family

ID=90737798

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/013579 WO2024085444A1 (ko) 2022-10-18 2023-09-11 콘텐트를 제공하는 방법 및 디스플레이 장치

Country Status (1)

Country Link
WO (1) WO2024085444A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005094271A (ja) * 2003-09-16 2005-04-07 Nippon Hoso Kyokai <Nhk> 仮想空間音響再生プログラムおよび仮想空間音響再生装置
JP2006148880A (ja) * 2004-10-20 2006-06-08 Matsushita Electric Ind Co Ltd マルチチャネル音声再生装置、およびマルチチャネル音声調整方法
JP2014090251A (ja) * 2012-10-29 2014-05-15 Nintendo Co Ltd 情報処理システム、情報処理プログラム、情報処理制御方法、および情報処理装置
US20210209855A1 (en) * 2018-05-23 2021-07-08 Koninklijke Kpn N.V. Adapting Acoustic Rendering to Image-Based Object
KR102398850B1 (ko) * 2020-11-23 2022-05-17 제이씨스퀘어 (주) 증강현실 및 가상현실에서의 입체 음향효과를 구현하는 사운드제어시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005094271A (ja) * 2003-09-16 2005-04-07 Nippon Hoso Kyokai <Nhk> 仮想空間音響再生プログラムおよび仮想空間音響再生装置
JP2006148880A (ja) * 2004-10-20 2006-06-08 Matsushita Electric Ind Co Ltd マルチチャネル音声再生装置、およびマルチチャネル音声調整方法
JP2014090251A (ja) * 2012-10-29 2014-05-15 Nintendo Co Ltd 情報処理システム、情報処理プログラム、情報処理制御方法、および情報処理装置
US20210209855A1 (en) * 2018-05-23 2021-07-08 Koninklijke Kpn N.V. Adapting Acoustic Rendering to Image-Based Object
KR102398850B1 (ko) * 2020-11-23 2022-05-17 제이씨스퀘어 (주) 증강현실 및 가상현실에서의 입체 음향효과를 구현하는 사운드제어시스템

Similar Documents

Publication Publication Date Title
WO2019050317A1 (ko) 이어폰을 통한 어플리케이션별 오디오 출력 제어 방법 및 이를 구현한 전자 장치
WO2020184842A1 (ko) 전자 장치 및 전자 장치의 제어 방법
WO2020091183A1 (ko) 사용자 특화 음성 명령어를 공유하기 위한 전자 장치 및 그 제어 방법
WO2019103471A1 (en) Method of providing vibration and electronic device for supporting same
WO2021133053A1 (ko) 전자 장치 및 그의 제어 방법
WO2019107719A1 (ko) 360 비디오에서 화자의 음성을 시각적으로 표시하기 위한 장치 및 방법
WO2021125784A1 (ko) 전자장치 및 그 제어방법
WO2024085444A1 (ko) 콘텐트를 제공하는 방법 및 디스플레이 장치
WO2021118229A1 (en) Information providing method and electronic device for supporting the same
WO2021040201A1 (ko) 전자 장치 및 이의 제어 방법
WO2019083125A1 (en) AUDIO SIGNAL PROCESSING METHOD AND ELECTRONIC DEVICE FOR SUPPORTING IT
WO2020153818A1 (en) Method of controlling external electronic device and electronic device for supporting same
WO2020091182A1 (ko) 증강 현실을 이용한 영상 데이터를 제공하는 전자 장치 및 그 제어 방법
WO2022102945A1 (ko) 전자장치 및 그 제어방법
WO2020231243A1 (en) Electronic device and method of controlling thereof
WO2021080154A1 (ko) 전자 장치 및 그 제어 방법
WO2020080667A1 (ko) 전자기 검출 회로를 포함하는 전자 장치 및 상기 전자 장치를 이용한 외부 전자 장치 제어 방법
WO2020080829A1 (en) Electronic device including a plurality of speakers
WO2020075998A1 (ko) 전자 장치 및 그 제어 방법
WO2020145536A1 (ko) Em 신호의 특징을 등록하여 외부 장치를 식별하는 방법 및 상기 방법을 적용한 전자 장치
WO2024043502A1 (ko) 전자 장치 및 이의 제어 방법
WO2019198913A1 (ko) 전자 장치 및 그 제어 방법
WO2023058848A1 (ko) 전자 장치 및 그 제어 방법
WO2024076015A1 (ko) 전자 장치 및 그 제어 방법
WO2024053851A1 (ko) 전자 장치 및 이의 제어 방법