WO2019049409A1 - 音声信号処理装置および音声信号処理システム - Google Patents

音声信号処理装置および音声信号処理システム Download PDF

Info

Publication number
WO2019049409A1
WO2019049409A1 PCT/JP2018/014536 JP2018014536W WO2019049409A1 WO 2019049409 A1 WO2019049409 A1 WO 2019049409A1 JP 2018014536 W JP2018014536 W JP 2018014536W WO 2019049409 A1 WO2019049409 A1 WO 2019049409A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
signal output
output unit
unit
rendering
Prior art date
Application number
PCT/JP2018/014536
Other languages
English (en)
French (fr)
Inventor
健明 末永
永雄 服部
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Priority to US16/645,455 priority Critical patent/US20200280815A1/en
Priority to JP2019540753A priority patent/JPWO2019049409A1/ja
Publication of WO2019049409A1 publication Critical patent/WO2019049409A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present invention relates to an audio signal processing device and an audio signal processing system.
  • multi-channel audio surround audio
  • disc media such as DVD (Digital Versatile Disc) and BD (Blu-ray (registered trademark) Disc)
  • BD Blu-ray (registered trademark) Disc
  • 22.2ch audio is adopted as next-generation broadcasting standard
  • Patent Document 1 various multi-channeling techniques have been studied, and a technique for multi-channelizing based on the correlation between each channel of stereo signals is disclosed in Patent Document 1.
  • Non-Patent Document 1 a method of reproducing multi-channel sound image localization with a small number of speakers has also been studied.
  • the audio reproduction system that reproduces 5.1 ch audio can enjoy the sense of localization by the front, rear, left and right of the sound image and the sense of encasing by the sound by arranging the speakers based on the placement standard recommended by the ITU.
  • the viewable (listening) area where a multi-channel effect can be enjoyed that is, a sweet spot is ideally limited to one point, and it is difficult for all viewers to obtain the same effect at the time of multi-person viewing.
  • the viewer outside the sweet spot may experience an effect different from the effect originally obtained by the sweet spot, for example, the sound to be localized to the left of the viewer may be localized to the right.
  • an aspect of the present invention is to provide an audio signal processing device and an audio signal processing system capable of providing a high quality sound field to a user.
  • the audio signal processing device is a multi-channel audio signal processing device, and it is determined whether or not the input audio signal is an audio signal to be sound image localized.
  • a sound image localization information acquiring unit for acquiring information indicating the information
  • a first sound signal output unit for rendering the input sound signal and not moving the position of the listening area during listening, and the position of the listening area Among the second audio signal output units that can be moved to, a rendering unit that outputs to one or more audio signal output units according to the above information.
  • another audio signal processing device is a multi-channel audio signal processing device, and a position information acquisition unit that acquires position information of a listener Of the first audio signal output unit that does not move during listening to the position of the listening area by rendering the input audio signal, and the second audio signal output unit that can move during listening to the position of the listening area And a rendering unit configured to output one or more audio signal output units according to the position information.
  • an audio signal processing system is a multi-channel audio signal processing system, wherein the first audio signal does not move during listening to the position of the audible area.
  • An output unit, a second audio signal output unit capable of moving while listening to the position of the listening area, and sound image localization information for acquiring information indicating whether the input audio signal is an audio signal to be sound image localized or not An acquisition unit, a first audio signal output unit that does not move during listening to the position of the audible area by rendering the input audio signal, and a second audio signal output unit that can move during the listening time the position of the audible area And a rendering unit for outputting to one or more audio signal output units according to the above information.
  • another audio signal processing system is a multi-channel audio signal processing system, which does not move during listening to the position of the audible area.
  • An audio signal output unit a second audio signal output unit capable of moving while listening to the position of the listening area, a position information acquisition unit for acquiring position information of a listener, and rendering of the input audio signal, One or more of the first audio signal output unit that does not move during listening to the position of the listening area and the second audio signal output unit that can move during listening to the position of the listening area according to the position information.
  • a rendering unit for outputting to the audio signal output unit.
  • a high quality sound field can be provided to the user.
  • FIG. 1 is a block diagram showing the main configuration of an audio signal processing system according to an embodiment of the present invention. It is the figure which showed notionally the structure of the track
  • Embodiment 1 Hereinafter, an embodiment of the present invention will be described with reference to FIGS. 1 to 5.
  • FIG. 1 is a block diagram showing the main configuration of the audio signal processing system 1 according to the first embodiment.
  • the audio signal processing system 1 according to the first embodiment includes a first audio signal output unit 106 and a second audio signal output unit 107, and an audio signal processing unit 10 (audio signal processing device).
  • the first audio signal output unit 106 and the second audio signal output unit 107 both obtain the audio signal reconstructed by the audio signal processing unit 10 and reproduce the audio.
  • the first audio signal output unit 106 (stationary speaker) is constituted by a plurality of independent speakers, and each speaker is constituted by a speaker unit and an amplifier for driving the speaker unit.
  • the first audio signal output unit 106 is an audio signal output device of a type that does not move during listening to the position of the listening area.
  • the audio signal output device of the type which does not move during listening to the position of the audible area is intended for the device used without moving the audible area during listening.
  • the audio signal output device may be capable of moving the position of the audible area (movable).
  • the audio signal output device may not be able to move the position of the listening area even when not listening.
  • a second audio signal output unit 107 (a speaker for a listener), an open headphone or an earphone, and an amplifier for driving the same.
  • the second audio signal output unit 107 is an audio signal output device of a type capable of moving the position of the listening area during listening.
  • An audio signal output device of the type that can be moved while listening to the position of the audible area is intended a device that can move the position of the audible area even during listening.
  • the audio signal output device may be a portable audio signal output device in which the audio signal output device itself moves with the user during listening and the position of the audible area moves accordingly.
  • the audio signal output device may be an audio signal output device having a function of moving the position of the audible area without moving the audio signal output device itself during the listening.
  • the second audio signal output unit 107 may be provided with a position information transmitting device, and the position information may be acquired.
  • the position information may be acquired by utilizing beacons installed at arbitrary places in the viewing environment and the beacon attached to the second audio signal output unit 107.
  • the first audio signal output unit 106 and the second audio signal output unit 107 are not limited to the above combination.
  • the first audio signal output unit 106 may be a monaural speaker or a surround speaker set such as 5.1ch.
  • the second audio signal output unit 107 may be a portable terminal represented by a small speaker or a smartphone, a tablet, or the like located at the user's hand.
  • the number of audio signal output units to be connected is not limited to two, and may be more.
  • the audio signal processing unit 10 is a multi-channel audio signal processing apparatus, and reconstructs the input audio signal, and the reconstructed audio signal is transmitted to the first audio signal output unit 106 and the second audio signal output unit 107. Output.
  • the audio signal processing unit 10 includes a content analysis unit 101 (analysis unit), a viewer position information acquisition unit 102 (position information acquisition unit), and an audio signal output unit information acquisition unit 103 (audio signal).
  • An output unit information acquisition unit), an audio signal rendering unit 104 (sound image localization information acquisition unit, rendering unit), and a storage unit 105 are included.
  • the content analysis unit 101 analyzes an audio signal included in video or audio content recorded on a disc medium such as a DVD and a BD, a recording medium such as an HDD (Hard Disc Drive), and metadata associated with the audio signal. Do. Then, the content analysis unit 101 analyzes these to obtain sounding object position information (a type of audio signal (audio track included in audio content) and position information where the audio signal is localized). The acquired sounding object position information is output to the audio signal rendering unit 104.
  • the audio content received by the content analysis unit 101 is audio content including one or more audio tracks.
  • this audio track is roughly classified into the following two types. For example, one of them is a "channel-based" audio track that associates a predetermined speaker position with an audio track, as employed in stereo (2ch) and 5.1ch. On the other hand, there is an "object-based” audio track in which each sounding object unit is one track, and additional information describing the positional / volume change is added.
  • An audio track based on an object base is recorded on each track in units of individual sounding objects, that is, recorded without mixing, and these sounding objects are appropriately rendered on the player (playing machine) side.
  • each of these pronunciation objects is associated with metadata (accompanying information) as to when, where, and at what volume the sound should be pronounced .
  • the player renders each of the pronunciation objects based on the metadata.
  • the “channel base track” is one that is adopted in conventional surround etc., such as 5.1 ch surround, for example.
  • the channel base track is a track recorded in a state in which individual sounding objects are mixed on the premise that sound is generated from a predetermined reproduction position (arrangement of speakers).
  • the audio track included in one content may include only one of the above two types of audio tracks, or two types of audio tracks may be mixed.
  • FIG. 2 conceptually shows the configuration of track information 201 including sounding object position information obtained by being analyzed by the content analysis unit 101. As shown in FIG.
  • the content analysis unit 101 analyzes all the audio tracks included in the content, and reconstructs the track information 201 shown in FIG.
  • the ID of each audio track and the type of the audio track are recorded.
  • the track information 201 is accompanied by one or more sounding object position information as metadata.
  • the pronunciation object position information is composed of a pair of playback time and sound image position at the playback time.
  • the audio track is a channel-based track
  • a pair of a reproduction time and a sound image position (reproduction position) at the reproduction time is recorded.
  • the playback time is from the start to the end of the content.
  • the sound image position at the reproduction time is based on the reproduction position previously defined in the channel base.
  • the sound image position recorded as part of the sound generation object position information is represented by the coordinate system shown in FIG.
  • the coordinate system used here is centered on the origin O as shown in the top view of (a) in FIG. 3, and the distance from the origin O is indicated by a radius r.
  • the coordinate system is an origin such as shown in the side view of (b) in FIG. 3 with a deflection angle ⁇ where the front of the origin O is 0 ° and the right position and the left position are 90 ° and ⁇ 90 °, respectively.
  • the elevation angle ⁇ is assumed to be 0 ° in front of O and 90 ° just above the origin O.
  • the sound image position and the position of the speaker are described as a polar coordinate (spherical coordinate) system (r, ⁇ , ⁇ ).
  • a polar coordinate sin or a polar coordinate system
  • the sound image position and the position of the speaker use the polar coordinate system of FIG. 3 unless otherwise noted.
  • the track information 201 is described in, for example, a markup language such as XML (Extensible Markup Language).
  • the track information may contain other information.
  • the viewer position information acquisition unit 102 acquires position information of the user viewing the content.
  • a content such as a DVD is viewed. Therefore, the user views the content.
  • the feature of the present invention resides in audio signal processing, and from this point of view, the user may be at least a person who listens to content (listener).
  • the viewer position information is acquired and updated in real time.
  • one or more cameras (shooting apparatuses) (not shown) connected to the viewer position information acquisition unit 102 installed at an arbitrary position in the viewing environment (for example, the ceiling of a room)
  • the viewer position information acquisition unit 102 acquires the two-dimensional or three-dimensional position of the viewer based on the shooting data of the camera, and updates the viewer position information.
  • the marker may be attached to the user or may be attached to the user's attachment, for example, the second audio signal output unit 107.
  • the viewer position may be acquired using face recognition from the position information of the viewer obtained from shooting data of the camera (shooting device) installed in the same manner. .
  • the position information transmitting device may be attached to the second audio signal output unit 107, and the position information may be acquired.
  • position information may be acquired by utilizing beacons installed at arbitrary positions in the viewing environment and beacons attached to the second audio signal output unit 107.
  • information may be input in real time through an information input terminal such as a tablet terminal.
  • the audio signal output unit information acquisition unit 103 includes information of the first audio signal output unit 106 and the second audio signal output unit 107 connected to the audio signal processing unit 10 (hereinafter, these are collectively referred to as “information of audio signal output unit May be described as
  • “information of audio signal output unit” indicates type information and information on details of the configuration of the audio signal output unit.
  • the type information is information indicating which one of a stationary audio output unit (audio output device) such as a speaker and a wearable audio output unit (audio output device) such as headphones and earphones.
  • the information on the details of the configuration of the audio signal output unit is, for example, information indicating the number of used speakers if it is a speaker, and information indicating whether it is an open type or a closed type if it is headphones or earphones.
  • the open type refers to a type of headphones or earphones configured such that the external ear canal and eardrum are not blocked from the outside by the components of the headphones or earphones, and the external sound is heard by the wearer of the headphones or earphones.
  • the closed type refers to a headphone or earphone in which the external ear canal and the tympanic membrane are blocked from the outside by the components of the headphone or the earphone, and the external sound is not or hardly heard by the wearer of the headphone or the earphone.
  • the second audio signal output unit 107 is an open type headphone or earphone configured such that an external sound is heard by a wearer of the headphone or earphone as described above.
  • the closed microphone can be used if the ambient sound can be picked up by the built-in microphone and can be made to be heard by the wearer in combination with the sound output from the headphones or earphones. It is also possible to employ headphones or earphones.
  • the audio signal output unit information acquisition unit 103 acquires such information through wired communication or wireless communication such as Bluetooth (registered trademark) and Wi-Fi (registered trademark).
  • the information may be automatically transmitted from the first audio signal output unit 106 and the second audio signal output unit 107 to the audio signal output unit information acquisition unit 103. Also, when the audio signal output unit information acquisition unit 103 acquires these pieces of information from the first audio signal output unit 106 and the second audio signal output unit 107, first, the first audio signal output unit 106 and the second audio signal The output unit 107 may have a path instructing transmission of information.
  • the audio signal output unit information acquisition unit 103 may acquire the position information of each audio signal output unit and the acoustic characteristic information of each audio signal output unit. Further, the audio signal output unit information acquisition unit 103 may provide the audio characteristic information to the audio signal rendering unit 104, and the audio signal rendering unit 104 may perform the sound quality adjustment.
  • Audio signal rendering unit 104 Based on the input audio signal and the various information from the connected content analysis unit 101, the viewer position information acquisition unit 102, the audio signal output unit information acquisition unit 103 and the storage unit 105, An audio signal to be output to the one audio signal output unit 106 and the second audio signal output unit 107 is constructed.
  • FIG. 4 shows a flow S1 of the rendering process performed by the audio signal rendering unit 104.
  • the rendering process will be described using FIG. 4 and FIG. 5 which is a top view schematically showing the user position.
  • the audio signal rendering unit 104 uses the storage unit 105 as a basic rendering method (hereinafter referred to as rendering method A). Acquire the range in which the effect of the audio signal output by (a) can be enjoyed, that is, the effective range 401 of the rendering method A (audible area, preset audible area) (sometimes referred to as sweet spot) (Step S102). Furthermore, at this stage, the audio signal rendering unit 104 acquires the information of the first audio signal output unit 106 and the second audio signal output unit 107 from the audio signal output unit information acquisition unit 103.
  • rendering method A Acquire the range in which the effect of the audio signal output by (a) can be enjoyed, that is, the effective range 401 of the rendering method A (audible area, preset audible area) (sometimes referred to as sweet spot)
  • the audio signal rendering unit 104 acquires the information of the first audio signal output unit 106 and the second audio signal output unit 107 from the audio signal output unit information acquisition unit 103.
  • step S103 it is checked whether or not the process has been performed for all the input audio tracks (step S103), and if the processes after step S104 have been completed for all the tracks (YES in step S103), the process ends. (Step S112). On the other hand, if there is an unprocessed input audio track (NO in step S103), the audio signal rendering unit 104 acquires the viewing position information of the viewer (user) from the viewer position information acquiring unit 102.
  • the audio signal rendering unit 104 stores the storage unit 105.
  • the parameters necessary for rendering the audio signal are read out using the rendering method A from the above (step S106).
  • the audio signal rendering unit 104 performs audio rendering using the rendering method A, and outputs the rendered audio signal to the first audio signal output unit 106 (step S107).
  • the first audio signal output unit 106 is a stationary speaker, and the two speakers 402 disposed on the front of the user as shown in (a) of FIG. 5. And 403. That is, rendering method A is transaural processing using these two speakers. In this case, no sound is output from the second sound signal output unit 107.
  • the audio signal rendering unit 104 determines whether the input audio track is an audio track for sound image localization. Is determined (step S105).
  • the audio track to be sound image localized is an object-based track in the track information 201 shown in FIG. If the input audio track is an audio track to be sound image localized (YES in step S105), parameters necessary for rendering an audio signal are read from the storage unit 105 using the rendering method B (step S108).
  • the audio signal rendering unit 104 performs audio rendering using the rendering method B, and outputs the rendered audio signal to the second audio signal output unit 107 (step S109).
  • the second audio signal output unit 107 is an open type headphone or earphone worn by the user
  • the rendering method B is binaural processing using the open type headphone or earphone Shall be In this case, no sound is output from the first sound signal output unit 106 (two speakers 402 and 403).
  • a head-related transfer function (HRTF) to be used may be a fixed value.
  • the HRTF may be updated according to the viewing position of the user, and processing may be added so that the absolute position of the virtual sound image does not move regardless of the viewing position.
  • the audio signal rendering unit 104 uses the storage unit 105 to render the parameters necessary for rendering the audio signal using rendering method C. Read out (step S110). Subsequently, the audio signal rendering unit 104 performs audio rendering using the rendering method C, and outputs the rendered audio signal to the first audio signal output unit 106 (step S111).
  • the first audio signal output unit 106 includes the two speakers 402 and 403 disposed on the front of the user, and the rendering method C is downmixing to stereo audio. The first audio signal output unit 106 regards these two speakers 402 and 403 as a pair of stereo speakers and outputs them. In this case, no sound is output from the second sound signal output unit 107.
  • An audio signal output unit for outputting according to the viewer position, that is, depending on whether the user is positioned within the effective range where the effect of the rendering method A can be enjoyed, by applying the above processing to all the audio tracks.
  • rendering refers to processing for converting an audio signal (input audio signal) included in the content into a signal to be output from at least one of the first audio signal output unit 106 and the second audio signal output unit 107. Say what to do.
  • the audio track that the audio signal rendering unit 104 receives at one time may include all data from the start to the end of the content. However, it goes without saying that the same track may be cut to an arbitrary length of unit time, and the process shown in the flow S1 may be applied repeatedly in this unit. It is possible to cope with
  • rendering methods A to C are an example, and the present invention is not limited to the rendering methods shown in these.
  • the rendering method A is described as rendering by transaural regardless of the type of audio track.
  • a method of changing the rendering method according to the type of the track such as downmixing the channel base track to stereo, rendering the object base track by transaural, etc. may be set as the rendering method A.
  • the storage unit 105 is configured of a secondary storage device for recording various data used in the audio signal rendering unit 104.
  • the storage unit 105 is formed of, for example, a magnetic disk, an optical disk, or a flash memory, and more specifically, an HDD, a solid state drive (SSD), an SD memory card, a BD, a DVD, and the like.
  • the audio signal rendering unit 104 reads data from the storage unit 105 as necessary.
  • various parameter data including coefficients calculated by the audio signal rendering unit 104 can be recorded in the storage unit 105.
  • a suitable rendering method in consideration of both sound image localization and sound spread is automatically selected for each audio track according to the information obtained from the user's viewing position and content. Play audio. As a result, it is possible to deliver to the user an audio with less disruption in the sense of localization and the spread of sound at any viewing position.
  • the audio signal processing unit 10 is a first audio signal output unit. Information is obtained from the audio signal output unit 107 and the second audio signal output unit 107.
  • the audio signal processing unit 10 analyzes the input audio signal and performs rendering based on the information from the first audio signal output unit 106 and the second audio signal output unit 107. That is, the audio signal processing unit 10 performs the above-described series of audio signal processing.
  • the present invention is not limited to this.
  • the first audio signal output unit 106 and the second audio signal output unit 107 detect the own position, and analyze the audio signal to be output from the information indicating the detected own position and the input audio signal, It may be rendered and output.
  • the audio signal processing operation of the audio signal processing unit 10 described in the first embodiment may be divided into the first audio signal output unit 106 and the second audio signal output unit 107.
  • FIG. 6 is a block diagram showing the main configuration of the audio signal processing system 1a according to the second embodiment of the present invention.
  • the difference between the first embodiment and the second embodiment described above lies in the method of acquiring information of the audio output unit acquired by the audio signal output unit information acquiring unit.
  • the method of providing the information of the audio output unit to the audio signal output unit information acquisition unit is different between the first embodiment and the second embodiment described above.
  • the second embodiment is different from the first embodiment in that an information input unit 602 configured outside the processing unit 10a is provided.
  • the audio signal processing unit 10a is an audio signal processing device that reconstructs an input audio signal and reproduces it using two or more audio signal output devices of different types.
  • the audio signal processing unit 10a analyzes an audio signal included in video content or audio content recorded in disc media such as DVD and BD, HDD, etc., and metadata attached thereto.
  • the content analysis unit 101 for obtaining the type of the audio signal contained and the positional information for localizing the audio signal.
  • the audio signal processing unit 10a includes a viewer position information acquisition unit 102 that acquires position information of a viewer who views the content.
  • the audio signal processing unit 10a acquires an audio signal output from the storage unit 105 for acquiring information of the external first audio signal output unit 106 and the second audio signal output unit 107 connected to the known audio signal processing unit 10a.
  • a part information acquisition unit 601 is provided.
  • the audio signal processing unit 10a receives an audio signal included in the video content and the audio content.
  • the audio signal processing unit 10 a includes the audio type and position information obtained by the content analysis unit 101, the viewer position information obtained by the viewer position information acquisition unit 102, and the audio signal output unit information acquisition unit 103.
  • the audio signal rendering unit 104 includes an audio signal rendering unit 104 that renders and mixes output audio signals based on the acquired audio output device information, and outputs the audio signal to the external first audio signal output unit 106 and the second audio signal output unit 107. Furthermore, the audio signal processing unit 10 a includes a storage unit 105 that stores various parameters required by the audio signal rendering unit 104 or various generated parameters.
  • the information of the external first audio signal output unit 106 and the second audio signal output unit 107 to be connected is selected from the plurality of information stored in advance in the storage unit 105 through the information input unit 602.
  • the value may be directly input from the information input unit 602.
  • the first audio signal output unit 106 and the second audio are stored in the storage unit 105. Only the information of the signal output unit 107 may be stored, and the audio signal output unit information acquisition unit 601 may only read the corresponding information.
  • the information input unit 602 is configured by wired or wirelessly connected devices such as a keyboard, a mouse and a trackball, and information terminals such as a PC, a smartphone and a tablet. Although not shown in the present embodiment, it is needless to say that a display (such as a display) for presenting visual information required for information input may be provided as necessary.
  • the first audio signal output unit 106 and the second audio signal output unit 107 can obtain their own information by configuring to acquire information of the audio output unit from the storage unit 105 or the external information input unit 602. Even if it can not be notified to the audio signal processing unit 10a, it is possible to receive the effect as shown in the first embodiment.
  • the difference between the processing performed by the audio signal rendering unit 104 in the third embodiment and the processing described in the first embodiment is that the rendering method A is different from the processing shown in FIG. 9 which is a top view schematically showing the user position.
  • the processing is added in the range 902 in which the distance from the effective range is a constant value.
  • FIG. 8 shows a flow S1 of the rendering process performed by the audio signal rendering unit 104.
  • the rendering process will be described below with reference to FIGS. 8 and 9.
  • step S201 When the audio signal rendering unit 104 starts processing (step S201), first, the range in which the effect of the audio signal output by the rendering method A can be received from the storage unit 105, that is, the effective range 901 of the rendering method A Are acquired (step S202). Next, the audio signal rendering unit 104 confirms whether or not the process has been performed on all the input audio tracks (step S203), and if the processes after S204 have been completed on all the tracks (step S203) YES in step S203 ends the process (step S218). On the other hand, if there is an unprocessed input audio track (NO in step S203), the audio signal rendering unit 104 acquires the viewer position from the viewer position information acquisition unit 102. Here, as shown in (a) in FIG.
  • the audio signal rendering unit 104 stores the storage unit 105.
  • the parameters necessary for rendering the audio according to the rendering method A are read out from the above (step S210).
  • the audio signal rendering unit 104 performs audio rendering using the rendering method A, and outputs the audio signal after rendering to the first audio signal output unit 106.
  • the first audio signal output unit 106 includes two speakers 903 and 904 disposed on the front of the user, and the rendering method A uses these two speakers. Be transaural processing.
  • the audio signal rendering unit 104 obtains it from the content analysis unit 101. Based on the track type information, it is determined whether the input sound track is a sound track to be sound image localized (step S205). In the present embodiment, the audio track to be localized is an object-based track in the track information 201. If the input audio track is an audio track to be sound image localized (YES in step S205), the audio signal rendering unit 104 reads the parameters necessary for rendering the audio by the rendering method B from the storage unit 105 (step S206).
  • the processing is further branched according to the distance d between the effective range 901 of the rendering method A and the current viewing position 906 of the user (step S208). Specifically, when the distance d between the effective range 901 of the rendering method A and the current viewing position 906 of the user is equal to or larger than the threshold ⁇ (YES in step S208, the effective range 901 shown in (c) in FIG. 9). Audio signal rendering unit 104 performs audio rendering using rendering method B based on the parameters read out earlier, and outputs the second audio signal after the rendering. It is output to the unit 107 (step S212). In the third embodiment, as shown in FIG.
  • the second audio signal output unit 107 is an open type headphone or earphone worn by the user, and the rendering method B is binaural processing using this headphone or earphone Shall be Further, the threshold value ⁇ is an arbitrary real number preset in the audio signal processing device.
  • the audio signal rendering unit 104 additionally reads parameters necessary for the rendering method A from the storage unit 105 (step S213), and performs audio rendering by the rendering method D.
  • the rendering method D is a composite application of the rendering method A and the rendering method B.
  • the rendering method D outputs a rendering result obtained by multiplying the calculation result of applying the rendering method A to the input audio track by the coefficient p1 to the first audio signal output unit 106.
  • the rendering method D outputs, to the second audio signal output unit 107, a rendering result obtained by multiplying the calculation result obtained by applying the rendering method B to the same input audio track by the coefficient p2.
  • the audio signal rendering unit 104 reads parameters necessary for rendering audio by the rendering method C from the storage unit 105 (Ste S207). The processing is further branched according to the distance d between the effective range 901 of the rendering method A and the current viewing position 906 of the user (step S209). As shown in (c) in FIG. 9, when the distance d is equal to or larger than the threshold value ⁇ (YES in step S209), the audio signal rendering unit 104 uses the rendering method C based on the parameters read out earlier. Audio rendering is performed, and the rendered audio signal is output to the first audio signal output unit 106 (step S216).
  • the first audio signal output unit 106 is the two speakers 903 and 904 disposed on the front of the user, and the rendering method C is downmixing to stereo audio.
  • the first audio signal output unit 106 regards these two speakers 903 and 904 as a pair of stereo speakers and outputs them.
  • the audio signal rendering unit 104 executes the rendering method from the storage unit 105. Parameters necessary for A are additionally read (step S215), and audio rendering is performed according to the rendering method E.
  • the rendering method E in the third embodiment applies the rendering method A and the rendering method C in combination.
  • the rendering method E includes a rendering result obtained by multiplying the input audio track by the calculation result obtained by applying the rendering method A by the coefficient p1 and a rendering result obtained by multiplying the calculation result obtained by applying the rendering method B by the input audio track by the coefficient p2 Are summed and output to the first audio signal output unit 106.
  • the coefficients p1 and p2 are as described above.
  • the audio signal rendering unit 104 determines whether the user is positioned within the effective range where the effect of the rendering method A can be enjoyed according to the viewer position. , Switch the rendering process. This makes it possible not only to provide the user with a sound field capable of enjoying both sound image localization and sound spread at any viewing position, but also in the vicinity of the boundary of the effective range where switching of the rendering method occurs. , It becomes possible to alleviate the sudden change in tone quality caused by the switching of the rendering method.
  • the processing unit of the audio track can be set to an arbitrary length, and the rendering methods A to E described above are an example, as described in the first embodiment. The same applies to Form 3.
  • Embodiment 4 Another embodiment of an audio signal processing system according to one aspect of the present invention will be described below with reference to FIGS. 10 and 11.
  • symbol is appended and the description is abbreviate
  • audio content received by the content analysis unit 101 is described as having both channel-based and object-based tracks. Also, the explanation is made on the assumption that the channel-based track does not include an audio signal to be localized for sound image.
  • the operation of the content analysis unit 101 in the case where only the channel-based track is included in the audio content and the audio signal to be localized in the sound image is included in the channel-based track will be described as the fourth embodiment. .
  • the difference between the first embodiment and the fourth embodiment is only the behavior of the content analysis unit 101, and the behavior of the other units has already been described, so the description will be omitted.
  • the sound image localization calculation technique based on the correlation information between two channels disclosed in Patent Document 2 is applied, and the following procedure is performed. Create a similar histogram.
  • LFE low frequency effect
  • FIG. 10 there are four pairs of adjacent channels, FR and FL, FR and SR, FL and SL, and SL and SR, as shown in (a) of FIG.
  • 1000 in FIG. 10 is a position of a viewer).
  • the correlation information of adjacent channels is calculated using the correlation coefficients d (i) of f frequency bands arbitrarily quantized per unit time n, and based on this, the frequency bands of each of the f frequency bands are calculated.
  • the sound image localization position ⁇ is calculated (number 12 of Patent Document 2). For example, as shown in FIG. 11, the sound image localization position 1103 based on the correlation between FL 1101 and FR 1102 is expressed as ⁇ based on the center of the angle formed by FL 1101 and FR 1102 (note that 1100 in FIG. Viewer position).
  • the quantized voices in the f frequency bands are regarded as separate voice tracks, and in a unit time of the voices in each frequency band, a correlation coefficient value equal to or more than a preset threshold Th_d is further set.
  • the time zone having d (i) is classified as an object base track, and the other time zones are classified as a channel base track. That is, assuming that the number of pairs of adjacent channels whose correlation is to be calculated is N and the number of quantizations in the frequency band is f, it is classified as 2 * N * f audio tracks.
  • ⁇ obtained as the sound image localization position is appropriately converted to the coordinate system shown in FIG. 3 because it is based on the center of the sound source position that sandwiches this.
  • the above process is similarly performed for combinations other than FL and FR, and an audio track and a pair of corresponding track information 201 are sent to the audio signal rendering unit 104.
  • FC excludes from the calculation of correlation, and instead considers correlation between FL and FR.
  • the histogram may be calculated in consideration of the correlation including FC. For example, as shown in (b) in FIG. 10, track information generation is performed using the above calculation method for the correlation of five pairs of FC and FR, FC and FL, FR and SR, FL and SL, SL and SR.
  • the arrangement of speakers arranged by the user and by analyzing the content of the channel-based audio supplied as an input, the case where the audio content includes only the channel-based track and the channel-based Even when the track contains an audio signal to be localized for sound image, it is possible to deliver a sound with a good sense of localization to the user.
  • the input audio is generated based on the track type information included in the pronunciation object position information obtained from the content analysis unit 101. It starts by determining whether the track is an audio track to be sound image localized.
  • the input audio track is an audio track to be sound image localized
  • parameters necessary for rendering an audio signal are read from the storage unit 105 using the rendering method B.
  • audio rendering is performed using the rendering method B, and the audio signal after rendering is output to the second audio signal output unit 107 (FIG. 5).
  • the second audio signal output unit 107 is an open type headphone or earphone worn by the user
  • the rendering method B is the open type headphone Or it shall be binaural processing using an earphone. In this case, no sound is output from the first sound signal output unit 106 (two speakers 402 and 403) (FIG. 5).
  • the parameter necessary for rendering the audio signal is read from the storage unit 105 using the rendering method C. Subsequently, audio rendering using the rendering method C is performed, and the audio signal after rendering is output to the first audio signal output unit 106.
  • the first audio signal output unit 106 (FIG. 5) is the two speakers 402 and 403 disposed on the front of the user as described above.
  • the rendering method C is a downmix to stereo sound, and these two speakers 402 and 403 (FIG. 5) are regarded as a pair of stereo speakers and output. In this case, no sound is output from the second sound signal output unit 107 (FIG. 5).
  • the audio output unit can move during the listening to the sweet spot, and the audio output unit can not move during the listening to the sweet spot. It is an aspect which determines the voice output part to be used. More specifically, when it is determined that the audio track should be a sound image localization, the audio output unit capable of moving while listening to the sweet spot outputs a sound. Also, when it is determined that the audio track does not need to be localized in the sound image, the audio output unit that does not move during listening to the sweet spot outputs the audio.
  • a suitable rendering method considering both sound image localization and sound spread is automatically selected for each audio track, and sound reproduction is performed, so that localization can be felt at any viewing position. It is possible to deliver to the user an audio that is less disruptive with regard to the spread of the sound and the sound.
  • the difference between the first embodiment and the sixth embodiment described above is in the second audio signal output unit 107.
  • both the first embodiment and the sixth embodiment are common in that the second audio signal output unit 107 is an audio output unit that can move while listening to a sweet spot.
  • the second audio signal output unit 107 of the sixth embodiment is not an audio signal output unit of a type worn by the user as the second audio signal output unit 107, but is a stationary type that can change directivity. Fixed position type) speaker.
  • the viewer position information acquisition unit 102 acquires the user's position information using the camera described above.
  • the present invention is not limited to this, and is an aspect in which sound image localization is performed in consideration of the position of the user and the direction of the user. May be
  • the orientation of the user can be detected by, for example, mounting a gyro sensor on the second audio signal output unit 107 (FIG. 5) worn by the user.
  • information indicating the detected user's orientation is output to the audio signal rendering unit 104 and rendering processing is performed in the audio signal rendering unit 104, information indicating the orientation is used in addition to the aspect of the first embodiment. Sound localization according to the direction of the user.
  • the difference between the first embodiment and the eighth embodiment is that in the eighth embodiment, there are a plurality of viewers and the first viewer who is within the range of the effective range 401 of the rendering method A, and the rendering method A
  • the second viewer receives only the second audio signal output unit 107 worn by the second viewer.
  • the configuration is such that the audio output from the first audio signal output unit 106, which is a stationary speaker, is not listened to or is difficult to listen to while listening to the audio.
  • a function to cancel the audio output from the first audio signal output unit 106 is added.
  • the eighth embodiment will be described below. First, an aspect in which two users exist in the content viewing environment will be described.
  • FIG. 12 is a drawing corresponding to FIG. 5 used in the first embodiment, and is a top view schematically showing a user position in the eighth embodiment.
  • step S101 when the processing by the audio signal rendering unit 104 is started (step S101), first, the audio signal rendering unit 104 Acquire the range in which the effect of the audio signal output by the rendering method (hereinafter referred to as rendering method A) can be enjoyed, that is, the effective range 401 (sometimes referred to as sweet spot) of rendering method A (Step S102).
  • rendering method A the range in which the effect of the audio signal output by the rendering method
  • the effective range 401 sometimes referred to as sweet spot
  • the viewing position information of the first viewer and the second viewer is obtained from the viewer position information obtaining unit 102.
  • the unit 104 reads parameters necessary for rendering the audio signal from the storage unit 105 using the rendering method A (step S106). Subsequently, the audio signal rendering unit 104 performs audio rendering using the rendering method A, and outputs the rendered audio signal to the first audio signal output unit 106 (step S107).
  • the first audio signal output unit 106 is a stationary speaker, and as shown in (a) of FIG. 12, two speakers 402 and 403 arranged on the front of the user. It is.
  • rendering method A is transaural processing using these two speakers.
  • no sound is output from the second audio signal output unit 107a of the viewing position 405a of the first viewer, and audio is also output from the second audio signal output unit 107b of the viewing position 405b of the second viewer I will not.
  • both the viewing position 406a of the first viewer and the viewing position 406b of the second viewer are outside the effective range 401 of the rendering method A (NO in step S104)
  • the audio signal rendering unit 104 determines whether the input audio track is an audio track to be localized for sound image, based on the track type information included in the sounding object position information obtained from the content analysis unit 101 (step S105).
  • the audio track to be sound image localized is an object-based track in the track information 201 shown in FIG.
  • the audio signal rendering unit 104 reads parameters necessary for rendering an audio signal from the storage unit 105 using the rendering method B (Ste S108). Subsequently, the audio signal rendering unit 104 performs audio rendering using the rendering method B, and the audio signal after rendering is output to the second audio signal output unit 107a of the first viewer's viewing position 406a and the second viewer. It is output to the second audio signal output unit 107b of the viewing position 406b (step S109).
  • the second audio signal output unit 107a and the second audio signal output unit 107b are, like the above-described second audio signal output unit 107, an open type headphone or earphone, and the rendering method B is an open type headphone or earphone It is assumed that it is binaural processing using.
  • different audio signals are output to the second audio signal output unit 107 a of the viewing position 406 a of the first viewer and the second audio signal output unit 107 b of the viewing position 406 b of the second viewer. Be done. From this, when it listens in each viewing-and-listening position, it becomes a structure by which appropriate sound image localization is implement
  • the audio signal rendering unit 104 uses the storage unit 105 to render the parameters necessary for rendering the audio signal using rendering method C. Read out (step S110). Subsequently, the audio signal rendering unit 104 performs audio rendering using the rendering method C, and outputs the rendered audio signal to the first audio signal output unit 106 (step S111).
  • the first audio signal output unit 106 is the two speakers 402 and 403 disposed on the front of the user, and the rendering method C is downmixing to stereo audio.
  • the first audio signal output unit 106 regards these two speakers 402 and 403 as a pair of stereo speakers and outputs them. In this case, no audio is output from the second audio signal output unit 107a of the viewing position 407a of the first viewer, and audio is also output from the second audio signal output unit 107b of the viewing position 407b of the second viewer. Not output
  • the viewing position 408 a of the first viewer is within the range of the effective range 401 of the rendering method A
  • the viewing position 408 b of the second viewer is the effective range 401 of the rendering method A.
  • the audio signal subjected to audio rendering using the rendering method A is the first audio signal output unit 106 (two speakers 402 And 403). In this case, no sound is output from the second sound signal output unit 107a of the viewing position 408a of the first viewer.
  • audio rendering is performed using the rendering method B, and the audio signal after rendering is the viewing position 408b of the second viewer. It is output to the second audio signal output unit 107b.
  • the first audio signal output unit 106 two speakers 402 and 403
  • an audio signal rendered by using the rendering method A is output. Therefore, in addition to the sound image-localized sound output from the second sound signal output unit 107b, the second viewer at the viewing position 408b wearing the second sound signal output unit 107b, which is an open type headphone or earphone The audio output from the first audio signal output unit 106 (two speakers 402 and 403) is listened to.
  • the sound output from the first sound signal output unit 106 (two speakers 402 and 403) is a sound that is sound image localized within the effective range 401 of the rendering method A. From this, it becomes difficult to provide a high quality sound field at the viewing position 408 b outside the range of the effective range 401.
  • the second audio signal output unit 107b has a function of canceling the audio output from the first audio signal output unit 106 (two speakers 402 and 403).
  • the microphone 702 is connected to the audio signal rendering unit 104, and an audio signal in reverse phase to the measured audio signal is output from the second audio signal output unit 107b. By outputting the voice, the voice output from the first voice signal output unit 106 is cancelled.
  • the microphones 702 are configured by one or more microphones, and are preferably installed one by one near the left and right pinnae of the viewer.
  • the second audio signal output unit 107 b is an earphone or a headphone
  • the second audio signal output unit 107 b may be installed at a position close to both ears as one of the components of the output unit.
  • the difference between the eighth embodiment and the ninth embodiment described above is that, in the ninth embodiment, although the viewing positions of two viewers are within the effective range 401 of the rendering method A, one viewer (second The viewer is rendered in a manner that the rendering method B is used to make a sound from the second audio signal output unit 107 worn by the second viewer.
  • the viewing position 405a of the first viewer and the viewing position 405b of the second viewer are both within the range of the effective range 401 of the rendering method A.
  • audio rendering using the rendering method A is performed, and audio is output from the first audio signal output unit 106.
  • audio rendering is performed using the rendering method B, and audio is output from the second audio signal output unit 107b of the viewing position 405b of the second viewer.
  • Embodiment 1 differs from Embodiment 10 above.
  • the first audio signal output unit 106 which is a stationary speaker
  • the user in the effective range 401 of FIG. 4 is caused to output the audio signal that does not need to be localized in the sound image from the first audio signal output unit 106 that is a stationary speaker.
  • an audio signal to be sound image localized is output from an open type headphone or earphone (second audio signal output unit 107) worn by the user.
  • the user within the effective range 401 of FIG. 4 listens to audio from both the first audio signal output unit 106 and the second audio signal output unit 107.
  • the tenth embodiment it is possible to enjoy the merit that the sound quality adjustment to the individual can be performed even if there are a plurality of persons within the effective range 401 of FIG. 4.
  • the audio signal processing apparatus (audio signal processing unit 10) according to aspect 1 of the present invention is a multi-channel audio signal processing system, and indicates whether or not the input audio signal is an audio signal to be sound image localized.
  • a sound image localization information acquisition unit (audio signal rendering unit 104) for acquiring information, and a first audio signal output unit (first audio signal that does not move while listening to the position of the audible area by rendering the input audio signal
  • the output unit 106, the speakers 402 and 403, and the second audio signal output unit (second audio signal output units 107, 107a and 107b) capable of moving the position of the listening area during listening according to the above information
  • a rendering unit (audio signal rendering unit 104) for outputting to one or more audio signal output units.
  • the second audio signal output unit capable of moving while listening to the position of the audible area corresponds to a unit capable of moving a so-called sweet spot according to the position of the user.
  • the first audio signal output unit that does not move while listening to the position of the listening area corresponds to a unit that can not move a so-called sweet spot according to the position of the user.
  • the rendering method for outputting from the second audio signal output unit that can move the sweet spot according to the position of the user can be used to render audio signals.
  • the input audio signal is not an audio signal for sound localization
  • the sweet spot can not be moved according to the position of the user using a rendering method for outputting from the first audio signal output unit The signal can be rendered.
  • the audio signal processing apparatus (audio signal processing unit 10) according to aspect 2 of the present invention is a multi-channel audio signal processing system, and is a position information acquisition unit (viewer position information acquisition unit for acquiring position information of a listener) 102), a first audio signal output unit (the first audio signal output unit 106, the speakers 402 and 403) that does not move while listening to the position of the audible area by rendering the input audio signal, and the audible area
  • a second audio signal output unit (second audio signal output units 107, 107a, 107b) that can move during listening to the rendering position (a rendering unit) that outputs to one or more audio signal output units according to the position information
  • an audio signal rendering unit 104 an audio signal rendering unit 104.
  • the audio signal can be rendered using a rendering method for outputting from the first audio signal output unit that can not
  • the audio signal can be rendered using a rendering method for outputting the sweet spot from the second audio signal output unit that can move the sweet spot according to the position of the user. According to this, even when the user is at any listening position, a high-quality sound field can be provided to the user.
  • the audio signal processing device analyzes the type of audio signal and the position information where the audio signal is localized from the input audio signal in aspect 1 or 2 above.
  • An analysis unit may be further included, and a storage unit 105 for storing parameters necessary for the rendering unit.
  • the first audio signal output unit is a stationary speaker (first audio signal output unit).
  • the second audio signal output unit may be a listener portable speaker (second audio signal output units 107, 107a, 107b).
  • the audio signal processing device (audio signal processing unit 10) according to aspect 5 of the present invention is the second audio signal output unit (second audio signal output units 107, 107a, 107b) according to any of the above aspects 1 to 3.
  • the speaker may be a fixed position speaker whose directivity can be changed.
  • the audio signal processing device (audio signal processing unit 10) according to aspect 6 of the present invention is the information according to any one of aspects 1 to 5, wherein the first audio signal output unit and the second audio signal output unit are indicated.
  • the audio signal output unit information acquisition unit 103 may be further included.
  • the audio signal output unit information acquisition unit 103 is configured to obtain information indicating the first audio signal output unit as the first information.
  • the information acquired from the audio signal output unit and indicating the second audio signal output unit may be acquired from the second audio signal output unit.
  • the audio signal output unit information acquisition unit 103 outputs the first audio signal output unit and the second audio signal output.
  • the information indicating the type of the audio signal output unit to be used is selected from the information indicating the type of the unit (the first audio signal output unit 106, the speakers 402 and 403, and the second audio signal output units 107, 107a and 107b)
  • the configuration may be
  • the rendering unit is a listening area in which the position of the listener is preset. It may be configured to select the rendering method to be used for the rendering process based on whether it is included in (the effective range 401 of the rendering method A).
  • the rendering unit listens to a listener whose position is set in advance.
  • the configuration may be such that rendering is performed using (rendering method A) and a rendering method (rendering method A) that causes sound image localization at a position outside the listening area (rendering method using rendering method D).
  • the audio signal processing apparatus (audio signal processing unit 10) according to aspect 11 of the present invention is the first audio signal output section (first audio signal output section 106, speakers 402, 403) in any of the above aspects 1 to 10. And the second audio signal output unit (second audio signal output units 107, 107a, 107b).
  • the audio signal processing apparatus (audio signal processing unit 10) according to aspect 12 of the present invention further includes an imaging apparatus (camera) for imaging a listener in the above aspect 2, and the position information acquisition section is the above imaging
  • the configuration may be such that positional information of the listener is acquired based on imaging data of the device.
  • the audio signal processing system 1 is a multi-channel audio signal processing system, wherein the first audio signal output unit does not move during listening to the position of the audible area, and the position of the audible area
  • a second sound signal output unit capable of moving while listening to the sound
  • a sound image localization information acquisition unit sound signal rendering unit 104 for acquiring information indicating whether the input sound signal is a sound signal to be sound image localized or not
  • a rendering unit for outputting to one or more audio signal output units according to the above information among 107a and 107b). It is.
  • the audio signal processing system 1 is a multi-channel audio signal processing system, and the first audio signal output unit (the first audio signal output unit 106 does not move during listening to the position of the listening area).

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本発明の一形態は、入力した音声信号をレンダリングして、受聴可能領域の位置移動しない第1音声信号出力部(106)と、該位置移動できる第2音声信号出力部(107)とのうち、視聴者位置情報取得部(102)が取得した位置情報に応じた1つ以上の音声信号出力部に出力する音声信号レンダリング部(104)を備える。

Description

音声信号処理装置および音声信号処理システム
 本発明は、音声信号処理装置および音声信号処理システムに関する。
 現在、放送波、DVD(Digital Versatile Disc)およびBD(Blu-ray(登録商標) Disc)などのディスクメディアまたはインターネットを介すなどして、ユーザはマルチチャンネル音声(サラウンド音声)を含むコンテンツを簡単に入手できるようになった。映画館等においてはDolby Atmosに代表されるオブジェクトベースオーディオによる立体音響システムが多く配備され、更に日本においては、次世代放送規格に22.2chオーディオが採用されるなど、ユーザがマルチチャンネルコンテンツに触れる機会は格段に多くなった。従来のステレオ方式の音声信号に関しても、マルチチャンネル化手法が様々検討されており、ステレオ信号の各チャンネル間の相関に基づいてマルチチャネル化する技術が特許文献1に開示されている。
 マルチチャンネル音声を再生するシステムについても、前述の映画館またはホールのような大型音響設備が配された施設以外でも、家庭で手軽に楽しめるようなシステムが一般的となりつつあり、ユーザ(聴取者)は、国際電気通信連合(International Telecommunication Union;ITU)が推奨する配置基準に基づいて複数のスピーカを配置することで、5.1chまたは7.1chなどのマルチチャンネル音声を聴取する環境を家庭内に構築することができる。また、少ないスピーカ数で、マルチチャンネルの音像定位を再現する手法なども研究されている(非特許文献1)。
日本国公開特許公報「特開2013-055439号公報」 日本国公表特許公報「特表平10-500809」 日本国公表特許公報「特表2012-505575」 WO15/068756
Virtual Sound Source Positioning Using Vector Base AmplitudePanning, VILLE PULKKI, J. Audio. Eng., Vol. 45, No. 6, 1997 June
 前述の通り、5.1ch音声を再生する音声再生システムはITUが推奨する配置基準に基づいてスピーカを配置することで、前後左右の音像の定位感および音による包まれ感を享受できる。一方でユーザ周囲にスピーカを配置することが求められ、また各スピーカとユーザの相対的な位置関係を一定距離に保つ必要がある。このことから、マルチチャネルの効果を享受できる視聴(聴取)可能領域、すなわちスイートスポットは理想的には1点に限定され、多人数視聴時にすべての視聴者が同じ効果を得ることは難しいだけではなく、スイートスポット外の視聴者は本来スイートスポットで得られる効果とは異なる効果、例えば視聴者左方に定位すべき音声が右方に定位するなど、が発生しうる。
 マルチチャネルオーディオを、イヤホンまたはヘッドホンによって再生する方法も検討されており、バイノーラル再生によって、マルチチャネル音声を想定再生位置から仮想的に再生させる手法が特許文献2および特許文献3に示されている。しかしながら、バイノーラル再生法では、視聴環境に合わせた音の広がりの演出、例えば、視聴環境の広さに合わせた音の広がりを演出することは難しい。
 そこで、本発明の一態様は、ユーザに対し高品位な音場を提供可能な音声信号処理装置および音声信号処理システムを実現することを目的とする。
 上記の課題を解決するために、本発明の一態様に係る音声信号処理装置は、マルチチャネルの音声信号処理装置であって、入力された音声信号が音像定位すべき音声信号であるか否かを示す情報を取得する音像定位情報取得部と、入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部と、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部とのうち、上記情報に応じた1つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴としている。
 また、上記の課題を解決するために、本発明の一態様に係る別の音声信号処理装置は、マルチチャネルの音声信号処理装置であって、受聴者の位置情報を取得する位置情報取得部と、入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部と、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部とのうち、上記位置情報に応じた1つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴としている。
 また、上記の課題を解決するために、本発明の一態様に係る音声信号処理システムは、マルチチャネルの音声信号処理システムであって、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部、および、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部と、入力された音声信号が音像定位すべき音声信号であるか否かを示す情報を取得する音像定位情報取得部と、入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部と、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部とのうち、上記情報に応じた1つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴としている。
 また、上記の課題を解決するために、本発明の一態様に係る別の音声信号処理システムは、マルチチャネルの音声信号処理システムであって、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部、および、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部と、受聴者の位置情報を取得する位置情報取得部と、入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部と、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部とのうち、上記位置情報に応じた1つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴としている。
 本発明の一態様によれば、ユーザに対し高品位な音場を提供可能である。
本発明の一実施形態に係る音声信号処理システムの主要な構成を示すブロック図である。 本発明の一実施形態に係る音声信号処理システムに含まれるコンテンツ解析部によって解析されて得られる、発音オブジェクト位置情報を含むトラック情報の構成を概念的に示した図である。 図2に示す発音オブジェクト位置情報の一部として記録されている音像位置の座標系を説明する図である。 本発明の一実施形態に係る音声信号処理システムに含まれる音声信号レンダリング部においておこなわれるレンダリング処理のフローを説明する図である。 ユーザ位置を模式的に示した上面図である。 本発明の他の実施形態にかかる音声信号処理システムの主要な構成を示すブロック図である。 本発明の更に別の実施形態にかかる音声信号処理システムの主要な構成を示すブロック図である。 本発明の他の実施形態に係る音声信号処理システムに含まれる音声信号レンダリング部においておこなわれるレンダリング処理のフローを説明する図である。 ユーザ位置を模式的に示した上面図である。 本発明の他の実施形態に係る音声信号処理システムのユーザ位置とスピーカとの位置関係を示す上面図である。 本発明の他の実施形態に係る音声信号処理システムのユーザ位置とスピーカとの位置関係を示す上面図である。 ユーザ位置を模式的に示した上面図である。
 〔実施形態1〕
 以下、本発明の一実施形態について、図1から図5を用いて説明する。
 図1は、本実施形態1における音声信号処理システム1の主要な構成を示すブロック図である。本実施形態1に係る音声信号処理システム1は、第1音声信号出力部106および第2音声信号出力部107と、音声信号処理部10(音声信号処理装置)とを備える。
 <第1音声信号出力部106および第2音声信号出力部107>
 第1音声信号出力部106および第2音声信号出力部107は共に、音声信号処理部10によって再構築された音声信号を取得し、音声を再生する。
 第1音声信号出力部106(据え置き型のスピーカ)は、独立した複数のスピーカによって構成され、個々のスピーカはスピーカユニット、および、これを駆動させる増幅器(アンプ)によって構成される。第1音声信号出力部106は、受聴可能領域の位置を受聴中に移動しないタイプの音声信号出力機器である。受聴可能領域の位置を受聴中に移動しないタイプの音声信号出力機器とは、受聴中は受聴可能領域を移動させずに用いる機器を意図している。受聴中でない場合には(例えば、音声信号出力機器の設置時には)、当該音声信号出力機器は、受聴可能領域の位置を移動することができるもの(移動可能なもの)であってもよい。また、当該音声信号出力機器は、受聴中でない場合にも、受聴可能領域の位置を移動することができないものであってもよい。
 第2音声信号出力部107(受聴者携帯型のスピーカ)、開放型ヘッドホンまたはイヤホン、および、これを駆動させる増幅器によって構成される。第2音声信号出力部107は、受聴可能領域の位置を受聴中に移動できるタイプの音声信号出力機器である。受聴可能領域の位置を受聴中に移動できるタイプの音声信号出力機器とは、受聴中にも受聴可能領域の位置を移動させることができる機器を意図している。例えば、当該音声信号出力機器は、受聴中に音声信号出力機器自体がユーザと共に移動し、それに伴って受聴可能領域の位置が移動する携帯型の音声信号出力機器であってもよい。また、当該音声信号出力機器は、受聴中に音声信号出力機器自体は移動せずに受聴可能領域の位置を移動させる機能を有する音声信号出力機器などであってもよい。
 また、後述するように、視聴者の位置を取得する方法の一例として、第2音声信号出力部107に位置情報発信機器を付しておき、その位置情報を取得する構成とすることができる。視聴環境の任意の数か所に設置されたビーコンと第2音声信号出力部107に付されたビーコンとを活用して、位置情報を取得するようにしてもよい。
 なお、第1音声信号出力部106並びに第2音声信号出力部107は上記の組み合わせに限定されるものではない。例えば、第1音声信号出力部106が、モノラルスピーカまたは5.1chなどのサラウンドスピーカセットであってもよいことは言うまでもない。また、第2音声信号出力部107が、ユーザの手元に位置する小型のスピーカまたはスマートフォンおよびタブレットなどに代表される携帯端末であってもよい。また、接続される音声信号出力部の数も2つだけに限定されるものではなく、これより多くてもよい。
 <音声信号処理部10>
 音声信号処理部10は、マルチチャネルの音声信号処理装置であって、入力された音声信号を再構築し、再構築した音声信号を第1音声信号出力部106および第2音声信号出力部107に出力する。
 音声信号処理部10は、図1に示すように、コンテンツ解析部101(解析部)と、視聴者位置情報取得部102(位置情報取得部)と、音声信号出力部情報取得部103(音声信号出力部情報取得部)と、音声信号レンダリング部104(音像定位情報取得部、レンダリング部)と、記憶部105とを有している。
 以下、音声信号処理部10のそれぞれの構成について詳述する。
 [コンテンツ解析部101]
 コンテンツ解析部101は、DVDおよびBDなどのディスクメディア、HDD(Hard Disc Drive)等の記録媒体に記録されている映像コンテンツまたは音声コンテンツに含まれる音声信号、ならびに、これに付随するメタデータを解析する。そして、コンテンツ解析部101は、これらを解析することで、発音オブジェクト位置情報(音声コンテンツに含まれる音声信号(音声トラック)の種別、および、音声信号が定位する位置情報)を得る。得た発音オブジェクト位置情報は、音声信号レンダリング部104に出力される。
 本実施形態1では、コンテンツ解析部101が受け取る音声コンテンツは1つ以上の音声トラックを含む音声コンテンツであるものとする。
 (音声トラック)
 ここで、この音声トラックは、大きく以下の2種類に分類される。例えば、一方としては、ステレオ(2ch)および5.1chなどに採用されているような、既定のスピーカの位置と音声トラックとを対応付ける「チャネルベース」の音声トラックが挙げられる。また、もう一方としては、個々の発音オブジェクト単位を1トラックとし、この位置的・音量的変化を記述した付随情報を付与した「オブジェクトベース」の音声トラックが挙げられる。
 「オブジェクトベース」の音声トラックの概念について説明する。オブジェクトベースに基づく音声トラックは個々の発音オブジェクト単位で各トラックに記録、すなわち、ミキシングせずに記録しておき、プレイヤー(再生機)側でこれら発音オブジェクトを適宜レンダリングするものである。各々の規格・フォーマットにおいて差はあるものの、一般的には、これら発音オブジェクトには各々、いつ、どこで、どの程度の音量で発音されるべきかといったメタデータ(付随情報)が紐づけられている。プレイヤーは当該メタデータに基づいて個々の発音オブジェクトをレンダリングする。
 他方、「チャネルベーストラック」は、例えば5.1chサラウンドなど、従来のサラウンド等で採用されているものである。また、チャネルベーストラックは、予め規定された再生位置(スピーカの配置)から発音される前提で、個々の発音オブジェクトをミキシングした状態で記録されたトラックである。
 なお、1コンテンツに含まれる音声トラックは、上記2種類の音声トラックのいずれか片方のみを含んでいてもよいし、2種類の音声トラックが混在していてもよい。
 (発音オブジェクト位置情報)
 発音オブジェクト位置情報について、図2を用いて説明する。
 図2は、コンテンツ解析部101によって解析されて得られる、発音オブジェクト位置情報を含むトラック情報201の構成を概念的に示したものである。
 コンテンツ解析部101は、コンテンツに含まれる音声トラック全てを解析し、図2に示すトラック情報201として再構成するものとする。
 トラック情報201には、各音声トラックのIDと、その音声トラックの種別とが記録されている。
 更にトラック情報201には、音声トラックがオブジェクトベースのトラックである場合、1つ以上の発音オブジェクト位置情報がメタデータとして付随している。発音オブジェクト位置情報は、再生時刻と、その再生時刻での音像位置とのペアで構成される。
 他方、音声トラックがチャネルベースのトラックである場合も同様に、再生時刻と、その再生時刻での音像位置(再生位置)とのペアが記録される。ただし、チャネルベースのトラックである場合の再生時刻はコンテンツの開始から終了までとなる。また、その再生時刻での音像位置はチャネルベースにおいて予め規定された再生位置に基づく。
 ここで、発音オブジェクト位置情報の一部として記録されている音像位置は、図3に示す座標系で表現されるものとする。ここで用いる座標系は、図3中の(a)の上面図で示すような、原点Oを中心とし、原点Oからの距離を動径rによって示すものとする。また、当該座標系は、原点Oの正面を0°、右位置および左位置を各々90°および-90°とする偏角φ、図3中の(b)の側面図で示すような、原点Oの正面を0°、原点Oの真上を90°とする仰角θで示すものとする。また当該座標系は、音像位置およびスピーカの位置を極座標(球座標)系(r,φ,θ)と表記するものとする。以降の説明においては、特に断りがない限り、音像位置およびスピーカの位置は図3の極座標系を用いるものとする。
 トラック情報201は例えばXML(Extensible Markup Language)のようなマークアップ言語で記述されているものとする。
 なお、本実施形態1では音声トラックおよびこれに付随するメタデータから解析できる情報のうち、任意の時間での各発音オブジェクトの位置情報が特定できる情報のみをトラック情報として記録することとしている。しかしながら、トラック情報はこれ以外の情報を含んでもよいことは言うまでもない。
 [視聴者位置情報取得部102]
 視聴者位置情報取得部102は、コンテンツを視聴するユーザの位置情報を取得する。なお、本実施形態1では、DVD等のコンテンツを視聴する態様を想定しているため、ユーザは、コンテンツの視聴をおこなう。しかしながら、本発明の特徴は、音声信号処理にあり、この点からすれば、ユーザは、少なくともコンテンツを聴取する者(受聴者)であればよい。
 本実施形態1においては、視聴者位置情報はリアルタイムに取得・更新されるものとする。この場合、例えば、視聴環境の任意の位置に設置され(例えば部屋の天井等)、視聴者位置情報取得部102に接続された1つ以上のカメラ(撮影装置)(不図示)によって、あらかじめマーカを付したユーザを撮影する。また、視聴者位置情報取得部102は、カメラの撮影データに基づいて視聴者の2次元または3次元的位置を取得し、視聴者位置情報を更新させることとする。マーカは、ユーザ自身に付することとしてもよいし、ユーザの装着物、例えば第2音声信号出力部107に付しておいてもよい。
 視聴者位置取得の別の手段としては、同じく設置されたカメラ(撮影装置)の撮影データから得られる視聴者の位置情報から顔認識を使用して、視聴者位置を取得するようにしてもよい。
 さらに別の視聴者位置取得方法としては、先述のように第2音声信号出力部107に位置情報発信機器を付しておき、その位置情報を取得する構成としてもよい。また、視聴環境の任意の数か所に設置されたビーコンと第2音声信号出力部107に付されたビーコンとを活用して、位置情報を取得するようにしてもよい。また、タブレット端末などの情報入力端末を通じて、情報をリアルタイムに入力できるようにしてもよい。
 [音声信号出力部情報取得部103]
 音声信号出力部情報取得部103は、音声信号処理部10に接続される第1音声信号出力部106および第2音声信号出力部107の情報(以降、これらを纏めて「音声信号出力部の情報」と記載することがある)を取得する。
 ここで、本明細書において「音声信号出力部の情報」とは、種別情報および音声信号出力部の構成の詳細に関する情報を示す。種別情報とは、スピーカ等の据え置き型の音声出力部(音声出力機器)、ならびに、ヘッドホンおよびイヤホン等の装着型の音声出力部(音声出力機器)のいずれであるかを示す情報である。また、音声信号出力部の構成の詳細に関する情報とは、例えばスピーカであれば使用個数を示す情報であり、ヘッドホン、イヤホンであれば開放型および密閉型のいずれであるかを示す情報である。ここで、開放型とは、ヘッドホンまたはイヤホンの構成物によって外耳道および鼓膜が外部から遮断されず、外部の音がヘッドホンまたはイヤホンの装着者に聴取される構成となっているヘッドホンまたはイヤホンのタイプをいう。一方、密閉型とは、ヘッドホンまたはイヤホンの構成物によって外耳道および鼓膜が外部から遮断され、外部の音がヘッドホンまたはイヤホンの装着者に聴取されない、もしくは聴取され難い構成となっているヘッドホンまたはイヤホンのタイプをいう。本実施形態1においては、第2音声信号出力部107は先述のように外部の音がヘッドホンまたはイヤホンの装着者に聴取される構成となった開放型のヘッドホンまたはイヤホンである。しかしながら、密閉型のヘッドホンまたはイヤホンであっても、内蔵したマイクによって周囲の音を拾って、ヘッドホンまたはイヤホンから出力される音と合せて装着者に聴取させることができる場合には、密閉型のヘッドホンまたはイヤホンを採用することも可能である。
 これら情報は、予め第1音声信号出力部106および第2音声信号出力部107にそれぞれ記憶されている。そして、音声信号出力部情報取得部103は、これらの情報を、有線またはBluetooth(登録商標)およびWi-Fi(登録商標)などの無線通信を通じて取得する形とする。
 なお、これらの情報は、第1音声信号出力部106および第2音声信号出力部107から音声信号出力部情報取得部103に対して、自動的に送信する態様であってもよい。また、音声信号出力部情報取得部103が、これらの情報を第1音声信号出力部106および第2音声信号出力部107から取得する際、まずは、第1音声信号出力部106および第2音声信号出力部107に対して、情報の送信を指示するパスを有していてもよい。
 なお、上記以外の情報を音声信号出力部の情報として取得してもよい。例えば、各音声信号出力部の位置情報および各音声信号出力部の音響特性情報を音声信号出力部情報取得部103が取得してもよい。また、音声信号出力部情報取得部103は、当該音響特性情報を、音声信号レンダリング部104に提供し、音声信号レンダリング部104において、音質調整を行うこととしてもよい。
 [音声信号レンダリング部104]
 音声信号レンダリング部104は、入力された音声信号と、接続されたコンテンツ解析部101、視聴者位置情報取得部102、音声信号出力部情報取得部103および記憶部105からの各種情報に基づき、第1音声信号出力部106および第2音声信号出力部107に出力する音声信号を構築する。
 <レンダリング処理>
 図4に、音声信号レンダリング部104においておこなわれるレンダリング処理のフローS1を示す。以下、図4と、ユーザ位置を模式的に示した上面図である図5とを用いてレンダリング処理について説明する。
 図4に示すように音声信号レンダリング部104による処理が開始されると(ステップS101)、まず、音声信号レンダリング部104は、記憶部105から、基本となるレンダリング方式(以下、レンダリング方式Aと呼称する)によって出力された音声信号の効果を享受可能な範囲、すなわちレンダリング方式Aの有効範囲401(受聴可能領域、予め設定された受聴可能領域)(スイートスポットと呼称されることもある)を取得する(ステップS102)。更に、この段階で、音声信号レンダリング部104によって、音声信号出力部情報取得部103から第1音声信号出力部106および第2音声信号出力部107の情報が取得される。
 次に、全ての入力音声トラックに対して処理が行われたかを確認し(ステップS103)、全てのトラックに対してステップS104以降の処理が完了していれば(ステップS103におけるYES)処理を終了する(ステップS112)。一方で、未処理の入力音声トラックがあれば(ステップS103におけるNO)、音声信号レンダリング部104は、視聴者位置情報取得部102から視聴者(ユーザ)の視聴位置情報を取得する。
 ここで、図5中の(a)に示すようにユーザの視聴位置405がレンダリング方式Aの有効範囲401の範囲内である場合(ステップS104におけるYES)、音声信号レンダリング部104は、記憶部105からレンダリング方式Aを用いて音声信号をレンダリングするために必要なパラメータを読み出す(ステップS106)。続いて、音声信号レンダリング部104は、レンダリング方式Aを用いた音声レンダリングを行い、レンダリング後の音声信号を第1音声信号出力部106に出力する(ステップS107)。なお、先述のように本実施形態1においては、第1音声信号出力部106は据え置き型のスピーカであり、図5中の(a)に示すようにユーザの前面に配置された2つのスピーカ402および403である。すなわち、レンダリング方式Aは、これら2つのスピーカを用いてのトランスオーラル処理であるものとする。なお、この場合、第2音声信号出力部107からは音声は出力されない。
 一方、図5中の(b)に示すようにユーザの視聴位置406がレンダリング方式Aの有効範囲401外であったとする。この場合(ステップS104におけるNO)、音声信号レンダリング部104が、コンテンツ解析部101から得た発音オブジェクト位置情報に含まれるトラックの種別情報に基づき、入力音声トラックが音像定位すべき音声トラックか否かを判断する(ステップS105)。本実施形態1において、音像定位すべき音声トラックとは、図2に示すトラック情報201におけるオブジェクトベースのトラックである。入力音声トラックが音像定位すべき音声トラックである場合(ステップS105におけるYES)、記憶部105からレンダリング方式Bを用いて音声信号をレンダリングするために必要なパラメータを読み出す(ステップS108)。続いて、音声信号レンダリング部104は、レンダリング方式Bを用いた音声レンダリングを行い、レンダリング後の音声信号を第2音声信号出力部107に出力する(ステップS109)。本実施形態1において、第2音声信号出力部107は、先述のように、ユーザが装着した開放型のヘッドホンまたはイヤホンであり、レンダリング方式Bは、この開放型のヘッドホンまたはイヤホンを用いたバイノーラル処理であるものとする。なお、この場合、第1音声信号出力部106(2つのスピーカ402、403)からは音声は出力されない。
 なお、バイノーラル再生について、使用する頭部伝達関数(HRTF;Head-Related Transfer Function)は、固定の値でもよい。また、HRTFをユーザの視聴位置に応じて更新し、仮想的な音像の絶対位置が視聴位置に因らず動かないようにする処理を加えてもよい。
 他方、入力音声トラックが音像定位すべき音声トラックではない場合(ステップS105におけるNO)、音声信号レンダリング部104は、記憶部105からレンダリング方式Cを用いて音声信号をレンダリングするために必要なパラメータを読み出す(ステップS110)。続いて、音声信号レンダリング部104は、レンダリング方式Cを用いた音声レンダリングを行い、レンダリング後の音声信号を第1音声信号出力部106に出力する(ステップS111)。本実施形態1において、第1音声信号出力部106は、前述の通り、ユーザの前面に配置された2つのスピーカ402および403であり、レンダリング方式Cは、ステレオ音声へのダウンミックスである。第1音声信号出力部106は、これら2つのスピーカ402および403を対のステレオスピーカと見なし出力するものとする。なお、この場合、第2音声信号出力部107からは音声は出力されない。
 以上の処理をすべての音声トラックに対して適用することによって、視聴者位置に応じて、すなわちレンダリング方式Aの効果を享受できる有効範囲にユーザが位置するか否かによって、出力する音声信号出力部を決定し、レンダリング処理に用いるレンダリング方式を切り変える。これにより、どの視聴位置においても音像定位と音の広がりの双方を享受可能な音場をユーザに提供することが可能となる。
 ここで、レンダリングとは、コンテンツに含まれる音声信号(入力音声信号)を、第1音声信号出力部106および第2音声信号出力部107の少なくとも一つから出力されるべき信号に変換する処理を行うことをいう。
 なお、音声信号レンダリング部104が一度に受け取る音声トラックはコンテンツの開始から終わりまですべてのデータを含める形としてもよい。ただし、同トラックを任意の単位時間の長さに裁断し、この単位で繰り返しフローS1に示した処理を適用するものとしてもよいことは言うまでもなく、この構成により、ユーザの視聴位置の変化にリアルタイムに対応可能となる。
 また、上記したレンダリング方式A~Cは一例であり、これらに示したレンダリング方式に限定されるものではない。例えば、上記説明ではレンダリング方式Aは、音声トラックの種別に関わらずトランスオーラルでレンダリングするものとして説明している。ただし、チャネルベーストラックをステレオへのダウンミックス、オブジェクトベーストラックをトランスオーラルでレンダリングする等、トラックの種別に応じてレンダリング方法を変更する方式を、レンダリング方式Aとするものとしてもよい。
 [記憶部105]
 記憶部105は、音声信号レンダリング部104で用いられる種々のデータを記録するための二次記憶装置によって構成される。記憶部105は、例えば、磁気ディスク、光ディスクまたはフラッシュメモリなどによって構成され、より具体的な例としては、HDD、SSD(Solid State Drive)、SDメモリーカード、BDおよびDVDなどが挙げられる。音声信号レンダリング部104は、必要に応じて記憶部105からデータを読み出す。また、音声信号レンダリング部104によって算出された係数等を含む各種パラメータデータを記憶部105に記録することもできる。
 以上のように、本実施形態1では、ユーザの視聴位置およびコンテンツから得られる情報に応じて、音像定位および音の広がりの双方を考慮した好適なレンダリング方式を音声トラック毎に自動で選択し、音声再生を行う。これにより、いずれの視聴位置においても、定位感および音の広がりについて破綻が少ない音声をユーザに届けることが可能となる。
 〔変形例〕
 上述の本実施形態1では、音声信号処理部10と、第1音声信号出力部106と、第2音声信号出力部107という3つの構成において、音声信号処理部10が、第1音声信号出力部106および第2音声信号出力部107から情報を得る。また、本実施形態1では、音声信号処理部10において、入力音声信号の解析と、第1音声信号出力部106および第2音声信号出力部107から情報に基づいたレンダリングとをおこなう態様である。すなわち、音声信号処理部10において上述した一連の音声信号処理をおこなっている。
 しかしながら、本発明はこれに限定されるものではない。例えば、第1音声信号出力部106および第2音声信号出力部107が、自位置を検出し、検出した自位置を示す情報と、入力音声信号とから、出力するべき音声信号を解析して、レンダリングをおこなって出力してもよい。
 すなわち、上述の実施形態1において説明した音声信号処理部10の音声信号処理動作を、第1音声信号出力部106および第2音声信号出力部107にそれぞれ分割した態様であってもよい。
 〔実施形態2〕
 本発明の一態様に係る音声信号処理システムの他の実施形態について、図6を用いて以下に説明する。なお、説明の便宜上、上記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 図6は、本発明の実施形態2にかかる音声信号処理システム1aの主要な構成を示すブロック図である。
 上述の実施形態1と本実施形態2との相違点は、音声信号出力部情報取得部が取得する音声出力部の情報の取得方法にある。換言すれば、音声信号出力部情報取得部への音声出力部の情報の提供方法が、上述の実施形態1と本実施形態2とにおいて相違する。要するに、本実施形態2は、上述の実施形態1の図1に示す音声信号出力部情報取得部103に代えて、音声信号出力部情報取得部601を備えた音声信号処理部10aと、音声信号処理部10aの外部に構成される情報入力部602とを具備する点において、実施形態1と相違する。
 具体的には、本実施形態2に係る音声信号処理部10aは、入力された音声信号を再構築し、種類の異なる2つ以上の音声信号出力機器を用いて再生する音声信号処理装置である。音声信号処理部10aは、図6に示すように、DVDおよびBDなどのディスクメディア、HDD等に記録されている映像コンテンツまたは音声コンテンツに含まれる音声信号、ならびに、これに付随するメタデータを解析し、含まれる音声信号の種別および音声信号の定位する位置情報を得るコンテンツ解析部101を備える。更に音声信号処理部10aは、コンテンツを視聴する視聴者の位置情報を取得する視聴者位置情報取得部102を備える。更に音声信号処理部10aは、予めわかっている音声信号処理部10aに接続される外部の第1音声信号出力部106および第2音声信号出力部107の情報を記憶部105から取得する音声信号出力部情報取得部601を備える。更に音声信号処理部10aは、前記映像コンテンツ、および、音声コンテンツに含まれる音声信号を受ける。また、音声信号処理部10aは、コンテンツ解析部101によって得られた音声種別および位置情報、視聴者位置情報取得部102によって得られた視聴者位置情報、ならびに、音声信号出力部情報取得部103によって得られた音声出力機器情報に基づいて出力音声信号をレンダリングし、ミキシングした後、外部の第1音声信号出力部106および第2音声信号出力部107に出力する音声信号レンダリング部104を備える。更に音声信号処理部10aは、音声信号レンダリング部104が、必要とする各種パラメータ、または、生成した各種パラメータを記憶する記憶部105を備える。
 本実施形態2では、接続される外部の第1音声信号出力部106および第2音声信号出力部107の情報を、記憶部105に予め記録された複数の情報から情報入力部602を通じて選択させる。また、情報入力部602から、直接値を入力するような構成としてもよい。また、第1音声信号出力部106および第2音声信号出力部107が既知であり、変更されることがないと想定される場合は、記憶部105に第1音声信号出力部106および第2音声信号出力部107の情報のみを記憶しておき、音声信号出力部情報取得部601が該当情報を読み取るのみとする構成としてもよい。
 なお、情報入力部602は、有線または無線で接続された、キーボード、マウスおよびトラックボールなどのデバイス、ならびに、PC、スマートフォンおよびタブレットなどの情報端末で構成される。本実施形態においては図示しないが、必要に応じて、情報入力に必要とされる視覚情報提示の為の表示装置(ディスプレイ等)を具備する構成としてもよいことは言うまでもない。
 なお、上記の挙動以外においては、前述した実施形態1と同一であるので説明を割愛する。
 以上のように、記憶部105または外部の情報入力部602から音声出力部の情報を取得する構成にすることによって、第1音声信号出力部106および第2音声信号出力部107が自身の情報を音声信号処理部10aに通知できないものであっても、実施形態1に示したような効果を享受することが可能となる。
 〔実施形態3〕
 本発明の一態様に係る音声信号処理システムの他の実施形態について、図8および図9を用いて以下に説明する。なお、説明の便宜上、上記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 上述の実施形態1と本実施形態3との相違点は、音声信号レンダリング部の挙動のみである。なお、これ以外の各部の挙動については、先に実施形態1で説明したものと同一であるので説明を割愛する。
 本実施形態3における音声信号レンダリング部104によって行われる処理と実施形態1に記述した処理との違いは、ユーザ位置を模式的に示した上面図である図9に示すように、レンダリング方式Aの有効範囲901に加え、該有効範囲からの距離が一定値の範囲902における処理が追加されている点である。
 図8に、音声信号レンダリング部104においておこなわれるレンダリング処理のフローS1を示す。以下、図8および図9を用いてレンダリング処理について説明する。
 音声信号レンダリング部104は、処理が開始されると(ステップS201)、まず、記憶部105から、レンダリング方式Aによって出力された音声信号の効果を享受可能な範囲、すなわちレンダリング方式Aの有効範囲901を取得する(ステップS202)。次に、音声信号レンダリング部104は、全ての入力音声トラックに対して処理が行われたか否かを確認し(ステップS203)、全てのトラックに対してS204以降の処理が完了していれば(ステップS203におけるYES)処理を終了する(ステップS218)。一方で未処理の入力音声トラックがあれば(ステップS203におけるNO)、音声信号レンダリング部104は、視聴者位置情報取得部102から視聴者位置を取得する。ここで、図9中の(a)に示すようにユーザの視聴位置906がレンダリング方式Aの有効範囲901の範囲内である場合(ステップS204におけるYES)、音声信号レンダリング部104は、記憶部105からレンダリング方式Aによって音声をレンダリングするのに必要なパラメータを読み出す(ステップS210)。続いて、音声信号レンダリング部104は、レンダリング方式Aを用いた音声レンダリングを行い、レンダリング後の音声信号を第1音声信号出力部106に出力する。(ステップS211)。なお、本実施形態において、第1音声信号出力部106は、図9に示すように、ユーザの前面に配置された2つのスピーカ903および904であり、レンダリング方式Aは、これら2つのスピーカを用いてのトランスオーラル処理であるものとする。
 一方、図9中の(b)に示すようにユーザの視聴位置がレンダリング方式Aの有効範囲901外であった場合(ステップS204におけるNO)、音声信号レンダリング部104は、コンテンツ解析部101から得られたトラックの種別情報に基づき、入力音声トラックが音像定位すべき音声トラックか否かを判断する(ステップS205)。本実施形態において、定位すべき音声トラックとは、トラック情報201におけるオブジェクトベースのトラックである。入力音声トラックが音像定位すべき音声トラックである場合(ステップS205におけるYES)、音声信号レンダリング部104は、記憶部105からレンダリング方式Bによって音声をレンダリングするのに必要なパラメータを読み出した(ステップS206)後、レンダリング方式Aの有効範囲901とユーザの現在の視聴位置906との距離dに応じて更に処理を分岐させる(ステップS208)。具体的には、レンダリング方式Aの有効範囲901とユーザの現在の視聴位置906との距離dが閾値α以上であった場合(ステップS208におけるYES、図9中の(c)に示す有効範囲901と視聴位置908との位置関係に相当)、音声信号レンダリング部104は、先に読み出しておいたパラメータに基づきレンダリング方式Bを用いて音声レンダリングを行い、レンダリング後の音声信号を第2音声信号出力部107に出力する(ステップS212)。本実施形態3において、第2音声信号出力部107は、図9に示すように、ユーザが装着した開放型のヘッドホンまたはイヤホンであり、レンダリング方式Bは、このヘッドホンまたはイヤホンを用いてのバイノーラル処理であるものとする。また、閾値αは、音声信号処理装置に予め設定された任意の実数値である。一方、距離dが閾値α未満であった場合(ステップS206におけるNO、図9中の(b)に示す閾値α未満を示す範囲(所定の範囲)902と、視聴位置907との位置関係に相当)、音声信号レンダリング部104は、記憶部105からレンダリング方式Aに必要なパラメータを追加で読み出し(ステップS213)、レンダリング方式Dによる音声レンダリングを行う。本実施形態3においてレンダリング方式Dは、レンダリング方式Aおよびレンダリング方式Bを複合的に適用するものである。レンダリング方式Dは、入力音声トラックに対しレンダリング方式Aを適用した演算結果に係数p1を乗算したレンダリング結果を第1音声信号出力部106に出力する。また、レンダリング方式Dは、同入力音声トラックにレンダリング方式Bを適用した演算結果に係数p2を乗算したレンダリング結果を第2音声信号出力部107に出力する。ここで、係数p1、p2は、距離dに応じて変化する係数値であり、例えば、
p1=d/α
p2=1-p1
で示される。
 最後に、入力音声トラックが音像定位すべき音声トラックではない場合(ステップS205におけるNO)、音声信号レンダリング部104は、記憶部105からレンダリング方式Cによって音声をレンダリングするのに必要なパラメータを読み出す(ステップS207)。レンダリング方式Aの有効範囲901とユーザの現在の視聴位置906との距離dに応じて更に処理を分岐させる(ステップS209)。図9中の(c)のように、距離dが閾値α以上であった場合(ステップS209におけるYES)、音声信号レンダリング部104は、先に読み出しておいたパラメータに基づきレンダリング方式Cを用いて音声レンダリングを行い、レンダリング後の音声信号を第1音声信号出力部106に出力する(ステップS216)。本実施形態3において、第1音声信号出力部106は、前述の通り、ユーザの前面に配置された2つのスピーカ903、904であり、レンダリング方式Cは、ステレオ音声へのダウンミックスである。第1音声信号出力部106は、これら2つのスピーカ903、904を対のステレオスピーカと見なし出力するものとする。一方、視聴者の位置的には図9中の(b)に示すように距離dが閾値α未満であった場合(ステップS209におけるNO)、音声信号レンダリング部104は、記憶部105からレンダリング方式Aに必要なパラメータを追加で読み出し(ステップS215)、レンダリング方式Eによる音声レンダリングを行う。本実施形態3においてレンダリング方式Eは、レンダリング方式Aおよびレンダリング方式Cを複合的に適用するものである。レンダリング方式Eは、入力音声トラックに対しレンダリング方式Aを適用した演算結果に係数p1を乗算したレンダリング結果と、同入力音声トラックにレンダリング方式Bを適用した演算結果に係数p2を乗算したレンダリング結果とを合算し、第1音声信号出力部106に出力する。係数p1およびp2については、前述の通りである。
 以上の処理をすべての音声トラックに対して適用することによって、音声信号レンダリング部104は、視聴者位置に応じて、すなわちレンダリング方式Aの効果を享受できる有効範囲にユーザが位置するか否かによって、レンダリング処理を切り変える。これにより、どの視聴位置においても音像定位および音の広がりの双方を享受可能な音場をユーザに提供することが可能となるだけでなく、レンダリング方式の切り替えが発生する有効範囲の境界付近においても、レンダリング方式が切り替わることに起因する突然の音質的変化を緩和することが可能となる。
 なお、音声トラックの処理単位を任意長とすることも可能であること、および、上記で示したレンダリング方式A~Eは一例であることは、実施形態1にて説明したとおりであり、本実施形態3においても同様である。
 〔実施形態4〕
 本発明の一態様に係る音声信号処理システムの他の実施形態について、図10および図11を用いて以下に説明する。なお、説明の便宜上、上記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 上述の実施形態1では、コンテンツ解析部101が受け取る音声コンテンツに、チャネルベースおよびオブジェクトベース両方のトラックが存在するものとして説明を行っている。また、チャネルベースのトラックには音像定位すべき音声信号が含まれていないものとして、説明を行っている。ただし、音声コンテンツにチャネルベースのトラックのみが含まれている場合およびチャネルベースのトラックに音像定位すべき音声信号が含まれている場合におけるコンテンツ解析部101の動作について、本実施形態4として記述する。なお、実施形態1と本実施形態4との違いは、コンテンツ解析部101の挙動のみであり、他の各部の挙動については、既に説明していることから、説明を割愛する。
 例えば、コンテンツ解析部101が受け取った音声コンテンツが5.1ch音声であった場合、特許文献2に開示されている2チャンネル間の相関情報に基づく音像定位算出技術を応用し、以下の手順に基づいて同様のヒストグラムを作成する。5.1ch音声に含まれる低音効果音(Low Frequency Effect;LFE)以外の各チャンネルにおいて、隣り合うチャンネル間でその相関を計算する。隣り合うチャンネルの組は、5.1chの音声信号においては、図10中の(a)に示す通り、FRおよびFL、FRおよびSR、FLおよびSL、ならびに、SLおよびSRの4対となる(なお、図10中の1000が視聴者の位置)。この場合、隣り合うチャンネルの相関情報は、単位時間nあたりの任意に量子化されたf個の周波数帯の相関係数d(i)が算出され、これに基づいてf個の周波数帯各々の音像定位位置θが算出される(特許文献2の数12)。例えば図11に示すように、FL1101とFR1102と間の相関に基づく音像定位位置1103は、FL1101とFR1102とが成す角の中心を基準としたθとして表される(なお、図11中の1100が視聴者の位置)。本実施形態4では、量子化されたf個の周波数帯の音声をそれぞれ別個の音声トラックとみなし、更に各々の周波数帯の音声のある単位時間において、あらかじめ設定された閾値Th_d以上の相関係数値d(i)を持つ時間帯はオブジェクトベーストラック、それ以外の時間帯はチャネルベーストラックとして分別するものとする。すなわち、相関を計算する隣接チャネルのペア数がN、周波数帯の量子化数をf、とすると、2*N*f個の音声トラックとして分類される。
 また、前述の通り、音像定位位置として求められるθは、これを挟む音源位置の中心を基準としている為、適宜図3に示す座標系に変換を行うものとする。
 以上の処理をFLおよびFR以外の組み合わせについても同様に処理を行い、音声トラック、および、これに対応するトラック情報201の対を音声信号レンダリング部104に送るものとする。
 なお、以上の説明では、特許文献2に開示されている通り、主に人のセリフ音声などが割り付けられるFCチャンネルについては、同チャンネルとFLおよびFRとの間に音像を生じさせるような音圧制御がなされている箇所が多くないものとして、FCは相関の計算対象からは外し、代わりにFLとFRとの相関について考えるものとしている。ただし、勿論FCを含めた相関を考慮してヒストグラムを算出してもよい。例えば、図10中の(b)に示すように、FCおよびFR、FCおよびFL、FRおよびSR、FLおよびSL、SLおよびSRの5対の相関について、上記算出法でのトラック情報生成を行ってよいことは言うまでもない。
 以上のように、ユーザが配したスピーカの配置に応じて、また入力として与えられるチャネルベースオーディオの内容を解析することによって、音声コンテンツにチャネルベースのトラックのみが含まれている場合およびチャネルベースのトラックに音像定位すべき音声信号が含まれている場合であっても、良好な定位感のある音声をユーザに届けることが可能となる。
 〔実施形態5〕
 本発明の一態様に係る音声信号処理システムの他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 上述の実施形態1と本実施形態5との相違点は、レンダリング処理のフローにある。
 上述の実施形態1では、音声信号レンダリング部104(図1)による処理が開始されると、ユーザの視聴位置情報を取得し、基本となるレンダリング方式Aの有効範囲401(図4)にユーザが入っているか否かを判断している。
 これに対し、本実施形態5では、音声信号レンダリング部104(図1)による処理が開始されると、コンテンツ解析部101から得た発音オブジェクト位置情報に含まれるトラックの種別情報に基づき、入力音声トラックが音像定位すべき音声トラックか否かを判断するところから始まる。
 次に、入力音声トラックが音像定位すべき音声トラックである場合、記憶部105からレンダリング方式Bを用いて音声信号をレンダリングするために必要なパラメータを読み出す。続いて、レンダリング方式Bを用いた音声レンダリングを行い、レンダリング後の音声信号を第2音声信号出力部107(図5)に出力する。本実施形態5においても実施形態1と同様に、第2音声信号出力部107は、先述のように、ユーザが装着した開放型のヘッドホンまたはイヤホンであり、レンダリング方式Bは、この開放型のヘッドホンまたはイヤホンを用いてのバイノーラル処理であるものとする。なお、この場合、第1音声信号出力部106(2つのスピーカ402、403)(図5)からは音声は出力されない。
 他方、入力音声トラックが音像定位すべき音声トラックではない場合、記憶部105からレンダリング方式Cを用いて音声信号をレンダリングするために必要なパラメータを読み出す。続いて、レンダリング方式Cを用いた音声レンダリングを行い、レンダリング後の音声信号を第1音声信号出力部106に出力する。本実施形態1において、第1音声信号出力部106(図5)は、前述の通り、ユーザの前面に配置された2つのスピーカ402、403である。レンダリング方式Cは、ステレオ音声へのダウンミックスであり、これら2つのスピーカ402、403(図5)を対のステレオスピーカと見なし出力するものとする。なお、この場合、第2音声信号出力部107(図5)からは音声は出力されない。
 要するに、本実施形態5は、音像定位すべき音声トラックであるか否かによって、スイートスポットを受聴中に移動できる音声出力部と、スイートスポットを受聴中に受聴中に移動しない音声出力部とから用いる音声出力部を決める態様である。より具体的には、音像定位すべき音声トラックであると判断された場合にはスイートスポットを受聴中に移動できる音声出力部から音声を出力する。また、音像定位する必要がない音声トラックであると判断された場合には、スイートスポットを受聴中に移動しない音声出力部から音声を出力する。
 このような態様であっても、音像定位および音の広がりの双方を考慮した好適なレンダリング方式を音声トラック毎に自動で選択し、音声再生を行うことにより、いずれの視聴位置においても、定位感および音の広がりについて破綻が少ない音声をユーザに届けることが可能となる。
 〔実施形態6〕
 本発明の一態様に係る音声信号処理システムの他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 上述の実施形態1と本実施形態6との相違点は、第2音声信号出力部107にある。具体的には、実施形態1も本実施形態6も、ともに、第2音声信号出力部107はスイートスポットを受聴中に移動できる音声出力部である点では共通である。ただし、本実施形態6の第2音声信号出力部107は、第2音声信号出力部107としてユーザに装着されるタイプの音声信号出力部でなく、指向性を変えることが可能である据え置き型(位置固定型)のスピーカである。
 本実施形態6の場合、ユーザに装着される音声信号出力部はないため、視聴者位置情報取得部102(図1)は、ユーザの位置情報を先述したようなカメラを用いて取得する。
 レンダリングの処理フローとしては、先述の態様を採用することができる。
 〔実施形態7〕
 本発明の一態様に係る音声信号処理システムの他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 上述の実施形態1では、ユーザの位置のみを考慮しているが、本発明はこれに限定されるものではなく、ユーザの位置と、ユーザの向きとを考慮して、音像定位させる態様であってもよい。
 ユーザの向きは、例えばユーザに装着される第2音声信号出力部107(図5)にジャイロセンサを搭載して検出することが可能である。
 そして、検出したユーザの向きを示す情報を、音声信号レンダリング部104に出力し、音声信号レンダリング部104においてレンダリング処理をおこなう際に、実施形態1の態様に加えて、この向きを示す情報を用いて、ユーザの向きに併せて音像を定位させる。
 〔実施形態8〕
 本発明の一態様に係る音声信号処理システムの他の実施形態について、図12を用いて以下に説明する。なお、説明の便宜上、上記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 上述の実施形態1と本実施形態8との相違点は、本実施形態8では、視聴者が複数名おり、レンダリング方式Aの有効範囲401の範囲内である第1視聴者と、レンダリング方式Aの有効範囲401の範囲から外れた位置にいる第2視聴者とがいる態様において、第2視聴者には、第2視聴者が装着している第2音声信号出力部107のみから出力された音声を聴取させる一方、据え置き型のスピーカである第1音声信号出力部106から出力される音声を聴取させない、あるいは聴取させにくい構成としている点にある。具体的には、この第2視聴者が装着している第2音声信号出力部107に、第1音声信号出力部106から出力される音声をキャンセルする機能を付加している。
 以下に、本実施形態8を説明するが、まずはコンテンツ視聴環境下に2名のユーザが存在する態様について説明する。
 図12は、実施形態1において用いた図5に対応する図面であり、本実施形態8においてユーザ位置を模式的に示した上面図である。
 上述の実施形態1の図4に示したレンダリングの処理フローと同じく、音声信号レンダリング部104による処理が開始されると(ステップS101)、まず、音声信号レンダリング部104は、記憶部105から、基本となるレンダリング方式(以下、レンダリング方式Aと呼称する)によって出力された音声信号の効果を享受可能な範囲、すなわちレンダリング方式Aの有効範囲401(スイートスポットと呼称されることがある)を取得する(ステップS102)。
 また、視聴者位置情報取得部102から第1視聴者および第2視聴者の視聴位置情報を取得する。
 ここで、図12中の(a)に示すように第1視聴者の視聴位置405aおよび第2視聴者の視聴位置405bがともにレンダリング方式Aの有効範囲401の範囲内である場合、音声信号レンダリング部104は、記憶部105からレンダリング方式Aを用いて音声信号をレンダリングするために必要なパラメータを読み出す(ステップS106)。続いて、音声信号レンダリング部104は、レンダリング方式Aを用いた音声レンダリングを行い、レンダリング後の音声信号を第1音声信号出力部106に出力する(ステップS107)。なお、先述の本実施形態1と同じく、第1音声信号出力部106は据え置き型のスピーカであり、図12中の(a)に示すようにユーザの前面に配置された2つのスピーカ402および403である。すなわち、レンダリング方式Aは、これら2つのスピーカを用いてのトランスオーラル処理であるものとする。なお、この場合、第1視聴者の視聴位置405aの第2音声信号出力部107aからは音声は出力されず、第2視聴者の視聴位置405bの第2音声信号出力部107bからも音声は出力されない。
 一方、図12中の(b)に示すように第1視聴者の視聴位置406aおよび第2視聴者の視聴位置406bがともにレンダリング方式Aの有効範囲401外であった場合(ステップS104におけるNO)、音声信号レンダリング部104は、コンテンツ解析部101から得た発音オブジェクト位置情報に含まれるトラックの種別情報に基づき、入力音声トラックが音像定位すべき音声トラックか否かを判断する(ステップS105)。本実施形態1において、音像定位すべき音声トラックとは、図2に示すトラック情報201におけるオブジェクトベースのトラックである。入力音声トラックが音像定位すべき音声トラックである場合(ステップS105におけるYES)、音声信号レンダリング部104は、記憶部105からレンダリング方式Bを用いて音声信号をレンダリングするために必要なパラメータを読み出す(ステップS108)。続いて、音声信号レンダリング部104は、レンダリング方式Bを用いた音声レンダリングを行い、レンダリング後の音声信号を、第1視聴者の視聴位置406aの第2音声信号出力部107a、および第2視聴者の視聴位置406bの第2音声信号出力部107bに出力する(ステップS109)。第2音声信号出力部107aおよび第2音声信号出力部107bは、先述の第2音声信号出力部107と同じく、開放型のヘッドホンまたはイヤホンであり、レンダリング方式Bは、この開放型のヘッドホンまたはイヤホンを用いたバイノーラル処理であるものとする。本実施形態8では、第1視聴者の視聴位置406aの第2音声信号出力部107aと、第2視聴者の視聴位置406bの第2音声信号出力部107bとには、それぞれ異なる音声信号が出力される。このことから、それぞれの視聴位置において聴取した場合に、適切な音像定位が実現される構成となっている。なお、この場合、第1音声信号出力部106(2つのスピーカ402および403)からは音声は出力されない。
 他方、入力音声トラックが音像定位すべき音声トラックではない場合(ステップS105におけるNO)、音声信号レンダリング部104は、記憶部105からレンダリング方式Cを用いて音声信号をレンダリングするために必要なパラメータを読み出す(ステップS110)。続いて、音声信号レンダリング部104は、レンダリング方式Cを用いた音声レンダリングを行い、レンダリング後の音声信号を第1音声信号出力部106に出力する(ステップS111)。前述の通り、第1音声信号出力部106は、ユーザの前面に配置された2つのスピーカ402および403であり、レンダリング方式Cは、ステレオ音声へのダウンミックスである。第1音声信号出力部106は、これら2つのスピーカ402および403を対のステレオスピーカと見なし出力するものとする。なお、この場合、第1視聴者の視聴位置407aの第2音声信号出力部107aからは音声は出力されず、かつ第2視聴者の視聴位置407bの第2音声信号出力部107bからも音声は出力されない。
 次に、本実施形態8の態様として、第1視聴者の視聴位置408aがレンダリング方式Aの有効範囲401の範囲内である一方、第2視聴者の視聴位置408bがレンダリング方式Aの有効範囲401の範囲から外れていることが、視聴者位置情報取得部102から取得したユーザの視聴位置情報から判明した場合(図12中の(c))について説明する。
 この場合、レンダリング方式Aの有効範囲401の範囲内である第1視聴者の視聴位置408aでは、レンダリング方式Aを用いて音声レンダリングされた音声信号が第1音声信号出力部106(2つのスピーカ402および403)から出力される。この場合、第1視聴者の視聴位置408aの第2音声信号出力部107aからは音声は出力されない。
 他方、レンダリング方式Aの有効範囲401の範囲外である第2視聴者の視聴位置408bでは、レンダリング方式Bを用いた音声レンダリングを行い、レンダリング後の音声信号が第2視聴者の視聴位置408bの第2音声信号出力部107bに出力される。この場合、第1音声信号出力部106(2つのスピーカ402および403)からは、レンダリング方式Aを用いて音声レンダリングされた音声信号が出力されている。そのため、開放型のヘッドホンまたはイヤホンである第2音声信号出力部107bを装着した視聴位置408bにいる第2視聴者には、第2音声信号出力部107bから出力される音像定位した音声に加えて、第1音声信号出力部106(2つのスピーカ402および403)から出力された音声が聴取される。しかしながら、第1音声信号出力部106(2つのスピーカ402および403)から出力される音声は、レンダリング方式Aの有効範囲401の範囲内において音像定位する音声である。このことから、有効範囲401の範囲外である視聴位置408bにおいては高品位な音場を提供することが困難となる。
 そこで、本実施形態8では、第2音声信号出力部107bが、第1音声信号出力部106(2つのスピーカ402および403)から出力された音声をキャンセルする機能を具備する。具体的には、図7に示すように音声信号レンダリング部104に対してマイク702が接続されており、これで計測された音声信号と逆相となる音声信号を第2音声信号出力部107bから出力することにより、第1音声信号出力部106から出力された音声をキャンセルする。ここで、マイク702は1つまたは複数のマイクによって構成されており、好ましくは視聴者の左右の耳介各々に近い位置に1つずつ設置される。第2音声信号出力部107bがイヤホンまたはヘッドホンであった場合、同出力部の構成物のひとつとして、両耳介に近い位置に設置されるものとしてもよい。
 以上により、第2音声信号出力部107bからは第2音声信号出力部107bから出力される音像定位した音声のみが第2音声信号出力部107bの装着者(第2視聴者)に聴取される。これにより、レンダリング方式Aの有効範囲401の範囲内である第1視聴者に対してのみならず、有効範囲401の範囲外である視聴位置408bにいる第2視聴者に対しても、高品位な音場を提供することが可能となる。
 〔実施形態9〕
 本発明の一態様に係る音声信号処理システムの他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態8にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 上述の実施形態8と本実施形態9との相違点は、本実施形態9では、2名の視聴者の視聴位置がレンダリング方式Aの有効範囲401内にあるものの、一方の視聴者(第2視聴者)にはレンダリング方式Bを用いたレンダリングをおこなって第2視聴者が装着している第2音声信号出力部107から音を出すという点にある。
 要するに、図12中の(a)に示すように第1視聴者の視聴位置405aおよび第2視聴者の視聴位置405bがともにレンダリング方式Aの有効範囲401の範囲内にある。この場合、第1視聴者の視聴位置405aでは、レンダリング方式Aを用いた音声レンダリングがおこなわれ、第1音声信号出力部106から音声が出力される。一方で、第2視聴者の視聴位置405bでは、レンダリング方式Bを用いた音声レンダリングを行い、第2視聴者の視聴位置405bの第2音声信号出力部107bから音声が出力される。
 本実施形態9においても、上述の実施形態8において説明したように、第1音声信号出力部106から出力された音声が第2音声信号出力部107bによってキャンセルする態様を採用することができる。
 〔実施形態10〕
 本発明の一態様に係る音声信号処理システムの他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態1にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
 上述の実施形態1と本実施形態10との相違点は、上述の実施形態1では、図4の有効範囲401内にいるユーザに対して、据え置き型のスピーカである第1音声信号出力部106から出力される音声を受聴させる態様である。これに対して、本実施形態10では、図4の有効範囲401内にいるユーザに対して、音像定位する必要がない音声信号を据え置き型のスピーカである第1音声信号出力部106から出力させるとともに、音像定位すべき音声信号を、ユーザが装着した開放型のヘッドホンまたはイヤホン(第2音声信号出力部107)から出力させる。
 これにより、図4の有効範囲401内にいるユーザは、第1音声信号出力部106および第2音声信号出力部107の双方から音声を受聴することになる。
 本実施形態10によれば、図4の有効範囲401内に複数人がいても個人個人への音質調整ができるというメリットを享受できる。
 〔まとめ〕
 本発明の態様1に係る音声信号処理装置(音声信号処理部10)は、マルチチャネルの音声信号処理システムであって、入力された音声信号が音像定位すべき音声信号であるか否かを示す情報を取得する音像定位情報取得部(音声信号レンダリング部104)と、入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部(第1音声信号出力部106、スピーカ402、403)と、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部(第2音声信号出力部107、107a、107b)とのうち、上記情報に応じた1つ以上の音声信号出力部に出力するレンダリング部(音声信号レンダリング部104)とを備えていることを特徴としている。
 上記の構成によれば、ユーザに対し高品位な音場を提供可能である。
 ここで、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部は、いわゆるスイートスポットを、ユーザの位置に応じて移動させることができるものに相当する。一方、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部は、いわゆるスイートスポットを、ユーザの位置に応じて移動させることができないものに相当する。
 上記構成によれば、入力された音声信号が音像定位すべき音声信号であれば、スイートスポットを、ユーザの位置に応じて移動させることができる第2音声信号出力部から出力させるためのレンダリング方式を用いて音声信号をレンダリングすることができる。一方、入力された音声信号が音像定位すべき音声信号でなければ、スイートスポットを、ユーザの位置に応じて移動させることができない第1音声信号出力部から出力させるためのレンダリング方式を用いて音声信号をレンダリングすることができる。
 本発明の態様2に係る音声信号処理装置(音声信号処理部10)は、マルチチャネルの音声信号処理システムであって、受聴者の位置情報を取得する位置情報取得部(視聴者位置情報取得部102)と、入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部(第1音声信号出力部106、スピーカ402、403)と、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部(第2音声信号出力部107、107a、107b)のうち、上記位置情報に応じた1つ以上の音声信号出力部に出力するレンダリング部(音声信号レンダリング部104)とを備えていることを特徴としている。
 上記の構成によれば、ユーザに対し高品位な音場を提供可能である。
 上記構成によれば、或るレンダリング方式に対応するスイートスポットに受聴者の位置が入っているか否かに応じて、例えば、入っていれば、スイートスポットを、ユーザの位置に応じて移動させることができない第1音声信号出力部から出力させるためのレンダリング方式を用いて音声信号をレンダリングすることができる。一方、入っていなければ、スイートスポットを、ユーザの位置に応じて移動させることができる第2音声信号出力部から出力させるためのレンダリング方式を用いて音声信号をレンダリングすることができる。これによれば、ユーザが何れの受聴位置に居る場合であっても、ユーザに対して高品位な音場を提供することができる。
 本発明の態様3に係る音声信号処理装置(音声信号処理部10)は、上記態様1または2において、上記入力された音声信号から、音声信号の種別、および音声信号が定位する位置情報を解析する解析部(コンテンツ解析部101)と、上記レンダリング部において必要なパラメータを記憶する記憶部105とを更に備えていてもよい。
 本発明の態様4に係る音声信号処理装置(音声信号処理部10)は、上記態様1から3のいずれかにおいて、上記第1音声信号出力部は、据え置き型のスピーカ(第1音声信号出力部106、スピーカ402、403)であり、上記第2音声信号出力部は、受聴者携帯型のスピーカ(第2音声信号出力部107、107a、107b)であってもよい。
 本発明の態様5に係る音声信号処理装置(音声信号処理部10)は、上記態様1から3のいずれかにおいて、上記第2音声信号出力部(第2音声信号出力部107、107a、107b)は、指向性を変えることができる位置固定型のスピーカであってもよい。
 本発明の態様6に係る音声信号処理装置(音声信号処理部10)は、上記態様1から5のいずれかにおいて、上記第1音声信号出力部、および、上記第2音声信号出力部を示す情報を取得する音声信号出力部情報取得部103を更に備えていてもよい。
 上記の構成によれば、取得した音声信号出力部の種類に応じて、種類に適したレンダリング方式を選択することができる。
 本発明の態様7に係る音声信号処理装置(音声信号処理部10)は、上記態様6において、上記音声信号出力部情報取得部103は、上記第1音声信号出力部を示す情報を上記第1音声信号出力部から取得し、上記第2音声信号出力部を示す情報を上記第2音声信号出力部から取得する構成であってもよい。
 本発明の態様8に係る音声信号処理装置(音声信号処理部10)は、上記態様6において、上記音声信号出力部情報取得部103は、上記第1音声信号出力部および上記第2音声信号出力部(第1音声信号出力部106、スピーカ402、403、第2音声信号出力部107、107a、107b)の種類を示す情報が予め記録されたなかから、使用する音声信号出力部の当該情報を選択する構成であってもよい。
 本発明の態様9に係る音声信号処理装置(音声信号処理部10)は、上記態様2において、上記レンダリング部(音声信号レンダリング部104)は、受聴者の位置が、予め設定された受聴可能領域(レンダリング方式Aの有効範囲401)に含まれているか否かに基づいて、レンダリング処理に用いるレンダリング方式を選択する構成になっていてもよい。
 本発明の態様10に係る音声信号処理装置(音声信号処理部10)は、上記態様2または9において、上記レンダリング部(音声信号レンダリング部104)は、受聴者の位置が、予め設定された受聴可能領域(レンダリング方式Aの有効範囲901)に含まれていないものの、該受聴可能領域から所定の範囲内(範囲902)に含まれている場合には、該受聴可能領域に音像定位させるレンダリング方式(レンダリング方式A)と、該受聴可能領域から外れた位置に音像定位させるレンダリング方式(レンダリング方式A)とを用いてレンダリングする構成(レンダリング方式Dによってレンダリングする構成)となっていてもよい。
 本発明の態様11に係る音声信号処理装置(音声信号処理部10)は、上記態様1から10のいずれかにおいて、上記第1音声信号出力部(第1音声信号出力部106、スピーカ402、403)および上記第2音声信号出力部(第2音声信号出力部107、107a、107b)を備えていてもよい。
 本発明の態様12に係る音声信号処理装置(音声信号処理部10)は、上記態様2において、受聴者を撮影する撮影装置(カメラ)を更に備えており、上記位置情報取得部は、上記撮影装置の撮影データに基づいて受聴者の位置情報を取得する構成であってもよい。
 本発明の態様13に係る音声信号処理システム1は、マルチチャネルの音声信号処理システムであって、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部、および、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部と、入力された音声信号が音像定位すべき音声信号であるか否かを示す情報を取得する音像定位情報取得部(音声信号レンダリング部104)と、入力された音声信号をレンダリングして、上記第1音声信号出力部(第1音声信号出力部106、スピーカ402、403)と、上記第2音声信号出力部(第2音声信号出力部107、107a、107b)とのうち、上記情報に応じた1つ以上の音声信号出力部に出力するレンダリング部(音声信号レンダリング部104)とを備えていることを特徴としている。
 本発明の態様14に係る音声信号処理システム1は、マルチチャネルの音声信号処理システムであって、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部(第1音声信号出力部106、スピーカ402、403)、および、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部(第2音声信号出力部107、107a、107b)と、受聴者の位置情報を取得する位置情報取得部と、入力された音声信号をレンダリングして、上記第1音声信号出力部(第1音声信号出力部106、スピーカ402、403)と、上記第2音声信号出力部(第2音声信号出力部107、107a、107b)とのうち、上記位置情報に応じた1つ以上の音声信号出力部に出力するレンダリング部(音声信号レンダリング部104)とを備えていることを特徴としている。
 本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
 (関連出願の相互参照)
 本出願は、2017年9月11日に出願された日本国特許出願:特願2017-174102に対して優先権の利益を主張するものであり、それを参照することにより、その内容の全てが本書に含まれる。
 1、1a 音声信号処理システム
 10、10a 音声信号処理部
 101 コンテンツ解析部
 102 視聴者位置情報取得部
 103、601 音声信号出力部情報取得部
 104 音声信号レンダリング部
 105 記憶部
 106 第1音声信号出力部
 107、107a、107b 第2音声信号出力部
 201 トラック情報
 401、901 有効範囲
 402、403、903、904 スピーカ
 602 情報入力部
 702 マイク
 902 範囲

Claims (14)

  1.  マルチチャネルの音声信号処理装置であって、
     入力された音声信号が音像定位すべき音声信号であるか否かを示す情報を取得する音像定位情報取得部と、
     入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部と、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部とのうち、上記情報に応じた1つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴とする音声信号処理装置。
  2.  マルチチャネルの音声信号処理装置であって、
     受聴者の位置情報を取得する位置情報取得部と、
     入力された音声信号をレンダリングして、受聴可能領域の位置を受聴中に移動しない第1音声信号出力部と、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部とのうち、上記位置情報に応じた1つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴とする音声信号処理装置。
  3.  上記入力された音声信号から、音声信号の種別、および音声信号が定位する位置情報を解析する解析部と、
     上記レンダリング部において必要なパラメータを記憶する記憶部とを更に備えることを特徴とする請求項1または2に記載の音声信号処理装置。
  4.  上記第1音声信号出力部は、据え置き型のスピーカであり、
     上記第2音声信号出力部は、受聴者携帯型のスピーカであることを特徴とする請求項1から3までの何れか1項に記載の音声信号処理装置。
  5.  上記第2音声信号出力部は、(1)開放型のヘッドホンまたはイヤホンであるか、(2)受聴者の位置に合わせて移動可能なスピーカであるか、(3)指向性を変えることができる位置固定型のスピーカであることを特徴とする請求項1から3までの何れか1項に記載の音声信号処理装置。
  6.  上記第1音声信号出力部および上記第2音声信号出力部を示す情報を取得する音声信号出力部情報取得部を更に備えることを特徴とする請求項1から5のいずれか1項に記載の音声信号処理装置。
  7.  上記音声信号出力部情報取得部は、上記第1音声信号出力部を示す情報を上記第1音声信号出力部から取得し、上記第2音声信号出力部を示す情報を上記第2音声信号出力部から取得することを特徴とする請求項6に記載の音声信号処理装置。
  8.  上記音声信号出力部情報取得部は、上記第1音声信号出力部および上記第2音声信号出力部を示す情報が予め記録されたなかから、使用する音声信号出力部の当該情報を選択することを特徴とする請求項6に記載の音声信号処理装置。
  9.  上記レンダリング部は、受聴者の位置が、予め設定された受聴可能領域に含まれているか否かに基づいて、レンダリング処理に用いるレンダリング方式を選択することを特徴とする請求項2に記載の音声信号処理装置。
  10.  上記レンダリング部は、受聴者の位置が、予め設定された受聴可能領域に含まれていないものの、該受聴可能領域から所定の範囲内に含まれている場合には、該受聴可能領域に音像定位させるレンダリング方式と、該受聴可能領域から外れた位置に音像定位させるレンダリング方式とを用いてレンダリングすることを特徴とする請求項2または9に記載の音声信号処理装置。
  11.  上記第1音声信号出力部および上記第2音声信号出力部を備えていることを特徴とする請求項1から10までの何れか1項に記載の音声信号処理装置。
  12.  受聴者を撮影する撮影装置を更に備えており、
     上記位置情報取得部は、上記撮影装置の撮影データに基づいて受聴者の位置情報を取得することを特徴とする請求項2に記載の音声信号処理装置。
  13.  マルチチャネルの音声信号処理システムであって、
     受聴可能領域の位置を受聴中に移動しない第1音声信号出力部、および、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部と、
     入力された音声信号が音像定位すべき音声信号であるか否かを示す情報を取得する音像定位情報取得部と、
     入力された音声信号をレンダリングして、上記第1音声信号出力部と、上記第2音声信号出力部とのうち、上記情報に応じた1つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴とする音声信号処理システム。
  14.  マルチチャネルの音声信号処理システムであって、
     受聴可能領域の位置を受聴中に移動しない第1音声信号出力部、および、受聴可能領域の位置を受聴中に移動できる第2音声信号出力部と、
     受聴者の位置情報を取得する位置情報取得部と、
     入力された音声信号をレンダリングして、上記第1音声信号出力部と、上記第2音声信号出力部とのうち、上記位置情報に応じた1つ以上の音声信号出力部に出力するレンダリング部とを備えていることを特徴とする音声信号処理システム。
PCT/JP2018/014536 2017-09-11 2018-04-05 音声信号処理装置および音声信号処理システム WO2019049409A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/645,455 US20200280815A1 (en) 2017-09-11 2018-04-05 Audio signal processing device and audio signal processing system
JP2019540753A JPWO2019049409A1 (ja) 2017-09-11 2018-04-05 音声信号処理装置および音声信号処理システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-174102 2017-09-11
JP2017174102 2017-09-11

Publications (1)

Publication Number Publication Date
WO2019049409A1 true WO2019049409A1 (ja) 2019-03-14

Family

ID=65634104

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/014536 WO2019049409A1 (ja) 2017-09-11 2018-04-05 音声信号処理装置および音声信号処理システム

Country Status (3)

Country Link
US (1) US20200280815A1 (ja)
JP (1) JPWO2019049409A1 (ja)
WO (1) WO2019049409A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021058857A1 (en) 2019-09-25 2021-04-01 Nokia Technologies Oy Presentation of premixed content in 6 degree of freedom scenes
JP2022530505A (ja) * 2019-05-03 2022-06-29 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数のタイプのレンダラーを用いたオーディオ・オブジェクトのレンダリング
WO2022234698A1 (ja) * 2021-05-07 2022-11-10 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2616073A (en) * 2022-02-28 2023-08-30 Audioscenic Ltd Loudspeaker control
CN115967887B (zh) * 2022-11-29 2023-10-20 荣耀终端有限公司 一种处理声像方位的方法和终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001006813A1 (fr) * 1999-07-15 2001-01-25 Sony Corporation Amplificateur de son et procede d'amplification sonore
JP2003032776A (ja) * 2001-07-17 2003-01-31 Matsushita Electric Ind Co Ltd 再生システム
JP2008131089A (ja) * 2006-11-16 2008-06-05 Sony Corp 音響システム、音響装置及び最適音場生成方法
WO2010113434A1 (ja) * 2009-03-31 2010-10-07 パナソニック株式会社 音響再生装置及び音響再生方法
WO2012042905A1 (ja) * 2010-09-30 2012-04-05 パナソニック株式会社 音響再生装置および音響再生方法
JP2015170926A (ja) * 2014-03-05 2015-09-28 キヤノン株式会社 音響再生装置、音響再生方法
WO2017098949A1 (ja) * 2015-12-10 2017-06-15 ソニー株式会社 音声処理装置および方法、並びにプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001006813A1 (fr) * 1999-07-15 2001-01-25 Sony Corporation Amplificateur de son et procede d'amplification sonore
JP2003032776A (ja) * 2001-07-17 2003-01-31 Matsushita Electric Ind Co Ltd 再生システム
JP2008131089A (ja) * 2006-11-16 2008-06-05 Sony Corp 音響システム、音響装置及び最適音場生成方法
WO2010113434A1 (ja) * 2009-03-31 2010-10-07 パナソニック株式会社 音響再生装置及び音響再生方法
WO2012042905A1 (ja) * 2010-09-30 2012-04-05 パナソニック株式会社 音響再生装置および音響再生方法
JP2015170926A (ja) * 2014-03-05 2015-09-28 キヤノン株式会社 音響再生装置、音響再生方法
WO2017098949A1 (ja) * 2015-12-10 2017-06-15 ソニー株式会社 音声処理装置および方法、並びにプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022530505A (ja) * 2019-05-03 2022-06-29 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数のタイプのレンダラーを用いたオーディオ・オブジェクトのレンダリング
JP7157885B2 (ja) 2019-05-03 2022-10-20 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数のタイプのレンダラーを用いたオーディオ・オブジェクトのレンダリング
JP7443453B2 (ja) 2019-05-03 2024-03-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数のタイプのレンダラーを用いたオーディオ・オブジェクトのレンダリング
US11943600B2 (en) 2019-05-03 2024-03-26 Dolby Laboratories Licensing Corporation Rendering audio objects with multiple types of renderers
WO2021058857A1 (en) 2019-09-25 2021-04-01 Nokia Technologies Oy Presentation of premixed content in 6 degree of freedom scenes
CN114503609A (zh) * 2019-09-25 2022-05-13 诺基亚技术有限公司 在6自由度场景中呈现预混合内容
EP4035428A4 (en) * 2019-09-25 2023-10-18 Nokia Technologies Oy DISPLAY OF PRE-MIXED CONTENT IN SCENES WITH 6 DEGREES OF FREEDOM
WO2022234698A1 (ja) * 2021-05-07 2022-11-10 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
US20200280815A1 (en) 2020-09-03
JPWO2019049409A1 (ja) 2020-10-22

Similar Documents

Publication Publication Date Title
KR102529122B1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2019049409A1 (ja) 音声信号処理装置および音声信号処理システム
KR101011543B1 (ko) 바이노럴 오디오 시스템에서 사용하기 위한 다-차원 통신 공간을 생성하는 방법 및 장치
US7158642B2 (en) Method and apparatus for producing a phantom three-dimensional sound space with recorded sound
AU2001231228B2 (en) Use of voice-to-remaining audio (VRA) in consumer applications
KR100878457B1 (ko) 음상정위 장치
WO2016063613A1 (ja) 音響再生装置
AU2001231228A1 (en) Use of voice-to-remaining audio (VRA) in consumer applications
CA2595625A1 (en) Ambient and direct surround sound system
KR20160141793A (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR102527336B1 (ko) 가상 공간에서 사용자의 이동에 따른 오디오 신호 재생 방법 및 장치
JP6868093B2 (ja) 音声信号処理装置及び音声信号処理システム
WO2021061680A2 (en) Hybrid near/far-field speaker virtualization
JPWO2017209196A1 (ja) スピーカシステム、音声信号レンダリング装置およびプログラム
KR20180012744A (ko) 입체 음향 재생 방법 및 장치
WO2018150774A1 (ja) 音声信号処理装置及び音声信号処理システム
JP2005286828A (ja) オーディオ再生装置
RU2779295C2 (ru) Обработка монофонического сигнала в декодере 3d-аудио, предоставляющая бинауральный информационный материал
Brandenburg et al. Audio Codecs: Listening pleasure from the digital world
JP2023080769A (ja) 再生制御装置、頭外定位処理システム、及び再生制御方法
Benicek Methods and Techniques for Capturing Music Concerts for Virtual Reality Experiences
Waldron Capturing Sound for VR & AR

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18853764

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019540753

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18853764

Country of ref document: EP

Kind code of ref document: A1