WO2020144938A1 - 音声出力装置、音声出力方法 - Google Patents

音声出力装置、音声出力方法 Download PDF

Info

Publication number
WO2020144938A1
WO2020144938A1 PCT/JP2019/044877 JP2019044877W WO2020144938A1 WO 2020144938 A1 WO2020144938 A1 WO 2020144938A1 JP 2019044877 W JP2019044877 W JP 2019044877W WO 2020144938 A1 WO2020144938 A1 WO 2020144938A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
voice
audio output
vibration
unit
Prior art date
Application number
PCT/JP2019/044877
Other languages
English (en)
French (fr)
Inventor
米田 道昭
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201980087461.8A priority Critical patent/CN113261309B/zh
Priority to US17/420,361 priority patent/US20220095054A1/en
Priority to JP2020565599A priority patent/JP7447808B2/ja
Priority to DE112019006599.8T priority patent/DE112019006599T5/de
Priority to KR1020217017787A priority patent/KR20210113174A/ko
Publication of WO2020144938A1 publication Critical patent/WO2020144938A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R7/00Diaphragms for electromechanical transducers; Cones
    • H04R7/02Diaphragms for electromechanical transducers; Cones characterised by the construction
    • H04R7/04Plane diaphragms
    • H04R7/045Plane diaphragms using the distributed mode principle, i.e. whereby the acoustic radiation is emanated from uniformly distributed free bending wave vibration induced in a stiff panel and not from pistonic motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1601Constructional details related to the housing of computer displays, e.g. of CRT monitors, of flat displays
    • G06F1/1605Multimedia displays, e.g. with integrated or attached speakers, cameras, microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K9/00Devices in which sound is produced by vibrating a diaphragm or analogous element, e.g. fog horns, vehicle hooters or buzzers
    • G10K9/12Devices in which sound is produced by vibrating a diaphragm or analogous element, e.g. fog horns, vehicle hooters or buzzers electrically operated
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/64Constructional details of receivers, e.g. cabinets or dust covers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/64Constructional details of receivers, e.g. cabinets or dust covers
    • H04N5/642Disposition of sound reproducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone

Definitions

  • the present technology relates to an audio output device and an audio output method, and particularly to the technical field of audio output performed together with video display.
  • a video output device such as a television device
  • other audio may be output as a speaker while outputting the audio accompanying the video content as a speaker.
  • a system that responds to a user's voice inquiry is known. By incorporating the input/output function of such a system in a television device, a user can be informed while watching video content. A response voice is also output.
  • Patent Document 1 discloses a technique related to signal processing for virtual sound source position reproduction as a technique related to audio output by a speaker.
  • the present technology aims to make it easier for the user to hear when other sounds are output together with the content sounds.
  • An audio output device includes a display panel that displays video content, and a sound reproduction by vibrating the display panel based on a first audio signal that is an audio signal of the video content displayed on the display panel. And a plurality of second audio output drive units for executing the audio reproduction, and a plurality of second audio output driving units for executing the audio reproduction by vibrating the display panel based on the second audio signal different from the first audio signal. And a localization processing unit that sets the localization of the audio output by the plurality of second audio output driving units by signal processing of the second audio signal.
  • the display panel is vibrated to output a sound.
  • the first audio signal is audio corresponding to the video to be displayed.
  • the second audio output drive unit for outputting the audio by the second audio signal which is not the audio of the displayed video content is provided.
  • the display panel is divided into a plurality of vibration regions that vibrate independently, and the display panel includes the first audio output drive unit or the second audio output drive unit. It is conceivable that one audio output driving unit is arranged for each vibration region. That is, a plurality of vibrating regions are provided on the entire surface or a part of the surface of one display panel. In this case, one sound output drive unit is associated with one vibration region.
  • the second voice signal is a voice signal of a response voice generated in response to a request.
  • a response voice voice of answer to question, etc.
  • the second voice signal is a voice signal of a response voice generated in response to a request.
  • it is a response voice (voice of answer to question, etc.) generated in response to a request by a voice or the like input by the user as an agent device.
  • the localization processing unit performs localization processing in which the sound of the second audio signal is localized at a position outside the display surface range of the display panel. .. That is, the user is made to hear the sound of the second sound signal from a position other than the display surface where the image is displayed.
  • a specific audio output drive unit among the plurality of audio output drive units arranged on the display panel is the second audio output drive unit. It is possible. That is, a specific audio output driving unit is assigned as the second audio output driving unit.
  • the display panel is divided into a plurality of vibration regions that vibrate independently, and the second audio output drive unit vibrates including the center of the display panel. It may be arranged in a vibration region other than the region. Plural vibrating regions are provided on the entire surface or a part of the surface of one display panel. In this case, one sound output drive unit is associated with one vibration region.
  • the display panel is divided into a plurality of vibration regions that vibrate independently, and the second audio output drive unit is located at least in the left-right direction of the display panel. It is conceivable that they are arranged for the two vibrating regions respectively. That is, at least two vibration regions arranged so as to have a left-right positional relationship are respectively driven by the second audio output driving unit.
  • the display panel is divided into a plurality of vibration regions that vibrate independently, and the second audio output drive unit is located at least in the vertical direction of the display panel. It is conceivable that they are arranged for the two vibrating regions respectively. That is, at least two vibration regions arranged so as to have a vertical positional relationship are respectively driven by the second audio output driving unit.
  • the display panel is divided into a plurality of vibration areas that vibrate independently, and an audio output drive unit is provided for each vibration area, and the second output area is provided.
  • all the audio output driving units are used as the first audio output driving unit, and some of the audio output driving units perform the audio based on the second audio signal. It may be used as the second audio output driver when outputting.
  • a plurality of vibrating regions are provided on the entire surface or a part of the surface of one display panel, and each of them corresponds to an audio output driving unit. In this case, some of the audio output drive units are switched and used for outputting the first audio signal and outputting the second audio signal.
  • the audio output drive unit for the vibration area other than the vibration area including the center of the display panel may be the partial audio output drive unit.
  • Plural vibrating regions are provided on the entire surface or a part of the surface of one display panel.
  • one sound output drive unit is associated with one vibration region.
  • the vibration region and the audio output driving unit to be switched and used for outputting the second audio signal are selected without being fixed from the set of the plurality of vibration regions and the audio output driving unit.
  • the audio output levels of the audio output drive units are detected, and the output levels of the audio output drive units are detected. It is possible to select the audio output drive unit used as the second audio output drive unit according to the above. That is, among the plurality of sets of the vibration area and the audio output drive section, the vibration area and the audio output drive section to be switched and used for outputting the second audio signal are selected according to the output situation at that time. To do.
  • the audio output level is detected, and the first output is detected according to the detected output level. It is conceivable to select the audio output driving unit used as the second audio output driving unit. For example, each time the output opportunity of the second audio signal is output, a group of the vibration area other than the center of the display screen and the audio output drive unit that is switched to the audio output for the second audio signal is set to each output level. Select accordingly.
  • the audio output device according to the present technology described above is built in a television device. That is, the present technology is adopted when audio reproduction is performed using the display panel of the television device.
  • An audio output method is such that one or a plurality of first audio output drive units are used to display the display panel based on a first audio signal that is an audio signal of the video content displayed on a display panel that displays the video content.
  • To perform audio reproduction perform signal processing for setting localization for a second audio signal different from the first audio signal, and then perform a plurality of first audio signals for the second audio signal.
  • 2 is an audio output method in which the display panel is vibrated by the audio output drive unit to execute audio reproduction.
  • the second audio signal is output in a predetermined localization by an audio output driving unit different from the audio output driving unit of the audio signal of the video content.
  • FIG. 4 is an explanatory diagram of a back surface configuration of the display panel of the embodiment.
  • FIG. 5 is an explanatory diagram of a rear structure of the display panel of the embodiment with a rear cover removed.
  • FIG. 6 is a cross-sectional view taken along line BB of the display panel of the embodiment.
  • FIG. 7 is an explanatory diagram of a vibration region of the display panel of the embodiment. It is explanatory drawing of the audio
  • FIG. 5 is an explanatory diagram of a vibration region and an actuator arrangement example of the embodiment. It is a block diagram of the audio output device of a 7th embodiment. It is a circuit diagram of a channel selection unit of the seventh embodiment. It is explanatory drawing of the vibration area
  • the agent device 1 in the present embodiment is configured by an information processing device and outputs a response voice in response to a request from the user's voice or the like, or outputs various response to various electronic devices according to the user's instruction or situation.
  • the agent device 1 responds to the user's voice picked up by the microphone with a response voice as the television device 2. It shall be output using the speaker.
  • the agent device 1 is not necessarily built in the television device 2 and may be a separate body.
  • the television device 2 described in the embodiment is an example of an output device that outputs video and audio, and is particularly an example of a device that includes an audio output device and that can output content audio and agent audio.
  • the content voice is a voice accompanying the video content output by the television device 2
  • the agent voice is a voice such as a response from the agent device 1 to the user.
  • the television device 2 is an example of a device provided with a voice output device, and a voice output in which various devices such as an audio device, a dialogue device, a robot, a personal computer device, and a terminal device cooperate with the agent device 1 Envisioned as a device.
  • the operation of the television device 2 in the description of the embodiment can be similarly applied to these various output devices.
  • FIG. 1 shows a system configuration example having a television device 2 having an agent device 1.
  • the agent device 1 is built in the television device 2 and inputs, for example, a voice from a microphone 4 attached to the television device 2.
  • the agent device 1 can communicate with an external analysis engine 6 via the network 3. Further, the agent device 1 outputs a voice by using the speaker 5 included in the television device 2, for example.
  • the agent device 1 has a function of recording a user voice input from the microphone 4, a function of reproducing a response voice by using the speaker 5, and an interaction with the analysis engine 6 as a cloud server via the network 3.
  • the function of performing is provided by, for example, software.
  • the network 3 may be any transmission path through which the agent device 1 can communicate with a device outside the system, such as the Internet, LAN (Local Area Network), VPN (Virtual Private Network), intranet, extranet, satellite communication.
  • LAN Local Area Network
  • VPN Virtual Private Network
  • intranet extranet
  • extranet satellite communication.
  • CATV Common Antenna TeleVision
  • the agent device 1 can communicate with the external analysis engine 6 as described above, the agent device 1 can cause the analysis engine 6 to execute a necessary analysis process.
  • the analysis engine 6 is, for example, an AI (artificial intelligence) engine, and can transmit appropriate information to the agent device 1 based on the input analysis data.
  • the analysis engine 6 has a voice recognition unit 10, a natural language understanding unit 11, an action unit 12, and a voice synthesis unit 13 as processing functions.
  • the agent device 1 transmits, for example, a voice signal based on the voice of the user input from the microphone 4 to the analysis engine 6 via the network 3.
  • the voice recognition unit 10 recognizes the voice signal transmitted from the agent device 1 and converts it into text data.
  • the natural language understanding unit 11 performs a language analysis on the text data, extracts an instruction from the text, and transmits an instruction corresponding to the instruction content to the action unit 12.
  • the action unit 12 performs an action according to the instruction. For example, when the command is an inquiry about the weather of tomorrow, the result (for example, “Tomorrow's weather is sunny”) is generated as text data. This text data is converted into a voice signal by the voice synthesizer 13 and transmitted to the agent device 1. When the agent device 1 receives the voice signal, the agent device 1 supplies the voice signal to the speaker 5 to execute the voice output. As described above, the response to the voice uttered by the user is output.
  • the timing at which the voice signal of the command from the agent device 1 is sent to the analysis engine 6 is, for example, when the agent device 1 always records the voice from the microphone 4 and the keyword to be activated coincides with the subsequent command.
  • the agent device 1 may accept not only the input from the microphone 4 but also the input from various sensing devices and perform a corresponding process.
  • an imaging device camera
  • a contact sensor e.g., a contact sensor
  • a load sensor e.g., a load sensor
  • an illuminance sensor e.g., a contact sensor
  • an illuminance sensor e.g., a contact sensor
  • an illuminance sensor e.g., a contact sensor
  • an illuminance sensor e.g., a contact sensor
  • an illuminance sensor e.g., a contact sensor
  • an illuminance sensor e.g., a contact sensor
  • an illuminance sensor e.g., a contact sensor
  • an illuminance sensor e.g., a contact sensor
  • an illuminance sensor e.g., a contact sensor
  • an illuminance sensor e.g., a contact sensor
  • the agent device 1 may not only output the response voice to the user, but may also perform device control according to the user's command. For example, it is possible to set the output of the video and audio of the television device 2 according to the user's voice instruction (or an instruction detected by another sensing device).
  • the settings related to video output are settings that cause changes in video output, and include, for example, brightness setting, color setting, sharpness, contrast, noise reduction, and the like.
  • the setting related to audio output is a setting that causes a change in audio output, and is a volume level setting or a sound quality setting.
  • the sound quality settings include, for example, low-frequency emphasis, high-frequency emphasis, equalizing, noise cancellation, reverb, and echo.
  • FIG. 2 shows another configuration example.
  • the agent device 1 built in the television device 2 has a function as the analysis engine 6.
  • the voice recognition unit 10 recognizes a user's voice input from the microphone 4 and converts it into text data.
  • the natural language understanding unit 11 performs a language analysis on the text data, extracts an instruction from the text, and transmits an instruction corresponding to the instruction content to the action unit 12.
  • the action unit 12 performs an action according to the instruction.
  • the action unit 12 generates text data as a response, and the text data is converted into a voice signal by the voice synthesis unit 13.
  • the agent device 1 supplies the audio signal to the speaker 5 to execute audio output.
  • FIG. 3 shows a configuration example of the television device 2 according to the system configuration of FIG. 1
  • FIG. 4 shows a configuration example of the television device 2 according to the system configuration of FIG.
  • the agent device 1 built in the television device 2 includes a calculation unit 15 and a memory unit 17.
  • the calculation unit 15 is composed of an information processing device such as a microcomputer.
  • the calculation unit 15 has functions as an input management unit 70 and an analysis information acquisition unit 71. These functions are expressed by software that defines processing such as a microcomputer.
  • the calculation unit 15 executes necessary processing based on these functions.
  • the memory unit 17 provides a work area required by the arithmetic unit 15 for arithmetic processing, and stores coefficients, data, tables, databases, etc. used for arithmetic processing.
  • the user's voice is picked up by the microphone 4 and output as a voice signal.
  • the audio signal obtained by the microphone 4 is subjected to amplification processing, filter processing, A/D conversion processing, and the like in the audio input unit 18, and is supplied to the arithmetic unit 15 as a digital audio signal.
  • the calculation unit 15 uses the function of the input management unit 70 to acquire a voice signal and determine whether or not the information is information to be transmitted to the analysis engine 6.
  • the calculation unit 15 When the voice signal to be transmitted for analysis is acquired, the calculation unit 15 performs a process for acquiring the response by the function of the analysis information acquisition unit 71. That is, the calculation unit 15 (analysis information acquisition unit 71) causes the network communication unit 36 to transmit the audio signal to the analysis engine 6 via the network 3.
  • the analysis engine 6 performs the necessary analysis processing as described with reference to FIG. 1, and transmits the resulting voice signal to the agent device 1.
  • the calculation unit 15 acquires the voice signal transmitted from the analysis engine 6 and transmits the voice signal to the voice processing unit 24 so that the voice signal is output from the speaker 5.
  • the television device 2 supplies to the demultiplexer 23 a demodulated signal of video content obtained by receiving and demodulating the broadcast wave received by the antenna 21 by the tuner 22.
  • the demultiplexer 23 supplies the audio signal in the demodulated signal to the audio processing unit 24 and supplies the video signal to the video processing unit 26.
  • video content such as streaming video is received from a content server (not shown) via the network 3
  • the demultiplexer 23 supplies the audio signal of the video content to the audio processing unit 24, and the video signal is transferred to the video signal. It is supplied to the processing unit 26.
  • the voice processing unit 24 decodes the input voice signal. In addition, signal processing according to various output settings is performed on the audio signal obtained by the decoding processing. For example, volume level adjustment, low-frequency emphasis processing, high-frequency emphasis processing, equalizing processing, noise cancellation processing, reverb processing, echo processing, etc. are performed.
  • the audio processing unit 24 supplies the audio signal subjected to these processes to the audio output unit 25.
  • the audio output unit 25 D/A-converts the supplied audio signal into an analog audio signal, performs a power amplifier amplification process, and supplies the analog audio signal to the speaker 5. As a result, the audio output of the video content is performed.
  • the voice signal from the agent device 1 is supplied to the voice processing unit 24, the voice signal is also output from the speaker 5.
  • the speaker 5 is realized by a structure that vibrates the display panel itself of the television device 2 as described later.
  • the video processing unit 26 decodes the video signal from the demodulated signal. In addition, signal processing according to various output settings is performed on the video signal obtained by the decoding processing. For example, brightness processing, color processing, sharpness adjustment processing, contrast adjustment processing, noise reduction processing, etc. are performed.
  • the video processing unit 26 supplies the video signal subjected to these processes to the video output unit 27.
  • the video output unit 27 drives the display of the display unit 31 by the supplied video signal, for example. As a result, the display unit 31 outputs and outputs the video content.
  • the control unit 32 is composed of, for example, a microcomputer and controls the reception operation and the output operation of video and audio in the television apparatus 2.
  • the input unit 34 is, for example, an input unit for user operation, and is configured as an operator or a receiving unit of a remote controller. Based on the user operation information from the input unit 34, the control unit 32 controls the reception setting of the tuner 22, the operation control of the demultiplexer 23, the audio processing setting control of the audio processing unit 24 and the audio output unit 25, and the video processing unit 26.
  • the video output unit 27 controls the video output setting process.
  • the memory 33 stores information necessary for the control by the control unit 32. For example, actual set values corresponding to various video settings and audio settings are also stored in the memory 33 so that the control unit 32 can read them.
  • the control unit 32 can communicate with the calculation unit 15 of the agent device 1. As a result, it is possible to acquire the information on the video and audio output settings from the calculation unit 15.
  • the control unit 32 controls the signal processing of the audio processing unit 24 and the video processing unit 26 according to the output settings received from the agent device 1, so that the video and audio according to the output settings set by the agent device 1 in the television device 2. Output is realized.
  • the television device 2 in FIG. 3 is an example of a configuration in which broadcast waves are received by the antenna 21, but it is of course possible to use a television device 2 that supports cable television, internet broadcasting, or the like. It may be provided.
  • FIG. 3 is merely an example of the television device 2 as an output device of video and audio.
  • FIG. 4 shows a configuration example corresponding to FIG. However, the same parts as those in FIG. 4 is different from FIG. 3 in that the agent device 1 has a function as the analysis unit 72 and can generate a response voice without communicating with the external analysis engine 6.
  • the calculation unit 15 acquires the voice signal by the function of the input management unit 70, and when it determines that the voice signal should correspond, the calculation unit 15 performs the processing described in FIG. 2 by the function of the analysis unit 72. Then, a voice signal as a response is generated. Then, the audio signal is transmitted to the audio processing unit 24. As a result, the response sound is output from the speaker 5.
  • agent device 1 built in the television device 2 has been described with reference to FIGS. 3 and 4, the agent device 1 separate from the television device 2 is also envisioned.
  • the built-in or separate agent device 1 can be realized as a hardware configuration by a computer device 170 as shown in FIG. 5, for example.
  • a CPU (Central Processing Unit) 171 of the computer device 170 is configured to execute various programs according to a program stored in a ROM (Read Only Memory) 172 or a program loaded from a storage unit 178 into a RAM (Random Access Memory) 173. The process of is executed.
  • the RAM 173 also appropriately stores data necessary for the CPU 171 to execute various processes.
  • the CPU 171, ROM 172, and RAM 173 are connected to each other via a bus 174.
  • An input/output interface 175 is also connected to the bus 174.
  • the input/output interface 175 is connected to an input unit 176 including a sensing device, an operator or an operation device. It is also conceivable that the input/output interface 175 may be connected to a display such as an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) panel, and an output unit 177 such as a speaker.
  • the input/output interface 175 may be connected to a storage unit 178 including a hard disk and a communication unit 179 including a modem.
  • the communication unit 179 performs communication processing via a transmission path such as the Internet shown as the network 3, and performs communication with the television device 2 by wired/wireless communication, bus communication, or the like.
  • a drive 180 is connected to the input/output interface 175 as needed, and a removable medium 181 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is appropriately mounted, and a computer program read from them is It is installed in the storage unit 178 as needed.
  • a removable medium 181 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is appropriately mounted, and a computer program read from them is It is installed in the storage unit 178 as needed.
  • the programs forming the software can be installed from a network or a recording medium.
  • This recording medium is composed of a removable medium 181 which is distributed in order to distribute the program to the user, and which includes a magnetic disk, an optical disk, a magneto-optical disk on which the program is recorded, or a semiconductor memory.
  • a ROM 172 in which a program is recorded, which is distributed to the user in a state of being incorporated in the apparatus main body in advance, a hard disk included in the storage unit 178, or the like.
  • the computer device 170 When such a computer device 170 is used as the agent device 1, the computer device 170 inputs the information of the sensing device as the input device 176, the CPU 171 functions as the calculation unit 15, and, for example, a voice signal via the communication unit 179. It is possible to perform an operation of transmitting a control signal to the television device 2.
  • the speaker 5 of the present embodiment has a structure in which the display surface of the television device 2 is a diaphragm. A configuration in which the image display surface 110A of the television device 2 is used as the vibration unit 120 will be described below.
  • FIG. 6 shows an example of the side structure of the television device 2.
  • FIG. 7 illustrates a rear surface configuration example of the television device 2 of FIG.
  • the television device 2 displays an image on the image display surface 110A and outputs sound from the image display surface 110A. In other words, it can be said that the television device 2 has a flat panel speaker built in the video display surface 110A.
  • the television device 2 includes, for example, a panel unit 110 that displays an image and also functions as a diaphragm, and a vibrating unit 120 that is disposed on the back surface of the panel unit 110 and vibrates the panel unit 110.
  • the television device 2 further includes, for example, a signal processing unit 130 that controls the vibration unit 120 and a support unit 140 that supports the panel unit 110 via the rotation unit 150.
  • the signal processing unit 130 includes, for example, a circuit board that constitutes all or part of the above-described audio output unit 25.
  • the rotating unit 150 is for adjusting the inclination angle of the panel unit 110 when the back surface of the panel unit 110 is supported by the supporting unit 140, and for example, supports the panel unit 110 and the supporting unit 140 in a rotatable manner. It is composed of a hinge.
  • the vibration unit 120 and the signal processing unit 130 are arranged on the back surface of the panel unit 110.
  • the panel section 110 has a rear cover 110R on the back surface side thereof, which protects the panel section 110, the vibration applying section 120, and the signal processing section 130.
  • the rear cover 110R is made of, for example, a plate-shaped metal plate or resin plate.
  • the rear cover 110R is connected to the rotating portion 150.
  • FIG. 8 illustrates a configuration example of the back surface of the television device 2 when the rear cover 110R is removed.
  • the circuit board 130A corresponds to a specific example of the signal processing unit 130.
  • FIG. 9 shows an example of a sectional structure taken along line BB of FIG.
  • FIG. 9 illustrates a cross-sectional structure of an actuator (vibrator) 121a described later, but this cross-sectional structure is similar to the cross-sectional structure of other actuators (for example, actuators 121b and 121c shown in FIG. 8). It is assumed to be configured.
  • the panel unit 110 includes, for example, a thin plate-shaped display cell 111 for displaying an image, an inner plate 112 (opposing plate) arranged to face the display cell 111 via a gap 115, and a back chassis 113. ..
  • the inner plate 112 and the back chassis 113 may be integrated.
  • the surface of the display cell 111 (the surface opposite to the vibrating section 120) is the image display surface 110A.
  • the panel section 110 further includes a fixing member 114 between the display cell 111 and the inner plate 112, for example.
  • the fixing member 114 has a function of fixing the display cell 111 and the inner plate 112 to each other and a function of a spacer for maintaining the void 115.
  • the fixing member 114 is arranged along the outer edge of the display cell 111, for example.
  • the fixing member 114 may have such flexibility that the edge of the display cell 111 can behave as a free end when the display cell 111 is vibrating.
  • the fixing member 114 is made of, for example, a sponge having adhesive layers on both sides.
  • the inner plate 112 is a substrate that supports the actuator 121 (121a, 121b, 121c).
  • the inner plate 112 has, for example, openings (hereinafter referred to as “openings for actuators”) at locations where the actuators 121a, 121b, 121c are installed.
  • the inner plate 112 further has one or a plurality of openings (hereinafter referred to as “air holes 114A”) in addition to, for example, openings for actuators.
  • the one or more air holes 114A function as air holes that reduce fluctuations in the air pressure generated in the gap 115 when the display cell 111 is vibrated by the vibrations of the actuators 121a, 121b, 121c.
  • the one or more air holes 114A are formed avoiding the fixing member 114 so as not to overlap with the fixing member 114 and a vibration damping member 116 described later.
  • the one or more air holes 114A have, for example, a cylindrical shape.
  • the one or more air holes 114A may have, for example, a rectangular tube shape.
  • the inner diameter of one or a plurality of air holes 114A is, for example, about several cm. It should be noted that one air hole 114A may be constituted by a large number of small-diameter through holes as long as it functions as an air hole.
  • the back chassis 113 has a rigidity higher than that of the inner plate 112, and has a role of suppressing bending or vibration of the inner plate 112.
  • the back chassis 113 has, for example, an opening at a position facing an opening of the inner plate 112 (for example, an opening for an actuator or an air hole 114A).
  • the openings provided at positions facing the openings for the actuators have a size that allows the actuators 121a, 121b, 121c to be inserted therethrough.
  • the openings provided in the back chassis 113 are the fluctuations in the air pressure generated in the gap 115 when the display cells 111 are vibrated by the vibrations of the actuators 121a, 121b, 121c. Function as an air hole that relaxes
  • the back chassis 113 is made of, for example, a glass substrate. Instead of the back chassis 113, a metal substrate or a resin substrate having the same rigidity as the back chassis 113 may be provided.
  • the vibration unit 120 has, for example, three actuators 121a, 121b, 121c.
  • the actuators 121a, 121b, 121c have a common configuration.
  • the actuators 121a, 121b, 121c are arranged in a row in the left-right direction at a height position slightly higher than the center in the vertical direction of the display cell 111, but this is an example.
  • Each of the actuators 121a, 121b, 121c is a speaker actuator that has a voice coil, a voice coil bobbin, and a magnetic circuit, and serves as a vibration source.
  • the actuators 121a, 121b, 121c each generate a driving force in the voice coil according to the principle of electromagnetic action when a voice current of an electric signal flows in the voice coil.
  • This driving force is transmitted to the display cell 111 via the vibration transmission member 124, and the display cell 111 is caused to vibrate according to the change of the audio current, and the air vibrates to change the sound pressure.
  • the fixed portion 123 and the vibration transmission member 124 are provided for each of the actuators 121a, 121b, 121c.
  • the fixing portion 123 has, for example, an opening for fixing the actuators 121a, 121b, 121c in a inserted state.
  • Each of the actuators 121a, 121b, 121c is fixed to the inner plate 112 via, for example, the fixing portion 123.
  • the vibration transmitting member 124 is in contact with, for example, the back surface of the display cell 111 and the bobbins of the actuators 121a, 121b, 121c, and is fixed to the back surface of the display cell 111 and the bobbins of the actuators 121a, 121b, 121c. ..
  • the vibration transmitting member 24 is composed of a member having a characteristic of repulsing at least in a sound wave region (20 Hz or higher).
  • the panel section 110 has a vibration damping member 116 between the display cell 111 and the inner plate 112, as shown in FIG. 9, for example.
  • the vibration damping member 116 has an action of preventing the vibrations generated in the display cell 111 by the actuators 121a, 121b, 121c from interfering with each other.
  • the vibration damping member 116 is arranged in the gap between the display cell 111 and the inner plate 112, that is, in the space 115.
  • the damping member 116 is fixed to at least the back surface of the display cell 111 among the back surface of the display cell 111 and the front surface of the inner plate 112.
  • the vibration damping member 116 is in contact with the surface of the inner plate 112, for example.
  • FIG. 10 shows a planar configuration example of the vibration damping member 116.
  • the positions facing the actuators 121a, 121b, 121c are set as excitation points P1, P2, P3.
  • the damping member 116 partitions the back surface of the display cell 111 into a vibration area AR1 including the vibration point P1, a vibration area AR2 including the vibration point P2, and a vibration area AR3 including the vibration point P3.
  • the respective vibration areas AR1, AR2 and AR3 are physically separated from each other and independently vibrate. That is, the respective vibration areas AR1, AR2, AR3 are vibrated independently of each other by the actuators 121a, 121b, 121c. In other words, the vibration areas AR1, AR2 and AR3 form speaker units independent of each other.
  • the formation of the three independent speaker unit structures on the panel portion 110 in this way is an example for explanation. Later, various examples in which a plurality of speaker unit structures are formed in the panel unit 110 will be described. Further, the respective vibration areas AR1, AR2, AR3 thus divided are not visually separated from each other, and are regarded as one display panel in the entire panel section 110 as a display surface on which a user visually recognizes an image. It is supposed to be.
  • FIG. 11 shows the audio processing unit 24, the audio output unit 25, the actuators 121 (121L and 121R), and the panel unit 110 as an example of the configuration assumed in such a case.
  • the "actuator 121" is a general term for an actuator as a vibrator that constitutes a speaker unit.
  • an audio signal Ls of the L (left) channel and an audio signal Rs of the R (right) channel are input as the content audio of the 2-channel stereo system, for example.
  • the L audio processing unit 41 performs various kinds of processing such as volume/sound quality processing (for example, volume level adjustment, low-frequency emphasis processing, high-frequency emphasis processing, equalizing processing, etc.) and noise cancellation processing on the audio signal Ls.
  • the R audio processing unit 42 performs various kinds of processing such as volume/sound quality processing and noise cancellation processing on the audio signal Rs.
  • the audio signals Ls and Rs processed by the L audio processing unit 41 and the R audio processing unit 42 are supplied to the L output unit 51 and the R output unit 52 of the audio output unit 25 via the mixers 44L and 44R, respectively.
  • the L output unit 51 performs D/A conversion and amplification processing on the audio signal Ls, and supplies a speaker drive signal to the actuator 121L for the L channel.
  • the R output unit 52 performs D/A conversion and amplification processing on the audio signal Rs and supplies a speaker drive signal to the actuator 121R for the R channel.
  • the panel unit 110 is vibrated by the actuators 121L and 121R, and the L and R channel stereo sound of the video content is output.
  • the voice signal VE from the agent device 1 is input to the mixers 44L and 44R of the voice processing unit 24.
  • the agent voice is mixed with the content voice, and is output from the panel unit 110 as a voice by the actuators 121L and 121R.
  • the agent voice may be overlapped with the content voice, for example, the voice of an announcer reading the news, the narration in the documentary, or the dialogue of the movie, and both voices may be hard to hear. is assumed. Therefore, when outputting the agent voice, it is necessary to take measures such as lowering or muting the volume of the content voice. Further, when the sound image position of the agent voice and the sound image position of the content voice overlap each other, even if the volume of the content voice is lowered, it is difficult to hear. In addition, by significantly lowering the content audio, it may interfere with the viewing of the content.
  • the actuator for reproducing the content sound is in addition, an actuator for playing agent voice is placed. Then, the agent voice is reproduced from the virtual sound source position by localization processing. As a result, while the content sound is reproduced in accordance with the video, the agent sound can be heard in a different localization, for example, from a position different from the television device 2, and the user can hear the agent sound and the content sound separately. Make it easier.
  • First Embodiment> The configuration of the first embodiment is shown in FIG. In the configuration of each embodiment described below, the actuator 121 (constituting the audio processing unit 24, the audio output unit 25, and the speaker 5 in the configuration of the television device 2 as described with reference to FIGS. 1 to 10). 121L, 121R) and the panel unit 110 are extracted and shown. The parts described are given the same reference numerals to avoid redundant description.
  • FIG. 12 shows a configuration in which audio signals Ls and Rs as, for example, 2-channel stereo content audio are input to the audio processing unit 24 as in the case of FIG.
  • the voice signal VE from the agent device 1 is also input to the voice processing unit 24.
  • the L audio processing unit 41 performs various processing such as volume/sound quality processing and noise cancellation processing on the audio signal Ls, and supplies the audio signal Ls to the L output unit 51 in the audio output unit 25.
  • the L output unit 51 performs D/A conversion and amplification processing on the audio signal Ls, and supplies a speaker drive signal to the L channel actuator 121L.
  • the actuator 121L is arranged so as to vibrate the vibration area AR1 of the panel unit 110, and the sound is output from the vibration area AR1 according to the sound signal Ls. That is, the actuator 121L and the vibration area AR1 serve as an L channel speaker for content audio.
  • the R audio processing unit 42 performs various processes such as volume/sound quality processing and noise cancellation processing on the audio signal Rs, and supplies the audio signal Rs to the R output unit 52 in the audio output unit 25.
  • the R output unit 52 performs D/A conversion and amplification processing on the audio signal Rs and supplies a speaker drive signal to the actuator 121R for the R channel.
  • the actuator 121R is arranged so as to vibrate the vibration area AR2 of the panel unit 110, and the sound is output from the vibration area AR2 according to the sound signal Rs. That is, the actuator 121R and the vibration area AR2 serve as an R channel speaker for content audio.
  • the voice signal VE of the agent voice is subjected to necessary processing in the agent voice/localization processing unit 45 (hereinafter referred to as “voice/localization processing unit 45”) in the voice processing unit 24. For example, volume setting processing, sound quality setting processing, and other channel conversion processing are performed. Further, as localization processing, processing for causing a user in front of the television apparatus 2 to hear the agent voice from a virtual speaker position outside the front panel range (virtual sound source position reproduction signal processing) is performed.
  • the voice signal VEL is supplied to the agent sound output unit 54 in the voice output unit 25.
  • the agent sound output unit 54 performs D/A conversion and amplification processing on the voice signal VEL, and supplies a speaker drive signal to the L channel agent voice actuator 121AL.
  • the actuator 121AL is arranged so as to vibrate the vibration area AR3 of the panel unit 110, and a sound output according to the sound signal VEL is performed from the vibration area AR3. That is, the actuator 121AL and the vibration area AR3 serve as an L channel speaker for agent voice.
  • the voice signal VER is supplied to the agent sound output unit 55 in the voice output unit 25.
  • the agent sound output unit 55 performs D/A conversion and amplification processing on the voice signal VER and supplies a speaker drive signal to the actuator 121AR for the R channel agent voice.
  • the actuator 121AR is arranged so as to vibrate the vibration area AR4 of the panel unit 110, and the sound is output from the vibration area AR4 according to the sound signal VER. That is, the actuator 121AR and the vibration area AR4 serve as an R channel speaker for agent voice.
  • the L and R channel sounds as the content sound and the L and R channel sounds as the agent sound are output from the independent speaker units.
  • the “speaker unit” will be described as a set of actuators 121 corresponding to the vibration area AR.
  • the audio/localization processing unit 45 may control the L audio processing unit 41 and the R audio processing unit 42, for example, to lower the volume of the content audio during the period in which the agent audio is output.
  • the localization processing by the voice/localization processing unit 45 that is, the signal processing for virtual sound source position reproduction is performed by the binaural processing for multiplying the head-related transfer function at the sound source position to be virtually arranged, and from the left and right speakers when reproducing from the speakers. This is achieved by performing crosstalk correction processing that cancels crosstalk to the ear.
  • the specific processing is well known, so a detailed description thereof will be omitted, but it is disclosed in, for example, Patent Document 1. As a result, a reproduction environment as shown in FIGS. 13A and 13B is realized.
  • FIG. 13A shows a state where the user 500 is in front of the panel unit 110 and content audio is being reproduced.
  • Content sound (SL, SR) is reproduced as L and R stereo sound by the speaker unit including the pair of the actuator 121L and the vibration area AR1 and the speaker unit including the pair of the actuator 121R and the vibration area AR2.
  • FIG. 13B shows a case where the agent voice is reproduced.
  • the content sound (SL, SR) is reproduced as L and R stereo sound by the speaker unit including the actuator 121L and the vibration area AR1 and the speaker unit including the actuator 121R and the vibration area AR2.
  • the agent unit voice is reproduced as L and R stereo voices by the speaker unit formed by the set of the actuator 121AL and the vibration area AR3 and the speaker unit formed by the set of the actuator 121AR and the vibration area AR4.
  • the localization process causes the user to hear the agent voice SA as if it is emitted from the position of the virtual speaker VSP outside the panel.
  • the response voice from the agent device 1 can be heard from a virtual sound source position that is not on the display panel of the television device 2, so that the agent voice can be clearly distinguished.
  • the content sound may be reproduced without changing the volume as it is, or may be lightly turned down. Therefore, the content viewing is not hindered.
  • FIG. 14 shows an arrangement example of the speaker units by the actuator 121 and the vibration area AR.
  • Each drawing shows the division setting of the vibration area AR1 when viewed from the front of the panel unit 110, and the excitation point, that is, the arrangement position of the actuator 121 behind.
  • Excitation points P1, P2, P3, P4 are excitation points by the actuators 121L, 121R, 121AL, 121AR, respectively.
  • the excitation points by the actuator 121 for the agent voice are shaded to indicate the excitation points for the content voice (the first point). In the case of the embodiment, it is distinguished from the excitation points P1 and P2).
  • the panel surface is divided into left and right at the center, and vibration areas AR1 and AR2 are provided as relatively wide areas. Further, vibration regions AR3 and AR4 are provided above them as relatively narrow regions. In each of the vibration areas AR1, AR2, AR3, AR4, vibration points P1, P2, P3, P4 are set at their approximate centers. That is, the arrangement positions of the actuators 121L, 121R, 121AL, and 121AR are set to be substantially in the center on the back side of each of the vibration regions AR1, AR2, AR3, and AR4.
  • the agent voice is a response voice or the like, and does not require much reproducing ability. For example, it is sufficient if the low frequency range of about 300 Hz to 400 Hz can be output. Therefore, it can fully function even in a narrow vibration region. Also, since it requires less displacement of vibration, it is strong against image shake. By narrowing the vibration regions AR3 and AR4 for agent voice, a wide range of the panel unit 110 can be used for content voice, and powerful voice reproduction can be realized. For example, it is possible to form a speaker unit for content audio that reproduces low frequencies from 100 Hz to 200 Hz.
  • FIG. 14B is an example in which the panel surface is divided into four parts in the horizontal direction.
  • the wide area on the center side is defined as vibration areas AR1 and AR2, and the relatively narrow areas at the left and right ends are defined as vibration areas AR3 and AR4.
  • FIG. 14C is an example in which the panel surface is divided into the left and right at the center, vibration regions AR1 and AR2 are provided as relatively wide regions, and vibration regions AR3 and AR4 are provided below as relatively narrow regions.
  • vibration points P1, P2, P3 and P4 are set in the respective vibration areas AR1, AR2, AR3 and AR4 at their approximate centers.
  • the excitation points P1, P2, P3, and P4 are set at substantially the center of each vibration area AR, but this is an example, and may be a position displaced from the center or a corner of the vibration area AR.
  • Second Embodiment> The second embodiment will be described with reference to FIGS. This is an example in which four speaker units are formed for agent voice.
  • the voice/localization processing unit 45 generates 4-channel voice signals VEL1, VER1, VEL2, and VER2 as agent voices. These voice signals VEL1, VER1, VEL2, VER2 are output processed by agent sound output units 54, 55, 56, 57, respectively, and speaker drive signals corresponding to the voice signals VEL1, VER1, VEL2, VER2 are respectively output to the actuator 121AL1. , 121AR1, 121AL2, 121AR2.
  • the actuators 121AL1, 121AR1, 121AL2, 121AR2 vibrate in a one-to-one correspondence with the vibration regions AR3, AR4, AR5, AR6, respectively.
  • the speaker unit arrangement is as shown in FIG. 16, for example.
  • the panel surface is divided into left and right at the center, and vibration areas AR1 and AR2 are provided as relatively wide areas.
  • Vibration regions AR3, AR4, AR5 and AR6 are provided above and below the regions as relatively narrow regions.
  • Excitation points P3, P4, P5, P6 in the vibration areas AR3, AR4, AR5, AR6 are excitation points by the actuators 121AL1, 121AR1, 121AL2, 121AR2, respectively, and in this case, substantially the center of the corresponding vibration areas AR, respectively. It is provided in.
  • the vibration areas AR1 and AR2 are provided by dividing the panel surface into the left and right at the center.
  • a vibration area AR3 is provided at the upper left corner of the vibration area AR1, and a vibration area AR5 is provided at the lower left corner.
  • a vibration area AR4 is provided in the upper right corner of the vibration area AR2, and a vibration area AR6 is provided in the lower right corner.
  • Excitation points P3, P4, P5, and P6 by the actuators 121AL1, 121AR1, 121AL2, and 121AR2 are set at positions deviated to the corners of the panel, respectively.
  • an arbitrary virtual speaker position can be set in the vertical direction and the horizontal direction in a space spreading from the plane of the panel unit 110 to the surroundings by adding a relatively simple localization process to the audio signal.
  • the screen of the panel unit 110 is divided into two vibration regions AR1 and AR2 on the left and right. Then, in the vibration area AR1, a vibration point P1 for content voice is arranged substantially in the center, and a vibration point P3 for agent voice is arranged above it. Further, in the vibration area AR2, a vibration point P2 for content voice is arranged at substantially the center, and a vibration point P4 for agent voice is arranged above it.
  • the screen of the panel unit 110 is divided into two vibration regions AR1 and AR2 on the left and right. Then, in the vibration area AR1, a vibration point P1 for content voice is arranged at substantially the center and a vibration point P3 for agent voice is arranged at the left corner thereof. In addition, in the vibration area AR2, a vibration point P2 for content voice is arranged at substantially the center, and a vibration point P4 for agent voice is arranged at the right corner thereof.
  • the vibration areas AR1 and AR3 in FIG. 12 are collectively set as one vibration area AR1
  • the vibration areas AR2 and AR4 are collectively set as one vibration area AR2. It corresponds to the configuration.
  • the agent voice is also output by the left and right speaker units, so that it is easy to set the virtual speaker position at the position outside the panel in the left and right direction.
  • the screen of the panel unit 110 is divided into two vibrating areas AR1 and AR2 on the left and right.
  • a vibrating point P1 for content audio is arranged substantially in the center, and the agent voice is above and below the vibrating point P1.
  • Excitation points P3 and P5 are arranged.
  • a vibration point P2 for content voice is arranged substantially in the center, and vibration points P4 and P6 for agent voice are arranged above and below the vibration point P2.
  • the screen of the panel unit 110 is divided into two vibrating areas AR1 and AR2 on the left and right.
  • a vibrating point P1 for content audio is arranged substantially at the center, and the upper left corner and the lower left corner thereof are arranged.
  • Exciting points P3 and P5 for agent voice are arranged.
  • the excitation points P2 for content voice are arranged at substantially the center, and the excitation points P4, P6 for agent voice are arranged at the upper right corner and the lower right corner thereof.
  • the vibration areas AR1, AR3, and AR5 in FIG. 15 are combined into one vibration area AR1, and the vibration areas AR2, AR4, and AR6 are combined into one. This corresponds to the configuration of the vibration area AR2.
  • the agent voice is also output by the left and right upper and lower speaker units, so that it is easy to set the virtual speaker position at the position outside the panel in the left and right direction and the up and down direction.
  • the audio processing unit 24 shows a configuration in which audio signals Ls, Rs, and Cs of three channels of L, R, and three channels of the center are input or generated as content audio.
  • a center audio processing unit 43 is provided, and the center audio processing unit 43 performs various kinds of processing such as volume/sound quality processing and noise cancellation processing on the audio signal Cs.
  • the audio signal Cs is processed and supplied to the center output unit 53 of the audio output unit 25.
  • the center output unit 53 performs D/A conversion and amplification processing on the audio signal Cs and supplies a speaker drive signal to the actuator 121C for the center channel.
  • the actuator 121C is arranged so as to vibrate the vibration area AR3 of the panel unit 110, and the sound is output from the vibration area AR3 according to the sound signal Cs. That is, the actuator 121C and the vibration area AR3 serve as a center channel speaker for content audio.
  • the actuator 121AL and the vibration area AR4 are speaker units for the left channel of agent voice
  • the actuator 121AR and the vibration area AR5 are speaker units for the right channel of agent voice.
  • Excitation points P1, P2, P3, P4, and P5 in FIGS. 19A, 19B, and 19C are excitation points by the actuators 121L, 121R, 121C, 121AL, and 121AR of FIG. 18, respectively.
  • the panel surface is divided into three areas in the left-right direction, and vibration areas AR1, AR2, and AR3 are provided as relatively wide areas.
  • a vibration area AR4 is provided above the vibration area AR1 as a relatively narrow area
  • a vibration area AR5 is provided above the vibration area AR2 as a relatively narrow area.
  • the panel surface is divided into three areas in the left-right direction, and vibration areas AR1, AR2, and AR3 are provided as relatively wide areas.
  • a vibration area AR4 is provided on the left side of the vibration area AR1 as a relatively narrow area
  • a vibration area AR5 is provided on the right side of the vibration area AR2 as a relatively narrow area.
  • the panel surface is divided into three areas in the left-right direction, and vibration areas AR1, AR2, and AR3 are provided as relatively wide areas.
  • the area on the upper end side of the panel portion 110 is divided into left and right, and a vibration area AR4 is provided on the left side as a relatively narrow area and a vibration area AR5 is provided on the right side as a relatively narrow area.
  • the agent voice when the content voice is output on each of the L, R, and center channels, the agent voice can be reproduced in a predetermined localization by an independent speaker unit.
  • the excitation points P1, P2, P3, P4, and P5 are provided at substantially the center of the corresponding vibration regions AR, but the present invention is not limited to this. I can't.
  • the speaker unit arrangement is as shown in FIG. 20A, 20B, and 20C
  • the excitation points P1, P2, and P3 are the excitation points by the content audio actuators 121L, 121R, and 121C as shown in FIG. 18, and the excitation points P4, P5, P6, and P7.
  • the panel surface is divided into three areas in the left-right direction, and vibration areas AR1, AR2, and AR3 for content sound are provided as relatively wide areas.
  • Vibration regions AR4 and AR6 for vibration agent voice are provided as relatively narrow regions above and below the vibration region AR1, and vibration regions AR5 and AR7 for agent voice are provided above and below the vibration region AR2 as relatively narrow regions.
  • the panel surface is divided into three areas in the left-right direction, and vibration areas AR1, AR2, and AR3 for content audio are provided as relatively wide areas. Further, vibration regions AR4 and AR6 for agent voice are provided as relatively narrow regions in the upper left corner and upper right corner of the vibration region AR1, and vibration regions for agent voice are also relatively narrow regions in the upper right corner and lower right corner of the vibration region AR2. AR5 and AR7 are provided.
  • the panel surface is divided into three areas in the left-right direction, and vibration areas AR1, AR2, and AR3 for content audio are provided as relatively wide areas. Then, the area on the upper end side of the panel section 110 is divided into left and right, and vibration areas AR4 and AR5 for agent voice are provided as left and right relatively narrow areas. Further, the area on the lower end side of the panel portion 110 is also divided into left and right, and vibration areas AR6 and AR7 for agent voice are provided as left and right relatively narrow areas.
  • the agent voice in the case of outputting the content voice on each of the L, R, and center channels, the agent voice can be reproduced in a predetermined localization by the independent speaker units of four channels.
  • FIG. 21A is an example in which the excitation points P1 and P4 in FIG. 19A are provided in one vibration area AR1, and the excitation points P2 and P5 are provided in one vibration area AR2.
  • FIG. 21B is an example in which the excitation points P1 and P4 in FIG. 19B are provided in one vibration area AR1, and the excitation points P2 and P5 are provided in one vibration area AR2.
  • FIG. 21C is an example in which the excitation points P1, P4, P6 in FIG. 20A are provided in one vibration area AR1, and the excitation points P2, P5, P7 are provided in one vibration area AR2.
  • FIG. 21D is an example in which the excitation points P1, P4, P6 in FIG. 20B are provided in one vibration area AR1, and the excitation points P2, P5, P7 are provided in one vibration area AR2.
  • the actuator 121 in one vibration area AR as in the fourth and fifth embodiments, but this sixth implementation Even if the vibration area AR is shared as in the above form, since the actuator 121 for the agent voice and the actuator 121 for the content voice are independent, it is possible to perform clear hearing to some extent. Particularly when the area of the vibration area AR is large, the sounds are divided into different parts (each around the excitation point) in the area, so that the sounds can be clearly heard.
  • the configuration of the seventh embodiment is shown in FIG.
  • the audio processing unit 24 processes the three-channel audio signals Ls, Rs, and Cs of L, R, and the center, and supplies them to the channel selection unit 46.
  • the voice processing unit 24 processes the three-channel voice signals Ls, Rs, and Cs of L, R, and the center, and the voice/localization processing unit 45 uses the two-channel voice signal VEL of L and R as the agent voice signal. , VER are generated and supplied to the channel selection unit 46.
  • the channel selection unit 46 performs a process of distributing the above-mentioned audio signals Ls, Rs, Cs, VEL, and VER of a total of 5 channels to nine vibration regions AR according to the control signal CNT from the audio/localization processing unit 45. ..
  • nine output units 61, 62, 63, 64, 65, 66, 67, 68, 69 are provided corresponding to the nine vibration regions AR, and the input voices are input.
  • the signal is subjected to D/A conversion and amplification processing, and a speaker drive signal based on the audio signal is output.
  • the speaker drive signals from the nine output sections 61, 62, 63, 64, 65, 66, 67, 68, 69 correspond to each of the nine vibration areas AR in a ratio of 1:1. 1, 121-2, 121-3, 121-4, 121-5, 121-6, 121-7, 121-8, 121-9.
  • the channel selection unit 46 may have a configuration as shown in FIG.
  • the terminals T1, T2, T3, T4, T5, T6, T7, T8 and T9 are terminals for supplying audio signals to the output sections 61, 62, 63, 64, 65, 66, 67, 68 and 69, respectively.
  • the audio signal VEL is supplied to the terminal ta of the switch 47.
  • the audio signal VER is supplied to the terminal ta of the switch 48.
  • the audio signal Ls is supplied to the terminal tc, the terminal T4, and the terminal T7 of the switch 47.
  • the audio signal Cs is supplied to the terminal tc, the terminal T4, and the terminal T8.
  • the audio signal Rs is supplied to the terminal tc, the terminal T6, and the terminal T9 of the switch 48.
  • the switch 47 is connected to the terminal T1 and the switch 48 is connected to the terminal T3.
  • the switches 47 and 48 select the terminal ta during the period in which the agent voice is output (the period in which the agent voice is output in addition to the content voice) by the control signal CNT, and other than that, that is, the agent voice is not output
  • the terminal tc is selected during the period in which only the content sound is output.
  • the speaker unit including the vibration area AR1 and the actuator 121-1 and the speaker unit including the vibration area AR3 and the actuator 121-3 are used while being switched between the content sound and the agent sound. become.
  • the vibration areas AR1, AR4, AR7 are used as the L-channel speaker. Further, the vibration areas AR3, AR6 and AR9 are used as R channel speakers, and the vibration areas AR2, AR5 and AR8 are used as center channel (C channel) speakers.
  • the excitation points P1 to P9 are the excitation points by the actuators 121-1 to 121-9, respectively.
  • the vibration regions AR4 and AR7 are used as L channel speakers
  • the vibration regions AR6 and AR9 are used as R channel speakers
  • the vibration regions AR2 and AR5 are used.
  • AR8 are used as a center channel (C channel) speaker.
  • the vibration areas AR1 and AR3 with diagonal lines are used as the left and right channel speakers of the agent voice, respectively.
  • a high-performance, high-output content audio speaker can be realized by using all speaker units when the agent voice is not output. Also, by switching some of the speaker units to the agent voice, the agent voice can be output in a predetermined localization while naturally suppressing the content voice output. In this case, the vibration areas AR2, AR5 and AR8 are always used as the center speaker. This is suitable for outputting content audio, where the center channel is often important audio.
  • FIGS. 24 and 25 are merely examples, and various speaker units can be considered for agent voice.
  • FIGS. 26A and 26B show an example in which four speaker units are used for agent voice.
  • the vibration area AR4 is used as an L-channel speaker
  • the vibration area AR6 is used as an R-channel speaker
  • the vibration areas AR2, AR5, and AR8 are in the center channel (C Channel) speaker.
  • the shaded vibration areas AR1 and AR7 are used as the left channel speaker of the agent voice
  • the vibration areas AR3 and AR9 are used as the right channel speaker of the agent voice.
  • the central vibration areas AR2, AR5, AR8 may be switched to the agent voice.
  • the eighth embodiment is an example in which content audio is output on 9 channels, for example.
  • the audio signals Ls, Rs, and Cs as the content audio are processed into 9 channels in the multi-channel processing unit 49.
  • 9-channel audio signals Sch1, Sch2, Sch3, Sch4, Sch5, Sch6, Sch7, Sch8, and Sch9 are output.
  • These audio signals Sch1, Sch2, Sch3, Sch4, Sch5, Sch6, Sch7, Sch8, Sch9 are audio signals for exciting the vibration areas AR1, AR2, AR3, AR4, AR5, AR6, AR7, AR8, AR9, respectively.
  • 9-channel audio signals (Sch1 to Sch9) as content audio and 2-channel audio signals VEL and VER of L and R as agent audio signals from the audio/localization processing unit 45 are input.
  • the processing is performed to divide into nine vibration areas AR.
  • the channel selection unit 46 is configured as shown in FIG.
  • the audio signal VEL is supplied to the terminal ta of the switch 47.
  • the audio signal VER is supplied to the terminal ta of the switch 48.
  • the audio signal Sch1 is supplied to the terminal tc of the switch 47.
  • the audio signal Sch3 is supplied to the terminal tc of the switch 48.
  • the output of the switch 47 is supplied to the terminal T1 and the output of the switch 48 is supplied to the terminal T3.
  • the audio signals Sch2, Sch4, Sch5, Sch6, Sch7, Sch8 and Sch9 are supplied to terminals T2, T4, T5, T6, T7, T8 and T9, respectively.
  • the vibrating regions AR1 and AR3 are switched and used as shown in FIGS. 25A and 25B described above when the content audio is output and when the content audio and the agent audio are output.
  • the ninth embodiment is an example in which the speaker unit (set of the vibration area AR and the actuator 121) that is used for switching between the content voice and the agent voice as described above is selected according to the situation at that time. ..
  • the configuration of the voice processing unit 24 is the example of FIG.
  • the channel selection unit 46 can execute voice output based on the voice signal VEL as the agent voice in any one of the vibration areas AR1, AR4, AR7 on the left side of the screen, and the vibration area AR3 on the right side of the screen.
  • Either AR6 or AR9 is configured to be able to execute voice output based on the voice signal VER as the agent voice.
  • the channel selection unit 46 can select the audio signal Sch1 and the audio signal VEL as the signals to be supplied to the output unit 61, the audio signal Sch4 and the audio signal VEL as the signals to be supplied to the output unit 64, and the output unit 67.
  • the audio signal Sch7 and the audio signal VEL are selectable as signals to be supplied to.
  • the channel selection unit can select the audio signal Sch3 and the audio signal VER as the signals to be supplied to the output unit 63, and can select the audio signal Sch6 and the audio signal VER as the signals to be supplied to the output unit 66, and can output them to the output unit 69.
  • the audio signal Sch9 and the audio signal VER are selectable as the signals to be supplied.
  • speaker unit selection as shown in FIG. 29 is performed. That is, in the period in which only the content audio is output, as shown in FIG. 29A, 9-channel speaker output is executed by the vibration regions AR1 to AR9 and the audio signals Sch1 to Sch9. Excitation points P1 to P9 are excitation points by the actuators 121-1 to 121-9 in FIG. 27, respectively.
  • the vibration area AR1 selected from the vibration areas AR1, AR4, AR7 is used as the L channel speaker, and the vibration areas AR3, AR6, AR9 are selected.
  • the vibration area AR3 selected out of them is used as an R channel speaker.
  • the other vibration regions AR2, AR4, AR5, AR6, AR7, AR8, AR9 not shaded are used as speakers corresponding to the audio signals Sch2, Sch4, Sch5, Sch6, Sch7, Sch8, Sch9, respectively.
  • the vibration area AR4 selected from the vibration areas AR1, AR4, AR7 is used as the L-channel speaker as shown in FIG. 29C, and the vibration areas AR3, AR6.
  • the vibration area AR9 selected from AR9 is used as an R channel speaker.
  • the other vibration areas AR1, AR2, AR3, AR5, AR6, AR7, AR8 not shaded are used as speakers corresponding to the audio signals Sch1, Sch2, Sch3, Sch5, Sch6, Sch7, Sch8, respectively.
  • Such selection is performed according to the output volume of each channel, for example. For example, when outputting the agent voice, the vibration region AR having the lowest volume level among the vibration regions AR1, AR4, AR7 is selected for the left channel of the agent voice. Further, of the vibration areas AR3, AR6 and AR9, the vibration area AR having a low volume level is selected for the right channel of the agent voice.
  • FIG. 30 shows an example of such selection processing as the ninth embodiment.
  • FIG. 30 shows processing of the channel selection unit 46, for example.
  • the channel selection unit 46 determines whether it is the agent voice output preparation timing. For example, the channel selection unit 46 recognizes the output preparation timing based on the control signal CNT from the voice/localization processing unit 45. This output preparation timing is the timing immediately before the output of the agent voice is started.
  • the channel selection unit 46 acquires the output level of each of the left channels in step S102. That is, it is the audio signal level of the audio signals Sch1, Sch4, Sch7.
  • the signal level to be acquired may be the signal value at that time, but a moving average value or the like may be always detected to some extent and the moving average value at that time may be acquired at the output preparation timing.
  • the channel selection unit 46 determines the channel with the lowest output level (signal level), and in step S104, sets the determined channel as the channel to be used as the L (left) channel of the agent voice (voice signal VEL). To do.
  • the channel selection unit 46 also acquires the output level of each channel on the right side in step S105. That is, it is the audio signal level of the audio signals Sch3, Sch6, Sch9. Then, in step S106, the channel selection unit 46 determines the channel having the minimum output level (signal level), and in step S107, the determined channel is set as the channel to be used as the R (right) channel of the agent voice (voice signal VER). Set.
  • step S108 the channel selection unit 46 notifies the voice/localization processing unit 45 of information on the left and right channels set for agent voice. This is so that the agent voice is always output in a specific localization regardless of the selection of the speaker unit.
  • the voice/localization processing unit 45 the parameter setting of the localization processing is changed according to the selection of the channel selection unit 46 so that the virtual speaker position becomes a fixed position regardless of the change of the speaker position.
  • step S109 the channel selection unit 46 switches the signal path according to the above settings. For example, when the audio signals Sch1 and Sch9 have the minimum signal levels on the left side and the right side, respectively, the signal path is switched so that the audio signal VEL is supplied to the output unit 61 and the audio signal VER is supplied to the output unit 69.
  • step S110 the channel selection unit 46 monitors the output end timing of the agent voice. This is also determined based on the control signal CNT. When the output end timing of the agent voice comes, the signal path is returned to the original state in step S111. That is, the audio signals Sch1 to Sch9 are supplied to the output unit 61 to the output unit 69, respectively.
  • the speaker unit with low output is selected from the left side and the right side, and is switched to the speaker unit for the agent voice.
  • the central speaker unit that is, the vibration areas AR2, AR5 and AR8 are not selected for the agent voice. This prevents the main voice from becoming difficult to hear in the content voice.
  • the tenth embodiment is an example in which the central speaker unit may be selected for agent voice.
  • the voice based on the voice signals VEL and VER as the agent voice is always output in the left-right positional relationship.
  • the configuration of the voice processing unit 24 is the example of FIG.
  • the channel selection unit 46 can execute voice output based on the voice signal VEL as the agent voice in any one of the vibration areas AR1, AR2, AR4, AR5, AR7, and AR8 on the left side and the center of the screen. Further, it is configured such that voice output based on the voice signal VER as the agent voice can be executed in any of the vibration areas AR2, AR3, AR5, AR6, AR8, and AR9 on the center and right side of the screen.
  • the channel selection unit can select the audio signal Sch1 and the audio signal VEL as the signals to be supplied to the output unit 61, the audio signal Sch4 and the audio signal VEL as the signals to be supplied to the output unit 64, and the output unit 67.
  • the audio signal Sch7 and the audio signal VEL are selectable as the signals to be supplied.
  • the channel selection unit can select the audio signal Sch3 and the audio signal VER as the signals to be supplied to the output unit 63, and can select the audio signal Sch6 and the audio signal VER as the signals to be supplied to the output unit 66, and can output them to the output unit 69.
  • the audio signal Sch9 and the audio signal VER are selectable as the signals to be supplied.
  • the channel selection unit 46 makes it possible to select the audio signal Sch2, the audio signal VEL, and the audio signal VER as the signals to be supplied to the output unit 62, and the audio signal Sch5, the audio signal VEL, and the audio signal VER as the signals to be supplied to the output unit 65.
  • the audio signal Sch8, the audio signal VEL, and the audio signal VER can be selected as signals to be supplied to the output unit 68.
  • the speaker unit selection as shown in FIG. 29 is performed.
  • the left and right speaker units for agent voice are selected while the central speaker unit is also used, the following variations of selection occur. That is, the combinations listed below may be selected as the left and right speaker units.
  • FIG. 31 shows an example of selection processing for making such a selection.
  • FIG. 31 shows the processing of the channel selection unit, for example.
  • the channel selection unit 46 determines whether or not it is the agent voice output preparation timing as in the example of FIG.
  • the channel selection unit 46 acquires the output levels of all the channels in step S121.
  • the channel selection unit 46 determines the channel with the lowest output level (signal level) among all the channels. Then, the determined channel branches the processing to any one of the left channel, the center channel, and the right channel.
  • the channel selection unit 46 proceeds from step S123 to S124, and the determined channel is changed to the agent.
  • the channel used for the voice signal VEL of voice is set.
  • step S125 the channel selection unit 46 determines the channel having the smallest output level (signal level) among the central and right channels (audio signals Sch2, Sch3, Sch5, Sch6, Sch8, Sch9), and in step S126, The determined channel is set as the channel used for the voice signal VER of the agent voice.
  • step S127 the channel selection unit 46 notifies the audio/localization processing unit 45 of the left and right channel information set for the localization processing. Then, in step S128, the channel selection unit 46 switches the signal path according to the channel setting.
  • step S122 If the channel determined in step S122 is any one of the central channels of the audio signals Sch2, Sch5, and Sch8, the channel selection unit 46 proceeds from step S141 to step S142, and the left and right channels (audio signal Of Sch1, Sch3, Sch4, Sch6, Sch7, and Sch9), the channel having the smallest output level (signal level) is determined. If the determined channel is the left channel, the process proceeds from step S143 to S144, and the channel selection unit 46 sets the center minimum level channel as the channel used for the voice signal VER of the agent voice, and the left minimum level channel. Is set to the channel used for the voice signal VEL of the agent voice. Then, the processes of steps S127 and S128 are performed.
  • step S142 determines whether the channel determined in step S142 is the right channel. If the channel determined in step S142 is the right channel, the process proceeds from step S143 to step S145, in which the channel selection unit 46 sets the center minimum level channel as the channel used for the voice signal VEL of the agent voice, and the right minimum channel. The level channel is set to the channel used for the voice signal VER of the agent voice. Then, the processes of steps S127 and S128 are performed.
  • step S122 When the channel determined to have the lowest signal level in step S122 is any of the right-side audio signals Sch3, Sch6, and Sch9, the channel selection unit 46 proceeds to step S131 and sets the determined channel to Set to the channel used for the voice signal VER of the agent voice.
  • step S132 the channel selection unit 46 determines the channel having the smallest output level (signal level) among the central and left channels (audio signals Sch1, Sch2, Sch4, Sch5, Sch7, Sch8), and in step S133, The determined channel is set as the channel used for the voice signal VEL of the agent voice. Then, the processes of steps S127 and S128 are performed.
  • step S110 the channel selection unit 46 monitors the output end timing of the agent voice. This is also determined based on the control signal CNT. When the output end timing of the agent voice comes, the signal path is returned to the original state in step S111. That is, the audio signals Sch1 to Sch9 are supplied to the output unit 61 to the output unit 69, respectively.
  • the speaker unit for the agent voice is selected in a state where the left/right positional relationship is maintained while the low output speaker units are selected for all channels. It will be.
  • the television device 2 of the embodiment vibrates the panel unit 110 based on the panel unit 110 that displays the video content and the first audio signal that is the audio signal of the video content displayed on the panel unit 110.
  • One or a plurality of first actuators 121 (first audio output drive units) for executing audio reproduction, and a panel unit 110 is vibrated based on a second audio signal different from the first audio signal. It has a plurality of actuators 121 (second audio output drive section) for executing reproduction.
  • the television device 2 also includes an audio/localization processing unit 45 (localization processing unit) that sets the localization of the audio output by the plurality of second audio output driving units by signal processing on the second audio signal.
  • the actuator 121 (second voice output drive unit) separate from the actuator 121 (first voice output drive unit) used for outputting the content voice is output. ) Plays the agent voice. Further, the agent voice is heard by the user in a state where it is localized at a certain position by the localization process. As a result, the user can easily hear the content sound and the agent sound. Therefore, the agent voice can be accurately heard and understood when watching television.
  • the second voice signal is not limited to the agent voice.
  • it may be a guide voice of the television apparatus 2 or a voice from another voice output device (audio device, information processing device, etc.).
  • the example in which the plurality of actuators 121 as the first audio output drive unit for reproducing the content audio is provided is described, but only one actuator 121 may be used.
  • the number of actuators 121 as the second voice output drive unit that reproduces the agent voice is 2 or more in order to localize the agent voice to a desired position.
  • the panel section 110 is divided into a plurality of vibration regions AR that vibrate independently.
  • the example has been described in which all the actuators 121 that are the one audio output driving unit or the second audio output driving unit are arranged one for each vibration area AR.
  • each vibration area AR is excited by one actuator 121. That is, each vibration area AR functions as an independent speaker unit.
  • each output sound is output clearly, and both the content voice and the agent voice can be easily heard. Further, since the agent voice can be output without being affected by the content voice, it becomes easy to accurately localize the virtual speaker position.
  • a plurality of actuators 121 are arranged in one vibration area AR, and the degree of the above effect is reduced.
  • at least the actuator 121 has at least the agent voice and the content. Since the voices are different, the localization control of the agent voice can be realized easily and accurately as compared with the localization control of the agent voice by only the signal processing.
  • an agent voice that is, a voice signal of a response voice generated in response to a user's request is given.
  • the audio/localization processing unit 45 performs localization processing for localizing the audio of the second audio signal to a position outside the range of the image display surface of the panel unit 110. That is, the user hears the agent voice from the virtual speaker position outside the display surface range of the panel unit 110 in which the image is displayed. As a result, the agent voice is clearly separated from the content voice, which makes it very easy for the user to hear. Further, it is desirable that the virtual speaker position is always fixed. For example, the virtual speaker position set in the localization process is always the upper left position of the television device 2. Then, the user can perceive that the agent voice is always heard from the upper left of the television device 2, and the cognizance of the agent voice is enhanced.
  • the virtual speaker position may be selectable by the user. For example, it is supposed that the virtual speaker position desired by the user can be realized by changing the parameter of the localization processing of the voice/localization processing unit 45 according to the operation of the user.
  • the virtual speaker position is not limited to the position outside the panel, but may be a predetermined position corresponding to the front surface of the panel unit 110.
  • the specific actuator 121 among the plurality of actuators 121 arranged with respect to the panel unit 110 is the second audio output drive unit ( (For agent voice).
  • a plurality of actuators 121 are arranged on the panel unit 110, and a specific actuator 121 (for example, the actuators 121AL and 121AR of FIG. 12) among them is used as a voice output drive unit for agent voice.
  • the actuator 121 dedicated to the agent voice the configurations of the voice signal processing unit 24 and the voice output unit 25 can be simplified.
  • the agent voice is always output by the same vibration area AR (for example, the vibration areas AR3 and AR4 in the case of FIGS. 12, 13, and 14), the localization process of the voice/localization processing unit 45 is not dynamically changed. The processing load is reduced.
  • any actuator 121 may be used for agent voice.
  • agent voice For example, if two actuators 121 separated left and right and two actuators 121 separated vertically are provided for agent voice, it is appropriate in that they are localized at the virtual speaker position.
  • the panel unit 110 is divided into a plurality of vibration regions AR that vibrate independently, and the second audio output drive unit is the panel unit 110.
  • the vibration area AR is arranged with respect to the vibration area AR other than the vibration area including the center.
  • the center of the panel section 110 does not have to be a strict center point, but may be near the center.
  • the vibration area AR located at the center of the screen is used for reproducing the content audio.
  • the central audio is the main audio of the content audio. Therefore, by outputting the content sound using the central vibration area AR, it is possible to form a good content viewing environment for the user. For example, in the example of FIGS.
  • the vibration areas including the center of the panel unit 110 are the vibration areas AR1 and AR2.
  • the vibration region including the center of the panel unit 110 is the vibration region AR3. These vibration areas AR are used for content audio.
  • the agent voice realizes localization at the virtual speaker position, it is not necessary to use the central vibration area AR.
  • the vibration area AR of the panel portion 110 which is located at a position deviated to the left, right, up, and down, without particular localization to a virtual speaker position outside the display area of the panel portion 110. .. That is, it is possible to make it difficult for the content voice by the central vibration area AR to be disturbed and to make it easy for the user to hear the agent voice clearly.
  • the panel unit 110 is divided into a plurality of vibration regions AR that vibrate independently, and the second audio output drive unit includes at least the display panel.
  • the two vibration regions AR located in the left-right direction of is described. That is, at least two vibration areas AR arranged so as to have a left-right positional relationship are driven by the agent voice actuator 121.
  • the panel section 110 is divided into a plurality of vibration areas AR that vibrate independently, and the second audio output drive section is located at least in the vertical direction of the display panel.
  • An example in which they are arranged for the two vibration regions is given. That is, at least two vibration areas AR arranged so as to have a vertical positional relationship are driven by the agent voice actuator 121.
  • the agent voice actuator 121 By applying the two vibration regions AR arranged in a vertical positional relationship to the reproduction of the agent voice, it is possible to easily set the virtual speaker position in the vertical direction (vertical direction).
  • the actuator 121 outputs the agent voice to each of the three or more vibration areas AR having a vertical and horizontal positional relationship, so that the virtual speaker position can be more easily set.
  • four vibration regions AR are used for agent voice, but in this case, it is easy to select the virtual speaker position on the virtual surface extending from the display surface of the panel unit 110. Become.
  • the panel section 110 is divided into a plurality of vibration areas AR that vibrate independently, and an actuator 121 is provided for each vibration area AR.
  • the actuators 121 are used as the first sound output drive section.
  • some of the actuators 121 are used as the second audio output drive unit when performing audio output based on the second audio signal. That is, a part of the actuator 121 and the vibration area AR are used by switching between the content voice and the agent voice.
  • the sound output utilizing the sound reproduction capability of the panel unit 110 having the plurality of actuators 121 can be performed. For example, it is possible to reproduce sound with a louder volume and more powerful.
  • the agent voice is reproduced, it can be dealt with by switching and using a part of the vibration area AR.
  • the example in which the vibration area AR is divided into nine parts is shown, but it is not limited to nine parts.
  • 4 divisions, 6 divisions, 8 divisions, 12 divisions, etc. are also envisioned.
  • the respective vibration areas AR have the same shape and area, but the vibration areas AR having different areas and shapes may be provided.
  • vibration area AR and the actuator 121 used by switching to the agent voice may be used for reproducing the virtual signal of the content voice except when the agent voice is output.
  • the actuator 121 for the vibration area AR other than the vibration area including the center of the panel unit 110 is switched and used for the content sound and the agent sound.
  • the vibration area AR located at the center of the screen is always used for reproducing the content sound. Since the central sound is the main sound of the content sound, by always outputting the content sound using the central vibration area AR, it is possible to form a content viewing environment in which the user does not feel discomfort even when the agent sound is output. On the other hand, since the agent voice realizes localization at the position of the virtual speaker, it is not necessary to use the central vibration area AR, and another vibration area AR is switched to the content audio application.
  • the agent voice can be output using a set of the actuator 121 and the vibration area AR that is appropriate for the situation.
  • the selection may be made based on factors other than the audio output level. For example, the selection may be made according to the environmental conditions around the television device 2, the positions of the viewers, the number of viewers, and the like.
  • the voice output level is detected by the plurality of actuators 121, and the actuator 121 (used for the agent voice) is detected according to the output level of each actuator 121.
  • An example of selecting a channel) is given. That is, among the plurality of sets of the vibration area AR and the actuator 121, the set to be switched and used for the agent voice is selected according to the output situation at that time. Thereby, for example, the actuator 121 having a low output level is selected, and the agent voice can be output in a state in which the reproduction of the content voice is little affected.
  • the actuator 121 with a high volume level may be selected. This is because it is possible to make it easier to hear the agent voice by reducing the volume of the content voice.
  • the voice output level of the actuator 121 for the vibration region AR other than the vibration region including the center of the panel unit 110 is detected, and the actuator 121 used for agent voice is detected according to the detected output level.
  • An example of selecting (channel) has been described. Therefore, the central vibration area AR is not used for the agent voice. Therefore, the agent voice can be output in a state in which the reproduction of the content voice is less affected.
  • the technique of the embodiment it is possible to construct a system in which the agent voice can be easily heard in consideration of content reproduction by the television device 2.
  • the technique of the embodiment can be applied to devices other than the television device 2 as mentioned above.
  • a display panel that displays video content, One or a plurality of first audio output drive units that vibrate the display panel to execute audio reproduction based on a first audio signal that is an audio signal of the video content displayed on the display panel; A plurality of second audio output drive units that vibrate the display panel to execute audio reproduction based on a second audio signal different from the first audio signal;
  • An audio output device comprising: a localization processing unit that sets the localization of the audio output by the plurality of second audio output drive units by signal processing of the second audio signal.
  • the display panel is divided into a plurality of vibration regions that vibrate independently,
  • the audio output device according to (1) wherein one audio output drive unit, which is the first audio output drive unit or the second audio output drive unit, is arranged for each vibration region.
  • a specific audio output drive unit is the second audio output drive unit. (1) to (4) above The audio output device described.
  • the display panel is divided into a plurality of vibration regions that vibrate independently, The audio output device according to any one of (1) to (5), wherein the second audio output drive unit is arranged in a vibration area other than a vibration area including a center of the display panel.
  • the display panel is divided into a plurality of vibration regions that vibrate independently, The audio output device according to any one of (1) to (6), wherein the second audio output drive unit is arranged at least for each of two vibration regions located in the left-right direction of the display panel.
  • the display panel is divided into a plurality of vibration regions that vibrate independently, The audio output device according to any one of (1) to (7), wherein the second audio output drive unit is arranged at least for each of two vibration regions located in the vertical direction of the display panel.
  • the display panel is divided into a plurality of vibration regions that vibrate independently, An audio output driver is provided for each vibration area, When the audio output based on the second audio signal is not performed, all the audio output drive units are used as the first audio output drive unit, The audio output according to any one of (1) to (4) above, wherein some of the audio output drive units are used as the second audio output drive unit when performing audio output based on the second audio signal. apparatus.
  • the audio output device wherein the audio output drive unit for the vibration area other than the vibration area including the center of the display panel is the partial audio output drive unit.
  • the audio output device which performs a process of selecting an audio output drive unit to be used as the second audio output drive unit when outputting reproduced audio based on the second audio signal.
  • the sound output levels are detected by a plurality of sound output driving units, and the second sound output driving unit is detected according to the output level of each sound output driving unit.
  • the audio output device according to (9) or (11) above, which selects an audio output drive unit to be used as.
  • An audio output drive unit that detects an audio output level of an audio output drive unit for a vibration region other than the vibration region including the center of the display panel and uses the second audio output drive unit according to the detected output level.
  • the one or more first audio output drive units vibrate the display panel to execute the audio reproduction.
  • the second audio signal different from the first audio signal is subjected to signal processing for setting the localization, and then the second audio output driving unit applies the display panel to the second audio signal.
  • An audio output method that shakes to execute audio playback.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Otolaryngology (AREA)
  • Computer Hardware Design (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)

Abstract

音声出力装置は、映像コンテンツの表示を行う表示パネルと、表示パネルで表示する映像コンテンツの音声信号である第1の音声信号に基づいて表示パネルを加振して音声再生を実行させる1又は複数の第1の音声出力駆動部と、第1の音声信号とは異なる第2の音声信号に基づいて表示パネルを加振して音声再生を実行させる複数の第2の音声出力駆動部と、第2の音声信号についての信号処理により複数の第2の音声出力駆動部によって出力される音声の定位を設定する定位処理部とを備える。

Description

音声出力装置、音声出力方法
 本技術は音声出力装置、音声出力方法に関し、特に映像表示とともに行う音声出力についての技術分野に関する。
 例えばテレビジョン装置等の映像出力機器において、映像コンテンツに伴う音声をスピーカ出力しながら、他の音声もスピーカ出力することがある。近年ではユーザの音声による問いかけに対応して応答を行うシステムが知られているが、そのようなシステムの入出力機能をテレビジョン装置に内蔵させることで、映像コンテンツの視聴中にユーザに対して応答音声を出力することも行われている。
 なお下記特許文献1には、スピーカによる音声出力に関する技術として、仮想音源位置再生用の信号処理に関する技術が開示されている。
特開2015-211418号公報
 ところでユーザがテレビジョン装置により映像コンテンツを視聴しているときには、当然、映像コンテンツの音声が出力されているが、上記のような応答を行うシステムを搭載している場合、ユーザが問いかけを行うことに応じた応答音声も、コンテンツ音声と同じスピーカから出力されることになる。
 その場合、コンテンツ音声と応答音声が混在して聞こえてしまい、ユーザにとって聞き取りづらい状況が発生する。
 そこで本技術は、コンテンツ音声とともに他の音声を出力する場合に、ユーザが聞き取りやすくすることを目的とする。
 本技術に係る音声出力装置は、映像コンテンツの表示を行う表示パネルと、前記表示パネルで表示する映像コンテンツの音声信号である第1の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる1又は複数の第1の音声出力駆動部と、前記第1の音声信号とは異なる第2の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる複数の第2の音声出力駆動部と、前記第2の音声信号についての信号処理により複数の前記第2の音声出力駆動部によって出力される音声の定位を設定する定位処理部と、を備える。
 例えばテレビジョン装置などのように表示パネルを備えた機器において、表示パネルを振動させて音声出力を行う。第1の音声信号は表示する映像に対応する音声である。この場合に、表示している映像コンテンツの音声ではない第2の音声信号による音声出力のための第2の音声出力駆動部が設けられるようにする。
 上記した本技術に係る音声出力装置においては、前記表示パネルは、独立して振動する複数の振動領域に分割されており、前記第1の音声出力駆動部又は前記第2の音声出力駆動部とされる音声出力駆動部は、各振動領域に対して1つずつ配置されていることが考えられる。
 即ち1つの表示パネルの全面又は一部の面には、複数の振動領域が設けられる。この場合に、1つの振動領域には1つの音声出力駆動部が対応されるようにする。
 上記した本技術に係る音声出力装置においては、前記第2の音声信号は、要求に応じて生成された応答音声の音声信号であることが考えられる。
 例えばエージェント装置としてユーザが入力した音声等による要求に対応して生成された応答音声(質問に対する回答の音声など)である。
 上記した本技術に係る音声出力装置においては、前記定位処理部は、前記第2の音声信号による音声が、前記表示パネルの表示面範囲より外の位置に定位させる定位処理を行うことが考えられる。
 即ちユーザにとっては映像表示が行われている表示面以外の位置から第2の音声信号による音声が聞こえてくるようにする。
 上記した本技術に係る音声出力装置においては、前記表示パネルに対して配置された複数の音声出力駆動部のうち、特定の音声出力駆動部が、前記第2の音声出力駆動部とされていることが考えられる。
 即ち第2の音声出力駆動部としては、特定の音声出力駆動部を割り当てる。
 上記した本技術に係る音声出力装置においては、前記表示パネルは、独立して振動する複数の振動領域に分割されており、前記第2の音声出力駆動部は、前記表示パネルの中央を含む振動領域以外の振動領域に対して配置されていることが考えられる。
 1つの表示パネルの全面又は一部の面には、複数の振動領域が設けられる。この場合に、1つの振動領域には1つの音声出力駆動部が対応されるようにする。
 上記した本技術に係る音声出力装置においては、前記表示パネルは、独立して振動する複数の振動領域に分割されており、前記第2の音声出力駆動部は、少なくとも表示パネルの左右方向に位置する2つの振動領域に対してそれぞれ配置されていることが考えられる。
 即ち少なくとも左右の位置関係となるように配置される2つの振動領域が、それぞれ第2の音声出力駆動部によって駆動される。
 上記した本技術に係る音声出力装置においては、前記表示パネルは、独立して振動する複数の振動領域に分割されており、前記第2の音声出力駆動部は、少なくとも表示パネルの上下方向に位置する2つの振動領域に対してそれぞれ配置されていることが考えられる。
 即ち少なくとも上下の位置関係となるように配置される2つの振動領域が、それぞれ第2の音声出力駆動部によって駆動される。
 上記した本技術に係る音声出力装置においては、前記表示パネルは、独立して振動する複数の振動領域に分割されており、各振動領域に対して音声出力駆動部が設けられ、前記第2の音声信号に基づく音声出力を行わないときは、全ての音声出力駆動部は、前記第1の音声出力駆動部として用いられ、一部の音声出力駆動部は、前記第2の音声信号に基づく音声出力を行う場合に前記第2の音声出力駆動部として用いられることが考えられる。
 1つの表示パネルの全面又は一部の面には、複数の振動領域が設けられ、それぞれに音声出力駆動部が対応される。この場合に、一部の音声出力駆動部は、第1の音声信号の出力用途と第2の音声信号の出力用途とで切替使用される。
 上記した本技術に係る音声出力装置においては、前記表示パネルの中央を含む振動領域以外の振動領域に対する音声出力駆動部が、前記一部の音声出力駆動部とされることが考えられる。
 1つの表示パネルの全面又は一部の面には、複数の振動領域が設けられる。この場合に、1つの振動領域には1つの音声出力駆動部が対応されるようにする。
 上記した本技術に係る音声出力装置においては、前記第2の音声信号による再生音声を出力する場合に、前記第2の音声出力駆動部として用いる音声出力駆動部を選択する処理を行うことが考えられる。
 つまり複数の振動領域と音声出力駆動部の組のうちで、第2の音声信号の出力用に切り換えて使用する振動領域及び音声出力駆動部を固定せず選択するようにする。
 上記した本技術に係る音声出力装置においては、前記第2の音声信号による再生音声を出力する場合に、複数の音声出力駆動部による音声出力レベルの検出を行い、各音声出力駆動部の出力レベルに応じて、前記第2の音声出力駆動部として用いる音声出力駆動部を選択することが考えられる。
 つまり複数の振動領域と音声出力駆動部の組のうちで、そのときの出力状況に応じて、第2の音声信号の出力用に切り換えて使用する振動領域及び音声出力駆動部を選択するようにする。
 上記した本技術に係る音声出力装置においては、前記表示パネルの中央を含む振動領域以外の振動領域に対する音声出力駆動部について、音声出力レベルの検出を行い、検出した出力レベルに応じて、前記第2の音声出力駆動部として用いる音声出力駆動部を選択することが考えられる。
 例えば第2の音声信号の出力機会の都度、表示画面の中央以外の振動領域と音声出力駆動部の組のうちで、第2の音声信号についての音声出力に切り換える組を、それぞれの出力レベルに応じて選択する。
 上記した本技術に係る音声出力装置はテレビジョン装置に内蔵されることが考えられる。
 即ち本技術をテレビジョン装置の表示パネルを用いて音声再生を行う場合に採用する。
 本技術に係る音声出力方法は、映像コンテンツの表示を行う表示パネルで表示する映像コンテンツの音声信号である第1の音声信号に基づいて1又は複数の第1の音声出力駆動部により前記表示パネルを加振して音声再生を実行させるとともに、前記第1の音声信号とは異なる第2の音声信号について、定位を設定する信号処理を行ったうえで、該第2の音声信号について複数の第2の音声出力駆動部により前記表示パネルを加振して音声再生を実行させる音声出力方法である。
 これにより第2の音声信号は映像コンテンツの音声信号の音声出力駆動部とは異なる音声出力駆動部により所定の定位で出力される。
本技術の実施の形態のシステム構成例の説明図である。 実施の形態の他のシステム構成例の説明図である。 実施の形態のテレビジョン装置の構成例のブロック図である。 実施の形態のテレビジョン装置の他の構成例のブロック図である。 実施の形態のコンピュータ装置のブロック図である。 実施の形態のテレビジョン装置の側面構成の説明図である。 実施の形態の表示パネルの背面構成の説明図である。 実施の形態の表示パネルのリアカバーを外した背面構成の説明図である。 実施の形態の表示パネルのB-B断面図である。 実施の形態の表示パネルの振動領域の説明図である。 比較例の音声出力系の説明図である。 第1の実施の形態の音声出力装置のブロック図である。 第1の実施の形態の音声出力状態の説明図である。 第1の実施の形態の振動領域とアクチュエータ配置例の説明図である。 第2の実施の形態の音声出力装置のブロック図である。 第2の実施の形態の振動領域とアクチュエータ配置例の説明図である。 第3の実施の形態の振動領域とアクチュエータ配置例の説明図である。 第4の実施の形態の音声出力装置のブロック図である。 第4の実施の形態の振動領域とアクチュエータ配置例の説明図である。 第5の実施の形態の振動領域とアクチュエータ配置例の説明図である。 第6の実施の形態の振動領域とアクチュエータ配置例の説明図である。 実施の形態の振動領域とアクチュエータ配置例の説明図である。 第7の実施の形態の音声出力装置のブロック図である。 第7の実施の形態のチャネル選択部の回路図である。 第7の実施の形態の振動領域及びアクチュエータ選択例の説明図である。 第7の実施の形態の振動領域及びアクチュエータ選択例の説明図である。 第8の実施の形態の音声出力装置のブロック図である。 第8の実施の形態のチャネル選択部の回路図である。 第8の実施の形態の振動領域及びアクチュエータ選択例の説明図である。 第9の実施の形態の選択処理例のフローチャートである。 第10の実施の形態の選択処理例のフローチャートである。
 以下、実施の形態を次の順序で説明する。
<1.システム構成例>
<2.テレビジョン装置の構成例>
<3.表示パネル構成>
<4.比較例>
<5.第1の実施の形態>
<6.第2の実施の形態>
<7.第3の実施の形態>
<8.第4の実施の形態>
<9.第5の実施の形態>
<10.第6の実施の形態>
<11.第7の実施の形態>
<12.第8の実施の形態>
<13.第9の実施の形態>
<14.第10の実施の形態>
<15.まとめ及び変形例>
<1.システム構成例>
 まず実施の形態としてエージェント装置1を有するテレビジョン装置2を含むシステム構成例を説明する。
 なお本実施の形態でいうエージェント装置1とは、情報処理装置により構成され、ユーザの音声等による要求に対して応答音声を出力したり、ユーザの指示や状況に応じて各種の電子機器に対して操作指示を送信する装置である。
 特に本実施の形態の場合、エージェント装置1がテレビジョン装置2に内蔵される例を挙げるが、エージェント装置1は、マイクロホンにより収音されたユーザの音声に対応して応答音声をテレビジョン装置2のスピーカを用いて出力するものとする。
 なおエージェント装置1は、必ずしもテレビジョン装置2に内蔵されるものに限らず、別体のものであってもよい。
 また実施の形態で説明するテレビジョン装置2は、映像や音声を出力する出力機器の一例であり、特に音声出力装置を備え、コンテンツ音声とエージェント音声を出力することのできる機器の例とする。
 コンテンツ音声とは、テレビジョン装置2で出力される映像コンテンツに付随する音声であり、エージェント音声とは、エージェント装置1によるユーザに対する応答等の音声を指すこととする。
 なお、音声出力装置を備えた機器をテレビジョン装置2とすることは一例で、例えばオーディオ装置、対話装置、ロボット、パーソナルコンピュータ装置、端末装置等、各種の装置がエージェント装置1と連携する音声出力装置として想定される。実施の形態の説明におけるテレビジョン装置2の動作はこれら各種の出力機器においても同様に適用できる。
 図1は、エージェント装置1を備えたテレビジョン装置2を有するシステム構成例を示している。
 エージェント装置1は、テレビジョン装置2に内蔵されるとともに、例えばテレビジョン装置2に取り付けられているマイクロホン4による音声を入力する。
 またエージェント装置1はネットワーク3を介して外部の解析エンジン6と通信可能とされている。
 またエージェント装置1は例えばテレビジョン装置2が備えるスピーカ5を用いて音声出力を行う。
 即ちこのエージェント装置1は、マイクロホン4から入力されたユーザ音声を録音する機能や、応答の音声をスピーカ5を用いて再生する機能、ネットワーク3を経由してクラウドサーバとしての解析エンジン6とのやりとりを行う機能を例えばソフトウエアにより具備する。
 ネットワーク3は、エージェント装置1がシステム外機器と通信可能な伝送路であればよく、例えばインターネット、LAN(Local Area Network)、VPN(Virtual Private Network:仮想専用網)、イントラネット、エキストラネット、衛星通信網、CATV(Community Antenna TeleVision)通信網、電話回線網、移動体通信網等の各種の形態が想定される。
 このように外部の解析エンジン6と通信可能な場合、エージェント装置1は必要な解析処理を解析エンジン6に実行させることができる。
 解析エンジン6は例えばAI(artificial intelligence)エンジンとされ、入力された解析用のデータに基づいて適切な情報をエージェント装置1に送信できる。
 例えば解析エンジン6は、処理機能として、音声認識部10、自然言語理解部11、アクション部12、音声合成部13を有している。
 エージェント装置1は、例えばマイクロホン4から入力されたユーザの音声に基づく音声信号を、ネットワーク3を介して解析エンジン6に送信する。
 解析エンジン6では、エージェント装置1から送信されてきた音声信号を音声認識部10で認識し、テキストデータに変換する。テキストデータについて自然言語理解部11で言語解析を行い、テキストから命令を抜き出し、命令内容に応じた指示をアクション部12に伝える。アクション部12では命令に応じたアクションを行う。
 例えば命令が、明日の天気などの問い合わせの場合は、その結果(たとえば“明日の天気は晴れです”等)をテキストデータとして生成する。このテキストデータは音声合成部13により音声信号に変換されてエージェント装置1に送信される。
 エージェント装置1は、音声信号を受信したら、その音声信号をスピーカ5に供給して音声出力を実行させる。以上により、ユーザの発した音声に対する応答が出力されることになる。
 なお、エージェント装置1の命令の音声信号を解析エンジン6に送るタイミングとしては、例えば常にエージェント装置1がマイクロホン4からの音声を録音し、起動するキーワードと一致した場合に、そのあとに続く命令の音声を解析エンジン6に送るという方法がある。又は、ハードウエアやソフトウエアでスイッチを入れた後に、ユーザから発せられた命令の音声を解析エンジン6に送るという方法もある。
 またエージェント装置1はマイクロホン4による入力に限らず、各種のセンシング機器による入力を受け付けて対応する処理を行うようにしてもよい。例えばセンシング機器としては、撮像装置(カメラ)、接触センサ、荷重センサ、照度センサ、赤外線センサ、加速度センサ、角速度センサ、レーザセンサ、その他あらゆるセンサが想定される。これらのセンシング機器はエージェント装置1やテレビジョン装置2に内蔵されてもよいし、エージェント装置1やテレビジョン装置2とは別体の機器とされていてもよい。
 またエージェント装置1はユーザに対する応答音声を出力するのみではなく、ユーザの命令に応じた機器制御を行うようにすることも可能である。例えばユーザの音声による指示(あるいはその他のセンシング機器により検知される指示)に応じて、テレビジョン装置2の映像や音声の出力設定を行うことも可能である。映像出力に関する設定とは、映像出力の変化が生じる設定であり、例えば輝度設定、色設定、シャープネス、コントラスト、ノイズリダクションなどがある。また音声出力に関する設定とは、音声出力の変化が生じる設定であり、音量レベルの設定や音質設定である。音質設定としては、例えば低域強調、高域強調、イコライジング、ノイズキャンセル、リバーブ、エコーなどの設定がある。
 図2は他の構成例を示す。これはテレビジョン装置2に内蔵されるエージェント装置1が解析エンジン6としての機能を備えている例である。
 エージェント装置1は、例えばマイクロホン4から入力されたユーザの音声を音声認識部10で認識し、テキストデータに変換する。テキストデータについて自然言語理解部11で言語解析を行い、テキストから命令を抜き出し、命令内容に応じた指示をアクション部12に伝える。アクション部12では命令に応じたアクションを行う。アクション部12は応答としてのテキストデータを生成し、このテキストデータが音声合成部13により音声信号に変換される。エージェント装置1は、その音声信号をスピーカ5に供給して音声出力を実行させる。
<2.テレビジョン装置の構成例>
 以下、図3では図1のシステム構成に応じたテレビジョン装置2の構成例を、図4では図2のシステム構成に応じたテレビジョン装置2の構成例を示す。
 まず図3により、外部の解析エンジン6を用いる構成例を説明する。
 テレビジョン装置2に内蔵されるエージェント装置1は、演算部15、メモリ部17を有する。
 演算部15は例えばマイクロコンピュータ等の情報処置装置により構成される。
 この演算部15は入力管理部70、解析情報取得部71としての機能を備える。これらの機能は例えばマイクロコンピュータ等の処理を規定するソフトウエアによって発現される。これらの機能に基づいて演算部15が必要な処理を実行する。
 メモリ部17は演算部15が演算処理に必要なワーク領域を提供したり、演算処理に用いる係数、データ、テーブル、データベース等を記憶する。
 ユーザの音声はマイクロホン4で収音され、音声信号として出力される。このマイクロホン4で得られた音声信号は音声入力部18で増幅処理やフィルタ処理、さらにはA/D変換処理等が施されてデジタル音声信号として演算部15に供給される。
 演算部15は、入力管理部70としての機能により、音声信号を取得するとともに、解析エンジン6に送信する情報であるか否かの判断等を行う。
 解析のために送信する音声信号を取得した場合、演算部15は解析情報取得部71としての機能により、その応答の取得の為の処理を行う。即ち演算部15(解析情報取得部71)は、ネットワーク通信部36により、ネットワーク3を介して音声信号を解析エンジン6に送信する。
 解析エンジン6では図1で説明したように必要な解析処理を行い、その結果の音声信号をエージェント装置1に送信する。演算部15(解析情報取得部71)は、解析エンジン6から送信されてきた音声信号を取得し、それを音声としてスピーカ5から出力させるために音声処理部24に送信する。
 テレビジョン装置2はアンテナ21で受信した放送波をチューナ22で受信復調して得られる、映像コンテンツの復調信号をデマルチプレクサ23に供給する。
 デマルチプレクサ23は復調信号における音声信号を音声処理部24に供給し、映像信号を映像処理部26に供給する。
 また、ネットワーク3を介して図示しないコンテンツサーバから例えばストリーミング映像などとしての映像コンテンツが受信される場合も、デマルチプレクサ23はその映像コンテンツの音声信号を音声処理部24に供給し、映像信号を映像処理部26に供給する。
 音声処理部24は、入力された音声信号のデコードを行う。またデコード処理により得られた音声信号に対して各種出力設定に応じた信号処理を行う。例えば音量レベル調整や、低域強調処理、高域強調処理、イコライジング処理、ノイズキャンセル処理、リバーブ処理、エコー処理などを行う。音声処理部24はこれらの処理を施した音声信号を音声出力部25に供給する。
 音声出力部25は、例えば供給された音声信号についてD/A変換してアナログ音声信号とし、パワーアンプ増幅処理等を行ってスピーカ5に供給する。これにより映像コンテンツの音声出力が行われる。
 またエージェント装置1からの音声信号が音声処理部24に供給される場合は、その音声信号もスピーカ5から出力される。
 なお、本実施の形態の場合、スピーカ5は後述するようにテレビジョン装置2の表示パネル自体を振動させる構造で実現される。
 映像処理部26は、復調信号からの映像信号のデコードを行う。またデコード処理により得られた映像信号に対して各種出力設定に応じた信号処理を行う。例えば輝度処理、色処理、シャープネス調整処理、コントラスト調整処理、ノイズリダクション処理などを行う。映像処理部26はこれらの処理を施した映像信号を映像出力部27に供給する。
 映像出力部27は、例えば供給された映像信号により表示部31の表示駆動を行う。これにより表示部31で映像コンテンツの表示出力が行われる。
 制御部32は例えばマイクロコンピュータ等により構成され、テレビジョン装置2における受信動作や映像及び音声の出力動作を制御する。
 入力部34は例えばユーザ操作の入力部であり、操作子や、リモートコントローラの受信部として構成される。
 制御部32は入力部34からのユーザ操作情報に基づいて、チューナ22の受信設定、デマルチプレクサ23の動作制御、音声処理部24や音声出力部25での音声処理の設定制御、映像処理部26や映像出力部27での映像の出力設定処理の制御等を行う。
 メモリ33は制御部32が制御に必要な情報が記憶されている。例えば各種の映像設定、音声設定に応じた実際の設定値もメモリ33に記憶され、制御部32が読み出せるようにしている。
 制御部32はエージェント装置1の演算部15と通信可能とされている。これにより、演算部15から映像や音声の出力設定の情報を取得することができる。
 制御部32がエージェント装置1から受信した出力設定に従って音声処理部24や映像処理部26の信号処理の制御を行うことで、テレビジョン装置2において、エージェント装置1が設定した出力設定による映像及び音声の出力が実現される。
 なお図3のテレビジョン装置2は、アンテナ21で放送波が受信される構成例としたが、もちろんケーブルテレビジョンやインターネット放送などに対応するテレビジョン装置2でもよいし、例えばインターネットブラウザ機能などを備えたものでも良い。図3はあくまで映像及び音声の出力機器としてのテレビジョン装置2の一例である。
 続いて図4に図2に対応する構成例を示す。但し図3と同一の部分は同一符号を付し説明を省略する。
 図4において図3と異なるのはエージェント装置1が解析部72としての機能を備え、外部の解析エンジン6と通信をすることなく、応答音声を生成できるようにしていることである。
 演算部15は、入力管理部70としての機能により、音声信号を取得し、それが対応すべき音声と判断した場合、演算部15は解析部72としての機能により図2で説明した処理を行って、その応答としての音声信号を生成する。そしてその音声信号を音声処理部24に送信する。
 これによりスピーカ5によって応答音声が出力される。
 なお、以上の図3、図4では、テレビジョン装置2に内蔵のエージェント装置1を挙げたが、テレビジョン装置2と別体のエージェント装置1も想定される。
 内蔵又は別体のエージェント装置1はハードウエア構成としては、例えば図5のようなコンピュータ装置170により実現できる。
 図5において、コンピュータ装置170のCPU(Central Processing Unit)171は、ROM(Read Only Memory)172に記憶されているプログラム、または記憶部178からRAM(Random Access Memory)173にロードされたプログラムに従って各種の処理を実行する。RAM173にはまた、CPU171が各種の処理を実行する上において必要なデータなども適宜記憶される。
 CPU171、ROM172、およびRAM173は、バス174を介して相互に接続されている。このバス174にはまた、入出力インタフェース175も接続されている。
 入出力インタフェース175には、センシング機器或いは操作子や操作デバイスよりなる入力部176が接続される。
 また入出力インタフェース175には、LCD(Liquid Crystal Display)或いは有機EL(Electro-Luminescence)パネルなどよりなるディスプレイ、並びにスピーカなどよりなる出力部177が接続される場合も考えられる。
 入出力インタフェース175には、ハードディスクなどより構成される記憶部178、モデムなどより構成される通信部179が接続される場合もある。
 通信部179は、ネットワーク3として示したインターネット等の伝送路を介しての通信処理を行ったり、テレビジョン装置2との有線/無線通信、バス通信などによる通信を行う。
 入出力インタフェース175にはまた、必要に応じてドライブ180が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア181が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部178にインストールされる。
 上述した演算部15の機能をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、ネットワークや記録媒体からインストールされるようにすることができる。
 この記録媒体は、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク、光ディスク、光磁気ディスク、若しくは半導体メモリなどよりなるリムーバブルメディア181により構成される。或いは、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM172や、記憶部178に含まれるハードディスクなどでも構成される。
 このようなコンピュータ装置170をエージェント装置1とする場合は、コンピュータ装置170は入力装置176としてのセンシング機器の情報を入力し、CPU171が演算部15として機能し、通信部179を介して例えば音声信号や制御信号をテレビジョン装置2に送信するという動作を行うことができる。
<3.表示パネル構成>
 本実施の形態のスピーカ5は、テレビジョン装置2の表示面を振動板とする構造とされる。テレビジョン装置2の映像表示面110Aを加振部120とする構成を以下説明する。
 図6は、テレビジョン装置2の側面構成例を表したものである。図7は、図6のテレビジョン装置2の背面構成例を表したものである。テレビジョン装置2は、映像表示面110Aに映像を表示するとともに、映像表示面110Aから音声を出力する。言い換えると、テレビジョン装置2は、フラットパネルスピーカを映像表示面110Aに内蔵しているとも言える。
 テレビジョン装置2は、例えば、映像を表示するとともに振動板としても機能するパネル部110と、パネル部110の裏面に配置され、パネル部110を振動させる加振部120とを備えている。
 テレビジョン装置2は、さらに、例えば、加振部120を制御する信号処理部130と、パネル部110を、回動部150を介して支持する支持部140とを備えている。信号処理部130は例えば上述の音声出力部25の全部又は一部を構成する回路基板等を含む。
 回動部150は、支持部140によってパネル部110の裏面を支持するときのパネル部110の傾斜角を調整するためのものであり、例えば、パネル部110および支持部140を回動可能に支持するヒンジによって構成されている。
 加振部120および信号処理部130は、パネル部110の裏面に配置されている。パネル部110は、その裏面側に、パネル部110、加振部120および信号処理部130を保護するリアカバー110Rを有している。リアカバー110Rは、例えば、板状の金属板もしくは樹脂板によって構成されている。リアカバー110Rが、回動部150に連結されている。
 図8は、リアカバー110Rを取り外したときの、テレビジョン装置2の背面の構成例を表したものである。回路基板130Aは、信号処理部130の一具体例に相当する。
 図9は、図8のB-B線での断面構成例を表したものである。図9には、後述のアクチュエータ(加振器)121aの断面構成が例示されているが、この断面構成は、他のアクチュエータ(例えば図8に示すアクチュエータ121b,121c)の断面構成と同様の断面構成となっているものとする。
 パネル部110は、例えば、映像を表示する薄板状の表示セル111と、空隙115を介して表示セル111と対向配置されたインナープレート112(対向プレート)と、バックシャーシ113とを有している。インナープレート112およびバックシャーシ113が一体化されていてもよい。表示セル111の表面(加振部120とは反対側の表面)が映像表示面110Aとなっている。パネル部110は、さらに、例えば表示セル111とインナープレート112との間に固定部材114を有している。
 固定部材114は、表示セル111とインナープレート112とを互いに固定する機能と、空隙115を維持するスペーサとしての機能とを有している。固定部材114は、例えば、表示セル111の外縁に沿って配置されている。固定部材114は、例えば、表示セル111が振動している時に表示セル111の端縁が自由端として振る舞える程度の柔軟性を有していてもよい。固定部材114は、例えば、両面に接着層を有するスポンジによって構成されている。
 インナープレート112は、アクチュエータ121(121a,121b,121c)を支持する基板である。インナープレート112は、例えば、アクチュエータ121a,121b,121cを設置する箇所に開口(以下「アクチュエータ用の開口」と称する)を有している。インナープレート112は、さらに、例えばアクチュエータ用の開口とは別に、1または複数の開口(以下「空気孔114A」と称する)を有している。1または複数の空気孔114Aは、アクチュエータ121a,121b,121cの振動により表示セル111を振動させたときに空隙115に生じる空気圧の変動を緩和する空気孔として機能する。1または複数の空気孔114Aは、固定部材114および後述の制振部材116と重ならないよう、固定部材114を避けて形成されている。
 1または複数の空気孔114Aは、例えば円筒形状となっている。1または複数の空気孔114Aは、例えば角筒形状となっていてもよい。1または複数の空気孔114Aの内径は、例えば数cm程度となっている。なお、1つの空気孔114Aが、空気孔としての機能を発揮する限りにおいて、多数の小径の貫通孔によって構成されていてもよい。
 バックシャーシ113は、インナープレート112よりも高い剛性を有しており、インナープレート112の撓みもしくは振動を抑える役割を有している。バックシャーシ113は、例えば、インナープレート112の開口(例えば、アクチュエータ用の開口や、空気孔114A)と対向する位置に開口を有している。バックシャーシ113に設けられた開口のうち、アクチュエータ用の開口と対向する位置に設けられた開口は、アクチュエータ121a,121b,121cを挿通することが可能な大きさとなっている。バックシャーシ113に設けられた開口のうち、空気孔114Aと対向する位置に設けられた開口は、アクチュエータ121a,121b,121cの振動により表示セル111を振動させたときに空隙115に生じる空気圧の変動を緩和する空気孔として機能する。
 バックシャーシ113は、例えば、ガラス基板によって構成されている。なお、バックシャーシ113の代わりに、バックシャーシ113と同等の剛性を有する金属基板または樹脂基板が設けられていてもよい。
 加振部120は、例えば、3つのアクチュエータ121a,121b,121cを有している。アクチュエータ121a,121b,121cは、互いに共通の構成となっている。
 この例ではアクチュエータ121a,121b,121cは、例えば、表示セル111の上下方向において中央よりもやや上寄りの高さ位置において左右方向に一列に並んで配置されているが、これは一例である。
 アクチュエータ121a,121b,121cは、それぞれ、例えばボイスコイルとボイスコイルボビンと磁気回路とを有し、振動源となるスピーカ用アクチュエータである。
 アクチュエータ121a,121b,121cは、それぞれ、ボイスコイルに電気信号の音声電流が流れると、電磁作用の原理に従ってボイスコイルに駆動力を発生させる。この駆動力が振動伝達部材124を介して表示セル111に伝達され、表示セル111に音声電流の変化に応じた振動を発生させ、空気が振動して音圧が変化する。
 固定部123および振動伝達部材124は、アクチュエータ121a,121b,121cごとに設けられている。
 固定部123は、例えば、アクチュエータ121a,121b,121cを挿通させた状態で固定する開口を有している。各アクチュエータ121a,121b,121cは、例えば、固定部123を介して、インナープレート112に固定されている。
 振動伝達部材124は、例えば、表示セル111の裏面と、アクチュエータ121a,121b,121cのボビンとに接しており、表示セル111の裏面と、アクチュエータ121a,121b,121cのボビンとに固定されている。振動伝達部材24は、少なくとも、音波領域(20Hz以上)では反発する特性を有する部材によって構成されている。
 パネル部110は、例えば図9に示したように、表示セル111とインナープレート112との間に制振部材116を有している。制振部材116は、各アクチュエータ121a,121b,121cによって表示セル111に生じる振動が互いに干渉するのを妨げる作用を有する。
 制振部材116は、表示セル111とインナープレート112との間隙、つまり、空隙115の中に配置されている。制振部材116は、表示セル111の裏面およびインナープレート112の表面のうち、少なくとも表示セル111の裏面に固定されている。制振部材116は、例えば、インナープレート112の表面に接している。
 図10は、制振部材116の平面構成例を表したものである。ここで、表示セル111の裏面において、アクチュエータ121a,121b,121cにそれぞれ対向する位置を加振点P1,P2,P3としている。
 このとき、制振部材116は、表示セル111の裏面を、加振点P1を含む振動領域AR1、加振点P2を含む振動領域AR2、加振点P3を含む振動領域AR3に区画する。
 各振動領域AR1,AR2,AR3は、物理的に離間して独立して振動する領域とされている。
 つまり各振動領域AR1,AR2,AR3は、それぞれアクチュエータ121a,121b,121cにより互いに独立して振動される。換言すれば、各振動領域AR1,AR2,AR3は、互いに独立したスピーカユニットを構成することになる。
 なお、このようにパネル部110に3つの独立したスピーカユニット構造が形成されるのは説明上の一例である。後に、パネル部110において複数のスピーカユニット構造が形成される例を各種説明する。
 またこのように分割された各振動領域AR1,AR2,AR3は、視覚上は離間しておらず、ユーザが映像を視認する表示面としては、パネル部110の全体で1つの表示パネルと認識されるようにされている。
<4.比較例>
 以上の構成のテレビジョン装置2において、コンテンツ音声とエージェント音声を共にスピーカ5を用いて出力することを考える。
 図11は、そのような場合に想定される構成例として、音声処理部24、音声出力部25、アクチュエータ121(121L、121R)、パネル部110を示している。
 なお「アクチュエータ121」は、スピーカユニットを構成する加振器としてのアクチュエータを総称する場合の表記である。
 音声処理部24には、例えば2チャネルステレオ方式のコンテンツ音声として、L(左)チャネルの音声信号Lsと、R(右)チャネルの音声信号Rsが入力される。
 L音声処理部41は音声信号Lsに対して音量・音質処理(例えば音量レベル調整や、低域強調処理、高域強調処理、イコライジング処理等)、ノイズキャンセル処理等の各種の処理を行う。
 R音声処理部42は音声信号Rsに対して音量・音質処理、ノイズキャンセル処理等の各種の処理を行う。
 L音声処理部41、R音声処理部42で処理された音声信号Ls、Rsは、それぞれミキサー44L,44Rを介して音声出力部25のL出力部51、R出力部52に供給される。L出力部51は音声信号Lsに対して、D/A変換や増幅処理を行い、Lチャネル用のアクチュエータ121Lにスピーカ駆動信号を供給する。R出力部52は音声信号Rsに対して、D/A変換や増幅処理を行い、Rチャネル用のアクチュエータ121Rにスピーカ駆動信号を供給する。
 これにより、アクチュエータ121L、121Rによってパネル部110が加振され、映像コンテンツについてのL、Rチャネルのステレオ音声が出力される。
 エージェント音声が出力される場合、エージェント装置1からの音声信号VEが音声処理部24のミキサー44L、44Rに入力される。
 これによりエージェント音声がコンテンツ音声にミックスされ、アクチュエータ121L、121Rによって音声としてパネル部110から出力されることになる。
 ところがこのような構成を採用すると、コンテンツ音声、例えばニュースを読むアナウンサーの声やドキュメンタリーでのナレーション、あるいは映画のセリフ等に対して、エージェント音声が重なり、両方の音声が聞きづらくなってしまうことが想定される。
 このため、エージェント音声の出力の際に、コンテンツ音声のボリュームを下げたりミュートしたりするなどの対応が必要である。また、エージェント音声の音像位置とコンテンツ音声の音像位置が重なっている場合、コンテンツ音声のボリュームを下げても、聞き取りにくい状態のままということにもなる。
 またコンテンツ音声を大きく下げることで、コンテンツ視聴を妨げてしまうことにもなる。
 そこで本実施の形態では以下説明するように、エージェント装置1を搭載したテレビジョン装置2で、さらにパネル部110をアクチュエータ121で振動させて音を再生する場合に、コンテンツ音声の再生用のアクチュエータのほかに、エージェント音声の再生用のアクチュエータを配置する。そして、エージェント音声は、定位処理により仮想音源位置から再生するようにする。
 これによりコンテンツ音声については映像とマッチした再生を行う一方で、エージェント音声は異なる定位で、例えばテレビジョン装置2とは別の位置から聞こえるようにし、ユーザにとってエージェント音声とコンテンツ音声を分離して聞こえやすくなるようにする。
<5.第1の実施の形態>
 第1の実施の形態の構成を図12に示す。なお、以下説明していく各実施の形態の構成では、図1から図10で説明したようなテレビジョン装置2の構成における音声処理部24、音声出力部25、スピーカ5を構成するアクチュエータ121(121L、121R)及びパネル部110を抽出して示すものである。記述の部位については、同一符号を付して重複説明を避ける。
 図12には、上記の図11と同様に音声処理部24に対して、例えば2チャネルのステレオ方式のコンテンツ音声としての音声信号Ls、Rsが入力される構成を示している。エージェント音声が出力される場合、エージェント装置1からの音声信号VEも音声処理部24に入力される。
 L音声処理部41は音声信号Lsに対して音量・音質処理、ノイズキャンセル処理等の各種の処理を行い、その音声信号Lsを音声出力部25におけるL出力部51に供給する。L出力部51は音声信号Lsに対して、D/A変換や増幅処理を行い、Lチャネル用のアクチュエータ121Lにスピーカ駆動信号を供給する。
 アクチュエータ121Lはパネル部110の振動領域AR1を加振するように配置されており、振動領域AR1から音声信号Lsに応じた音声出力が行われる。つまりアクチュエータ121L及び振動領域AR1がコンテンツ音声用のLチャネルスピーカとなる。
 R音声処理部42は音声信号Rsに対して音量・音質処理、ノイズキャンセル処理等の各種の処理を行い、その音声信号Rsを音声出力部25におけるR出力部52に供給する。R出力部52は音声信号Rsに対して、D/A変換や増幅処理を行い、Rチャネル用のアクチュエータ121Rにスピーカ駆動信号を供給する。
 アクチュエータ121Rはパネル部110の振動領域AR2を加振するように配置されており、振動領域AR2から音声信号Rsに応じた音声出力が行われる。つまりアクチュエータ121R及び振動領域AR2がコンテンツ音声用のRチャネルスピーカとなる。
 エージェント音声の音声信号VEは音声処理部24におけるエージェント音声/定位処理部45(以下「音声/定位処理部45」と表記する)において必要な処理とされる。例えば音量設定処理、音質設定処理、他チャネル化処理などが行われる。さらに定位処理として、テレビジョン装置2の前に居るユーザにとって、パネル前面範囲外となる仮想スピーカ位置からエージェント音声が聞こえてくるようにする処理(仮想音源位置再生用信号処理)が行われる。
 このような処理を経て2チャネル化されたエージェント音声の音声信号VEL、VERが出力される。
 音声信号VELは、音声出力部25におけるエージェント音出力部54に供給される。エージェント音出力部54はでは音声信号VELについてD/A変換や増幅処理を行ない、Lチャネルのエージェント音声用のアクチュエータ121ALにスピーカ駆動信号を供給する。
 アクチュエータ121ALはパネル部110の振動領域AR3を加振するように配置されており、振動領域AR3から音声信号VELに応じた音声出力が行われる。つまりアクチュエータ121AL及び振動領域AR3がエージェント音声用のLチャネルスピーカとなる。
 音声信号VERは、音声出力部25におけるエージェント音出力部55に供給される。エージェント音出力部55では音声信号VERについてD/A変換や増幅処理を行ない、Rチャネルのエージェント音声用のアクチュエータ121ARにスピーカ駆動信号を供給する。
 アクチュエータ121ARはパネル部110の振動領域AR4を加振するように配置されており、振動領域AR4から音声信号VERに応じた音声出力が行われる。つまりアクチュエータ121AR及び振動領域AR4がエージェント音声用のRチャネルスピーカとなる。
 以上により、コンテンツ音声としてのL、Rチャネル音声、エージェント音声としてのL、Rチャネル音声は、それぞれ独立したスピーカユニットから出力されることになる。
 以下、「スピーカユニット」とは、振動領域ARと対応するアクチュエータ121の組を指すものとして説明する。
 なお、音声/定位処理部45は、例えばL音声処理部41,R音声処理部42を制御して、エージェント音声を出力する期間にコンテンツ音声の音量を下げるようにしてもよい。
 音声/定位処理部45による定位処理、即ち仮想音源位置再生用信号処理は、仮想的に配置したい音源位置での頭部伝達関数を掛け合わせるバイノーラル化処理およびスピーカから再生する場合の左右のスピーカから耳へのクロストークをキャンセルするクロストーク補正処理を行うことで実現する。具体的な処理は公知であるため詳述を避けるが、例えば特許文献1に開示されている。
 これにより図13A、図13Bに示すような再生環境が実現される。
 図13Aは、パネル部110の正面にユーザ500が居て、コンテンツ音声が再生されている状態を示している。
 アクチュエータ121L及び振動領域AR1の組によるスピーカユニットと、アクチュエータ121R及び振動領域AR2の組によるスピーカユニットにより、L、Rステレオ音声としてコンテンツ音声(SL、SR)が再生されている。
 図13Bは、エージェント音声が再生される場合を示している。
 引き続きアクチュエータ121L及び振動領域AR1の組によるスピーカユニットと、アクチュエータ121R及び振動領域AR2の組によるスピーカユニットにより、L、Rステレオ音声としてコンテンツ音声(SL、SR)が再生されている。
 さらにアクチュエータ121AL及び振動領域AR3の組によるスピーカユニットと、アクチュエータ121AR及び振動領域AR4の組によるスピーカユニットにより、L、Rステレオ音声としてエージェント音声が再生される。但し、定位処理によって、エージェント音声SAは、パネル外となる仮想スピーカVSPの位置から発せられているようにユーザに聞こえることになる。
 このように、エージェント装置1からの応答の音声はテレビジョン装置2の表示パネル上ではない仮想音源位置から聞こえるので、エージェント音声を明瞭に聞き分けることができる。またコンテンツ音声は、音量をそのまま変化させずに再生するか、あるいは軽く音量を絞る程度で済む。このためコンテンツ視聴を妨げない。
 アクチュエータ121及び振動領域ARによるスピーカユニットの配置例を図14に示す。
 各図はパネル部110の正面からみたときの振動領域AR1の分割設定と、加振点、つまり背後のアクチュエータ121の配置位置を示している。
 加振点P1,P2,P3,P4は、それぞれアクチュエータ121L、121R、121AL、121ARによる加振点である。
 なお、図ではエージェント音声用のアクチュエータ121による加振点(第1の実施の形態の場合は加振点P3,P4)には斜線を付して、コンテンツ音声用の加振点(第1の実施の形態の場合は加振点P1,P2)と区別している。
 図14Aは、パネル面を中央で左右に分けた上で、比較的広い領域として振動領域AR1、AR2を設ける。そしてその上方に比較的狭い領域として振動領域AR3,AR4を設ける。各振動領域AR1,AR2,AR3,AR4には、それらの略中央に加振点P1,P2,P3,P4を設定する。つまりそれぞれアクチュエータ121L、121R、121AL、121ARの配置位置を各振動領域AR1,AR2,AR3,AR4の背面側の略中央に設定するということである。
 このようなスピーカユニット設定により、コンテンツ音声を左右2チャンネルのコンテンツ音声を適切に出力できるとともに、エージェント音声についても左右のスピーカユニットによって、多様な音声定位を実現できる。
 またエージェント音声は、応答音声等であって、さほどの再生能力を必要としない。例えば低域も300Hzから400Hz程度までが出力できれば十分である。そのため狭い振動領域でも十分に機能できる。また振動の変位量が少なくてすむので画揺れにも強い。
 そして、エージェント音声用の振動領域AR3、AR4を狭くすることで、パネル部110の広い範囲をコンテンツ音声用とし、迫力のある音声再生を実現できる。例えば低域を100Hzから200Hzまで再生するコンテンツ音声用のスピーカユニットを形成できる。
 図14Bは、パネル面を水平方向に4分割した例である。中央側の広い領域を振動領域AR1、AR2とし、左端及び右端の比較的狭い領域として振動領域AR3,AR4とする。
 図14Cは、パネル面を中央で左右に分けた上で、比較的広い領域として振動領域AR1、AR2を設け、下方に比較的狭い領域として振動領域AR3,AR4を設ける例である。
 いずれの例も、各振動領域AR1,AR2,AR3,AR4には、それらの略中央に加振点P1,P2,P3,P4を設定する。
 以上のように振動領域ARの設定は各種考えられる。もちろん図示以外の例も想定される。
 加振点P1,P2,P3,P4は、それぞれ各振動領域ARの略中央としたが、それは一例であり、中央より変位した位置、あるいは振動領域ARの隅の部分などとしてもよい。
<6.第2の実施の形態>
 第2の実施の形態を図15,図16で説明する。
 これは、エージェント音声用に4つのスピーカユニットを形成した例である。
 図15に示すように、音声/定位処理部45は、エージェント音声として4チャネルの音声信号VEL1,VER1,VEL2,VER2を生成する。
 これらの音声信号VEL1,VER1,VEL2,VER2は、それぞれエージェント音出力部54,55,56,57で出力処理され、音声信号VEL1,VER1,VEL2,VER2に応じたスピーカ駆動信号が、それぞれアクチュエータ121AL1,121AR1,121AL2,121AR2に供給される。アクチュエータ121AL1,121AR1,121AL2,121AR2は、それぞれ振動領域AR3,AR4,AR5,AR6に1対1で対応して加振する。
 スピーカユニット配置は例えば図16のようになる。
 図16Aの例は、パネル面を中央で左右に分けた上で、比較的広い領域として振動領域AR1、AR2を設ける。そしてその上方及び下方に比較的狭い領域として振動領域AR3,AR4,AR5,AR6を設ける。振動領域AR3,AR4,AR5,AR6における加振点P3,P4,P5,P6は、それぞれアクチュエータ121AL1,121AR1,121AL2,121AR2による加振点であり、この場合、それぞれ対応する振動領域ARの略中央に設けられている。
 図16Bの例は、パネル面を中央で左右に分けて振動領域AR1、AR2を設ける。そして振動領域AR1の左上隅に振動領域AR3、左下隅に振動領域AR5を設ける。また振動領域AR2の右上隅に振動領域AR4、右下隅に振動領域AR6を設ける。
 アクチュエータ121AL1,121AR1,121AL2,121AR2による加振点P3,P4,P5,P6は、それぞれパネルの隅に偏った位置とされた例としている。
 これらのように、エージェント音声用のスピーカユニットを上下左右に離間して配置することで、エージェント音声の定位を、より多様に設定しやすくなる。例えばパネル部110の平面から周囲に広がる空間上で上下方向、左右方向に任意の仮想スピーカ位置を、音声信号に比較的簡易な定位処理を加えることで設定できる。
<7.第3の実施の形態>
 第3の実施の形態を図17で説明する。
 これは1つの振動領域AR1に複数のアクチュエータ121を配置する例である。
 図17Aは、パネル部110の画面を左右に2つの振動領域AR1,AR2に分けている。
 そして振動領域AR1には、略中央にコンテンツ音声用の加振点P1を配置し、その上方にエージェント音声用の加振点P3を配置する。
 また振動領域AR2には、略中央にコンテンツ音声用の加振点P2を配置し、その上方にエージェント音声用の加振点P4を配置する。
 図17Bも、パネル部110の画面を左右に2つの振動領域AR1,AR2に分けている。
 そして振動領域AR1には、略中央にコンテンツ音声用の加振点P1を配置し、その左隅にエージェント音声用の加振点P3を配置する。
 また振動領域AR2には、略中央にコンテンツ音声用の加振点P2を配置し、その右隅にエージェント音声用の加振点P4を配置する。
 以上の図17A、図17Bの例は、図12(図14A、図14B)における振動領域AR1、AR3をまとめて1つの振動領域AR1とし、振動領域AR2、AR4をまとめて1つの振動領域AR2とした構成に相当する。
 これらの場合、エージェント音声についても左右のスピーカユニットにより出力されるため、左右方向にパネル外となる位置における仮想スピーカ位置の設定が容易化される。
 図17Cは、パネル部110の画面を左右に2つの振動領域AR1,AR2に分け、振動領域AR1には、略中央にコンテンツ音声用の加振点P1を配置し、その上方及び下方にエージェント音声用の加振点P3、P5を配置する。
 また振動領域AR2には、略中央にコンテンツ音声用の加振点P2を配置し、その上方及び下方にエージェント音声用の加振点P4、P6を配置する。
 図17Dは、パネル部110の画面を左右に2つの振動領域AR1,AR2に分け、振動領域AR1には、略中央にコンテンツ音声用の加振点P1を配置し、その左上隅及び左下隅にエージェント音声用の加振点P3、P5を配置する。
 また振動領域AR2には、略中央にコンテンツ音声用の加振点P2を配置し、その右上隅及び右下隅にエージェント音声用の加振点P4、P6を配置する。
 以上の図17C、図17Dの例は、図15(図16A、図16B)における振動領域AR1、AR3、AR5をまとめて1つの振動領域AR1とし、振動領域AR2、AR4、AR6をまとめて1つの振動領域AR2とした構成に相当する。
 これらの場合、エージェント音声についても左右上下のスピーカユニットにより出力されるため、左右方向及び上下方向にパネル外となる位置における仮想スピーカ位置の設定が容易化される。
<8.第4の実施の形態>
 第4の実施の形態を図18,図19で説明する。
 これはコンテンツ音声をL、R、センター(C)の3チャネルで出力するようにした例である。
 図18では、例えば音声処理部24において、コンテンツ音声としてL、R、センターの3チャネルの3チャネルの音声信号Ls、Rs、Csが入力又は生成される構成を示している。
 図12で説明したL、Rチャネルに対応する構成に加えて、センター音声処理部43が設けられ、センター音声処理部43は 音声信号Csに対して音量・音質処理、ノイズキャンセル処理等の各種の処理を行い、その音声信号Csを音声出力部25におけるセンター出力部53に供給する。センター出力部53は音声信号Csに対して、D/A変換や増幅処理を行い、センターチャネル用のアクチュエータ121Cにスピーカ駆動信号を供給する。
 アクチュエータ121Cはパネル部110の振動領域AR3を加振するように配置されており、振動領域AR3から音声信号Csに応じた音声出力が行われる。つまりアクチュエータ121C及び振動領域AR3がコンテンツ音声用のセンターチャネルスピーカとなる。
 なおこの図18の例では、アクチュエータ121ALと振動領域AR4がエージェント音声の左チャネル用のスピーカユニット、アクチュエータ121ARと振動領域AR5がエージェント音声の右チャネル用のスピーカユニットとしている。
 スピーカユニット配置は図19のようになる。
 図19A、図19B、図19Cにおいて加振点P1,P2,P3,P4,P5は、それぞれ図18のアクチュエータ121L、121R、121C、121AL、121ARによる加振点である。
 図19Aの例は、パネル面を左右方向に3つの領域に分け、比較的広い領域として振動領域AR1、AR2、AR3を設ける。そして振動領域AR1の上方に比較的狭い領域として振動領域AR4を設け、振動領域AR2の上方にも比較的狭い領域として振動領域AR5を設ける。
 図19Bの例も、パネル面を左右方向に3つの領域に分け、比較的広い領域として振動領域AR1、AR2、AR3を設ける。そして振動領域AR1の左側に比較的狭い領域として振動領域AR4を設け、振動領域AR2の右側にも比較的狭い領域として振動領域AR5を設ける。
 図19Cの例も、パネル面を左右方向に3つの領域に分け、比較的広い領域として振動領域AR1、AR2、AR3を設ける。そしてパネル部110の上端側となる領域を左右に分け、左側に比較的狭い領域として振動領域AR4を、右側にも比較的狭い領域として振動領域AR5を設けるようにしている。
 以上のような例として、コンテンツ音声をL、R、センターの各チャネルで出力する場合において、エージェント音声を、独立したスピーカユニットにより所定の定位で再生できるようにする。
 なお、以上の図19A、図19B、図19Cでは、加振点P1,P2,P3,P4,P5は、それぞれ対応する振動領域ARの略中央に設けられているものとしたが、これに限られない。
<9.第5の実施の形態>
 第5の実施の形態として、コンテンツ音声をL、R、センターのチャネルで出力し、エージェント音声を4チャネルで出力する場合を説明する。音声処理部24、音声出力部25の構成は、図18のコンテンツ音声系と、図15のエージェント音声系を合わせたものとなる。
 スピーカユニット配置は図20のようになる。
 図20A、図20B、図20Cにおいて加振点P1,P2,P3は、図18のようなコンテンツ音声用のアクチュエータ121L、121R、121Cによる加振点で、加振点P4,P5,P6,P7は、それぞれ図15のようなエージェント音声用のアクチュエータ121AL1、121AR1、121AL2、121AR2による加振点とする。
 図20Aの例は、パネル面を左右方向に3つの領域に分け、比較的広い領域としてコンテンツ音声用の振動領域AR1、AR2、AR3を設ける。
 そして振動領域AR1の上下に比較的狭い領域として振動エージェント音声用の振動領域AR4,AR6を設け、振動領域AR2の上下にも比較的狭い領域としてエージェント音声用の振動領域AR5、AR7を設ける。
 図20Bの例も、パネル面を左右方向に3つの領域に分け、比較的広い領域としてコンテンツ音声用の振動領域AR1、AR2、AR3を設ける。
 そして振動領域AR1の左上隅及び右上隅に比較的狭い領域としてエージェント音声用の振動領域AR4、AR6を設け、振動領域AR2の右上隅及び右下隅にも比較的狭い領域としてエージェント音声用の振動領域AR5、AR7を設ける。
 図20Cの例も、パネル面を左右方向に3つの領域に分け、比較的広い領域としてコンテンツ音声用の振動領域AR1、AR2、AR3を設ける。
 そしてパネル部110の上端側となる領域を左右に分け、左右に比較的狭い領域としてエージェント音声用の振動領域AR4、AR5を設ける。
 またパネル部110の下端側となる領域も左右に分け、左右に比較的狭い領域としてエージェント音声用の振動領域AR6、AR7を設ける。
 以上のような例として、コンテンツ音声をL、R、センターの各チャネルで出力する場合において、エージェント音声を、4チャネルの独立したスピーカユニットにより所定の定位で再生できるようにする。
<10.第6の実施の形態>
 第6の実施の形態は、上記第4,第5の実施の形態において振動面を共有した例である。
 図21Aは、図19Aにおける加振点P1,P4を1つの振動領域AR1に設け、加振点P2,P5を1つの振動領域AR2に設けた例である。
 図21Bは、図19Bにおける加振点P1,P4を1つの振動領域AR1に設け、加振点P2,P5を1つの振動領域AR2に設けた例である。
 図21Cは、図20Aにおける加振点P1,P4,P6を1つの振動領域AR1に設け、加振点P2,P5,P7を1つの振動領域AR2に設けた例である。
 図21Dは、図20Bにおける加振点P1,P4,P6を1つの振動領域AR1に設け、加振点P2,P5,P7を1つの振動領域AR2に設けた例である。
 コンテンツ音声とエージェント音声の明瞭な聞き分けを実現するには、第4,第5の実施の形態のように、1つの振動領域ARに1つのアクチュエータ121とすることが好ましいが、この第6の実施の形態のように振動領域ARを共有することでも、エージェント音声用とコンテンツ音声用のアクチュエータ121が独立していることで、ある程度の明瞭な聞き分けが可能になる。
 特に振動領域ARの面積が広い場合は、領域内の各部分(加振点の周辺毎)に鳴り分けが生じるため、それぞれの音が明瞭に聞き分けられやすい。
<11.第7の実施の形態>
 以下の第7,第8,第9,第10に実施の形態では、図22のように振動領域ARが9分割されている例に沿って説明する。パネル部110の左上から右下に向かって振動領域AR1,AR2,AR3,AR4,AR5,AR6,AR7,AR8,AR9とする。各振動領域ARは同じ面積であるとする。
 そして全部又は一部の振動領域ARは、コンテンツ音声用とエージェント音声用に切り替えて用いられるようにする。
 第7の実施の形態の構成を図23に示す。
 音声処理部24においては、L、R、センターの3チャネルの音声信号Ls,Rs,Csについて処理を行い、チャネル選択部46に供給する。
 また音声処理部24においては、L、R、センターの3チャネルの音声信号Ls,Rs,Csについて処理を行い、音声/定位処理部45はエージェント音声信号としてL、Rの2チャネルの音声信号VEL,VERを生成し、チャネル選択部46に供給する。
 チャネル選択部46は、以上の合計5チャネルの音声信号Ls,Rs,Cs,VEL,VERは、音声/定位処理部45からの制御信号CNTに応じて9個の振動領域ARに振り分ける処理を行う。
 また音声出力部25としては、9個の振動領域ARに対応して、9個の出力部61,62,63,64,65,66,67,68,69を備え、それぞれ、入力された音声信号についてD/A変換や増幅処理を行い、音声信号に基づくスピーカ駆動信号を出力する。そして9個の出力部61,62,63,64,65,66,67,68,69によるスピーカ駆動信号は、9個の振動領域ARのそれぞれに対して1:1で対応されるアクチュエータ121-1、121-2,121-3,121-4,121-5,121-6,121-7,121-8,121-9に供給される。
 この場合、チャネル選択部46としては、図24のような構成が考えられる。
 端子T1,T2,T3,T4,T5,T6,T7,T8,T9は、それぞれ出力部61,62,63,64,65,66,67,68,69に音声信号を供給する端子である。
 音声信号VELはスイッチ47の端子taに供給される。
 音声信号VERはスイッチ48の端子taに供給される。
 音声信号Lsは、スイッチ47の端子tcと、端子T4と、端子T7に供給される。
 音声信号Csは、端子tcと、端子T4と、端子T8に供給される。
 音声信号Rsは、スイッチ48の端子tcと、端子T6と、端子T9に供給される。
 スイッチ47は端子T1に接続され、スイッチ48は端子T3に接続されている。
 そしてスイッチ47,48は、制御信号CNTによって、エージェント音声が出力される期間(コンテンツ音声に加えてエージェント音声が出力される期間)は端子taが選択され、それ以外、つまりエージェント音声が出力されずコンテンツ音声のみが出力される期間は端子tcが選択される。
 このような構成の場合、振動領域AR1及びアクチュエータ121-1によるスピーカユニットと、振動領域AR3及びアクチュエータ121-3によるスピーカユニットとが、コンテンツ音声用とエージェント音声用とに切り替えられながら使用されることになる。
 即ち、コンテンツ音声のみを出力する期間では、図25Aのように、振動領域AR1、AR4,AR7がLチャネルのスピーカとして使用される。
 また振動領域AR3,AR6,AR9がRチャネルのスピーカとして使用され、振動領域AR2,AR5,AR8がセンターチャネル(Cチャネル)のスピーカとして使用される。
 なお、加振点P1からP9は、アクチュエータ121-1から121-9のそれぞれによる加振点である。
 一方、エージェント音声が出力されるときは、図25Bのように、振動領域AR4,AR7がLチャネルのスピーカとして使用され、振動領域AR6,AR9がRチャネルのスピーカとして使用され、振動領域AR2,AR5,AR8がセンターチャネル(Cチャネル)のスピーカとして使用される。斜線を付した振動領域AR1、AR3は、それぞれエージェント音声の左チャネル及び右チャネルのスピーカとして使用されることになる。
 このように一部のスピーカユニットを切替使用することで、エージェント音声を出力しないときは、全てのスピーカユニットを用いて高性能、大出力のコンテンツ音声スピーカを実現できる。
 また一部のスピーカユニットをエージェント音声に切り替えることで、自然にコンテンツ音声出力を抑えながら、エージェント音声を所定の定位で出力できる。
 またこの場合、センタースピーカとしては振動領域AR2,AR5,AR8が常時使用される。これはセンターチャネルが重要な音声となることが多いコンテンツ音声の出力に適している。
 なお、図24,図25の例は一例であり、どのスピーカユニットをエージェント音声用に用いるかは多様に考えられる。
 例えば図26A、図26Bでは、4つのスピーカユニットをエージェント音声に用いる例を示している。
 コンテンツ音声のみを出力する期間は、図26Aのように全ての振動領域ARをコンテンツ音声用とする(図24Aと同様)。
 エージェント音声を出力する期間は、図26Bのように、振動領域AR4がLチャネルのスピーカとして使用され、振動領域AR6がRチャネルのスピーカとして使用され、振動領域AR2,AR5,AR8がセンターチャネル(Cチャネル)のスピーカとして使用される。
 斜線を付した振動領域AR1、AR7は、エージェント音声の左チャネルのスピーカとして使用され、振動領域AR3、AR9は、エージェント音声の右チャネルのスピーカとして使用されるようにする。
 もちろんこれ以外にも各種の例が考えられる。中央の振動領域AR2,AR5,AR8をエージェント音声に切り替えるようにしてもよい。
<12.第8の実施の形態>
 第8の実施の形態は、例えばコンテンツ音声を9チャネルで出力する例である。
 図27に示すように、コンテンツ音声としての音声信号Ls,Rs,Csはマルチチャネル処理部49において9チャネル化処理される。そして9チャネルの音声信号Sch1,Sch2,Sch3,Sch4,Sch5,Sch6,Sch7,Sch8,Sch9として出力される。
 これら音声信号Sch1,Sch2,Sch3,Sch4,Sch5,Sch6,Sch7,Sch8,Sch9は、それぞれ振動領域AR1,AR2,AR3,AR4,AR5,AR6,AR7,AR8,AR9を加振するための音声信号であるとする。
 チャネル選択部46においては、コンテンツ音声としての9チャネルの音声信号(Sch1からSch9)と、音声/定位処理部45からのエージェント音声信号としてL、Rの2チャネルの音声信号VEL,VERを入力し、音声/定位処理部45からの制御信号CNTに応じて9個の振動領域ARに振り分ける処理を行う。
 例えばチャネル選択部46は図28のように構成される。
 音声信号VELはスイッチ47の端子taに供給される。
 音声信号VERはスイッチ48の端子taに供給される。
 音声信号Sch1は、スイッチ47の端子tcに供給される。
 音声信号Sch3は、スイッチ48の端子tcに供給される。
 スイッチ47の出力は端子T1に供給され、スイッチ48の出力は端子T3に供給される。
 音声信号Sch2,Sch4,Sch5,Sch6,Sch7,Sch8,Sch9は、それぞれ端子T2,T4,T5,T6,T7,T8,T9に供給される。
 このような構成とすることで、コンテンツ音声出力時と、コンテンツ音声及びエージェント音声出力時とで、上述の図25A、図25Bのように振動領域AR1、AR3が切替使用されることになる。
<13.第9の実施の形態>
 第9の実施の形態は、上記のようにコンテンツ音声用とエージェント音声用とに切替使用するスピーカユニット(振動領域AR及びアクチュエータ121の組)を、そのときの状況に応じて選択する例である。
 音声処理部24の構成は図27の例とする。
 ただし、チャネル選択部46は、画面の左側となる振動領域AR1,AR4,AR7のいずれかにおいてエージェント音声としての音声信号VELに基づく音声出力が実行可能で、また画面の右側となる振動領域AR3,AR6,AR9のいずれかにおいてエージェント音声としての音声信号VERに基づく音声出力を実行可能となるように構成されている。
 つまりチャネル選択部46は、出力部61に供給する信号として音声信号Sch1と音声信号VELを選択可能とし、出力部64に供給する信号として音声信号Sch4と音声信号VELを選択可能とし、出力部67に供給する信号として音声信号Sch7と音声信号VELを選択可能とする構成を有している。
 またチャネル選択部は、出力部63に供給する信号として音声信号Sch3と音声信号VERを選択可能とし、出力部66に供給する信号として音声信号Sch6と音声信号VERを選択可能とし、出力部69に供給する信号として音声信号Sch9と音声信号VERを選択可能とする構成を有している。
 このような構成により、例えば図29のようなスピーカユニット選択を行う。
 即ち、コンテンツ音声のみを出力する期間では、図29Aのように、振動領域AR1からAR9により、音声信号Sch1からSch9により9チャネルのスピーカ出力が実行される。
 なお、加振点P1からP9は、図27のアクチュエータ121-1から121-9のそれぞれによる加振点である。
 一方、エージェント音声が出力されるときは、例えば図29Bのように、振動領域AR1,AR4,AR7のうちで選択された振動領域AR1がLチャネルスピーカとして使用され、振動領域AR3,AR6,AR9のうちで選択された振動領域AR3がRチャネルスピーカとして使用される。
 斜線を付していない他の振動領域AR2,AR4,AR5,AR6,AR7,AR8、AR9は、それぞれ音声信号Sch2,Sch4,Sch5,Sch6,Sch7,Sch8,Sch9に対応するスピーカとして使用される。
 また、エージェント音声が出力される他の時点では、例えば図29Cのように、振動領域AR1,AR4,AR7のうちで選択された振動領域AR4がLチャネルスピーカとして使用され、振動領域AR3,AR6,AR9のうちで選択された振動領域AR9がRチャネルスピーカとして使用される。
 斜線を付していない他の振動領域AR1,AR2,AR3,AR5,AR6,AR7,AR8は、それぞれ音声信号Sch1,Sch2,Sch3,Sch5,Sch6,Sch7,Sch8に対応するスピーカとして使用される。
 このような選択を、例えば各チャネルの出力音量に応じて行う。
 例えばエージェント音声を出力する際に、振動領域AR1,AR4,AR7のうちで最も音量レベルの低い振動領域ARをエージェント音声の左チャネル用に選択する。また振動領域AR3,AR6,AR9のうちで音量レベルの低い振動領域ARをエージェント音声の右チャネル用に選択する。
 このような第9の実施の形態としての選択処理例を図30に示す。図30は例えばチャネル選択部46の処理とする。
 ステップS101でチャネル選択部46は、エージェント音声の出力準備タイミングであるか否かを判定する。例えばチャネル選択部46は、音声/定位処理部45からの制御信号CNTにより、出力準備タイミングを認識する。
 この出力準備タイミングは、エージェント音声の出力を開始する直前のタイミングである。
 出力準備タイミングを検知したときは、チャネル選択部46はステップS102で左側のチャネルのそれぞれの出力レベルを取得する。即ち音声信号Sch1,Sch4,Sch7の音声信号レベルである。取得する信号レベルは、その時点の信号値でもよいが、常にある程度の移動平均値等を検出しておき、出力準備タイミングで、その時点の移動平均値を取得してもよい。
 ステップS103でチャネル選択部46は出力レベル(信号レベル)が最小のチャネルを判定し、ステップS104で、当該判定したチャネルを、エージェント音声(音声信号VEL)のL(左)チャネルとして用いるチャネルに設定する。
 またチャネル選択部46はステップS105で右側のチャネルのそれぞれの出力レベルを取得する。即ち音声信号Sch3,Sch6,Sch9の音声信号レベルである。そしてステップS106でチャネル選択部46は出力レベル(信号レベル)が最小のチャネルを判定し、ステップS107で、当該判定したチャネルを、エージェント音声(音声信号VER)のR(右)チャネルとして用いるチャネルに設定する。
 ステップS108でチャネル選択部46は、エージェント音声用に設定した左右チャネルの情報を音声/定位処理部45に通知する。これは、スピーカユニットの選択によらずに、エージェント音声が常に特定の定位で出力されるようにするためである。
 音声/定位処理部45では、チャネル選択部46の選択に応じて定位処理のパラメータ設定を変更し、スピーカ位置の変化によらずに仮想スピーカ位置が一定の位置になるようにする。
 ステップS109でチャネル選択部46は、上記の設定に従い、信号経路の切替を行う。例えば音声信号Sch1,Sch9がそれぞれ左側と右側で最小の信号レベルであった場合、音声信号VELが出力部61に供給され、音声信号VERが出力部69に供給されるように信号経路を切り替える。
 チャネル選択部46はステップS110では、エージェント音声の出力終了タイミングを監視している。これも制御信号CNTに基づいて判定する。
 エージェント音声の出力終了タイミングとなったら、ステップS111で信号経路を元の状態に戻す。即ち音声信号Sch1からSch9がそれぞれ出力部61から出力部69に供給される状態とする。
 以上の処理により、エージェント音声が出力される場合に、それぞれ左側と右側のうちで出力の低いスピーカユニットが選択されて、エージェント音声用のスピーカユニットに切り替えられることになる。
 なお、この例の場合、中央のスピーカユニット、つまり振動領域AR2,AR5,AR8はエージェント音声用に選択されない。これによりコンテンツ音声の中で主たる音声が聞き取りにくくなることがないようにしている。
<14.第10の実施の形態>
 第10の実施の形態は、中央のスピーカユニットも含めて、エージェント音声用に選択されることがあるようにした例である。但し、エージェント音声としての音声信号VEL,VERに基づく音声は、必ず左右の位置関係で出力されるようにする。
 この場合も音声処理部24の構成は図27の例とする。
 ただし、チャネル選択部46は、画面の左側及び中央となる振動領域AR1,AR2,AR4,AR5,AR7,AR8のいずれかにおいてエージェント音声としての音声信号VELに基づく音声出力が実行可能とする。また画面の中央及び右側となる振動領域AR2,AR3,AR5,AR6,AR8,AR9のいずれかにおいてエージェント音声としての音声信号VERに基づく音声出力を実行可能となるように構成されている。
 つまりチャネル選択部は、出力部61に供給する信号として音声信号Sch1と音声信号VELを選択可能とし、出力部64に供給する信号として音声信号Sch4と音声信号VELを選択可能とし、出力部67に供給する信号として音声信号Sch7と音声信号VELを選択可能とする構成を有している。
 またチャネル選択部は、出力部63に供給する信号として音声信号Sch3と音声信号VERを選択可能とし、出力部66に供給する信号として音声信号Sch6と音声信号VERを選択可能とし、出力部69に供給する信号として音声信号Sch9と音声信号VERを選択可能とする構成を有している。
 さらにチャネル選択部46は、出力部62に供給する信号として音声信号Sch2、音声信号VEL、音声信号VERを選択可能とし、出力部65に供給する信号として音声信号Sch5、音声信号VEL、音声信号VERを選択可能とし、出力部68に供給する信号として音声信号Sch8、音声信号VEL、音声信号VERを選択可能とする構成を有している。
 このような構成により、例えば上述の図29のようなスピーカユニット選択を行う。
 但し、中央のスピーカユニットも用いられながら、エージェント音声用の左右のスピーカユニットが選択されるため、次のような選択のバリエーションが生ずる。
 即ち左右のスピーカユニットとして、次に列挙する各組み合わせが選択される可能性がある。
 振動領域AR1とAR2、振動領域AR1とAR3、振動領域AR1とAR5、振動領域AR1とAR6、振動領域AR1とAR8、振動領域AR1とAR9、振動領域AR2とAR3、振動領域AR2とAR6、振動領域AR2とAR9、振動領域AR4とAR2、振動領域AR4とAR3、振動領域AR4とAR5、振動領域AR4とAR6、振動領域AR4とAR8、振動領域AR4とAR9、振動領域AR5とAR3、振動領域AR5とAR6、振動領域AR5とAR9、振動領域AR7とAR2、振動領域AR7とAR3、振動領域AR7とAR5、振動領域AR7とAR6、振動領域AR7とAR8、振動領域AR7とAR9、振動領域AR8とAR3、振動領域AR8とAR6、振動領域AR8とAR9。
 このような選択を行うための選択処理例を図31に示す。図31は例えばチャネル選択部の処理とする。
 ステップS101でチャネル選択部46は、図30の例と同様にエージェント音声の出力準備タイミングであるか否かを判定する。
 出力準備タイミングを検知したときは、チャネル選択部46はステップS121で全チャネルのそれぞれの出力レベルを取得する。
 ステップS122でチャネル選択部46は全チャネルのうちで出力レベル(信号レベル)が最小のチャネルを判定する。
 そして判定したチャネルが、左側チャネル、中央チャネル、右側チャネルのいずれかで処理を分岐する。
 信号レベルが最小と判定したチャネルが、左側のチャネルである音声信号Sch1,Sch4,Sch7のいずれかであった場合は、チャネル選択部46はステップS123からS124に進み、当該判定したチャネルを、エージェント音声の音声信号VELに用いるチャネルに設定する。
 そしてチャネル選択部46はステップS125で中央及び右側のチャネル(音声信号Sch2,Sch3,Sch5,Sch6,Sch8,Sch9)のうちで出力レベル(信号レベル)が最小のチャネルを判定し、ステップS126で、当該判定したチャネルを、エージェント音声の音声信号VERに用いるチャネルに設定する。
 ステップS127でチャネル選択部46は、定位処理のために設定した左右チャネルの情報を音声/定位処理部45に通知する。
 そしてステップS128でチャネル選択部46は、チャネル設定に従い、信号経路の切替を行う。
 また、ステップS122で判定したチャネルが中央のチャネルである音声信号Sch2,Sch5,Sch8のいずれかであった場合は、チャネル選択部46はステップS141からS142に進み、左側及び右側のチャネル(音声信号Sch1,Sch3,Sch4,Sch6,Sch7,Sch9)のうちで出力レベル(信号レベル)が最小のチャネルを判定する。
 そして判定したチャネルが左側のチャネルであったらステップS143からS144に進み、チャネル選択部46は、中央の最小レベルのチャネルをエージェント音声の音声信号VERに用いるチャネルに設定し、左側の最小レベルのチャネルを、エージェント音声の音声信号VELに用いるチャネルに設定する。
 そしてステップS127,S128の処理を行う。
 またステップS142で判定したチャネルが右側のチャネルであったらステップS143からS145に進み、チャネル選択部46は、中央の最小レベルのチャネルをエージェント音声の音声信号VELに用いるチャネルに設定し、右側の最小レベルのチャネルを、エージェント音声の音声信号VERに用いるチャネルに設定する。
 そしてステップS127,S128の処理を行う。
 ステップS122で信号レベルが最小と判定したチャネルが、右側のチャネルである音声信号Sch3,Sch6,Sch9のいずれかであった場合は、チャネル選択部46はステップS131に進み、当該判定したチャネルを、エージェント音声の音声信号VERに用いるチャネルに設定する。
 そしてチャネル選択部46はステップS132で中央及び左側のチャネル(音声信号Sch1,Sch2,Sch4,Sch5,Sch7,Sch8)のうちで出力レベル(信号レベル)が最小のチャネルを判定し、ステップS133で、当該判定したチャネルを、エージェント音声の音声信号VELに用いるチャネルに設定する。
 そしてステップS127,S128の処理を行う。
 チャネル選択部46はステップS110では、エージェント音声の出力終了タイミングを監視している。これも制御信号CNTに基づいて判定する。
 エージェント音声の出力終了タイミングとなったら、ステップS111で信号経路を元の状態に戻す。即ち音声信号Sch1からSch9がそれぞれ出力部61から出力部69に供給される状態とする。
 以上の処理により、エージェント音声が出力される場合に、全てのチャネルを対象として出力の低いスピーカユニットが選択されつつ、左右の位置関係が保たれる状態でエージェント音声用のスピーカユニットが選択されることになる。
<15.まとめ及び変形例>
 以上の実施の形態では次のような効果が得られる。
 実施の形態のテレビジョン装置2は、映像コンテンツの表示を行うパネル部110と、パネル部110で表示する映像コンテンツの音声信号である第1の音声信号に基づいてパネル部110を加振して音声再生を実行させる1又は複数の第1のアクチュエータ121(第1の音声出力駆動部)と、第1の音声信号とは異なる第2の音声信号に基づいてパネル部110を加振して音声再生を実行させる複数のアクチュエータ121(第2の音声出力駆動部)とを有する。またテレビジョン装置2は、第2の音声信号についての信号処理により複数の第2の音声出力駆動部によって出力される音声の定位を設定する音声/定位処理部45(定位処理部)を備える。
 この場合、少なくとも第2の音声信号によるエージェント音声が出力されるときは、コンテンツ音声の出力に用いるアクチュエータ121(第1の音声出力駆動部)とは別個のアクチュエータ121(第2の音声出力駆動部)によってエージェント音声の再生が行われる。さらに、エージェント音声は、定位処理によって或る位置に定位した状態でユーザに聴取される。
 これらにより、ユーザにとっては、コンテンツ音とエージェント音を容易に聞き分けることができる。従ってテレビジョン視聴時などにエージェント音声を的確に聞き取って理解できる。
 なお、仮に仮想的な所定の位置に定位させる定位処理を行わなくとも、コンテンツ音声とエージェント音声とでアクチュエータ121がそれぞれ独立して用いられることで、パネル部110上での発音位置が異なることになるため、ユーザはコンテンツ音声とエージェント音声を聞き分けやすくなる。
 また、実施の形態ではコンテンツ音声とエージェント音声の例で説明したが、第2の音声信号はエージェント音声に限られない。例えばテレビジョン装置2のガイド音声、他の音声出力機器(オーディオ機器、情報処理装置等)からの音声などであってもよい。
 また各実施の形態では、コンテンツ音声を再生する第1の音声出力駆動部としてのアクチュエータ121を複数設けた例としたが、1つのアクチュエータ121を用いるのみでもよい。
 一方、エージェント音声を再生する第2の音声出力駆動部としてのアクチュエータ121は、エージェント音声を望ましい位置に定位させるために、2以上であることが適切である。
 但し、1つのアクチュエータ121のみを用いてエージェント音声の出力を行うことも考えられる。例えば画面の隅における振動領域ARとアクチュエータ121の組を1つ用いてエージェント音声の出力を行うようにすることで、ある程度、コンテンツ音声とは異なる定位状態をユーザに感じさせることは可能である。
 第1,第2,第4,第5,第7,第8,第9,第10の実施の形態では、パネル部110は独立して振動する複数の振動領域ARに分割されており、第1の音声出力駆動部又は第2の音声出力駆動部とされる全てのアクチュエータ121は、各振動領域ARに対して1つずつ配置されている例を述べた。
 これにより、各振動領域ARは、それぞれ1つのアクチュエータ121によって加振される。即ち各振動領域ARがそれぞれ独立したスピーカユニットとして機能することになる。これによって各出力音が明瞭に出力され、コンテンツ音声とエージェント音声を共に聴取し易い音とすることができる。
 またエージェント音声をコンテンツ音声の影響を受けずに出力させることができるため、仮想スピーカ位置に的確に定位させることが容易となる。
 なお第3,第6の実施の形態の場合、1つの振動領域ARに複数のアクチュエータ121が配置され、上記効果の度合いは低下するが、このような場合でも、少なくともアクチュエータ121はエージェント音声とコンテンツ音声で別であることで、信号処理のみによってエージェント音声の定位制御を行うよりは、容易かつ的確に定位制御が実現できる。
 各実施の形態では、第2の音声信号の例として、エージェント音声、つまりユーザの要求に応じて生成された応答音声の音声信号を挙げた。
 このようにエージェント音声を対象とすることで、エージェントシステムをテレビジョン装置2に組み込んだ場合の使用性を向上させることができる。
 また実施の形態では、音声/定位処理部45が、第2の音声信号による音声を、パネル部110の映像表示面の範囲より外の位置に定位させる定位処理を行う例を述べた。
 即ちユーザにとっては映像表示が行われているパネル部110の表示面範囲より外の仮想スピーカ位置からエージェント音声が聞こえてくるようにしている。
 これにより、ユーザにとってはエージェント音声がコンテンツ音声と明確に分離され、非常に聞き取りやすいものとなる。
 また仮想スピーカ位置は、常に一定の位置になるようにしておくことが望ましい。例えば定位処理で設定する仮想スピーカ位置は常にテレビジョン装置2の左上の位置などとする。すると、ユーザにとっては、エージェント音声は常にテレビジョン装置2の左上から聞こえてくるというように認識でき、エージェント音声に対する認知性が高まる。
 なお、仮想スピーカ位置はユーザが選択できるようにしても良い。例えばユーザの操作に応じて、音声/定位処理部45の定位処理のパラメータを変更することで、ユーザの望む仮想スピーカ位置を実現できるようにすることが想定される。
 また仮想スピーカ位置はパネル外の位置に限らず、パネル部110の前面に相当する所定の位置としてもよい。
 第1,第2,第3,第4,第5の実施の形態では、パネル部110に対して配置された複数のアクチュエータ121のうち、特定のアクチュエータ121が、第2の音声出力駆動部(エージェント音声用)とされている例を挙げた。
 パネル部110には複数のアクチュエータ121が配置されるが、そのうちの特定のアクチュエータ121(例えば図12のアクチュエータ121AL、121ARなど)をエージェント音声用の音声出力駆動部とする。このようにエージェント音声用に専用のアクチュエータ121を設けることで、音声信号処理部24,音声出力部25の構成もシンプルなものとすることができる。
 また常に同じ振動領域AR(例えば図12,図13,図14の場合では振動領域AR3,AR4)によってエージェント音声が出力されるため、音声/定位処理部45の定位処理を動的に変化させなくてよく、処理負担が軽減される。
 なおパネル部110に対して配置されたアクチュエータ121のうちで、どのアクチュエータ121がエージェント音声用とされてもよい。例えば左右に離れた2つのアクチュエータ121、上下に離れた2つのアクチュエータ121がエージェント音声用として設けられれば仮想スピーカ位置に定位させるという点で適切である。
 第1,第2,第4,第5の実施の形態では、パネル部110は、独立して振動する複数の振動領域ARに分割されており、第2の音声出力駆動部は、パネル部110の中央を含む振動領域以外の振動領域ARに対して配置されている例を挙げた。なおパネル部110の中央とは厳密な中央点である必要はなく、中央付近でよい。
 このような画面の中央に位置する振動領域ARはコンテンツ音声の再生にあてる。一般にコンテンツ音声は中央の音声が主たる音声となる。従ってコンテンツ音声を中央の振動領域ARを用いて出力することで、ユーザにとって良好なコンテンツ視聴環境を形成できる。例えば図14A、図14B、図14C、図16A、図16Bの例では、パネル部110の中央を含む振動領域は振動領域AR1,AR2である。図19A、図19B、図19C、図20A、図20B、図20C例では、パネル部110の中央を含む振動領域は振動領域AR3である。これらの振動領域ARはコンテンツ音声用に用いられている。
 一方でエージェント音声は仮想スピーカ位置での定位を実現するものであるため、中央の振動領域ARを用いる必要はない。
 なお、特にパネル部110の表示領域外となる仮想スピーカ位置に定位させることをしなくても、パネル部110の左右上下に偏った位置の振動領域ARによりエージェント音声を出力させることが好適である。つまり中央の振動領域ARによるコンテンツ音声を妨げにくいものとするとともに、エージェント音声を明瞭にユーザに聞かせやすいものとなるためである。
 第1,第2,第4,第5の実施の形態では、パネル部110は、独立して振動する複数の振動領域ARに分割されており、第2の音声出力駆動部は、少なくとも表示パネルの左右方向に位置する2つの振動領域ARに対してそれぞれ配置されている例を挙げた。
 即ち少なくとも左右の位置関係となるように配置される2つの振動領域ARが、それぞれエージェント音声用のアクチュエータ121によって駆動される。
 左右の位置関係に配置される2つの振動領域ARをエージェント音声の再生にあてることで、左右方向(水平方向)において仮想スピーカ位置を設定し易いものとすることができる。
 第2,第5の実施の形態では、パネル部110は、独立して振動する複数の振動領域ARに分割されており、第2の音声出力駆動部は、少なくとも表示パネルの上下方向に位置する2つの振動領域に対してそれぞれ配置されている例を挙げた。
 即ち少なくとも上下の位置関係となるように配置される2つの振動領域ARが、それぞれエージェント音声用のアクチュエータ121によって駆動される。
 上下の位置関係に配置される2つの振動領域ARをエージェント音声の再生にあてることで、上下方向(垂直方向)において仮想スピーカ位置を設定し易いものとすることができる。
 更に例えば上下左右の位置関係となる3以上の振動領域ARをそれぞれアクチュエータ121でエージェント音声を出力するようにすることで、仮想スピーカ位置をより柔軟に設定し易くすることができる。例えば図16、図20では、4つの振動領域ARをエージェント音声用に用いているが、この場合、パネル部110の表示面から延長する仮想面上で、仮想スピーカ位置を選択することが容易になる。
 第7,第8,第9,第10の実施の形態では、パネル部110は独立して振動する複数の振動領域ARに分割されており、各振動領域ARに対してアクチュエータ121が設けられ、第2の音声信号に基づく音声出力を行わないときは、全てのアクチュエータ121は第1の音声出力駆動部として用いられる。そして一部のアクチュエータ121は、第2の音声信号に基づく音声出力を行う場合に第2の音声出力駆動部として用いられるようにした。
 つまり一部のアクチュエータ121及び振動領域ARは、コンテンツ音声用とエージェント音声用とで切替使用される。
 コンテンツ音声のみを再生するときは、全ての振動領域ARを用いることで、複数のアクチュエータ121を備えたパネル部110の音声再生能力を活用した音声出力ができる。例えば、より大音量で迫力のある音声再生も可能となる。
 一方で、エージェント音声を再生する場合は、一部の振動領域ARを切り換えて使用することで対応できる。
 なお実施の形態では振動領域ARを9分割した例を示したが、もちろん9分割に限られない。例えば4分割、6分割、8分割、12分割なども想定される。それぞれの場合に、どの振動領域ARをエージェント音声に切替使用するかも各種考えられる。
 また図22の例では各振動領域ARは同じ形状、面積としたが、異なる面積や形状の振動領域ARが設けられてもよい。
 また、エージェント音声に切り替えて用いる振動領域AR及びアクチュエータ121は、エージェント音声出力時以外は、コンテンツ音声のバーチャル信号の再生に用いてもよい。
 第7,第8の実施の形態では、パネル部110の中央を含む振動領域以外の振動領域ARに対するアクチュエータ121が、コンテンツ音声用とエージェント音声用とで切替使用されるものとした。
 画面の中央に位置する振動領域ARは常にコンテンツ音声の再生にあてる。コンテンツ音声は中央の音声が主たる音声となるため、コンテンツ音声については常に中央の振動領域ARを用いて出力することで、エージェント音声出力時でもユーザにとって違和感の少ないコンテンツ視聴環境を形成できる。
 一方でエージェント音声は仮想スピーカ位置での定位を実現するものであるため、中央の振動領域ARを用いる必要はなく、他の振動領域ARを、コンテンツ音声用途に切り換えることとする。
 第9,第10の実施の形態では、エージェント音声を出力する場合に、エージェント音声用に用いるアクチュエータ121を選択する処理を行う例を述べた。
 つまりコンテンツ音声のみを再生するときは、全てのアクチュエータ121と振動領域ARの組をコンテンツ音声出力に用いる一方、エージェント音声を出力するときには、複数のアクチュエータ121のうちで例えば2つの組を選択する。これにより状況に応じて適切なアクチュエータ121と振動領域ARの組を用いてエージェント音声の出力ができる。
 選択は音声出力レベル以外の要素に基づいて行っても良い。例えばテレビジョン装置2の周囲の環境条件、視聴者の位置、人数などに応じて選択することも考えられる。
 第9,第10の実施の形態では、エージェント音声を出力する場合に、複数のアクチュエータ121による音声出力レベルの検出を行い、各アクチュエータ121の出力レベルに応じて、エージェント音声用として用いるアクチュエータ121(チャネル)を選択する例を挙げた。
 つまり複数の振動領域ARとアクチュエータ121の組のうちで、そのときの出力状況に応じて、エージェント音声用に切り換えて使用する組を選択するようにする。
 これにより、例えば出力レベルの低いアクチュエータ121を選択することなどが行われ、コンテンツ音声の再生に影響の少ない状態でエージェント音声を出力することができる。
 なお、音量レベルの大きいアクチュエータ121を選択することとしても良い。これは、コンテンツ音声の音量を低下させることで、エージェント音声を聞き取りやすくできる可能性があるためである。
 第9の実施の形態では、パネル部110の中央を含む振動領域以外の振動領域ARに対するアクチュエータ121について、音声出力レベルの検出を行い、検出した出力レベルに応じて、エージェント音声用として用いるアクチュエータ121(チャネル)を選択する例を述べた。
 これにより、中央の振動領域ARはエージェント音声の使用に用いられない。従って、よりコンテンツ音声の再生に影響の少ない状態でエージェント音声を出力することができる。
 実施の形態の技術によれば、テレビジョン装置2よるコンテンツ再生を考慮して、エージェント音声を聞き取りやすいシステムを構築できる。
 もちろん先に挙げたようなテレビジョン装置2以外の機器にも実施の形態の技術は適用できる。
 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
 なお本技術は以下のような構成も採ることができる。
 (1)
 映像コンテンツの表示を行う表示パネルと、
 前記表示パネルで表示する映像コンテンツの音声信号である第1の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる1又は複数の第1の音声出力駆動部と、
 前記第1の音声信号とは異なる第2の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる複数の第2の音声出力駆動部と、
 前記第2の音声信号についての信号処理により複数の前記第2の音声出力駆動部によって出力される音声の定位を設定する定位処理部と、を備えた
 音声出力装置。
 (2)
 前記表示パネルは、独立して振動する複数の振動領域に分割されており、
 前記第1の音声出力駆動部又は前記第2の音声出力駆動部とされる音声出力駆動部は、各振動領域に対して1つずつ配置されている
 上記(1)に記載の音声出力装置。
 (3)
 前記第2の音声信号は、要求に応じて生成された応答音声の音声信号である
 上記(1)又は(2)に記載の音声出力装置。
 (4)
 前記定位処理部は、前記第2の音声信号による音声が、前記表示パネルの表示面範囲より外の位置に定位させる定位処理を行う
 上記(1)から(3)のいずれかに記載の音声出力装置。
 (5)
 前記表示パネルに対して配置された複数の音声出力駆動部のうち、特定の音声出力駆動部が、前記第2の音声出力駆動部とされている
 上記(1)から(4)のいずれかに記載の音声出力装置。
 (6)
 前記表示パネルは、独立して振動する複数の振動領域に分割されており、
 前記第2の音声出力駆動部は、前記表示パネルの中央を含む振動領域以外の振動領域に対して配置されている
 上記(1)から(5)のいずれかに記載の音声出力装置。
 (7)
 前記表示パネルは、独立して振動する複数の振動領域に分割されており、
 前記第2の音声出力駆動部は、少なくとも表示パネルの左右方向に位置する2つの振動領域に対してそれぞれ配置されている
 上記(1)から(6)のいずれかに記載の音声出力装置。
 (8)
 前記表示パネルは、独立して振動する複数の振動領域に分割されており、
 前記第2の音声出力駆動部は、少なくとも表示パネルの上下方向に位置する2つの振動領域に対してそれぞれ配置されている
 上記(1)から(7)のいずれかに記載の音声出力装置。
 (9)
 前記表示パネルは、独立して振動する複数の振動領域に分割されており、
 各振動領域に対して音声出力駆動部が設けられ、
 前記第2の音声信号に基づく音声出力を行わないときは、全ての音声出力駆動部は、前記第1の音声出力駆動部として用いられ、
 一部の音声出力駆動部は、前記第2の音声信号に基づく音声出力を行う場合に前記第2の音声出力駆動部として用いられる
 上記(1)から(4)のいずれかに記載の音声出力装置。
 (10)
 前記表示パネルの中央を含む振動領域以外の振動領域に対する音声出力駆動部が、前記一部の音声出力駆動部とされる
 上記(9)に記載の音声出力装置。
 (11)
 前記第2の音声信号による再生音声を出力する場合に、前記第2の音声出力駆動部として用いる音声出力駆動部を選択する処理を行う
 上記(9)に記載の音声出力装置。
 (12)
 前記第2の音声信号による再生音声を出力する場合に、複数の音声出力駆動部による音声出力レベルの検出を行い、各音声出力駆動部の出力レベルに応じて、前記第2の音声出力駆動部として用いる音声出力駆動部を選択する
 上記(9)又は(11)に記載の音声出力装置。
 (13)
 前記表示パネルの中央を含む振動領域以外の振動領域に対する音声出力駆動部について、音声出力レベルの検出を行い、検出した出力レベルに応じて、前記第2の音声出力駆動部として用いる音声出力駆動部を選択する
 上記(12)に記載の音声出力装置。
 (14)
 テレビジョン装置に内蔵される
 上記(1)から(13)のいずれかに記載の音声出力装置。
 (15)
 映像コンテンツの表示を行う表示パネルで表示する映像コンテンツの音声信号である第1の音声信号に基づいて1又は複数の第1の音声出力駆動部により前記表示パネルを加振して音声再生を実行させるとともに、
 前記第1の音声信号とは異なる第2の音声信号について、定位を設定する信号処理を行ったうえで、該第2の音声信号について複数の第2の音声出力駆動部により前記表示パネルを加振して音声再生を実行させる
 音声出力方法。
 1 エージェント装置、2 テレビジョン装置、3 ネットワーク、4 マイクロホン、5 スピーカ、6 解析エンジン、10 音声認識部、11 自然言語理解部、12 アクション部、13 音声合成部、15 演算部、17 メモリ部、18 音声入力部、21 アンテナ、22 チューナ、23 デマルチプレクサ、24 音声処理部、25 音声出力部、26 映像処理部、27 映像出力部、31 表示部、32 制御部、33 メモリ、34 入力部、36 ネットワーク通信部、41 L音声処理部、42 R音声処理部、43 センター音声処理部、44L,44R ミキサー、45 エージェント音声/定位処理部、46 チャネル選択部、47,48 スイッチ、49 マルチチャネル処理部、51 L出力部、52 R出力部、53 センター出力部、54,55,56,57 エージェント音出力部、60、61,62,63,64,65,66,67,68,69 出力部、70 入力管理部、71 解析情報取得部、110 パネル部、120 加振部、121,121a,121b,121c,121L,121R,121AL,121AR,121AL1,121AR1,121AL2,121AR2,121-1、121-2,121-3,121-4,121-5,121-6,121-7,121-8,121-9 アクチュエータ(加振器)、AR,AR1,AR2,AR3,AR4,AR5,AR6,AR7,AR8,AR9 振動領域

Claims (15)

  1.  映像コンテンツの表示を行う表示パネルと、
     前記表示パネルで表示する映像コンテンツの音声信号である第1の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる1又は複数の第1の音声出力駆動部と、
     前記第1の音声信号とは異なる第2の音声信号に基づいて前記表示パネルを加振して音声再生を実行させる複数の第2の音声出力駆動部と、
     前記第2の音声信号についての信号処理により複数の前記第2の音声出力駆動部によって出力される音声の定位を設定する定位処理部と、を備えた
     音声出力装置。
  2.  前記表示パネルは、独立して振動する複数の振動領域に分割されており、
     前記第1の音声出力駆動部又は前記第2の音声出力駆動部とされる音声出力駆動部は、各振動領域に対して1つずつ配置されている
     請求項1に記載の音声出力装置。
  3.  前記第2の音声信号は、要求に応じて生成された応答音声の音声信号である
     請求項1に記載の音声出力装置。
  4.  前記定位処理部は、前記第2の音声信号による音声が、前記表示パネルの表示面範囲より外の位置に定位させる定位処理を行う
     請求項1に記載の音声出力装置。
  5.  前記表示パネルに対して配置された複数の音声出力駆動部のうち、特定の音声出力駆動部が、前記第2の音声出力駆動部とされている
     請求項1に記載の音声出力装置。
  6.  前記表示パネルは、独立して振動する複数の振動領域に分割されており、
     前記第2の音声出力駆動部は、前記表示パネルの中央を含む振動領域以外の振動領域に対して配置されている
     請求項1に記載の音声出力装置。
  7.  前記表示パネルは、独立して振動する複数の振動領域に分割されており、
     前記第2の音声出力駆動部は、少なくとも表示パネルの左右方向に位置する2つの振動領域に対してそれぞれ配置されている
     請求項1に記載の音声出力装置。
  8.  前記表示パネルは、独立して振動する複数の振動領域に分割されており、
     前記第2の音声出力駆動部は、少なくとも表示パネルの上下方向に位置する2つの振動領域に対してそれぞれ配置されている
     請求項1に記載の音声出力装置。
  9.  前記表示パネルは、独立して振動する複数の振動領域に分割されており、
     各振動領域に対して音声出力駆動部が設けられ、
     前記第2の音声信号に基づく音声出力を行わないときは、全ての音声出力駆動部は、前記第1の音声出力駆動部として用いられ、
     一部の音声出力駆動部は、前記第2の音声信号に基づく音声出力を行う場合に前記第2の音声出力駆動部として用いられる
     請求項1に記載の音声出力装置。
  10.  前記表示パネルの中央を含む振動領域以外の振動領域に対する音声出力駆動部が、前記一部の音声出力駆動部とされる
     請求項9に記載の音声出力装置。
  11.  前記第2の音声信号による再生音声を出力する場合に、前記第2の音声出力駆動部として用いる音声出力駆動部を選択する処理を行う
     請求項9に記載の音声出力装置。
  12.  前記第2の音声信号による再生音声を出力する場合に、複数の音声出力駆動部による音声出力レベルの検出を行い、各音声出力駆動部の出力レベルに応じて、前記第2の音声出力駆動部として用いる音声出力駆動部を選択する
     請求項9に記載の音声出力装置。
  13.  前記表示パネルの中央を含む振動領域以外の振動領域に対する音声出力駆動部について、音声出力レベルの検出を行い、検出した出力レベルに応じて、前記第2の音声出力駆動部として用いる音声出力駆動部を選択する
     請求項12に記載の音声出力装置。
  14.  テレビジョン装置に内蔵される
     請求項1に記載の音声出力装置。
  15.  映像コンテンツの表示を行う表示パネルで表示する映像コンテンツの音声信号である第1の音声信号に基づいて1又は複数の第1の音声出力駆動部により前記表示パネルを加振して音声再生を実行させるとともに、
     前記第1の音声信号とは異なる第2の音声信号について、定位を設定する信号処理を行ったうえで、該第2の音声信号について複数の第2の音声出力駆動部により前記表示パネルを加振して音声再生を実行させる
     音声出力方法。
PCT/JP2019/044877 2019-01-09 2019-11-15 音声出力装置、音声出力方法 WO2020144938A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201980087461.8A CN113261309B (zh) 2019-01-09 2019-11-15 声音输出设备和声音输出方法
US17/420,361 US20220095054A1 (en) 2019-01-09 2019-11-15 Sound output apparatus and sound output method
JP2020565599A JP7447808B2 (ja) 2019-01-09 2019-11-15 音声出力装置、音声出力方法
DE112019006599.8T DE112019006599T5 (de) 2019-01-09 2019-11-15 Tonausgabevorrichtung und Tonausgabeverfahren
KR1020217017787A KR20210113174A (ko) 2019-01-09 2019-11-15 음성 출력 장치, 음성 출력 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019001731 2019-01-09
JP2019-001731 2019-01-09

Publications (1)

Publication Number Publication Date
WO2020144938A1 true WO2020144938A1 (ja) 2020-07-16

Family

ID=71520778

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/044877 WO2020144938A1 (ja) 2019-01-09 2019-11-15 音声出力装置、音声出力方法

Country Status (6)

Country Link
US (1) US20220095054A1 (ja)
JP (1) JP7447808B2 (ja)
KR (1) KR20210113174A (ja)
CN (1) CN113261309B (ja)
DE (1) DE112019006599T5 (ja)
WO (1) WO2020144938A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023285740A1 (en) * 2021-07-15 2023-01-19 Ps Audio Design Oy Surface audio device with actuation on an edge area

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001078282A (ja) * 1999-09-08 2001-03-23 Nippon Mitsubishi Oil Corp 情報伝達システム
JP2001136594A (ja) * 1999-11-09 2001-05-18 Yamaha Corp 音響放射体
JP2004187288A (ja) * 2002-11-20 2004-07-02 Haruhiko Onozato 音源映像の表示領域からその音声を出力させる映像音声再生方法
JP2013521725A (ja) * 2010-03-23 2013-06-10 ドルビー ラボラトリーズ ライセンシング コーポレイション 音声を定位知覚する技術
JP2017123564A (ja) * 2016-01-07 2017-07-13 ソニー株式会社 制御装置、表示装置、方法及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4397333B2 (ja) * 2005-02-04 2010-01-13 シャープ株式会社 スピーカ付き画像表示装置
JP4973919B2 (ja) * 2006-10-23 2012-07-11 ソニー株式会社 出力制御システムおよび方法、出力制御装置および方法、並びにプログラム
JP2009038605A (ja) * 2007-08-01 2009-02-19 Sony Corp 音声信号生成装置、音声信号生成方法、音声信号生成プログラム並びに音声信号を記録した記録媒体
JP2010034755A (ja) 2008-07-28 2010-02-12 Sony Corp 音響処理装置および音響処理方法
JP2015211418A (ja) 2014-04-30 2015-11-24 ソニー株式会社 音響信号処理装置、音響信号処理方法、および、プログラム
KR102229137B1 (ko) * 2014-05-20 2021-03-18 삼성디스플레이 주식회사 표시장치
CN106856582B (zh) * 2017-01-23 2019-08-27 瑞声科技(南京)有限公司 自动调整音质的方法和系统
CN108833638B (zh) * 2018-05-17 2021-08-17 Oppo广东移动通信有限公司 发声方法、装置、电子装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001078282A (ja) * 1999-09-08 2001-03-23 Nippon Mitsubishi Oil Corp 情報伝達システム
JP2001136594A (ja) * 1999-11-09 2001-05-18 Yamaha Corp 音響放射体
JP2004187288A (ja) * 2002-11-20 2004-07-02 Haruhiko Onozato 音源映像の表示領域からその音声を出力させる映像音声再生方法
JP2013521725A (ja) * 2010-03-23 2013-06-10 ドルビー ラボラトリーズ ライセンシング コーポレイション 音声を定位知覚する技術
JP2017123564A (ja) * 2016-01-07 2017-07-13 ソニー株式会社 制御装置、表示装置、方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023285740A1 (en) * 2021-07-15 2023-01-19 Ps Audio Design Oy Surface audio device with actuation on an edge area

Also Published As

Publication number Publication date
KR20210113174A (ko) 2021-09-15
JP7447808B2 (ja) 2024-03-12
JPWO2020144938A1 (ja) 2021-11-25
DE112019006599T5 (de) 2021-09-16
CN113261309A (zh) 2021-08-13
CN113261309B (zh) 2023-11-24
US20220095054A1 (en) 2022-03-24

Similar Documents

Publication Publication Date Title
EP2664165B1 (en) Apparatus, systems and methods for controllable sound regions in a media room
US7853025B2 (en) Vehicular audio system including a headliner speaker, electromagnetic transducer assembly for use therein and computer system programmed with a graphic software control for changing the audio system's signal level and delay
CN104869335B (zh) 用于局域化感知音频的技术
KR100922910B1 (ko) 사운드 필드를 생성하는 방법 및 장치
CN1235443C (zh) 多声道音频重放装置和方法
US6118876A (en) Surround sound speaker system for improved spatial effects
AU698935B2 (en) In-home theater surround sound speaker system
CN101990075B (zh) 显示装置和音频输出装置
GB0304126D0 (en) Sound beam loudspeaker system
US5708719A (en) In-home theater surround sound speaker system
KR20070056074A (ko) 초음파를 구비한 오디오/비디오 장치
WO2020144938A1 (ja) 音声出力装置、音声出力方法
US20130163780A1 (en) Method and apparatus for information exchange between multimedia components for the purpose of improving audio transducer performance
JPH114500A (ja) ホームシアターサラウンドサウンドスピーカシステム
CN111405420A (zh) 一种车辆音响系统、控制方法及车辆
CN114157894B (zh) 支持全景声的音频转播方法和音频转播系统
TWI840740B (zh) 麥克風、用以記錄聲學信號的方法、用於聲學信號的再現設備或用以再現聲學信號的方法
CN111264064B (zh) 音响装置
JP2009100317A (ja) マルチチャンネル信号再生装置
JP2017175417A (ja) 音響再生装置
JP2007158784A (ja) 三次元音響再生装置
JP2819853B2 (ja) スピーカ装置
KR100590229B1 (ko) 5.1채널 서라운드 스피커 시스템
JP2021500790A (ja) 音響拡散装置の空間的配設
Aarts Hardware for ambient sound reproduction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19908916

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020565599

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 19908916

Country of ref document: EP

Kind code of ref document: A1