WO2023189162A1 - 送信装置、受信装置および送受信システム - Google Patents

送信装置、受信装置および送受信システム Download PDF

Info

Publication number
WO2023189162A1
WO2023189162A1 PCT/JP2023/007749 JP2023007749W WO2023189162A1 WO 2023189162 A1 WO2023189162 A1 WO 2023189162A1 JP 2023007749 W JP2023007749 W JP 2023007749W WO 2023189162 A1 WO2023189162 A1 WO 2023189162A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
floating point
audio
point format
format data
Prior art date
Application number
PCT/JP2023/007749
Other languages
English (en)
French (fr)
Inventor
和夫 山本
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023189162A1 publication Critical patent/WO2023189162A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/14Conversion to or from non-weighted codes
    • H03M7/24Conversion to or from floating-point codes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present technology relates to a transmitting device, a receiving device, and a transmitting/receiving system, and specifically relates to a transmitting device and the like that transmit vibration signals to external equipment via a transmission path so that complex arithmetic processing can be performed satisfactorily on the receiving side.
  • object audio data consisting of sound data and position data of a sound source is transmitted from the transmitting side, and sound is reproduced with an enhanced sense of presence on the receiving side.
  • a tactile vibration signal as a haptic signal is transmitted from the transmitting side, and a tactile stimulation is given to the user on the receiving side.
  • calculation processing is performed to allocate the sound of the sound source to each of a plurality of speakers arranged in the space, based on the position of the sound source.
  • arithmetic processing is performed to adjust the gain according to the sensitivity of the individual user, the sensitivity of the part to be stimulated, the sensitivity of the vibration device, and even the nonlinearity of the vibration device.
  • Patent Document 1 discloses that when compressing floating point data, processing is divided into an exponent part and a mantissa part to improve efficiency.
  • vibration signals sound data of the sound source in object audio data, tactile sensation as haptic signals
  • the purpose of the present technology is to transmit vibration signals so that arithmetic processing can be performed satisfactorily on the receiving side.
  • the concept of this technology is a conversion unit that converts the vibration signal into floating point format data;
  • the transmitter includes a transmitter that transmits the floating point format data to an external device via a transmission path.
  • the conversion unit converts the vibration signal into floating point format data.
  • the vibration signal may be an audio signal or a tactile vibration signal.
  • the floating point format data may be 16-bit half-precision floating point (binary16) data. As a result, the floating point format data can express a value range of -65504 to 65504 and has 11-bit precision.
  • the conversion unit sets the maximum displacement of the vibration signal to a predetermined value, for example, 1, which is smaller than the maximum value in the range of values determined by the number of bits of the exponent part of the floating point format data, and converts the vibration signal into floating point format data. may be converted.
  • the floating point format data is transmitted to the external device via the transmission path by the transmitter.
  • the transmission path may be an HDMI transmission path.
  • the transmitter may transmit floating point format data using a block-by-block transmission signal structure consisting of multiple frames for audio signals. As a result, floating point format data into which the vibration signal has been converted can be effectively transmitted to an external device.
  • the transmission signal structure is a frame structure according to the IEC 60958 standard
  • the transmitter arranges the floating point format data in the audio sample word area or the audio sample word and auxiliary sample bit area and transmits it. may be made to do or be made to be.
  • the floating-point format data is packed into the audio sample word area or the audio sample word and auxiliary sample bit area in the order of the sign part, exponent part, and mantissa part, starting from the most significant bit of the audio sample word. It may be arranged as follows.
  • the exponent part in floating point format data may be 5 bits
  • the mantissa part may be 10 bits, 14 bits, or 18 bits.
  • the channel status provided in the block-by-block transmission signal structure includes information indicating that floating point format data is located in the area of audio sample words or in the area of audio sample words and auxiliary sample bits. It may be done as follows. This allows the receiving side to easily recognize that floating point format data is arranged in the audio sample word area or the audio sample word and auxiliary sample bit area.
  • the channel status provided in the block-by-block transmission signal structure indicates the number of bits of floating-point format data placed in the area of audio sample words or in the area of audio sample words and auxiliary sample bits. may be made to contain information. This allows the receiving side to easily recognize the number of bits of floating point format data placed in the audio sample word area or the audio sample word and auxiliary sample bit area.
  • the transmitter may perform bit inversion processing on the exponent part and transmit the floating point format data when the sign part indicates a negative value.
  • bit inversion processing on the exponent part and transmits the floating point format data when the sign part indicates a negative value.
  • the transmitter performs bit inversion processing on the exponent part and converts the mantissa part into a two's complement before transmitting it. may be done.
  • bit inversion processing on the exponent part and converts the mantissa part into a two's complement before transmitting it.
  • the waveform for negative values is better than when only bit reversal processing is performed on the exponent part. can be cleaned.
  • vibration signals are converted into floating point format data, and this floating point format data is sent to external equipment via a transmission path, and the external equipment performs complex arithmetic processing on the vibration signals. You will be able to do this well.
  • a receiving unit that receives floating point format data into which the vibration signal has been converted from an external device via a transmission path
  • a receiving device includes a processing unit that processes the floating point format data.
  • a transmitting device and a receiving device are connected via a transmission path
  • the transmitting device includes: a conversion unit that converts the vibration signal into floating point format data; comprising a transmitting unit that transmits the floating point format data to the receiving device via a front road transmission path
  • the receiving device includes: a receiving unit that receives the floating point format data from the transmitting device via the transmission path;
  • a transmitting/receiving system includes a processing unit that processes the floating point format data.
  • FIG. 1 is a block diagram showing a configuration example of a transmission/reception system according to a first embodiment
  • FIG. FIG. 2 is a diagram showing a frame structure of the IEC 60958 standard.
  • FIG. 2 is a diagram showing a subframe structure of the IEC 60958 standard.
  • FIG. 3 is a diagram showing the structure of binary 16-bit data.
  • FIG. 2 is a diagram showing a frame structure in an audio stream having a frame structure according to the IEC 60958 standard.
  • FIG. 2 is a diagram for explaining binary 16-bit data (binary16) in comparison with signed integer 16-bit data (signed int16).
  • FIG. 2 is a diagram showing an example of a case where signed integer 16-bit data (signed int16) and binary 16-bit data (binary16) are applied to an audio signal.
  • FIG. 2 is a diagram schematically showing the format of channel status in the IEC 60958 standard.
  • FIG. 7 is a diagram showing an example of definitions of b, the first bit of the 0th byte, and d, the third to fifth bits of the 0th byte, in the channel status.
  • FIG. 12 is a diagram showing another example of the definition of b, the first bit of the 0th byte, and d, the third to fifth bits of the 0th byte, in the channel status.
  • FIG. 1 is a diagram showing an example of a case where signed integer 16-bit data (signed int16) and binary 16-bit data (binary16) are applied to an audio signal.
  • FIG. 2 is a diagram schematically showing the format of channel status in the IEC 60958 standard.
  • FIG. 7 is
  • FIG. 7 is a diagram illustrating an example of definitions of “Word length” and “Sample word length” in channel status.
  • a data string representing a sine wave with an amplitude of 12.5% (oscillating in the range of -0.125 to +0.125) as binary 16-bit data (binary16) is mistaken for signed integer 16-bit data (signed int16).
  • FIG. 3 is a diagram showing an example of a waveform.
  • FIG. 7 is a diagram for explaining processing performed on binary 16-bit data (binary16) in improvement plan 1;
  • a data string in which a sine wave with an amplitude of 12.5% (oscillating in the range of -0.125 to +0.125) is expressed as binary 16-bit data (binary16) using improved plan 1
  • the data string is encoded.
  • FIG. 7 is a diagram showing an example of a waveform when the signal is mistaken for signed int16 data.
  • FIG. 7 is a diagram for explaining processing performed on binary 16-bit data (binary16) in improvement plan 2;
  • a data string in which a sine wave with an amplitude of 12.5% (oscillating in the range of -0.125 to +0.125) is expressed as binary 16-bit data (binary16) using improved plan 2
  • the data string is encoded.
  • FIG. 7 is a diagram showing an example of a waveform when the signal is mistaken for signed int16 data.
  • FIG. 4 is a diagram for explaining the case of a sine wave with an amplitude of 50% (vibrating in the range of -0.5 to +0.5).
  • FIG. 3 is a diagram for explaining precision improvement of floating point format data.
  • FIG. 3 is a diagram illustrating an example of arrangement of a frame structure of the IEC 60958 standard in an audio stream when using binary 20-bit data or binary 24-bit data.
  • FIG. 2 is a block diagram showing a configuration example of a transmitting/receiving system according to a second embodiment.
  • FIG. 3 is a diagram illustrating an example of a packet configuration of a new info frame (InfoFrame) including position data of a sound source.
  • FIG. 7 is a block diagram showing a configuration example of a transmitting/receiving system as a third embodiment.
  • FIG. 1 shows a configuration example of a transmitting/receiving system 10 as a first embodiment.
  • This transmission/reception system 10 has a configuration in which an AV (Audio/Visual) amplifier 100 as an HDMI (High-Definition Multimedia Interface) source and a smart TV (television) 200 as an HDMI sink are connected via an HDMI cable 300. It has become.
  • AV Audio/Visual
  • HDMI High-Definition Multimedia Interface
  • HDMI High-Definition Multimedia Interface
  • the AV amplifier 100 operates on an effective image period (hereinafter also referred to as an active video period), which is the period from one vertical synchronization signal to the next vertical synchronization signal, excluding the horizontal retrace period and the vertical retrace period.
  • an effective image period hereinafter also referred to as an active video period
  • a differential signal corresponding to the pixel data of an uncompressed image for one screen is transmitted to the smart TV 200 via multiple channels, and at least audio accompanying the image is transmitted to the smart TV 200 in a horizontal retrace interval or a vertical retrace interval.
  • Differential signals corresponding to data, control data, other auxiliary data, etc. are transmitted to the smart TV 200 through multiple channels.
  • the AV amplifier 100 includes an HDMI transmitter 101.
  • the HDMI transmitter 101 converts pixel data of an uncompressed image into a corresponding differential signal, and connects the three TMDS channels #0, #1, #2 via the HDMI cable 300. Serial transmission is performed to the smart TV 200 that is installed.
  • the HDMI transmitter 101 also converts audio data accompanying uncompressed images, necessary control data and other auxiliary data into corresponding differential signals, and transmits the three TMDS channels #0, #1, In #2, serial transmission is performed to the smart TV 200 connected via the HDMI cable 300.
  • the HDMI transmitter 101 transmits a pixel clock synchronized with the pixel data transmitted on the three TMDS channels #0, #1, and #2 to the smart TV 200 connected via the HDMI cable 300 on the TMDS clock channel. do.
  • 10-bit pixel data is transmitted during one pixel clock.
  • TMDS coding is an 8-bit/10-bit conversion coding that converts 8-bit data into 10-bit data, and compared to the previous data, it reduces the number of transition points and suppresses negative effects such as unnecessary radiation.
  • the coding is such that the DC balance is maintained at the top. Therefore, since the run length of coding cannot be theoretically guaranteed, DC coupling and separate clock transmission are essential.
  • the smart TV 200 receives differential signals corresponding to pixel data transmitted from the AV amplifier 100 on a plurality of channels in an active video period, and receives differential signals corresponding to pixel data transmitted from the AV amplifier 100 on a plurality of channels in a horizontal retrace period or a vertical retrace period. Then, differential signals corresponding to audio data and control data transmitted from the AV amplifier 100 are received.
  • the smart TV 200 has an HDMI receiver (HDMI Receiver) 201.
  • the HDMI receiver 201 receives differential signals corresponding to pixel data, audio data, and control transmitted from the AV amplifier 100 connected via the HDMI cable 300 on TMDS channels #0, #1, and #2.
  • a differential signal corresponding to data is received in synchronization with a pixel clock also transmitted from the AV amplifier 100 via the TMDS clock channel.
  • image data, audio data, and control data are transmitted using TMDS channels #0, #1, and #2, and a pixel clock is transmitted using the TMDS clock channel, but this is compatible with HDMI 1.4 and earlier. and HDMI 2.0 compatible.
  • transmission is performed using FRL lanes #0, #1, #2, and #3.
  • the TMDS clock channel becomes FRL lane #3.
  • FRL Character coding is 16-bit/18-bit conversion coding that converts 16-bit data to 18-bit data, is coding that maintains DC balance, and is coding that allows clock extraction. It is.
  • the smart TV 200 transmits object audio data obtained from, for example, an AV streaming service to the AV amplifier 100.
  • the smart TV 200 includes a transmission processing section 202 and an ARC (Audio Return Channel)/eARC (Enhanced Audio Return Channel) transmission section (ARC/eARC Tx) 203.
  • the transmission processing unit 202 receives object audio data and generates an audio stream including the object audio data.
  • the object audio data consists of sound data (audio signal) of a sound source and position data.
  • the sound data (audio signal) constitutes a vibration signal. Details of the audio stream will be described further later.
  • the ARC/eARC transmission unit 203 is an audio return channel or enhanced audio return channel that uses the utility line and HPD line of the HDMI cable 300, and is generated by the transmission processing unit 202. The resulting audio stream is transmitted to the AV amplifier 100.
  • the AV amplifier 100 receives an audio stream transmitted from the smart TV 200 through an audio return channel or an enhanced audio return channel, and performs rendering processing using object audio data included in this audio stream.
  • An audio signal is generated for each speaker making up the speaker system 104.
  • the AV amplifier 100 has an ARC/eARC receiving section (ARC/eARC Rx) 102 and an audio processing section 103.
  • the ARC/eARC transmitter 102 receives an audio stream sent from the smart TV 200 via an audio return channel or an enhanced audio return channel.
  • the audio processing unit 103 extracts object audio data from the audio stream received by the ARC/eARC receiving unit 102, performs rendering processing using this object audio data, and performs rendering processing for each speaker constituting the speaker system 104. Audio signals are generated and provided to corresponding speakers of speaker system 104.
  • HDMI system transmission channels include DDC (Display Data Channel), and transmission channels called CEC Line and HPD Line. be.
  • DDC Display Data Channel
  • CEC Line and HPD Line transmission channels called CEC Line and HPD Line.
  • the DDC consists of two lines (signal lines) not shown included in the HDMI cable 300.
  • the DDC is used by the AV amplifier 100 to read the EDID stored in the EDID ROM (Extended Display Identification ROM) of the smart TV 200 via the HDMI cable 300. Further, the DDC is used by the AV amplifier 100 to read and write SCDCS data stored in the SCDC (Status and Control Data Channel) register of the smart TV 200 via the HDMI cable 300.
  • the CEC line is used to perform two-way communication of control data between the AV amplifier 100 and the smart TV 200.
  • the HPD line is used by the AV amplifier 100 to detect connection of the smart TV 200, etc.
  • the transmission processing unit 202 generates an audio stream with a transmission signal structure for each block consisting of multiple frames for audio signals.
  • the frame structure of the IEC 60958 standard is used as the transmission signal structure.
  • FIG. 2 shows the frame structure of the IEC 60958 standard.
  • Each frame consists of two subframes.
  • the first subframe contains the left channel signal
  • the second subframe contains the right channel signal.
  • a preamble is provided at the beginning of the subframe, and "M” is given as a preamble to the left channel signal, and “W” is given as the preamble to the right channel signal.
  • "B” representing the start of a block is added to the first preamble every 192 frames. That is, one block is composed of 192 frames.
  • a block is a unit that constitutes a channel status, which will be described later.
  • Figure 3 shows the subframe structure of the IEC 60958 standard.
  • a subframe is composed of a total of 32 time slots, 0th to 31st.
  • the 0th to 3rd time slots indicate a preamble (Sync preamble).
  • This preamble indicates either "M", "W", or "B” to distinguish between left and right channels and to indicate the start position of a block, as described above.
  • the 4th to 27th time slots are main data fields. If a code range of 20 bits or less is employed, for example a 20 bit code range or a 16 bit code range, the region of audio sample words of the 8th to 27th time slots is used. In this case, the audio signal is placed on the most significant bit (MSB) side, and each remaining bit on the least significant bit (LSB) side is filled with 0s. In addition, when a 24-bit code range is adopted, an area for audio sample words in the 8th to 27th time slots and an area for auxiliary sample bits in the 4th to 7th time slots are used. In this case, the audio signals are placed in the 4th to 27th time slots.
  • the 28th time slot is the validity flag of the main data field.
  • the 29th time slot represents 1 bit of user data. By accumulating this 29th time slot across each frame, a series of user data can be constructed.
  • This user data message is configured in units of 8-bit information units (IUs), and one message includes 3 to 129 information units.
  • the 30th time slot represents 1 bit of channel status.
  • the channel status can be constructed by accumulating the 30th time slot block by block across each frame. Note that the starting position of the block is indicated by the "B" preamble (0th to 3rd time slots), as described above.
  • the 31st time slot is a parity bit. This parity bit is assigned so that the number of "0" and "1" included in the fourth to 31st time slots is an even number.
  • object audio data consists of sound data (audio signal) of a sound source and position data.
  • the transmission processing unit 202 converts the sound data (audio signal) of the sound source into floating point format data. In this sense, the transmission processing section 202 constitutes a conversion section.
  • the transmission processing unit 202 then arranges this floating point format data in an audio sample word area or an audio sample word and auxiliary sample bit area in an audio stream having a frame structure according to the IEC 60958 standard.
  • the floating point format data is 16-bit half-precision floating point format data (hereinafter appropriately referred to as "binary 16-bit data").
  • FIG. 4 shows the structure of binary 16-bit data. This binary 16-bit data has a 1-bit sign part, a 5-bit exponent part, and a 10-bit fraction part arranged from the MSB side.
  • FIG. 5 shows a frame structure in an audio stream having a frame structure according to the IEC 60958 standard.
  • the binary 16-bit data obtained by converting the sound data (audio signal) of the sound source is arranged in the audio sample word area, packed toward the MSB side, and each remaining bit on the LSB side is filled with 0s.
  • binary 16-bit data (binary16) will be explained in comparison with signed integer 16-bit data (signed int16).
  • FIG. 6(a) shows signed integer 16 data
  • FIG. 6(b) shows binary 16-bit data.
  • Signed integer 16 data is expressed in two's complement, can express a range of -32768 to 32767, and has a maximum precision of 15 bits.
  • the 5-bit exponent part indicates a range of -14 to 15, but in reality, a value of 1 to 30, which is the sum of 15, is stored.
  • 0 indicates a non-normalized number, that is, a state in which the mantissa cannot be normalized and lacks precision
  • 31 indicates infinity or NaN (Not a Number).
  • the representation range of binary 16-bit data is determined by this 5-bit exponent, and can represent a range of -65504 to 65504.
  • the mantissa part is 10 bits, but it is expressed by omitting it during encoding, taking advantage of the fact that the most significant bit is always 1. Therefore, in the case of a normalized number, 1 is added to the MSB of the 10 bits of the mantissa to indicate a decimal point value of "1.xxxxxxxx", and the number of significant digits is expanded to 11 bits. Therefore, binary 16-bit data has 11-bit precision in the case of a normalized number. On the other hand, in the case of a non-normalized number, the 10 bits of the mantissa indicate the decimal point value of "0.xxxxxxxxxxx", and the number of significant digits remains 10 bits. Therefore, in the case of a non-normalized number, binary 16-bit data generally ranges from -6.1*10 ⁇ -5 to 6.10 ⁇ 5, and has a precision of 10 bits or less.
  • FIG. 7 shows an example in which signed integer 16-bit data (signed int16) and binary 16-bit data (binary16) are applied to an audio signal.
  • signed integer 16-bit data the maximum displacement (100%) of the audio signal is set to "32768"
  • binary 16-bit data the maximum displacement (100%) of the audio signal is set to "1”. Indicates when there is.
  • +10% of the audio signal becomes "0000 1100 1100 1101b (0CCDh)" in signed integer 16-bit data, and "0010 1110 0110 0110b (2E66h)" in binary 16-bit data. Note that if this "0010 1110 0110 0110b (2E66h)" is mistaken for signed integer 16-bit data, it will indicate 11878, that is, approximately +36%.
  • +20% of the audio signal becomes "0001 1001 1001 1010b (199Ah)" in signed integer 16-bit data, and "0011 0010 0110 0110b (3266h)" in binary 16-bit data. Note that if this "0011 0010 0110 0110b (3266h)" is mistaken for signed integer 16-bit data, it will indicate 12902, that is, approximately +39%.
  • the transmission processing unit 202 includes the position data of the sound source in the channel status provided in the frame structure of the IEC 60958 standard, that is, the channel status in the IEC 60958 standard.
  • Figure 8 schematically shows the format of channel status in the IEC 60958 standard.
  • the channel status is the accumulation of the 30th time slot in the subframe for each block (see FIG. 3).
  • the contents of the channel status are arranged one byte at a time in the vertical direction, and the bit configuration of each byte is shown in the horizontal direction. Note that only the main parts will be explained here, assuming a consumer use format.
  • the first bit b of the 0th byte indicates the data type; "0" indicates a linear PCM audio signal, and "1" indicates an audio signal other than linear PCM.
  • the third to fifth bits d of the 0th byte indicate additional format information.
  • FIG. 9 shows an example of the definition of b, the first bit of the 0th byte, and d, the third to fifth bits of the 0th byte.
  • the "Word length" of the 0th bit of the 4th byte and the “Sample word length” of the 1st to 3rd bits of the 4th byte indicate the bit length of the audio signal to be transmitted. show.
  • FIG. 11 shows an example of the definition of "Word length” and "Sample word length”.
  • the 6 bytes from the 18th byte to the 23rd byte are a newly created area for arranging position data of the sound source.
  • 2-byte X data in three-dimensional coordinates is placed in the 18th to 19th bytes
  • 2-byte Y data in 3-dimensional coordinates is placed in the 20th to 21st bytes
  • 22nd to 23rd bytes are placed in the 2-byte Y data in 3-dimensional coordinates.
  • Two bytes of Z data in three-dimensional coordinates are placed in the byte.
  • the area for arranging the position data of the sound source is not limited to the 18th to 23rd bytes.
  • the smart TV 200 generates an audio stream with a frame structure of the IEC 60958 standard including object audio data, and converts the audio stream into an audio return channel or enhanced audio. ⁇ It is sent to the AV amplifier 100 through the return channel, and at that time, the sound data (audio signal) of the sound source that makes up the object audio data is converted into binary 16-bit data that is floating point format data and sent. It is something. Therefore, the audio processing unit 103 of the AV amplifier 100 can perform rendering processing (complex arithmetic processing) to generate audio signals for each speaker that constitutes the speaker system 104 in a good manner.
  • the AV amplifier 100 can acquire this information from the channel status and appropriately perform rendering processing in the audio processing unit 103.
  • the smart TV 200 converts floating point format data obtained by converting the sound data (audio signal) of the sound source into audio sample words when generating an audio stream with a frame structure of the IEC 60958 standard. or in the audio sample word and auxiliary sample bit areas, and the position data of the sound source is included in the channel status in the IEC 60958 standard. Therefore, the sound data and position data of the sound source constituting the object audio data can be synchronously transmitted from the smart TV 200 to the AV amplifier 100, and the AV amplifier 100 can reproduce a good 3D audio space.
  • the channel status may not be configured correctly due to missing channel bits, etc.
  • it fails to recognize that binary 16-bit data is being sent it processes the binary 16-bit data incorrectly as signed integer 16-bit data, causing rapid waveform fluctuations and biased DC components at zero crossings. there is a possibility.
  • Figure 12 shows a data string that represents a sine wave with an amplitude of 12.5% (oscillating in the range of -0.125 to +0.125) as binary 16-bit data (binary16) as signed integer 16-bit data (signed integer 16-bit data).
  • Int16 is shown as an example of the waveform.
  • the solid line shows the waveform when the data is mistaken for signed integer 16-bit data.
  • the full scale is -32768 to +32767.
  • the number of exponent parts is an offset value obtained by adding 15 to the original value. In the vicinity of zero, the exponent also has a value of 0 or less, but 15 is added to it and it becomes a value of 15 or less. In this case, the exponent part is 5 bits long, so the MSB is 0. For example, 15 is 01111b.
  • Signed integer 16-bit data is expressed in two's complement, and if there is a 0 near the MSB, it becomes a large negative value when it is a negative number. For example, in binary 16-bit data, 0.0625, half of 0.125, is 0x2C00, and -0.0625 is 0xAC00. If these are mistaken for signed integer 16-bit data, they will become 11264 and -21504, respectively.
  • the sound data (audio signal) of the sound source that makes up the object audio data is converted in order to suppress sudden waveform fluctuations and biased DC components at zero crossings when mistaken for signed integer 16-bit data.
  • improvement plan 1 will be explained.
  • this improvement plan 1 as shown in FIG. 13, when the sign part (s) of the data before processing is negative, bit inversion processing is applied to the 5-bit exponent part, and the data after processing is This is what you get.
  • Figure 14 shows the results when a data string in which a sine wave with an amplitude of 12.5% (oscillating in the range of -0.125 to +0.125) is expressed as binary 16-bit data (binary16) is processed using improved plan 1.
  • a waveform example is shown when a data string is mistaken for signed integer 16-bit data (signed int16).
  • the solid line shows a waveform when a data string obtained by processing binary 16-bit data according to improvement plan 1 is mistaken for signed integer 16-bit data.
  • improvement plan 2 will be explained.
  • this improvement plan 2 as shown in FIG. 15, if the sign part (s) of the data before processing is negative, bit inversion processing is applied to the 5-bit exponent part, and the 10-bit mantissa The processed data is obtained by converting the part into two's complement.
  • Figure 16 shows the results when a data string in which a sine wave with an amplitude of 12.5% (oscillating in the range of -0.125 to +0.125) is expressed as binary 16-bit data (binary16) is processed using improved plan 2.
  • a waveform example is shown when a data string is mistaken for signed integer 16-bit data (signed int16).
  • the solid line shows a waveform when a data string obtained by processing binary 16-bit data according to improvement plan 2 is mistaken for signed integer 16-bit data.
  • FIG. 17(a) shows a data string representing a sine wave with an amplitude of 50% (oscillating in the range of -0.5 to +0.5) using binary 16-bit data (binary16) as signed integer 16-bit data (signed int16). ) is shown as a waveform example.
  • the solid line shows the waveform when the data is mistaken for signed integer 16-bit data.
  • the full scale is -32768 to +32767.
  • Figure 17(b) shows that when a data string in which a sine wave with an amplitude of 50% (oscillating in the range of -0.5 to +0.5) is expressed as binary 16-bit data (binary16) is processed using improved plan 1,
  • a waveform example is shown when the data string is mistaken for signed integer 16-bit data (signed int16).
  • the solid line shows a waveform when a data string obtained by processing binary 16-bit data according to improvement plan 1 is mistaken for signed integer 16-bit data.
  • FIGS. 18(b) and 18(c) each show an example of floating point format data that can have higher precision than binary 16-bit data. Note that FIG. 18A shows binary 16-bit data (binary16) similar to that shown in FIG.
  • the floating point format data (hereinafter referred to as "binary20") in FIG. It has a structure in which an exponent part and a 14-bit mantissa part are lined up.
  • the exponent part is 5 bits, similar to the binary 16-bit data.
  • this binary 20-bit data since the number of bits in the mantissa is 14, it has 15-bit precision (equivalent to 16-bit signed integer) within the range of normalized numbers.
  • the floating point format data (hereinafter referred to as "binary24") in FIG. It has a configuration in which a bit exponent part and an 18-bit mantissa part are lined up.
  • the exponent part is 5 bits, similar to the binary 16-bit data.
  • this binary 24-bit data since the number of bits in the mantissa part is 18, it has 19-bit precision (equivalent to 20 bits of a signed integer) within the range of normalized numbers.
  • FIG. 19 shows an example of arrangement of the frame structure of the IEC 60958 standard in an audio stream when using binary 20-bit data or binary 24-bit data.
  • Binary 20-bit data is placed in the area of the audio sample word.
  • the binary 24-bit data is also placed in the audio sample word area and the auxiliary sample bit area.
  • the structure from the MSB side to the exponent part of the audio sample word area is the same as when binary 16-bit data is arranged. Also, since the mantissa is normalized, even if the lower 4 bits/8 bits of the mantissa are cut off in binary 20-bit data/binary 24-bit data and become 16-bit data, the binary 16-bit data A rounded value (close to the original value) is obtained. In other words, even if binary 20-bit data/binary 24-bit data is arranged, if the receiving side mistakenly treats it as binary 16-bit data, the accuracy will only deteriorate and the problem will occur. That will be avoided.
  • one object audio data (one channel) is transmitted from the smart TV 200 to the AV amplifier 100, but it is also possible to transmit two or more object audio data (two channels), It is also possible to transmit audio data together with the regular audio signal.
  • each data may be divided into frames and arranged.
  • the HDMI sink is a smart TV
  • the HDMI sink is not limited to this, and may be, for example, a TV without an Internet connection function, a set-top box, a PC, or the like.
  • FIG. 20 shows a configuration example of a transmitting/receiving system 20 as a second embodiment.
  • This transmission/reception system 20 has a configuration in which a media player 400 as an HDMI source and an AV amplifier 500 as an HDMI sink are connected via an HDMI cable 600.
  • the media player 400 uses an effective image section (hereinafter also referred to as an active video section), which is the section from one vertical synchronization signal to the next vertical synchronization signal, excluding the horizontal blanking section and the vertical blanking section. , transmits differential signals corresponding to pixel data of one uncompressed screen worth of images to the AV amplifier 500 through a plurality of channels, and transmits differential signals corresponding to pixel data of an uncompressed image for one screen to the AV amplifier 500, and also transmits differential signals corresponding to pixel data of an uncompressed image for one screen to the AV amplifier 500, and also transmits differential signals corresponding to pixel data of an uncompressed image corresponding to one screen to the AV amplifier 500, and transmits differential signals corresponding to pixel data of an uncompressed image for one screen to the AV amplifier 500, and also transmits differential signals corresponding to pixel data of an uncompressed image for one screen to the AV amplifier 500, and also transmits differential signals corresponding to pixel data of an uncompressed image for one screen to
  • the media player 400 has an HDMI transmitter 401.
  • the HDMI transmitter 401 converts pixel data of an uncompressed image into a corresponding differential signal, and connects the three TMDS channels #0, #1, #2 via the HDMI cable 600. Serial transmission is performed to the AV amplifier 500 that is installed.
  • the HDMI transmitter 401 also converts audio data accompanying uncompressed images, necessary control data and other auxiliary data into corresponding differential signals, and transmits the three TMDS channels #0, #1, At #2, serial transmission is performed to the AV amplifier 500 connected via the HDMI cable 600.
  • the HDMI transmitter 401 transmits a pixel clock synchronized with the pixel data transmitted on the three TMDS channels #0, #1, and #2 to the AV amplifier 500 connected via the HDMI cable 600 on the TMDS clock channel. Send.
  • 10-bit pixel data is transmitted during one pixel clock.
  • TMDS coding is an 8-bit/10-bit conversion coding that converts 8-bit data into 10-bit data, and compared to the previous data, it reduces the number of transition points and suppresses negative effects such as unnecessary radiation.
  • the coding is such that the DC balance is maintained at the top. Therefore, since the run length of coding cannot be theoretically guaranteed, DC coupling and separate clock transmission are essential.
  • the AV amplifier 500 receives differential signals corresponding to pixel data transmitted from the media player 400 through a plurality of channels in an active video interval, and receives differential signals corresponding to pixel data transmitted from the media player 400 in a plurality of channels in an active video interval, and also receives differential signals corresponding to pixel data in a horizontal retrace interval or a vertical retrace interval.
  • a differential signal corresponding to audio data and control data transmitted from the media player 400 is received through the channel.
  • the AV amplifier 500 has an HDMI receiver (HDMI Receiver) 501.
  • the HDMI receiver 501 receives differential signals corresponding to pixel data, audio data, and control transmitted from the media player 300 connected via the HDMI cable 600 on TMDS channels #0, #1, and #2.
  • a differential signal corresponding to data is received in synchronization with a pixel clock also transmitted from the media player 400 via the TMDS clock channel.
  • image data, audio data, and control data are transmitted using TMDS channels #0, #1, and #2, and a pixel clock is transmitted using the TMDS clock channel, but this is compatible with HDMI 1.4 and earlier. and HDMI 2.0 compatible.
  • transmission is performed using FRL lanes #0, #1, #2, and #3.
  • the TMDS clock channel becomes FRL lane #3.
  • FRL Character coding is 16-bit/18-bit conversion coding that converts 16-bit data to 18-bit data, is coding that maintains DC balance, and is coding that allows clock extraction. It is.
  • the media player 400 retrieves object audio data associated with the image along with image data from, for example, the HDD, and transmits the image data and object audio data to the AV amplifier 400.
  • the AV amplifier 400 has a transmission processing section 402.
  • This transmission processing unit 402 receives object audio data as input and generates an audio stream including this object audio data.
  • the transmission processing unit 402 is configured similarly to the transmission processing unit 202 included in the smart TV 200 of the transmission/reception system 10 shown in FIG.
  • An audio stream that is, an audio stream having a frame structure according to the IEC 60958 standard is generated.
  • the transmission processing unit 402 converts the sound data (audio signal) of the sound source constituting the object audio data into floating point format data, and converts the audio sample word area or It is placed in the audio sample word and auxiliary sample bit areas (see FIGS. 5 and 19). Furthermore, the transmission processing unit 402 includes the position data of the sound source constituting the object audio data in the channel status provided in the frame structure of the IEC 60958 standard, that is, the channel status in the IEC 60958 standard (see FIG. 8).
  • the audio stream generated by the transmission processing unit 402 is supplied to the HDMI transmitter 401 as audio data.
  • the HDMI transmitter 401 packetizes and inserts this audio stream into the data island section of the TMDS transmission data, and transmits it to the AV amplifier 500.
  • the AV amplifier 500 outputs, as audio data, an audio stream having a frame structure according to the IEC 60958 standard, which is sent from the media player 400, from the HDMI receiver 501.
  • the AV amplifier 500 performs rendering processing using object audio data included in this audio stream to generate audio signals for each speaker making up the speaker system.
  • the AV amplifier 500 has an audio processing section 502.
  • the audio processing unit 503 extracts object audio data from the audio stream output from the HDMI receiver 501, performs rendering processing using this object audio data, and generates audio signals for each speaker configuring the speaker system 503. is generated and supplied to the corresponding speaker of the speaker system 503.
  • the media player 400 generates an audio stream having a frame structure of the IEC 60958 standard including object audio data, and converts the audio stream into a data island section of TMDS transmission data.
  • the object audio data is inserted into packets and sent to the AV amplifier 500, but at that time, the sound data (audio signal) of the sound source that constitutes the object audio data is converted into floating point format data and sent. Therefore, similar to the audio processing section 103 of the AV amplifier 100 of the transmitting/receiving system 10 shown in FIG. (complex arithmetic processing) can be performed well.
  • the position data of the sound source constituting the object audio data is transmitted while being included in the channel status provided in the frame structure of the IEC 60958 standard, that is, the channel status in the IEC 60958 standard.
  • FIG. 21 shows an example of a packet configuration of a new info frame (InfoFrame) including sound source position data.
  • InfoFrame Type indicating the type of info frame packet is defined in the 0th byte.
  • Version information “InfoFrame Version number” of the packet data definition is written in the first byte.
  • Information “Length of Infoframe” representing the packet length is written in the second byte.
  • FIG. 22 shows a configuration example of a transmitting/receiving system 30 as a third embodiment.
  • This transmission/reception system 30 has a configuration in which a television receiver 700 as an HDMI sink and an audio amplifier 700 as an HDMI source are connected via an HDMI cable 900.
  • the television receiver 700 is provided with an HDMI terminal 701 to which an HDMI receiving section (HDMI RX) 702 and an ARC/eARC transmitting section (ARC/eARC Tx) 703 are connected.
  • the audio amplifier 800 is provided with an HDMI transmitter (HDMI TX) 802 and an ARC/eARC receiver (ARC/eARC Rx) 803.
  • One end of the HDMI cable 900 is connected to the HDMI terminal 701 of the television receiver 700, and the other end is connected to the HDMI terminal 801 of the audio amplifier 800.
  • the television receiver 700 includes an HDMI receiving section 702, an ARC/eARC transmitting section 703, and an audio transmitting circuit 704.
  • the television receiver 700 also includes a system controller 705, a digital broadcast receiving circuit 707, a content reproduction circuit 708, a display section 709, and a network interface 710. Further, in the illustrated example, various parts of the image system are omitted as appropriate to simplify the explanation.
  • a system controller 705 controls the operation of each part of the television receiver 700.
  • the digital broadcast receiving circuit 707 processes the television broadcast signal input from the receiving antenna 721 and processes the first mode signal (video signal, multichannel audio signal (linear PCM signal) and predetermined number of channels related to the broadcast content.
  • a tactile vibration signal) or a second mode signal (a tactile vibration signal of a predetermined number of channels) is output.
  • the multi-channel audio signal is composed of audio signals with a plurality of channels. Furthermore, the tactile vibration signals of a predetermined number of channels related to the first mode signal are for obtaining vibrations synchronized with video and audio. Furthermore, the tactile vibration signals of a predetermined number of channels related to the second mode signal are used to obtain vibrations for massage, healing, etc. that are not directly related to video or audio.
  • the network interface 710 communicates with an external server via the Internet 723 to receive first mode signals (video signals, multichannel audio signals (linear PCM signals), and tactile vibration signals of a predetermined number of channels) related to net content. , or outputs a second mode signal (a tactile vibration signal of a predetermined number of channels).
  • first mode signals video signals, multichannel audio signals (linear PCM signals), and tactile vibration signals of a predetermined number of channels) related to net content.
  • a second mode signal a tactile vibration signal of a predetermined number of channels
  • the BD player 722 generates a first mode signal (video signal, multichannel audio signal (linear PCM signal), and tactile vibration signal of a predetermined number of channels) related to the playback content, or a second mode signal related to the playback content, by the playback operation.
  • a signal (tactile vibration signal of a predetermined number of channels) is output.
  • the content reproduction circuit 708 selectively extracts the first mode signal or the second mode signal obtained by the digital broadcast receiving circuit 707, the network interface 710, or the BD player 722.
  • the content playback circuit 708 sends the video signal to the display section 709.
  • the display unit 709 displays an image based on this video signal.
  • the content playback circuit 708 when extracting the first mode signal, sends a multichannel audio signal and a predetermined number of channels of tactile vibration signals to the audio transmission circuit 704. Audio transmission circuit 704 simultaneously transmits this multichannel audio signal (linear PCM signal) and a predetermined number of channels of tactile vibration signals to audio amplifier 800.
  • the content playback circuit 708 when extracting the second mode signal, sends a predetermined number of channels of tactile vibration signals to the audio transmission circuit 704.
  • the audio transmission circuit 704 transmits the tactile vibration signals of the predetermined number of channels to the audio amplifier 800.
  • the audio transmission circuit 704 transmits the multichannel audio signal and the predetermined number of channels. generate an audio stream containing tactile vibration signals. Furthermore, when the content playback circuit 708 extracts the second mode signal and sends tactile vibration signals of a predetermined number of channels, the audio transmission circuit 704 outputs an audio stream containing the tactile vibration signals of the predetermined number of channels. generate.
  • the audio transmission circuit 704 is configured similarly to the transmission processing unit 202 of the smart TV 200 of the transmission/reception system 10 shown in FIG. Alternatively, an audio stream including tactile vibration signals of a predetermined number of channels, that is, an audio stream having a frame structure according to the IEC 60958 standard is generated.
  • the audio transmission circuit 704 converts the tactile vibration signal into floating point format data and places it in the audio sample word area or the audio sample word and auxiliary sample bit area in the audio stream having a frame structure according to the IEC 60958 standard. (See Figures 5 and 19). Furthermore, in this case, when the audio stream having a frame structure in accordance with the IEC 60958 standard includes multiple channels of audio signals and tactile vibration signals, the audio transmission circuit arranges the data of each channel in a frame-divided manner.
  • the ARC/eARC transmission unit 703 is an audio return channel or enhanced audio return channel that uses the utility line and HPD line of the HDMI cable 900, and is generated by the audio transmission circuit 704. The generated audio stream is sent to the audio amplifier 800.
  • the audio stream includes a multichannel audio signal and a predetermined number of channels of tactile vibration signals related to the first mode signal, or a predetermined number of channels of tactile vibration signals related to the second mode signal.
  • the configuration information of the signals included in the audio stream is included in, for example, the channel status configured for each block, that is, the channel status according to the IEC 60958 standard, although detailed explanation will be omitted.
  • the audio amplifier 800 includes an HDMI transmitting section 802, an ARC/eARC receiving section 803, and an audio receiving circuit 804.
  • the audio amplifier 800 also includes a system controller 805, an audio reproduction circuit 808, and a tactile vibration reproduction circuit 809.
  • System controller 805 controls the operation of each part of audio amplifier 800.
  • the ARC/eARC receiving unit 803 receives an audio stream having a frame structure according to the IEC 60958 standard from the television receiver 700 via an audio return channel or an enhanced audio return channel.
  • this audio stream includes a multichannel audio signal and a predetermined number of channels of tactile vibration signals related to the first mode signal, or a predetermined number of channels of tactile vibration signals related to the second mode signal. It will be done.
  • the audio receiving circuit 804 receives a multichannel audio signal and a predetermined number of channels of tactile vibration signals related to the first mode signal included in the audio stream received by the ARC/eARC receiving unit 803, or a second mode signal.
  • the tactile vibration signals of the predetermined number of channels are acquired. In this case, based on the configuration information included in the transmission signal, a multi-channel audio signal and a predetermined number of channels of tactile vibration signals related to the first mode signal, or a predetermined number of channels of tactile vibration signals related to the second mode signal. Signal extraction is performed.
  • the audio reproduction circuit 808 amplifies the multi-channel audio signal related to the first mode signal acquired by the audio receiving circuit 804 for each channel and sends it to a speaker system 850 having a speaker corresponding to each channel. Thereby, the speaker system 850 performs audio reproduction using the multi-channel audio signal.
  • the tactile vibration reproducing circuit 809 also reproduces tactile vibration signals of a predetermined number of channels related to the first mode signal acquired by the audio receiving circuit 804 or tactile vibration signals of a predetermined number of channels related to the second mode signal. Each channel is amplified and sent to a haptic vibration system 860 having a vibration device corresponding to each channel. As a result, the tactile vibration system 860 performs vibration reproduction using tactile vibration signals of a predetermined number of channels. In this case, the tactile vibration reproducing circuit 809 performs arithmetic processing to adjust the gain in accordance with the individual user's sensitivity, the sensitivity of the part to be stimulated, the sensitivity of the vibrating device, and further the nonlinearity of the vibrating device.
  • the tactile vibration signals of a predetermined number of channels are sent simultaneously with the multi-channel audio signal, so this vibration reproduction is correctly called audio reproduction. It becomes synchronized and also synchronizes with the video display on the display section 709 of the television receiver 700.
  • the tactile vibration signals of a predetermined number of channels are sent, so audio reproduction is not performed, and only vibration reproduction for massage, healing, etc., for example, is performed. be exposed.
  • the television receiver 700 generates an audio stream having a frame structure of the IEC 60958 standard that includes a tactile vibration signal, and transmits the audio stream to an audio return channel or an enhanced audio stream. - It is transmitted to the audio amplifier 800 through the audio return channel, and at that time, the tactile vibration signal is converted into floating point format data and transmitted. Therefore, in the tactile vibration reproducing circuit 809 of the audio amplifier 800, a calculation process (complex calculation process ) can be performed well.
  • a conversion unit that converts the vibration signal into floating point format data A transmitting device, comprising: a transmitting section that transmits the floating point format data to an external device via a transmission path.
  • the conversion unit sets the maximum displacement of the vibration signal to a predetermined value smaller than the maximum value of the range of values determined by the number of bits of the exponent part of the floating point format data, and converts the vibration signal into the floating point format data.
  • the transmitting device according to any one of (1) to (4), wherein the transmission path is an HDMI transmission path.
  • the transmitting unit transmits the floating point format data using a block-by-block transmission signal structure consisting of a plurality of frames for audio signals.
  • the transmission signal structure is a frame structure according to IEC 60958 standard,
  • the transmitting device wherein the transmitting unit arranges the floating point format data in an audio sample word area, or an audio sample word and auxiliary sample bit area, and transmits the data.
  • the floating point format data is stored in the audio sample word area or the audio sample word and auxiliary sample bit area from the most significant bit side of the audio sample word, including a sign part, an exponent part, and a mantissa part.
  • the channel status provided in the transmission signal structure for each block indicates that the floating point format data is located in the area of the audio sample word or the area of the audio sample word and auxiliary sample bits.
  • the transmitting device according to any one of (6) to (9), including information indicating.
  • the channel status provided in the transmission signal structure for each block indicates the number of bits of the floating point format data arranged in the area of the audio sample word or the area of the audio sample word and auxiliary sample bits.
  • the transmitting device according to (10) above, including information.
  • the transmission unit transmits the floating point format data by subjecting the exponent part to bit inversion processing when the sign part indicates a negative value.
  • the transmitting unit transmits the floating point format data by performing bit inversion processing on the exponent part and processing of converting the mantissa part into a two's complement number when the sign part indicates a negative number.
  • the transmitting device according to any one of 1) to (11).
  • the transmitting device according to any one of (1) to (13), wherein the vibration signal is an audio signal.
  • the transmitting device according to any one of (1) to (13), wherein the vibration signal is a tactile vibration signal.
  • a receiving unit that receives floating point format data into which the vibration signal has been converted from an external device via a transmission path; A receiving device comprising a processing unit that processes the floating point format data.
  • the floating point format data is 16-bit half-precision floating point data.
  • the receiving device according to any one of (16) to (18), wherein the receiving unit receives the floating point format data using a block-by-block transmission signal structure consisting of multiple frames for audio signals. .
  • a transmitting device and a receiving device are connected via a transmission path
  • the transmitting device includes: a conversion unit that converts the vibration signal into floating point format data; comprising a transmitting unit that transmits the floating point format data to the receiving device via a front road transmission path
  • the receiving device includes: a receiving unit that receives the floating point format data from the transmitting device via the transmission path;
  • a transmission/reception system comprising a processing unit that processes the floating point format data.
  • BD player 723... Internet 800 Audio amplifier 801... HDMI terminal 802... HDMI transmitting section 803... ARC/eARC receiving section 804... Audio receiving circuit 805 ... System controller 808 ... Audio reproduction circuit 809 ... Tactile vibration generation circuit 850 ... Speaker system 860 ... Tactile vibration system

Abstract

受信側での演算処理を良好に行い得るように振動信号を送信する。 変換部により、振動信号が浮動小数点形式データに変換される。例えば、振動信号は、オーディオ信号または触覚振動信号である。例えば、浮動小数点形式データは、16ビットの半精度浮動小数点のデータである。送信部により、浮動小数点形式データは、伝送路を介して、外部機器に送信される。例えば、伝送路は、HDMI伝送路である。また、例えば、送信部は、オーディオ信号用の複数フレームからなるブロック毎の伝送信号構造を用いて、浮動小数点形式データ送信する。

Description

送信装置、受信装置および送受信システム
 本技術は、送信装置、受信装置および送受信システムに関し、詳しくは、受信側で複雑な演算処理を良好に行い得るように振動信号を伝送路を介して外部機器に送信する送信装置等に関する。
 例えば、送信側から音源の音データと位置データからなるオブジェクトオーディオデータを送信し、受信側において臨場感を高めた音響再生を行うことが考えられている。また、例えば、送信側からハプティクス信号としての触覚振動信号を送信し、受信側においてユーザに触覚刺激を与えることが考えられている。
 この場合、オブジェクトオーディオデータに関しては、受信側では、音源の位置に基づいて、音源の音を、空間に配置された複数のスピーカのそれぞれに割り振る演算処理が施される。また、触覚振動信号に関しては、受信側では、ユーザ個々の感度、刺激する部位の感度、振動デバイスの感度、さらには振動デバイスの非線形性に合わせてゲインを調整する演算処理が施される。
 例えば、特許文献1には、浮動小数点方式データを圧縮する際に指数部と仮数部とで処理を分けて効率化することが開示されている。
特開2018-037891号公報
 上述したように受信側で演算処理を行っても高い精度を維持するためには、送信側から演算処理に適した信号形式で振動信号(オブジェクトオーディオデータにおける音源の音データ、ハプティクス信号としての触覚振動信号など)を送信する必要がある。
 本技術の目的は、受信側での演算処理を良好に行い得るように振動信号を送信することにある。
 本技術の概念は、
 振動信号を浮動小数点形式データに変換する変換部と、
 前記浮動小数点形式データを、伝送路を介して、外部機器に送信する送信部を備える
 送信装置にある。
 本技術において、変換部により、振動信号が浮動小数点形式データに変換される。例えば、振動信号は、オーディオ信号または触覚振動信号である、ようにされてもよい。また、例えば、浮動小数点形式データは、16ビットの半精度浮動小数点(binary16)のデータである、ようにされてもよい。これにより、浮動小数点形式データは、-65504~65504の値の範囲を表現できると共に11ビット精度を持つものとなる。
 また、例えば、変換部は、振動信号の最大変位を、浮動小数点形式データの指数部のビット数で決まる値の範囲の最大値より小さな所定値、例えば1に設定して、浮動小数点形式データに変換する、ようにされてもよい。これにより、受信側においては、浮動小数点形式データで演算をし続けても値の範囲に余裕があるので、振動信号の最大変位(100%)を越える信号を扱う演算が可能となる。
 送信部により、浮動小数点形式データは、伝送路を介して、外部機器に送信される。例えば、伝送路は、HDMI伝送路である、ようにされてもよい。また、例えば、送信部は、オーディオ信号用の複数フレームからなるブロック毎の伝送信号構造を用いて、浮動小数点形式データ送信する、ようにされてもよい。これにより、振動信号が変換された浮動小数点形式データを外部機器に良好に送信可能となる。
 この場合、例えば、伝送信号構造は、IEC 60958規格のフレーム構造であり、送信部は、浮動小数点形式データを、オーディオサンプルワードの領域、またはオーディオサンプルワードおよび補助サンプルビットの領域に配置して送信する、ようにされてもよい。そして、この場合、浮動小数点形式データは、オーディオサンプルワードの領域、またはオーディオサンプルワードおよび補助サンプルビットの領域に、オーディオサンプルワードの最上位ビット側から、符号部、指数部および仮数部の順に詰めて配置される、ようにされてもよい。ここで、例えば、浮動小数点形式データにおける指数部は5ビットであり、仮数部は10ビット、14ビットまたは18ビットである、ようにされてもよい。
 このように最上位ビット側から詰めて配置されることで、例えば、浮動小数点形式データとして、指数部のビット数は変更せずに、仮数部のビット数のみを大きくして精度を高めたものを送信した場合に、受信側で仮数部のビット数が小さな浮動小数点形式データが配置されているものとして間違えて取り扱ったとしても、精度が悪くなるだけで、破綻することを回避し得る。
 例えば、ブロック毎の伝送信号構造で提供されるチャネルステータスは、オーディオサンプルワードの領域、またはオーディオサンプルワードおよび補助サンプルビットの領域に、浮動小数点形式データが配置されていることを示す情報を含む、ようにされてもよい。これにより、受信側では、オーディオサンプルワードの領域、またはオーディオサンプルワードおよび補助サンプルビットの領域に、浮動小数点形式データが配置されていることを容易に認識可能となる。
 また、この場合、例えば、ブロック毎の伝送信号構造で提供されるチャネルステータスは、オーディオサンプルワードの領域、またはオーディオサンプルワードおよび補助サンプルビットの領域に配置される浮動小数点形式データのビット数を示す情報を含む、ようにされてもよい。これにより、受信側では、オーディオサンプルワードの領域、またはオーディオサンプルワードおよび補助サンプルビットの領域に配置される浮動小数点形式データのビット数を容易に認識可能となる。
 また、例えば、送信部は、浮動小数点形式データを、符号部が負を示す場合は、指数部にビット反転処理を行って送信する、ようにされてもよい。これにより、受信側で浮動小数点形式データを符号付き整数形式データと間違えても、ゼロクロス時の急激な波形変動と偏ったDC成分を抑制し得る。
 また、例えば、送信部は、浮動小数点形式データを、符号部が負を示す場合は、指数部にビット反転処理を行うと共に仮数部を2の補数に変換する処理を行って送信する、ようにされてもよい。これにより、受信側で浮動小数点形式データを符号付き整数形式データと間違えても、ゼロクロス時の急激な波形変動と偏ったDC成分を抑制し得る。この場合、指数部にビット反転処理を行うだけでなく仮数部を2の補数に変換する処理を行うことで、指数部にビット反転処理を行うだけのものに比べて負の値のときの波形をきれいにできる。
 このように本技術においては、振動信号を浮動小数点形式データに変換し、この浮動小数点形式データを、伝送路を介して外部機器に送信するものであり、外部機器において振動信号に対する複雑な演算処理を良好に行い得るようになる。
 また、本技術の他の概念は、
 外部機器から、伝送路を介して、振動信号が変換された浮動小数点形式データを受信する受信部と、
 前記浮動小数点形式データを処理する処理部を備える
 受信装置にある。
 また、本技術の他の概念は、
 送信装置および受信装置が伝送路を介して接続され、
 前記送信装置は、
 振動信号を浮動小数点形式データに変換する変換部と、
 前記浮動小数点形式データを、前走路伝送路を介して、前記受信装置に送信する送信部を備え、
 前記受信装置は、
 前記送信装置から、前記伝送路を介して、前記浮動小数点形式データを受信する受信部と、
 前記浮動小数点形式データを処理する処理部を備える
 送受信システムにある。
第1の実施の形態としての送受信システムの構成例を示すブロック図である。 IEC 60958規格のフレーム構造を示す図である。 IEC 60958規格のサブフレーム構造を示す図である。 バイナリ16ビットデータの構成を示す図である。 IEC 60958規格のフレーム構造のオーディオストリームにおけるフレーム構成を示す図である。 バイナリ16ビットデータ(binary16)について、符号付き整数16ビットデータ(signed int16)と対比して説明するための図である。 符号付き整数16ビットデータ(signed int16)とバイナリ16ビットデータ(binary16)をオーディオ信号に適応した場合の一例を示す図である。 IEC 60958規格におけるチャネルステータスのフォーマットを概略的に示す図である。 チャネルステータスにおける第0バイトの第1ビットのbと第0バイトの第3ビット乃至第5ビットのdの定義の一例を示す図である。 チャネルステータスにおける第0バイトの第1ビットのbと第0バイトの第3ビット乃至第5ビットのdの定義の他の一例を示す図である。 チャネルステータスにおける「Word length」と「Sample word length」の定義の一例を示す図である。 振幅12.5%のサイン波(-0.125~+0.125の範囲で振動)をバイナリ16ビットデータ(binary16)で表現したデータ列を符号付き整数16ビットデータ(signed int16)と間違えた場合の波形例を示す図である。 改良案1においてバイナリ16ビットデータ(binary16)に対して行う処理を説明するための図である。 振幅12.5%のサイン波(-0.125~+0.125の範囲で振動)をバイナリ16ビットデータ(binary16)で表現したデータ列を改良案1で処理した場合において、そのデータ列を符号付き整数16ビットデータ(signed int16)と間違えた場合の波形例を示す図である。 改良案2においてバイナリ16ビットデータ(binary16)に対して行う処理を説明するための図である。 振幅12.5%のサイン波(-0.125~+0.125の範囲で振動)をバイナリ16ビットデータ(binary16)で表現したデータ列を改良案2で処理した場合において、そのデータ列を符号付き整数16ビットデータ(signed int16)と間違えた場合の波形例を示す図である。 振幅50%のサイン波(-0.5~+0.5の範囲で振動)の場合を説明するための図である。 浮動小数点形式データの精度改良について説明するための図である。 バイナリ20ビットデータやバイナリ24ビットデータを使用する場合における、IEC 60958規格のフレーム構造のオーディオストリームへの配置例を示す図である。 第2の実施の形態としての送受信システムの構成例を示すブロック図である。 音源の位置データを含む新たなインフォフレーム(InfoFrame)のパケット構成例を示す図である。 第3の実施の形態としての送受信システムの構成例を示すブロック図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明を以下の順序で行う。
 1.第1の実施の形態
 2.第2の実施の形態
 3.第3の実施の形態
 4.変形例
 <1.第1の実施の形態>
 [送受信システムの構成例]
 図1は、第1の実施の形態としての送受信システム10の構成例を示している。この送受信システム10は、HDMI(High-Definition Multimedia Interface)ソースとしてのAV(Audio/Visual)アンプ100とHDMIシンクとしてのスマートTV(television)200とが、HDMIケーブル300を介して接続された構成となっている。なお、「HDMI」は登録商標である。
 AVアンプ100は、一の垂直同期信号から次の垂直同期信号までの区間から、水平帰線区間及び垂直帰線区間を除いた区間である有効画像区間(以下、適宜、アクティブビデオ区間ともいう)において、非圧縮の1画面分の画像の画素データに対応する差動信号を、複数のチャネルで、スマートTV200に送信するとともに、水平帰線区間または垂直帰線区間において、少なくとも画像に付随する音声データや制御データ、その他の補助データ等に対応する差動信号を、複数のチャネルで、スマートTV200に送信する。
 すなわち、AVアンプ100は、HDMIトランスミッタ(HDMI Transmitter)101を有する。HDMIトランスミッタ101は、例えば、非圧縮の画像の画素データを対応する差動信号に変換し、複数のチャネルである3つのTMDSチャネル#0,#1,#2で、HDMIケーブル300を介して接続されているスマートTV200に、シリアル伝送する。
 また、HDMIトランスミッタ101は、非圧縮の画像に付随する音声データ、さらには、必要な制御データその他の補助データ等を、対応する差動信号に変換し、3つのTMDSチャネル#0,#1,#2でHDMIケーブル300を介して接続されているスマートTV200に、シリアル伝送する。
 さらに、HDMIトランスミッタ101は、3つのTMDSチャネル#0,#1,#2で送信する画素データに同期したピクセルクロックを、TMDSクロックチャネルで、HDMIケーブル300を介して接続されているスマートTV200に送信する。1つのTMDSチャネル#i(i=0,1,2)では、ピクセルクロックの1クロックの間に、10ビットの画素データが送信される。
 ここで、TMDSコーディングは、8ビットのデータを10ビットのデータに変換する8ビット/10ビット変換コーディングであり、前データとの比較から遷移点を少なくすることによって不要輻射等の悪影響を抑えた上でDCバランスを維持するコーディングとなっている。そのため、理論上コーディングのランレングスの保証ができないため、DC結合およびクロックの別送が必須となる。
 スマートTV200は、アクティブビデオ区間において、複数のチャネルで、AVアンプ100から送信されてくる、画素データに対応する差動信号を受信するとともに、水平帰線区間または垂直帰線区間において、複数のチャネルで、AVアンプ100から送信されてくる、音声データや制御データに対応する差動信号を受信する。
 すなわち、スマートTV200は、HDMIレシーバ(HDMI Receiver)201を有する。HDMIレシーバ201は、TMDSチャネル#0,#1,#2で、HDMIケーブル300を介して接続されているAVアンプ100から送信されてくる、画素データに対応する差動信号と、音声データや制御データに対応する差動信号を、同じくAVアンプ100からTMDSクロックチャネルで送信されてくるピクセルクロックに同期して受信する。
 なお、上述では、TMDSチャネル#0,#1,#2で画像データ、音声データ、制御データを伝送し、TMDSクロックチャネルでピクセルクロックを伝送する例を示したが、これは、HDMI1.4以前およびHDMI2.0に対応している。HDMI2.1の場合には、FRLレーン(FRL Lane)#0,#1,#2,#3を使用した伝送が行われる。この場合、TMDSクロックチャネルがFRLレーン#3となる。
 この場合、#0~#2の3レーンまたは#0~#3の4レーンを使用した固定レートリンク(FRL)パケットによるデータ伝送が行われる。ここで、FRL キャラクタ(FRL Character)コーディングは、16ビットのデータを18ビットのデータに変換する16ビット/18ビット変換コーディングであり、DCバランスを維持するコーディングであって、クロック抽出が可能なコーディングである。
 また、スマートTV200は、例えばAVストリーミングサービスから取得されたオブジェクトオーディオデータを、AVアンプ100に送信する。
 すなわち、スマートTV200は、送信処理部202と、ARC(Audio Return Channel)/eARC(Enhanced Audio Return Channel)送信部(ARC/eARC Tx)203を有している。送信処理部202は、オブジェクトオーディオデータを入力し、このオブジェクトオーディオデータを含むオーディオストリームを生成する。ここで、オブジェクトオーディオデータは、音源の音データ(オーディオ信号)と位置データとからなっている。ここで、音データ(オーディオ信号)は、振動信号を構成している。オーディオストリームの詳細については、さらに後述する。
 ARC/eARC送信部203は、HDMIケーブル300のユーティリティライン(Utility Line)およびHPDライン(HPD Line)を利用した、オーディオ・リターン・チャネルあるいはエンハスド・オーディオ・リターン・チャネルで、送信処理部202で生成されたオーディオストリームを、AVアンプ100に送信する。
 AVアンプ100は、オーディオ・リターン・チャネルあるいはエンハスド・オーディオ・リターン・チャネルにより、スマートTV200から送信されてくるオーディオストリームを受信し、このオーディオストリームに含まれるオブジェクトオーディオデータを用いたレンダリング処理を行ってスピーカシステム104を構成する各スピーカのためのオーディオ信号を生成する。
 すなわち、AVアンプ100は、ARC/eARC受信部(ARC/eARC Rx)102と、オーディオ処理部103を有している。ARC/eARC送信部102は、オーディオ・リターン・チャネルあるいはエンハスド・オーディオ・リターン・チャネルで、スマートTV200から送られてくるオーディオストリームを受信する。
 オーディオ処理部103は、ARC/eARC受信部102で受信されたオーディオストリームからオブジェクトオーディオデータを抽出し、このオブジェクトオーディオデータを用いたレンダリング処理を行って、スピーカシステム104を構成する各スピーカのためのオーディオ信号を生成して、スピーカシステム104の対応するスピーカに供給する。
 なお、HDMIシステムの伝送チャネルには、上述したTMDSやFRLの伝送チャネルの他に、DDC(Display Data Channel)、さらには、CECライン(CEC Line)、HPDライン(HPD Line)と呼ばれる伝送チャネルがある。
 DDCは、HDMIケーブル300に含まれる図示しない2本のライン(信号線)からなる。DDCは、AVアンプ100が、HDMIケーブル300を介して、スマートTV200が持つEDID ROM(Extended Display Identification ROM)に格納されるEDIDの読み取り行うために使用される。また、DDCは、AVアンプ100が、HDMIケーブル300を介して、スマートTV200が持つSCDC(Status and Control Data Channel)レジスタに格納されるSCDCSのデータの読み取りや書き込みを行うために使用される。
 また、CECラインは、AVアンプ100とスマートTV200との間で、制御用のデータの双方向通信を行うのに用いられる。HPDラインは、AVアンプ100がスマートTV200の接続を検出するため等に用いられる。
 「オーディオストリームの詳細」
 スマートTV200のオブジェクトオーディオデータ処理部202で生成されるオーディオストリームの詳細について説明する。送信処理部202は、オーディオストリームを、オーディオ信号用の複数フレームからなるブロック毎の伝送信号構造で生成する。この実施の形態では、この伝送信号構造として、IEC 60958規格のフレーム構造が用いられる。
 図2は、IEC 60958規格のフレーム構造を示している。各フレームは2つのサブフレームから構成される。2チャネルステレオ音声の場合、1つ目のサブフレームに左チャネル信号が含まれ、2つ目のサブフレームに右チャネル信号が含まれる。
 サブフレームの先頭には後述するようにプリアンブルが設けられ、左チャネル信号にはプリアンブルとして「M」が、右チャネル信号にはプリアンブルとして「W」が付与される。ただし、192フレーム毎に先頭のプリアンブルにはブロックの開始を表す「B」が付与される。すなわち、1ブロックは192フレームにより構成される。ブロックは、後述するチャネルステータスを構成する単位である。
 図3は、IEC 60958規格のサブフレーム構造を示している。サブフレームは、第0乃至第31の計32のタイムスロットから構成される。第0乃至第3タイムスロットは、プリアンブル(Sync preamble)を示す。このプリアンブルは、上述のように左右チャネルの区別やブロックの開始位置を表すために、「M」、「W」または「B」の何れかを示す。
 第4乃至第27タイムスロットはメインデータフィールドである。20ビット以下のコードレンジ、例えば20ビットのコードレンジあるいは16ビットのコードレンジが採用される場合、第8乃至第27タイムスロットのオーディオサンプルワードの領域が使用される。この場合、オーディオ信号は、最上位ビット(MSB:most significant bit)側に詰めて配置され、余った最下位ビット(LSB:Least Significant Bit)側の各ビットは0埋めされる。また、24ビットコードレンジが採用される場合、第8乃至第27タイムスロットのオーディオサンプルワードの領域と共に第4乃至第7タイムスロットの補助サンプルビット(Auxiliary sample bits)の領域が使用される。この場合、オーディオ信号は、第4乃至第27タイムスロットに配置される。
 第28タイムスロットは、メインデータフィールドの有効フラグ(Validity flag)である。第29タイムスロットは、ユーザデータ(User data)の1ビット分を表す。各フレームにまたがってこの第29タイムスロットを累積することによって一連のユーザデータを構成することができる。このユーザデータのメッセージは8ビットの情報ユニット(IU:Information Unit)を単位として構成され、1つのメッセージには3乃至129個の情報ユニットが含まれる。
 情報ユニット間には0乃至8ビットの「0」が存在し得る。情報ユニットの先頭は開始ビット「1」により識別される。メッセージ内の最初の7個の情報ユニットは予約されており、8個目以降の情報ユニットにユーザは任意の情報を設定することができる。メッセージ間は8ビット以上の「0」により分割される。
 第30タイムスロットは、チャネルステータス(Channel status)の1ビット分を表す。各フレームに跨ってブロック毎に第30タイムスロットを累積することによってチャネルステータスを構成することができる。なお、ブロックの先頭位置は、上述のように、「B」のプリアンブル(第0乃至第3タイムスロット)により示される。
 第31タイムスロットは、パリティビット(Parity bit)である。第4乃至第31タイムスロットに含まれる「0」および「1」の数が偶数になるように、このパリティビットが付与される。
 上述したように、オブジェクトオーディオデータは、音源の音データ(オーディオ信号)と、位置データとからなっている。送信処理部202は、音源の音データ(オーディオ信号)を浮動小数点形式データに変換する。この意味で、送信処理部202は、変換部を構成している。そして、送信処理部202は、この浮動小数点形式データを、IEC 60958規格のフレーム構造のオーディオストリームにおける、オーディオサンプルワードの領域、あるいはオーディオサンプルワードおよび補助サンプルビットの領域に配置する。
 この実施の形態において、浮動小数点形式データは、16ビットの半精度浮動小数点形式データ(以下、適宜、「バイナリ16ビットデータ」と称する)とされる。図4は、バイナリ16ビットデータの構成を示している。このバイナリ16ビットデータは、MSB側から1ビットの符号(sign)部と、5ビットの指数(exponent)部、10ビットの仮数(fraction)部が並んだ構成となっている。
 図5は、IEC 60958規格のフレーム構造のオーディオストリームにおけるフレーム構成を示している。音源の音データ(オーディオ信号)が変換されたバイナリ16ビットデータは、オーディオサンプルワードの領域に、MSB側に詰めて配置され、余ったLSB側の各ビットは0埋めされる。
 ここで、バイナリ16ビットデータ(binary16)について、符号付き整数16ビットデータ(signed int16)と対比して説明する。図6(a)は、符号付き整数16データを示し、図6(b)はバイナリ16ビットデータを示している。符号付き整数16データは、2の補数表現とされており、-32768~32767の範囲を表現でき、最大15ビット精度を持っている。
 バイナリ16ビットデータにおいて、5ビットの指数部は-14~15の範囲を示すが、実際には15を加算した1~30の値が格納される。なお、0は非正規化数、つまり仮数部が正規化できず精度が不足した状態を示し、31は無限大、またはNaN(Not a Number)を示す。バイナリ16ビットデータは、この5ビットの指数部で表現範囲が決まり、-65504~65504の範囲を表現できる。
 また、バイナリ16ビットデータにおいて、仮数部は10ビットであるが、最上位ビットが常に1であることを利用して符号化の際にそれを省いて表現されている。そのため、正規化数の場合、仮数部の10ビットは、MSBに1が付与されて、「1.xxxxxxxxxx」の小数点値を示し、有効桁数は11ビットに拡張される。そのため、バイナリ16ビットデータは、正規化数の場合、11ビット精度を持っている。一方、非正規化数の場合、仮数部の10ビットは、「0.xxxxxxxxxx」の小数点値を示し、有効桁数は10ビットのままである。そのため、バイナリ16ビットデータは、非正規化数の場合、概ね-6.1*10^-5から6.10^5の範囲を示し、10ビット以下の精度になる。
 この実施の形態において、音源の音データ(オーディオ信号)をバイナリ16ビットデータに変換する場合、音データの最大変位は、バイナリ16ビットデータの指数部で決まる値の範囲の最大値(=65504)より小さな所定値、例えば1に設定される。このように設定されることで、受信側においては、バイナリ16ビットデータで演算をし続けても値の範囲に余裕があるので、音源の音データ(オーディオ信号)の最大変位(100%)を越える信号を扱う演算が可能となる。
 図7は、符号付き整数16ビットデータ(signed int16)とバイナリ16ビットデータ(binary16)をオーディオ信号に適応した場合の一例を示している。ここで、符号付き整数16ビットデータではオーディオ信号の最大変位(100%)が「32768」に設定され、一方バイナリ16ビットデータではオーディオ信号の最大変位(100%)が「1」に設定されている場合を示している。
 この場合、オーディオ信号の-20%は、符号付き整数16ビットデータでは、「1110 0110 0110 0110b (E666h)」となり、バイナリ16ビットデータでは、「1011 0010 0110 0110b (B266h)」となる。なお、この「1011 0010 0110 0110b (B266h)」を符号付き整数16ビットデータと間違えた場合、-19866、つまり約-61%を示すものとなる。
 また、オーディオ信号の-10%は、符号付き整数16ビットデータでは、「1111 0011 0011 0011b (F333h)」となり、バイナリ16ビットデータでは、「1010 1110 0110 0110b (AE66h)」となる。なお、この「1010 1110 0110 0110b (AE66h)」を符号付き整数16ビットデータと間違えた場合、-20890、つまり約-64%を示すものとなる。
 また、オーディオ信号の+10%は、符号付き整数16ビットデータでは、「0000 1100 1100 1101b (0CCDh)」となり、バイナリ16ビットデータでは、「0010 1110 0110 0110b (2E66h)」となる。なお、この「0010 1110 0110 0110b (2E66h)」を符号付き整数16ビットデータと間違えた場合、11878、つまり約+36%を示すものとなる。
 また、オーディオ信号の+20%は、符号付き整数16ビットデータでは、「0001 1001 1001 1010b (199Ah)」となり、バイナリ16ビットデータでは、「0011 0010 0110 0110b (3266h)」となる。なお、この「0011 0010 0110 0110b (3266h)」を符号付き整数16ビットデータと間違えた場合、12902、つまり約+39%を示すものとなる。
 また、送信処理部202は、音源の位置データを、IEC 60958規格のフレーム構造で提供されるチャネルステータス、つまりIEC 60958規格におけるチャネルステータスに含める。
 例えば、音源の位置データを構成する3次元座標におけるX,Y,Zのそれぞれに2バイトずつ割り付けることが考えられる。この場合、(1)符号付き整数16ビットデータを使用し、単位はデシメートル(例えば、「1234」であれば123.4m)、あるいはセンチメートル(例えば、「1234」であれば、12m34cm)とすることが考えられる。また、この場合、(2)バイナリ16ビットデータを使用し、単位はメートル(例えば、「1.0」なら1m、「12.3」なら12.3m)とすることが考えられる。
 図8は、IEC 60958規格におけるチャネルステータスのフォーマットを概略的に示している。チャネルステータスは、サブフレームにおける第30タイムスロットをブロック毎に累積したものである(図3参照)。この図では、チャネルステータスの内容が縦方向に1バイトずつ配置され、横方向には各バイトにおけるビット構成が示されている。なお、ここでは、民生用(Consumer use)のフォーマットを想定し、主要な部分のみを説明する。
 第0バイトの第0ビットのaはチャネルステータスを示し、ここではa=“0”とされ、チャネルステータスが民生用であることが示されている。第0バイトの第1ビットのbはデータタイプを示し、“0”はリニアPCMオーディオ信号であることを示し、“1”はリニアPCM以外のオーディオ信号であることを示す。
 第0バイトの第3ビット乃至第5ビットのdは、追加フォーマット情報を示す。図9は、第0バイトの第1ビットのbと第0バイトの第3ビット乃至第5ビットのdの定義の一例を示している。この場合、浮動小数点形式データはリニアPCMオーディオ信号の一種であるとし、b=“0”,d=“001”が新たに定義され、浮動小数点形式データの伝送であることが示される。また、図10は、第0バイトの第1ビットのbと第0バイトの第3ビット乃至第5ビットのdの定義の他の一例を示している。この場合、浮動小数点形式データはリニアPCMオーディオ信号ではないとして、b=“1”,d=“001”が新たに定義され、浮動小数点形式データの伝送であることが示される。
 また、図8に戻って、第4バイトの第0ビットの「Word length」と、第4バイトの第1ビット乃至第3ビットの「Sample word length」は、伝送されるオーディオ信号のビット長を示す。図11は、「Word length」と「Sample word length」の定義の一例を示している。
 例えば、「Word length=0」、「Sample word length=100」でオーディオ信号のビット長が16ビットであることが示される。この実施の形態では、上述したようにオーディオ信号としてバイナリ16データが伝送されるものであり、「Word length=0」、「Sample word length=100」とされてビット長が16ビットであることが示される。また、例えば、「Word length=0」、「Sample word length=101」でオーディオ信号のビット長が20ビットであることが示される。また、例えば、「Word length=1」、「Sample word length=101」でオーディオ信号のビット長が24ビットであることが示される。
 また、図8に戻って、第18バイト乃至第23バイトの6バイトは、音源の位置データを配置するための新設領域である。第18バイト乃至第19バイトには3次元座標における2バイトのXデータが配置され、第20バイト乃至第21バイトには3次元座標における2バイトのYデータが配置され、第22バイト乃至第23バイトには3次元座標における2バイトのZデータが配置される。なお、音源の位置データを配置するための領域は、この第18バイト乃至第23バイトに限定されるものではない。
 上述したように、図1に示す送受信システム10においては、スマートTV200は、オブジェクトオーディオデータを含むIEC 60958規格のフレーム構造のオーディオストリームを生成し、そのオーディオストリームをオーディオ・リターン・チャネルあるいはエンハスド・オーディオ・リターン・チャネルでAVアンプ100に送信するものであるが、その際にオブジェクトオーディオデータを構成する音源の音データ(オーディオ信号)を浮動小数点形式データであるバイナリ16ビットデータに変換して送信するものである。そのため、AVアンプ100のオーディオ処理部103における、スピーカシステム104を構成する各スピーカのためのオーディオ信号を生成するレンダリング処理(複雑な演算処理)を良好に行うことができる。
 また、上述したように、図1に示す送受信システム10においては、スマートTV200は、オブジェクトオーディオデータを含むIEC 60958規格のフレーム構造のオーディオストリームを生成する際に、IEC 60958規格におけるチャネルステータスに、オーディオサンプルワードの領域、またはオーディオサンプルワードおよび補助サンプルビットの領域に、浮動小数点形式データが配置されていることを示す情報、さらにはその浮動小数点形式データのビット数を示す情報が含めるものである。そのため、AVアンプ100では、チャネルステータスからこれらの情報を取得して、オーディオ処理部103におけるレンダリング処理を適切に行うことができる。
 また、図1に示す送受信システム10においては、スマートTV200は、IEC 60958規格のフレーム構造のオーディオストリームを生成する際に、音源の音データ(オーディオ信号)を変換した浮動小数点形式データをオーディオサンプルワードの領域、またはオーディオサンプルワードおよび補助サンプルビットの領域に配置すると共に、IEC 60958規格におけるチャネルステータスに、音源の位置データを含めるものである。そのため、スマートTV200からAVアンプ100に、オブジェクトオーディオデータを構成する音源の音データと位置データとを同期して送信でき、AVアンプ100において、良好な3Dオーディオ空間を再現することが可能となる。
 「バイナリ16ビットデータの改良処理」
 なお、上述では、オブジェクトオーディオデータを構成する音源の音データ(オーディオ信号)を浮動小数点形式データであるバイナリ16ビットデータに変換し、そのバイナリ16ビットデータをそのままIEC 60958規格のフレーム構造のオーディオストリームのオーディオサンプルワードの領域に配置するように説明した。
 この場合、例えば、AVアンプ100がバイナリ16ビットデータに対応していなかったとき、あるいはAVアンプ100がバイナリ16ビットデータに対応していたとしてもチャネルビットの欠落等でチャネルステータスが正しく構成されず、バイナリ16ビットデータが送られてきたことを認識できなかったとき、バイナリ16ビットデータを符号付き整数16ビットデータと間違えて処理し、ゼロクロス時の急激な波形変動と偏ったDC成分を発生させる可能性がある。
 例えば、図12は、振幅12.5%のサイン波(-0.125~+0.125の範囲で振動)をバイナリ16ビットデータ(binary16)で表現したデータ列を符号付き整数16ビットデータ(signed int16)と間違えた場合の波形例を示している。破線は、バイナリ16ビットデータで振幅12.5%のサイン波(y=0.125*sin x)を表した波形を示している。実線は、符号付き整数16ビットデータと間違えた場合の波形を示している。なお、符号付き整数16ビットデータにおいてはフルスケールで-32768~+32767である。
 このようにバイナリ16ビットデータを符号付き整数16ビットデータと間違えた場合、破線楕円枠P1で示すように、ゼロクロス時の急激な波形変動が発生し、また破線楕円枠P2で示すように、偏ったDC成分が発生する。
 これは、バイナリ16ビットデータでは、指数部の数は本来の値に15が加算されたオフセット値であることに起因すると考えられる。ゼロ近傍では指数も0以下の値だが、15が加算されて15以下の値になる。この場合、指数部は5ビット長なのでMSBは0になる。例えば、15は01111bである。符号付き整数16ビットデータは2の補数表現であり、MSB寄りに0があると負の数のときに大きな負の値になる。例えば、バイナリ16ビットデータで0.125の半分の0.0625は0x2C00で、-0.0625は0xAC00である。これらを符号付き整数16ビットデータと間違えた場合、それぞれ、11264,-21504となる。
 ここでは、符号付き整数16ビットデータと間違えた場合のゼロクロス時の急激な波形変動や偏ったDC成分を抑制するために、オブジェクトオーディオデータを構成する音源の音データ(オーディオ信号)が変換されたバイナリ16ビットデータに所定の処理を行って、IEC 60958規格のフレーム構造のオーディオストリームのオーディオサンプルワードの領域に配置する、改良案1および改良案2を提案する。
 最初に、改良案1について説明する。この改良案1では、図13に示すように、処理前のデータに対して、符号部(s)が負を示す場合は、5ビットの指数部にビット反転処理を施して、処理後のデータを得るものである。
 図14は、振幅12.5%のサイン波(-0.125~+0.125の範囲で振動)をバイナリ16ビットデータ(binary16)で表現したデータ列を改良案1で処理した場合において、そのデータ列を符号付き整数16ビットデータ(signed int16)と間違えた場合の波形例を示している。破線は、バイナリ16ビットデータで振幅12.5%のサイン波(y=0.125*sin x)を表した波形を示している。実線は、バイナリ16ビットデータを改良案1で処理した後のデータ列を符号付き整数16ビットデータと間違えた場合の波形を示している。
 このように、バイナリ16ビットデータのデータ列を改良案1で処理した場合には、そのデータ列を符号付き整数16ビットデータと間違えた場合であっても、図12に示す場合と比べて、破線楕円枠P1で示すように、ゼロクロス時の急激な波形変動が抑制され、また破線楕円枠P2で示すように、偏ったDC成分が抑制される。この改良案1の場合は、符号部(s)を見て、負である場合には、5ビットの指数部を丸ごとビット反転するだけであり、実装は簡単であり、ハードウェア実装でも簡単に行い得る。
 次に、改良案2について説明する。この改良案2では、図15に示すように、処理前のデータに対して、符号部(s)が負を示す場合は、5ビットの指数部にビット反転処理を施すと共に、10ビットの仮数部に2の補数への変換処理を施して、処理後のデータを得るものである。
 図16は、振幅12.5%のサイン波(-0.125~+0.125の範囲で振動)をバイナリ16ビットデータ(binary16)で表現したデータ列を改良案2で処理した場合において、そのデータ列を符号付き整数16ビットデータ(signed int16)と間違えた場合の波形例を示している。破線は、バイナリ16ビットデータで振幅12.5%のサイン波(y=0.125*sin x)を表した波形を示している。実線は、バイナリ16ビットデータを改良案2で処理した後のデータ列を符号付き整数16ビットデータと間違えた場合の波形を示している。
 このように、バイナリ16ビットデータのデータ列を改良案2で処理した場合には、そのデータ列を符号付き整数16ビットデータと間違えた場合であっても、図12に示す場合と比べて、破線楕円枠P1で示すように、ゼロクロス時の急激な波形変動が抑制され、また破線楕円枠P2で示すように、偏ったDC成分が抑制される。この改良案2の場合は、上述の改良案1より複雑な処理を必要とするが、改良案1より負の値のときの波形が綺麗になる。
 上述では、振幅12.5%のサイン波(-0.125~+0.125の範囲で振動)を例にとって説明したが、振幅がこれより大きい場合においても同様である。図17(a)は、振幅50%のサイン波(-0.5~+0.5の範囲で振動)をバイナリ16ビットデータ(binary16)で表現したデータ列を符号付き整数16ビットデータ(signed int16)と間違えた場合の波形例を示している。破線は、バイナリ16ビットデータで振幅50%のサイン波(y=0.5*sin x)を表した波形を示している。実線は、符号付き整数16ビットデータと間違えた場合の波形を示している。なお、符号付き整数16ビットデータにおいてはフルスケールで-32768~+32767である。
 図17(b)は、振幅50%のサイン波(-0.5~+0.5の範囲で振動)をバイナリ16ビットデータ(binary16)で表現したデータ列を改良案1で処理した場合において、そのデータ列を符号付き整数16ビットデータ(signed int16)と間違えた場合の波形例を示している。破線は、バイナリ16ビットデータで振幅50%のサイン波(y=0.5*sin x)を表した波形を示している。実線は、バイナリ16ビットデータを改良案1で処理した後のデータ列を符号付き整数16ビットデータと間違えた場合の波形を示している。
 このように振幅が大きくなった場合においても、バイナリ16ビットデータそのままではそのデータ列を符号付き整数16ビットデータと間違えて処理した場合、ゼロクロス時の急激な波形変動と偏ったDC成分を発生させる可能性がある。そして、この場合、バイナリ16ビットデータを改良案1で処理することで、ゼロクロス時の急激な波形変動が抑制され、また破線楕円枠P2で示すように、偏ったDC成分が抑制される。ここでは、改良案2についての波形の図示は省略するが、改良案1と同様の処理効果が得られることは勿論である。
 「浮動小数点形式データの精度改良」
 また、上述では、オブジェクトオーディオデータは、音源の音データ(オーディオ信号)をバイナリ16ビットデータ(16ビットの半精度浮動小数点形式データ)に変換する例を説明した。上述したようにバイナリ16ビットデータは、正規化数の範囲では11ビット精度を持つが、仮数部のビット数を増やしてさらに精度を上げた浮動小数点形式データを使用することが考えられる。
 図18(b),(c)は、それぞれバイナリ16ビットデータより精度を高めることができる浮動小数点形式データの一例を示している。なお、図18(a)は、図4に示したと同様のバイナリ16ビットデータ(binary16)を示している。
 図18(b)の浮動小数点形式データ(以下、適宜「バイナリ20ビットデータ(binary20)」と称する)は、20ビット長であり、MSB側から1ビットの符号(sign)部と、5ビットの指数(exponent)部、14ビットの仮数(fraction)部が並んだ構成とされる。このバイナリ20ビットデータの場合も、指数部は、バイナリ16ビットデータと同様に、5ビットとされる。このバイナリ20ビットデータの場合、仮数部のビット数が14であることから正規化数の範囲では15ビット精度(符号付き整数16ビット相当)を持つ。
 また、図18(c)の浮動小数点形式データ(以下、適宜「バイナリ24ビットデータ(binary24)」と称する)は、24ビット長であり、MSB側から1ビットの符号(sign)部と、5ビットの指数(exponent)部、18ビットの仮数(fraction)部が並んだ構成とされる。このバイナリ20ビットデータの場合も、指数部は、バイナリ16ビットデータと同様に、5ビットとされる。このバイナリ24ビットデータの場合、仮数部のビット数が18であることから正規化数の範囲では19ビット精度(符号付き整数20ビット相当)を持つ。
 図19は、バイナリ20ビットデータやバイナリ24ビットデータを使用する場合における、IEC 60958規格のフレーム構造のオーディオストリームへの配置例を示している。バイナリ20ビットデータは、オーディオサンプルワードの領域に、配置される。また、バイナリ24ビットデータは、オーディオサンプルワードの領域および補助サンプルビットの領域に、配置される。
 この場合、オーディオサンプルワードの領域のMSB側から見て指数部までは、バイナリ16ビットデータが配置される場合と同一構造となる。また、仮数部は正規化されているので、バイナリ20ビットデータ/バイナリ24ビットデータにおいて仮数部の下位側の4ビット/8ビットが切られて16ビットデータとなったとしても、バイナリ16ビットデータとして丸込められた値(本来の値に近い値)が得られる。つまり、バイナリ20ビットデータ/バイナリ24ビットデータが配置されているのに、受信側でバイナリ16ビットデータが配置されているものとして間違えて取り扱われたとしても、精度が悪くなるだけで、破綻することは回避される。
 また、上述では、スマートTV200からAVアンプ100に1個(1チャネル)のオブジェクトオーディオデータを送信する例を示したが、2個(2チャネル)以上のオブジェクトオーディオデータを送信すること、さらにはオブジェクトオーディオデータを通常のオーディオ信号とともに送信することも可能である。その場合、IEC 60958規格のフレーム構造のオーディオストリームにおいて、各データはフレーム分割して配置されればよい。
 また、上述では、HDMIシンクがスマートTVである例を示したが、HDMIシンクはこれに限定されるものではなく、例えばインターネット接続機能のないTV、セットトップボックス、PCなどであってもよい。
 「第2の実施の形態」
 [送受信システムの構成例]
 図20は、第2の実施の形態としての送受信システム20の構成例を示している。この送受信システム20は、HDMIソースとしてのメディアプレーヤ(media player)400とHDMIシンクとしてのAVアンプ500とが、HDMIケーブル600を介して接続された構成となっている。
 メディアプレーヤ400は、一の垂直同期信号から次の垂直同期信号までの区間から、水平帰線区間及び垂直帰線区間を除いた区間である有効画像区間(以下、適宜、アクティブビデオ区間ともいう)において、非圧縮の1画面分の画像の画素データに対応する差動信号を、複数のチャネルで、AVアンプ500に送信するとともに、水平帰線区間または垂直帰線区間において、少なくとも画像に付随する音声データや制御データ、その他の補助データ等に対応する差動信号を、複数のチャネルで、AVアンプ500に送信する。
 すなわち、メディアプレーヤ400は、HDMIトランスミッタ(HDMI Transmitter)401を有する。HDMIトランスミッタ401は、例えば、非圧縮の画像の画素データを対応する差動信号に変換し、複数のチャネルである3つのTMDSチャネル#0,#1,#2で、HDMIケーブル600を介して接続されているAVアンプ500に、シリアル伝送する。
 また、HDMIトランスミッタ401は、非圧縮の画像に付随する音声データ、さらには、必要な制御データその他の補助データ等を、対応する差動信号に変換し、3つのTMDSチャネル#0,#1,#2でHDMIケーブル600を介して接続されているAVアンプ500に、シリアル伝送する。
 さらに、HDMIトランスミッタ401は、3つのTMDSチャネル#0,#1,#2で送信する画素データに同期したピクセルクロックを、TMDSクロックチャネルで、HDMIケーブル600を介して接続されているAVアンプ500に送信する。1つのTMDSチャネル#i(i=0,1,2)では、ピクセルクロックの1クロックの間に、10ビットの画素データが送信される。
 ここで、TMDSコーディングは、8ビットのデータを10ビットのデータに変換する8ビット/10ビット変換コーディングであり、前データとの比較から遷移点を少なくすることによって不要輻射等の悪影響を抑えた上でDCバランスを維持するコーディングとなっている。そのため、理論上コーディングのランレングスの保証ができないため、DC結合およびクロックの別送が必須となる。
 AVアンプ500は、アクティブビデオ区間において、複数のチャネルで、メディアプレーヤ400から送信されてくる、画素データに対応する差動信号を受信するとともに、水平帰線区間または垂直帰線区間において、複数のチャネルで、メディアプレーヤ400から送信されてくる、音声データや制御データに対応する差動信号を受信する。
 すなわち、AVアンプ500は、HDMIレシーバ(HDMI Receiver)501を有する。HDMIレシーバ501は、TMDSチャネル#0,#1,#2で、HDMIケーブル600を介して接続されているメディアプレーヤ300から送信されてくる、画素データに対応する差動信号と、音声データや制御データに対応する差動信号を、同じくメディアプレーヤ400からTMDSクロックチャネルで送信されてくるピクセルクロックに同期して受信する。
 なお、上述では、TMDSチャネル#0,#1,#2で画像データ、音声データ、制御データを伝送し、TMDSクロックチャネルでピクセルクロックを伝送する例を示したが、これは、HDMI1.4以前およびHDMI2.0に対応している。HDMI2.1の場合には、FRLレーン(FRL Lane)#0,#1,#2,#3を使用した伝送が行われる。この場合、TMDSクロックチャネルがFRLレーン#3となる。
 この場合、#0~#2の3レーンまたは#0~#3の4レーンを使用した固定レートリンク(FRL)パケットによるデータ伝送が行われる。ここで、FRL キャラクタ(FRL Character)コーディングは、16ビットのデータを18ビットのデータに変換する16ビット/18ビット変換コーディングであり、DCバランスを維持するコーディングであって、クロック抽出が可能なコーディングである。
 この送受信システム20において、メディアプレーヤ400は、例えばHDDから画像データと共に、その画像に関連付けられたオブジェクトオーディオデータを取り出し、画像データおよびオブジェクトオーディオデータを、AVアンプ400に送信する。
 すなわち、AVアンプ400は、送信処理部402を有している。この送信処理部402は、オブジェクトオーディオデータを入力し、このオブジェクトオーディオデータを含むオーディオストリームを生成する。詳細説明は省略するが、送信処理部402は、図1に示す送受信システム10のスマートTV200が有する送信処理部202と同様に構成されており、オブジェクトオーディオデータを入力し、このオブジェクトオーディオデータを含むオーディオストリーム、つまりIEC 60958規格のフレーム構造のオーディオストリームを生成する。
 この場合、送信処理部402は、オブジェクトオーディオデータを構成する音源の音データ(オーディオ信号)を浮動小数点形式データに変換し、IEC 60958規格のフレーム構造のオーディオストリームにおける、オーディオサンプルワードの領域、あるいはオーディオサンプルワードおよび補助サンプルビットの領域に配置する(図5、図19参照)。また、送信処理部402は、オブジェクトオーディオデータを構成する音源の位置データを、IEC 60958規格のフレーム構造で提供されるチャネルステータス、つまりIEC 60958規格におけるチャネルステータスに含める(図8参照)。
 送信処理部402で生成されたオーディオストリームは、HDMIトランスミッタ401にオーディオデータとして供給される。HDMIトランスミッタ401は、このオーディオストリームを、TMDS伝送データのデータアイランド区間にパケット化して挿入して、AVアンプ500に送信する。
 この送受信システム20において、AVアンプ500は、HDMIレシーバ501から、オーディオデータとして、メディアプレーヤ400から送られてくるIEC 60958規格のフレーム構造のオーディオストリームを出力する。AVアンプ500は、このオーディオストリームに含まれるオブジェクトオーディオデータを用いたレンダリング処理を行ってスピーカシステムを構成する各スピーカのためのオーディオ信号を生成する。
 すなわち、AVアンプ500は、オーディオ処理部502を有している。オーディオ処理部503は、HDMIレシーバ501から出力されたオーディオストリームからオブジェクトオーディオデータを抽出し、このオブジェクトオーディオデータを用いたレンダリング処理を行って、スピーカシステム503を構成する各スピーカのためのオーディオ信号を生成して、スピーカシステム503の対応するスピーカに供給する。
 上述したように、図20に示す送受信システム20においては、メディアプレーヤ400は、オブジェクトオーディオデータを含むIEC 60958規格のフレーム構造のオーディオストリームを生成し、そのオーディオストリームをTMDS伝送データのデータアイランド区間にパケット化して挿入して、AVアンプ500に送信するものであるが、その際にオブジェクトオーディオデータを構成する音源の音データ(オーディオ信号)を浮動小数点形式データに変換して送信するものである。そのため、図1に示す送受信システム10のAVアンプ100のオーディオ処理部103と同様に、AVアンプ500のオーディオ処理部502における、スピーカシステム503を構成する各スピーカのためのオーディオ信号を生成するレンダリング処理(複雑な演算処理)を良好に行うことができる。
 なお、上述では、オブジェクトオーディオデータを構成する音源の位置データを、IEC 60958規格のフレーム構造で提供されるチャネルステータス、つまりIEC 60958規格におけるチャネルステータスに含めて、送信するように説明した。しかし、例えば、音源の位置データを含む新たなインフォフレームパケットを定義し、そのインフォフレームパケットをTMDS伝送データのデータアイランド区間に挿入して、AVアンプ500に送信することも考えられる。
 図21は、音源の位置データを含む新たなインフォフレーム(InfoFrame)のパケット構成例を示している。第0バイトにインフォフレームパケットの種類を示す「InfoFrame Type」が定義される。第1バイトにパケットデータ定義のバージョン情報「InfoFrame Version number」が記述される。第2バイトに、パケット長を表す情報「Length of Infoframe」が記述される。この構成例では、Nチャネル、つまりN個のオブジェクトオーディオデータの同時送信を想定したものであり、「Length of Infoframe = N*6+2」となっている。
 第3バイトに、スタートチャネルを表す情報「Start Channel ID」が記述される。また、第4バイトに、チャネル数を表す情報「Number of Channels」が記述される。そして、以降のバイトに、Nチャネル分の音源の位置データである3次元座標におけるX,Y,Zのそれぞれ2バイトのデータが順次配置される。
 なお、HDMIの場合、インフォフレームは、30バイト以下の制限があるので、Nは4以下に制限される。そのため、5チャネル(5個)以上のオブジェクトオーディオデータの音源の位置データを送信する場合には、複数個のインフォフレームが用いられて送信される。例えば、7チャネル(7個)のオブジェクトオーディオデータの音源の位置データを送信する場合には、2個のインフォフレームが用いられる。その場合、1~4チャネルのオブジェクトオーディオデータの音源の位置データが記述される第1のインフォフレームでは、「Start Channel ID = 1」、「Number of Channels = 4」とされ、5~7チャネルのオブジェクトオーディオデータの音源の位置データが記述される第2のインフォフレームでは、「Start Channel ID = 5」、「Number of Channel = 3」とされる。
 「第3の実施の形態」
 [送受信システムの構成例]
 図22は、第3の実施の形態としての送受信システム30の構成例を示している。この送受信システム30は、HDMIシンクとしてのテレビ受信機700とHDMIソースとしてのオーディオアンプ700とが、HDMIケーブル900を介して接続された構成となっている。
 テレビ受信機700には、HDMI受信部(HDMI RX)702と、ARC/eARC送信部(ARC/eARC Tx)703とが接続されたHDMI端子701が設けられている。オーディオアンプ800には、HDMI送信部(HDMI TX)802と、ARC/eARC受信部(ARC/eARC Rx)803が設けられている。HDMIケーブル900の一端はテレビ受信機700のHDMI端子701に接続され、その他端はオーディオアンプ800のHDMI端子801に接続されている。
 テレビ受信機700は、HDMI受信部702と、ARC/eARC送信部703と、オーディオ送信回路704を有している。また、テレビ受信機700は、システムコントローラ705と、デジタル放送受信回路707と、コンテンツ再生回路708と、表示部709と、ネットワークインタフェース710を有している。また、図示の例では、説明の簡単化のために、画像系の各部については適宜省略されている。
 システムコントローラ705は、テレビ受信機700の各部の動作を制御する。デジタル放送受信回路707は、受信アンテナ721から入力されたテレビ放送信号を処理して、放送コンテンツに係る第1のモードの信号(ビデオ信号、マルチチャネルオーディオ信号(リニアPCM信号)および所定チャネル数の触覚振動信号)、あるいは第2のモードの信号(所定チャネル数の触覚振動信号)を出力する。
 ここで、マルチチャネルオーディオ信号は、複数チャネル数のオーディオ信号により構成されている。また、第1のモードの信号に係る所定チャネル数の触覚振動信号は、ビデオやオーディオに同期した振動を得るためのものである。また、第2のモードの信号に係る所定チャネル数の触覚振動信号は、ビデオやオーディオとは直接関係しない、例えばマッサージ用、癒し用等の振動を得るためものである。
 ネットワークインタフェース710は、インターネット723を介して外部サーバと通信を行って、ネットコンテンツに係る第1のモードの信号(ビデオ信号、マルチチャネルオーディオ信号(リニアPCM信号)および所定チャネル数の触覚振動信号)、あるいは第2のモードの信号(所定チャネル数の触覚振動信号)を出力する。
 また、BDプレーヤ722は、再生動作により、再生コンテンツに係る第1のモードの信号(ビデオ信号、マルチチャネルオーディオ信号(リニアPCM信号)および所定チャネル数の触覚振動信号)、あるいは第2のモードの信号(所定チャネル数の触覚振動信号)を出力する。
 コンテンツ再生回路708は、デジタル放送受信回路707、ネットワークインタフェース710あるいはBDプレーヤ722で得られた第1のモードの信号または第2のモードの信号を選択的に取り出す。
 そして、コンテンツ再生回路708は、第1のモードの信号を取り出す場合、ビデオ信号を表示部709に送る。表示部709は、このビデオ信号による画像を表示する。
 また、コンテンツ再生回路708は、第1のモードの信号を取り出す場合、マルチチャネルオーディオ信号および所定チャネル数の触覚振動信号を、オーディオ送信回路704に送る。オーディオ送信回路704は、このマルチチャネルオーディオ信号(リニアPCM信号)および所定チャネル数の触覚振動信号を、オーディオアンプ800に、同時に送信する。
 また、コンテンツ再生回路708は、第2のモードの信号を取り出す場合、所定チャネル数の触覚振動信号を、オーディオ送信回路704に送る。オーディオ送信回路704は、この所定チャネル数の触覚振動信号を、オーディオアンプ800に、送信する。
 オーディオ送信回路704は、コンテンツ再生回路708で第1のモードの信号が取り出されて、マルチチャネルオーディオ信号および所定チャネル数の触覚振動信号が送られてくる場合、このマルチチャネルオーディオ信号および所定チャネル数の触覚振動信号を含むオーディオストリームを生成する。また、オーディオ送信回路704は、コンテンツ再生回路708で第2モードの信号が取り出されて、所定チャネル数の触覚振動信号が送られてくる場合、この所定チャネル数の触覚振動信号を含むオーディオストリームを生成する。
 詳細説明は省略するが、オーディオ送信回路704は、図1に示す送受信システム10のスマートTV200が有する送信処理部202と同様に構成されており、マルチチャネルオーディオ信号および所定チャネル数の触覚振動信号、あるいは所定チャネル数の触覚振動信号を含むオーディオストリーム、つまりIEC 60958規格のフレーム構造のオーディオストリームを生成する。
 この場合、オーディオ送信回路704は、触覚振動信号を浮動小数点形式データに変換し、IEC 60958規格のフレーム構造のオーディオストリームにおける、オーディオサンプルワードの領域、あるいはオーディオサンプルワードおよび補助サンプルビットの領域に配置する(図5、図19参照)。また、この場合、オーディオ送信回路は、IEC 60958規格のフレーム構造のオーディオストリームに複数チャネルのオーディオ信号や触覚振動信号を含める場合には、各チャネルのデータをフレーム分割で配置する。
 ARC/eARC送信部703は、HDMIケーブル900のユーティリティライン(Utility Line)およびHPDライン(HPD Line)を利用した、オーディオ・リターン・チャネルあるいはエンハスド・オーディオ・リターン・チャネルで、オーディオ送信回路704で生成されたオーディオストリームを、オーディオアンプ800に送信する。
 この場合、オーディオストリームには、第1のモードの信号に係るマルチチャネルオーディオ信号および所定チャネル数の触覚振動信号、あるいは第2のモードの信号に係る所定チャネル数の触覚振動信号が含まれる。オーディオストリームに含まれる信号の構成情報は、詳細説明は省略するが、例えばブロック毎に構成されるチャネルステータス、つまりIEC 60958規格におけるチャネルステータスに含められる。
 オーディオアンプ800は、HDMI送信部802と、ARC/eARC受信部803と、オーディオ受信回路804を有している。また、オーディオアンプ800は、システムコントローラ805と、オーディオ再生回路808と、触覚振動再生回路809を有している。システムコントローラ805は、オーディオアンプ800の各部の動作を制御する。
 ARC/eARC受信部803は、テレビ受信機700から、オーディオ・リターン・チャネルあるいはエンハスド・オーディオ・リターン・チャネルで、IEC 60958規格のフレーム構造のオーディオストリームを受信する。このオーディオストリームには、上述したように、第1のモードの信号に係るマルチチャネルオーディオ信号および所定チャネル数の触覚振動信号、あるいは第2のモードの信号に係る所定チャネル数の触覚振動信号が含まれる。
 オーディオ受信回路804は、ARC/eARC受信部803で受信されたオーディオストリームに含まれる第1のモードの信号に係るマルチチャネルオーディオ信号および所定チャネル数の触覚振動信号、あるいは第2のモードの信号に係る所定チャネル数の触覚振動信号を取得する。この場合、伝送信号に含まれる構成情報に基づいて、第1のモードの信号に係るマルチチャネルオーディオ信号および所定チャネル数の触覚振動信号、あるいは第2のモードの信号に係る所定チャネル数の触覚振動信号の取り出しが行われる。
 オーディオ再生回808は、オーディオ受信回路804で取得された第1のモードの信号に係るマルチチャネルオーディオ信号をチャネル毎に増幅し、それぞれのチャネルに対応したスピーカを持つスピーカシステム850に送る。これにより、スピーカシステム850で、マルチチャネルオーディオ信号による音声再生が行われる。
 また、触覚振動再生回路809は、オーディオ受信回路804で取得された第1のモードの信号に係る所定チャネル数の触覚振動信号、あるいは第2のモードの信号に係る所定チャネル数の触覚振動信号をチャネルごとに増幅し、それぞれのチャネルに対応した振動デバイスを持つ触覚振動システム860に送る。これにより、触覚振動システム860で、所定チャネル数の触覚振動信号による振動再生が行われる。なお、この場合、触覚振動再生回路809では、ユーザ個々の感度、刺激する部位の感度、振動デバイスの感度、さらには振動デバイスの非線形性に合わせてゲインを調整する演算処理が施される。
 この場合、上述したように、第1のモードの信号を取り扱う場合、所定チャネル数の触覚振動信号がマルチチャネルオーディオ信号と同時に送られてくるものであることから、この振動再生は音声再生と正しく同期したものとなり、またテレビ受信機700の表示部709における映像表示とも同期したものとなる。また、第2のモードの信号を取り扱う場合、所定チャネル数の触覚振動信号のみが送られてくるものであることから、音声再生は行われず、例えばマッサージ用、癒し用等の振動再生のみが行われる。
 上述したように、図22に示す送受信システム30においては、テレビ受信機700は、触覚振動信号を含むIEC 60958規格のフレーム構造のオーディオストリームを生成し、そのオーディオストリームをオーディオ・リターン・チャネルあるいはエンハスド・オーディオ・リターン・チャネルでオーディオアンプ800に送信するものであるが、その際に触覚振動信号を浮動小数点形式データに変換して送信するものである。そのため、オーディオアンプ800の触覚振動再生回路809において、ユーザ個々の感度、刺激する部位の感度、振動デバイスの感度、さらには振動デバイスの非線形性に合わせてゲインを調整する演算処理(複雑な演算処理)を良好に行うことができる。
 <4.変形例>
 なお、上述実施の形態においては、IEC 60958構造のオーディオストリームの伝送路としてHDMI ARC/eARC、あるいはHDMI伝送路を利用する例を示したが、IEC 60958伝送路として、IEC 61883-6伝送路、MHL伝送路、ディスプレイポート伝送路(DP伝送路)、さらには同軸ケーブルや光ケーブルを利用する例も考えられる。
 また、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、技術は、以下のような構成もとることができる。
 (1)振動信号を浮動小数点形式データに変換する変換部と、
 前記浮動小数点形式データを、伝送路を介して、外部機器に送信する送信部を備える
 送信装置。
 (2)前記浮動小数点形式データは、16ビットの半精度浮動小数点データである
 前記(1)に記載の送信装置。
 (3)前記変換部は、前記振動信号の最大変位を、前記浮動小数点形式データの指数部のビット数で決まる値の範囲の最大値より小さな所定値に設定して、前記浮動小数点形式データに変換する
 前記(1)または(2)に記載の送信装置。
 (4)前記所定値は、1である
 前記(3)に記載の送信装置。
 (5)前記伝送路は、HDMI伝送路である
 前記(1)から(4)のいずれかに記載の送信装置。
 (6)前記送信部は、オーディオ信号用の複数フレームからなるブロック毎の伝送信号構造を用いて、前記浮動小数点形式データ送信する
 前記(1)から(5)のいずれかに記載の送信装置。
 (7)前記伝送信号構造は、IEC 60958規格のフレーム構造であり、
 前記送信部は、前記浮動小数点形式データを、オーディオサンプルワードの領域、またはオーディオサンプルワードおよび補助サンプルビットの領域に配置して送信する
 前記(6)に記載の送信装置。
 (8)前記浮動小数点形式データは、前記オーディオサンプルワードの領域、または前記オーディオサンプルワードおよび補助サンプルビットの領域に、前記オーディオサンプルワードの最上位ビット側から、符号部、指数部および仮数部の順に詰めて配置される
 前記(7)に記載の送信装置。
 (9)前記浮動小数点形式データにおける前記指数部は5ビットであり、前記仮数部は10ビット、14ビットまたは18ビットである
 前記(8)に記載の送信装置。
 (10)前記ブロック毎の伝送信号構造で提供されるチャネルステータスは、前記オーディオサンプルワードの領域、または前記オーディオサンプルワードおよび補助サンプルビットの領域に、前記浮動小数点形式データが配置されていることを示す情報を含む
 前記(6)から(9)のいずれかに記載の送信装置。
 (11)前記ブロック毎の伝送信号構造で提供されるチャネルステータスは、前記オーディオサンプルワードの領域、または前記オーディオサンプルワードおよび補助サンプルビットの領域に配置される前記浮動小数点形式データのビット数を示す情報を含む
 前記(10)に記載の送信装置。
 (12)前記送信部は、前記浮動小数点形式データを、符号部が負を示す場合は、指数部にビット反転処理を行って送信する
 前記(1)から(11)のいずれかに記載の送信装置。
 (13)前記送信部は、前記浮動小数点形式データを、符号部が負を示す場合は、指数部にビット反転処理を行うと共に仮数部を2の補数に変換する処理を行って送信する
 前記(1)から(11)のいずれかに記載の送信装置。
 (14)前記振動信号は、オーディオ信号である
 前記(1)から(13)のいずれかに記載の送信装置。
 (15)前記振動信号は、触覚振動信号である
 前記(1)から(13)のいずれかに記載の送信装置。
 (16)外部機器から、伝送路を介して、振動信号が変換された浮動小数点形式データを受信する受信部と、
 前記浮動小数点形式データを処理する処理部を備える
 受信装置。
 (17)前記伝送路は、HDMI伝送路である
 前記(16)に記載の受信装置。
 (18)前記浮動小数点形式データは、16ビットの半精度浮動小数点データである
 前記(16)または(17)に記載の受信装置。
 (19)前記受信部は、オーディオ信号用の複数フレームからなるブロック毎の伝送信号構造を用いて、前記浮動小数点形式データを受信する
 前記(16)から(18)のいずれかに記載の受信装置。
 (20)送信装置および受信装置が伝送路を介して接続され、
 前記送信装置は、
 振動信号を浮動小数点形式データに変換する変換部と、
 前記浮動小数点形式データを、前走路伝送路を介して、前記受信装置に送信する送信部を備え、
 前記受信装置は、
 前記送信装置から、前記伝送路を介して、前記浮動小数点形式データを受信する受信部と、
 前記浮動小数点形式データを処理する処理部を備える
 送受信システム。
 10,20,30・・・・送受信システム
 100・・・AVアンプ
 101・・・HDMIトランスミッタ
 102・・・ARC/eARC受信部
 103・・・オーディオ処理部
 104・・・スピーカシステム
 200・・・スマートTV
 201・・・HDMIレシーバ
 202・・・送信処理部
 203・・・ARC/eARC送信部
 300・・・HDMIケーブル
 400・・・メディアプレーヤ
 401・・・HDMIトランスミッタ
 402・・・送信処理部
 500・・・AVアンプ
 501・・・HDMIレシーバ
 502・・・オーディオ処理部
 503・・・スピーカシステム
 600・・・HDMIケーブル
 700・・・テレビ受信機
 701・・・HDMI端子
 702・・・HDMI受信部
 703・・・ARC/eARC送信部
 704・・・オーディオ送信回路
 705・・・システムコントローラ
 707・・・デジタル放送受信回路
 708・・・コンテンツ再生回路
 709・・・表示部
 710・・・ネットワークインタフェース
 721・・・受信アンテナ
 722・・・BDプレーヤ
 723・・・インターネット
 800・・・オーディオアンプ
 801・・・HDMI端子
 802・・・HDMI送信部
 803・・・ARC/eARC受信部
 804・・・オーディオ受信回路
 805・・・システムコントローラ
 808・・・オーディオ再生回路
 809・・・触覚振動生成回路
 850・・・スピーカシステム
 860・・・触覚振動システム

Claims (20)

  1.  振動信号を浮動小数点形式データに変換する変換部と、
     前記浮動小数点形式データを、伝送路を介して、外部機器に送信する送信部を備える
     送信装置。
  2.  前記浮動小数点形式データは、16ビットの半精度浮動小数点データである
     請求項1に記載の送信装置。
  3.  前記変換部は、前記振動信号の最大変位を、前記浮動小数点形式データの指数部のビット数で決まる値の範囲の最大値より小さな所定値に設定して、前記浮動小数点形式データに変換する
     請求項1に記載の送信装置。
  4.  前記所定値は、1である
     請求項3に記載の送信装置。
  5.  前記伝送路は、HDMI伝送路である
     請求項1に記載の送信装置。
  6.  前記送信部は、オーディオ信号用の複数フレームからなるブロック毎の伝送信号構造を用いて、前記浮動小数点形式データ送信する
     請求項1に記載の送信装置。
  7.  前記伝送信号構造は、IEC 60958規格のフレーム構造であり、
     前記送信部は、前記浮動小数点形式データを、オーディオサンプルワードの領域、またはオーディオサンプルワードおよび補助サンプルビットの領域に配置して送信する
     請求項6に記載の送信装置。
  8.  前記浮動小数点形式データは、前記オーディオサンプルワードの領域、または前記オーディオサンプルワードおよび補助サンプルビットの領域に、前記オーディオサンプルワードの最上位ビット側から、符号部、指数部および仮数部の順に詰めて配置される
     請求項7に記載の送信装置。
  9.  前記浮動小数点形式データにおける前記指数部は5ビットであり、前記仮数部は10ビット、14ビットまたは18ビットである
     請求項8に記載の送信装置。
  10.  前記ブロック毎の伝送信号構造で提供されるチャネルステータスは、前記オーディオサンプルワードの領域、または前記オーディオサンプルワードおよび補助サンプルビットの領域に、前記浮動小数点形式データが配置されていることを示す情報を含む
     請求項6に記載の送信装置。
  11.  前記ブロック毎の伝送信号構造で提供されるチャネルステータスは、前記オーディオサンプルワードの領域、または前記オーディオサンプルワードおよび補助サンプルビットの領域に配置される前記浮動小数点形式データのビット数を示す情報を含む
     請求項10に記載の送信装置。
  12.  前記送信部は、前記浮動小数点形式データを、符号部が負を示す場合は、指数部にビット反転処理を行って送信する
     請求項1に記載の送信装置。
  13.  前記送信部は、前記浮動小数点形式データを、符号部が負を示す場合は、指数部にビット反転処理を行うと共に仮数部を2の補数に変換する処理を行って送信する
     請求項1に記載の送信装置。
  14.  前記振動信号は、オーディオ信号である
     請求項1に記載の送信装置。
  15.  前記振動信号は、触覚振動信号である
     請求項1に記載の送信装置。
  16.  外部機器から、伝送路を介して、振動信号が変換された浮動小数点形式データを受信する受信部と、
     前記浮動小数点形式データを処理する処理部を備える
     受信装置。
  17.  前記伝送路は、HDMI伝送路である
     請求項16に記載の受信装置。
  18.  前記浮動小数点形式データは、16ビットの半精度浮動小数点データである
     請求項16に記載の受信装置。
  19.  前記受信部は、オーディオ信号用の複数フレームからなるブロック毎の伝送信号構造を用いて、前記浮動小数点形式データを受信する
     請求項16に記載の受信装置。
  20.  送信装置および受信装置が伝送路を介して接続され、
     前記送信装置は、
     振動信号を浮動小数点形式データに変換する変換部と、
     前記浮動小数点形式データを、前走路伝送路を介して、前記受信装置に送信する送信部を備え、
     前記受信装置は、
     前記送信装置から、前記伝送路を介して、前記浮動小数点形式データを受信する受信部と、
     前記浮動小数点形式データを処理する処理部を備える
     送受信システム。
PCT/JP2023/007749 2022-03-30 2023-03-02 送信装置、受信装置および送受信システム WO2023189162A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022055281 2022-03-30
JP2022-055281 2022-03-30

Publications (1)

Publication Number Publication Date
WO2023189162A1 true WO2023189162A1 (ja) 2023-10-05

Family

ID=88201165

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/007749 WO2023189162A1 (ja) 2022-03-30 2023-03-02 送信装置、受信装置および送受信システム

Country Status (1)

Country Link
WO (1) WO2023189162A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073435A (ja) * 2010-09-29 2012-04-12 Tamura Seisakusho Co Ltd 音声信号変換装置
WO2020137767A1 (ja) * 2018-12-26 2020-07-02 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073435A (ja) * 2010-09-29 2012-04-12 Tamura Seisakusho Co Ltd 音声信号変換装置
WO2020137767A1 (ja) * 2018-12-26 2020-07-02 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "IEEE Standard", 29 August 2008, IEEE , Piscataway, NJ, USA , ISBN: 978-0-7381-5752-8, article ANONYMOUS: "IEEE Standard for Floating-Point Arithmetic; IEEE Std. 754-2008", pages: 1 - 58, XP017601911 *

Similar Documents

Publication Publication Date Title
WO2011118135A1 (ja) 送信装置、受信装置、送信方法および受信方法
JP4785989B2 (ja) 映像音声送信装置および映像音声受信装置
KR20050022268A (ko) 전송 시스템
EP3905705A1 (en) Transmission device, transmission method, reception device and reception method
CN111163344A (zh) 一种长距离双屏互动娱乐信息处理系统
WO2023189162A1 (ja) 送信装置、受信装置および送受信システム
TWI802739B (zh) 送訊裝置、送訊方法、收訊裝置及收訊方法
EP3282709A1 (en) Transmitting device, transmitting method, receiving device and receiving method
US20220059109A1 (en) Transmission apparatus, transmission method, reception apparatus, and reception method
US11942103B2 (en) Transmission apparatus, transmission method, reception apparatus, and reception method for transmitting and receiving an audio signal including a mixed signal simultaneously transmitted by mixing a compressed audio signal and a linear pulse code modulation signal
WO2021131767A1 (ja) 送信装置、送信方法、受信装置および受信方法
US20210242879A1 (en) Transmission apparatus, transmission method, reception apparatus, and reception method
KR100754155B1 (ko) 그래픽 신호의 광 전송장치 및 방법
WO2021039189A1 (ja) 送信装置、送信方法、受信装置および受信方法
EP4030416A1 (en) Transmission device, transmission method, reception device, and reception method
CN210927853U (zh) 一种长距离双屏互动娱乐信息处理系统
KR100783971B1 (ko) 음성 데이터 수신모듈

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23779191

Country of ref document: EP

Kind code of ref document: A1