WO2024090309A1 - 音出力装置、音出力方法及びプログラム - Google Patents

音出力装置、音出力方法及びプログラム Download PDF

Info

Publication number
WO2024090309A1
WO2024090309A1 PCT/JP2023/037722 JP2023037722W WO2024090309A1 WO 2024090309 A1 WO2024090309 A1 WO 2024090309A1 JP 2023037722 W JP2023037722 W JP 2023037722W WO 2024090309 A1 WO2024090309 A1 WO 2024090309A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
parts
control unit
output device
user
Prior art date
Application number
PCT/JP2023/037722
Other languages
English (en)
French (fr)
Inventor
正太郎 長尾
利知 金岡
絵里香 山本
Original Assignee
京セラ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 京セラ株式会社 filed Critical 京セラ株式会社
Publication of WO2024090309A1 publication Critical patent/WO2024090309A1/ja

Links

Images

Definitions

  • This disclosure relates to a sound output device, a sound output method, and a program.
  • Patent Document 1 discloses an audio playback device that rewinds audio in response to a rewind request from the driver.
  • a sound output device includes: A storage unit that stores data of an external sound; a control unit that divides the data of the external sound into a plurality of sound parts, localizes at least a portion of the plurality of sound parts at different sound image positions, and reproduces the sound parts with at least a portion of the sound parts overlapping each other in time; Equipped with.
  • a sound output method includes: storing external sound data; Dividing the data of the external sound into a plurality of sound parts, localizing at least a part of the plurality of sound parts at different sound image positions, and reproducing the sound parts with at least a part of the sound parts overlapping in time; including.
  • a program includes: On the computer, storing external sound data; Dividing the data of the external sound into a plurality of sound parts, localizing at least a part of the plurality of sound parts at different sound image positions, and reproducing the sound parts with at least a part of the sound parts overlapping in time;
  • the method executes an operation including:
  • FIG. 1 is a diagram showing a schematic configuration of a sound output device according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram showing an example of a sound image position relative to a user. 2 is a block diagram of the sound output device shown in FIG. 1 .
  • 1 is a flowchart illustrating an example of a procedure of a sound output method according to an embodiment of the present disclosure.
  • FIG. 13 is a diagram for explaining reproduction of a sound portion according to another embodiment of the present disclosure.
  • FIG. 13 is a diagram for explaining reproduction of a sound portion according to another embodiment of the present disclosure.
  • FIG. 13 is a diagram for explaining reproduction of a sound portion according to another embodiment of the present disclosure.
  • FIG. 13 is a diagram for explaining reproduction of a sound portion according to another embodiment of the present disclosure.
  • 13 is a flowchart illustrating an example of a procedure of a sound output method according to another embodiment of the present disclosure.
  • the sound played back may be too long or too short. According to one embodiment of the present disclosure, it is possible to provide an improved technology for playing back recorded sound.
  • the sound output device 1 as shown in FIG. 1 is a hearable device.
  • the sound output device 1 is a bone conduction earphone.
  • the sound output device 1 is not limited to a bone conduction earphone as long as it is a hearable device.
  • the sound output device 1 may be an ear-hook type earphone, a neck-hanging type speaker, an inner-ear type earphone, a canal type earphone, or a headphone.
  • the sound output device 1 When the sound output device 1 is an inner-ear type earphone or a headphone, it may have an external sound capture function.
  • the external sound capture function is a function of collecting external sounds of the sound output device 1 and outputting them to the user.
  • External sounds are sounds generated outside the sound output device 1.
  • external sounds include sounds generated around the user.
  • External sounds may include sounds generated by the user himself.
  • the sound output device 1 includes a housing 1L, a housing 1R, and a fixing member 1F.
  • the housing 1L is placed against the user's left temple.
  • the housing 1R is placed against the user's right temple.
  • the fixing member 1F fixes the housing 1L and the housing 1R to the user's left and right temples, respectively.
  • the fixing member 1F includes a left ear hook that is hooked on the user's left ear, a right ear hook that is hooked on the user's right ear, and a band that connects these ear hooks.
  • the fixing member 1F may include a housing that can accommodate a communication unit 13, which will be described later, etc.
  • the sound output device 1 is worn on the user's head.
  • the user can hear external sounds while wearing the sound output device 1 on the head.
  • the user may miss an external sound containing necessary information.
  • the user may miss an external sound containing necessary information.
  • Selective attention means, for example, selectively paying attention to specific information in an environment where various external sounds are present.
  • the user can make the sound output device 1 reproduce the external sound by the first input described later. By making the sound output device 1 reproduce the external sound, the user can check whether the external sound contains necessary information.
  • the sound output device 1 When playing back an external sound, the sound output device 1 divides the data of the external sound into a plurality of sound parts, localizes each of the plurality of sound parts at different sound image positions, and plays back the sound parts with at least a portion overlapping in time.
  • a sound part means a part of a sound, such as an external sound having a predetermined length, divided into a plurality of portions each having a predetermined length. The lengths of the portions after division may be the same or different.
  • the sound output device 1 divides an announcement sound into sound parts 2a, 2b, 2c, 2d, and 2e.
  • the sound parts 2a to 2e are continuous in time. "Continuous in time" means that the sound parts are adjacent to each other in the external sound.
  • Continuous in time may also include the fact that, of the continuous sound parts 2a and 2b, the tail part of sound part 2a and the head part of sound part 2b overlap.
  • Sound part 2a includes the head part of the announcement sound.
  • Sound part 2e includes the tail part of the announcement sound.
  • the sound portion 2a includes a sound of "Transfer information.
  • the sound portion 2b includes a sound of "B railway line, C railway line.”
  • the sound portion 2c includes a sound of "D railway line, E railway line.”
  • the sound portion 2d includes a sound of "F railway line, G railway line.”
  • the sound portion 2e includes a sound of "Please transfer to H railway line.”
  • the sound output device 1 localizes the sound portions 2a, 2b, 2c, 2d, and 2e at different sound image positions 2A, 2B, 2C, 2D, and 2E, respectively, and reproduces them with at least a partial overlap in time. "Reproducing the sound portions with at least a partial overlap in time” means, for example, that at least a part of each of the sound portion 2a and the sound portion 2b is reproduced simultaneously.
  • this includes a case where reproduction of the sound portion 2b starts before reproduction of the sound portion 2a ends.
  • the user can determine whether the announcement includes information about "Railway Line D" in a shorter time than if the user had to listen to all of the announcement sounds in succession: "Transfer information. Please transfer to Railway Line A, Railway Line B, ..., Railway Line E.”
  • the sound image position for localizing the sound part may be set in consideration of the masking effect.
  • the masking effect is a phenomenon in which some of a plurality of sounds are blocked by other sounds and cannot be heard. In the masking effect, a sound that is blocked and cannot be heard among the plurality of sounds is called a "maskey”. Also, among the plurality of sounds, the blocking sound is called a "masker”.
  • the sound image position may be set in consideration of directional masking.
  • Directional masking is a phenomenon in which the amount of masking is greater when the maskee and masker arrive at the user from the same direction than when the maskee and masker arrive at the user from different directions. The amount of masking is the amount of increase in the hearing threshold of the maskee when the masking effect occurs.
  • the sound output device 1 localizes and reproduces a plurality of sound parts at different sound image positions, thereby reducing the amount of masking. That is, in FIG. 2, the user can distinguish between the sound parts 2a to 2e.
  • sound image positions 2A to 2E may be set at intervals of 45 degrees from the left side of the user to the front and to the right side with the user at the center.
  • the frequency of the masker and maskee is 1 [kHz]
  • the masking amount is reduced by about -18 [dB]. Therefore, when the frequency of the announcement sound is 1 [kHz], the masking amount can be reduced by about -18 [dB] by setting sound image positions 2A to 2E at intervals of 45 degrees as shown in FIG. 2.
  • the setting example of the sound image positions is not limited to the configuration shown in FIG. 2.
  • the sound image positions may be set behind the user, above the user, or below the user.
  • the intervals between the multiple sound image positions and the distance between each sound image position and the user are not limited to specific values.
  • the sound output device 1 may be capable of communicating with the electronic device 3.
  • the electronic device 3 is used by a user who wears the sound output device 1.
  • the electronic device 3 is, for example, a smartphone.
  • Various settings or operations of the sound output device 1 may be possible through the electronic device 3.
  • the sound output device 1 includes a speaker unit 10, a microphone unit 11, an input unit 12, a communication unit 13, a memory unit 14, and a control unit 15.
  • the communication unit 13, the memory unit 14, and the control unit 15 may be housed in either the housing 1L or the housing 1R as shown in FIG. 1, or may be housed in a housing included in the fixing member 1F.
  • the speaker unit 10 is capable of outputting sound.
  • the speaker unit 10 is configured to include a left bone conduction speaker and a right bone conduction speaker.
  • the bone conduction speaker outputs sound to the user by transmitting vibrations to the user's skull.
  • the left bone conduction speaker is housed in the housing 1L.
  • the right bone conduction speaker is housed in the housing 1R.
  • the microphone unit 11 is capable of collecting external sounds around the sound output device 1.
  • the microphone unit 11 includes a left microphone and a right microphone.
  • the left microphone is housed in the housing 1L.
  • the right microphone is housed in the housing 1R.
  • the microphone unit 11 collects external sounds as stereo sounds using the left microphone and the right microphone.
  • the input unit 12 is capable of accepting input from a user.
  • the input unit 12 is configured to include at least one input interface capable of accepting input from a user.
  • the input interface is, for example, a physical key, a capacitance key, an inertial sensor, an optical sensor, or a microphone.
  • the physical key and the capacitance key may be located on the surface of either the housing 1L or the housing 1R.
  • the inertial sensor, the optical sensor, and the microphone may be housed in either the housing 1L or the housing 1R as shown in FIG. 1, or may be housed in a housing included in the fixed member 1F.
  • the input unit 12 is configured to include physical keys or capacitance keys, it accepts user operations on the physical keys or capacitance keys as input from the user.
  • the input unit 12 When the input unit 12 includes an inertial sensor, an optical sensor, or a microphone, it can detect a user's gesture.
  • the gesture When the input unit 12 includes an inertial sensor, the gesture may include a head tilting action.
  • the gesture When the input unit 12 includes an optical sensor, the gesture may include a hand holding action over an optical sensor.
  • the gesture When the input unit 12 includes a microphone, the gesture may include a tapping action on the microphone. The input unit 12 accepts the detected gesture as an input from the user.
  • the communication unit 13 includes at least one communication module capable of communicating with the electronic device 3.
  • the communication module is, for example, a communication module compatible with a short-range wireless communication standard such as Bluetooth (registered trademark).
  • the memory unit 14 is configured to include at least one semiconductor memory, at least one magnetic memory, at least one optical memory, or a combination of at least two of these.
  • the semiconductor memory is, for example, a RAM (Random Access Memory) or a ROM (Read Only Memory).
  • the RAM is, for example, an SRAM (Static Random Access Memory) or a DRAM (Dynamic Random Access Memory).
  • the ROM is, for example, an EEPROM (Electrically Erasable Programmable Read Only Memory).
  • the memory unit 14 may function as a main memory device, an auxiliary memory device, or a cache memory.
  • the memory unit 14 stores data used in the operation of the sound output device 1 and data obtained by the operation of the sound output device 1.
  • the control unit 15 is configured to include at least one processor, at least one dedicated circuit, or a combination of these.
  • the processor is a general-purpose processor such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit), or a dedicated processor specialized for specific processing.
  • the dedicated circuit is, for example, an FPGA (Field-Programmable Gate Array) or an ASIC (Application Specific Integrated Circuit).
  • the control unit 15 executes processing related to the operation of the sound output device 1 while controlling each part of the sound output device 1.
  • the control unit 15 collects external sound around the sound output device 1, i.e., around the user, using the microphone unit 11. As described above, the external sound collected by the microphone unit 11 is stereo sound.
  • the control unit 15 stores the collected stereo sound data in the memory unit 14.
  • the control unit 15 may store stereo sound data from the current time until a predetermined time ago in the memory unit 14.
  • the predetermined time is longer than a set time described below.
  • the predetermined time is, for example, two minutes.
  • the memory unit 14 may include a ring buffer for storing stereo sound data. Stereo sound data from before the predetermined time may be sequentially deleted from the ring buffer.
  • the control unit 15 can receive a first input through the input unit 12.
  • the first input is an input for dividing an external sound from the current time until a set time into multiple sound parts and playing them back.
  • the user inputs the first input through the input unit 12.
  • the set time may be set in advance by the user or in advance according to the specifications of the sound output device 1.
  • the set time is, for example, 30 seconds.
  • the control unit 15 When the control unit 15 receives the first input, it acquires stereo sound data from the current time until the set time from the storage unit 14. For example, in FIG. 2, the control unit 15 acquires data of an announcement sound saying "Transfer information. Please transfer between railway Line A, ... Railway Line D, ... Railway Line H" as stereo sound data from the current time until the set time. The control unit 15 converts the acquired stereo sound data into monaural sound data.
  • the control unit 15 divides the converted monaural sound data into multiple sound parts.
  • the number of multiple sound parts after division may be set based on the length of the set time or the number of sound image positions that are set in advance. For example, in FIG. 2, the control unit 15 divides the announcement sound into five sound parts, namely sound parts 2a to 2e.
  • the control unit 15 may divide the monaural sound data into a plurality of sound parts by dividing the data at equal time intervals.
  • This time interval may be set based on the length of the set time and the number of sound image positions that are set in advance. This time interval is, for example, 6 seconds.
  • the control unit 15 may divide the data into a plurality of sound parts by detecting speech sections from the data of the mono sound.
  • a speech section is a section in which speech continues. Generally, a person pauses speech when he or she reaches a breath or a punctuation mark during speech. The position where the person pauses speech may be set as the division of the speech section. By setting the position where speech pauses as the division of the speech section, the control unit 15 can detect speech sections in units of words that are not divided during speech, excluding silent sections where no speech occurs.
  • control unit 15 may adjust the number of multiple sound parts after division to be the same as the number of sound image positions by treating multiple speech sections that are consecutive in time as one sound section.
  • control unit 15 may adjust the difference in length between the multiple sound parts after division to be within a predetermined range by treating multiple speech sections that are consecutive in time as one sound section.
  • the predetermined range may be, for example, within one second.
  • control unit 15 may execute a voice recognition process on the monaural sound data and divide the monaural sound data into multiple sound parts on a word-by-word basis.
  • the control unit 15 may adjust the number of multiple sound parts after division so that it is the same as the number of sound image positions by combining multiple words that are consecutive in time into one, or may adjust the difference in length between the multiple sound parts after division so that it is within a predetermined range.
  • the control unit 15 may determine the number and arrangement of sound image positions according to the number of multiple sound parts after division. For example, when the announcement sound is divided into five sound parts, namely sound parts 2a to 2e as shown in FIG. 2, the control unit 15 determines that five sound image positions are to be arranged in directions at different angles of 45 degrees from the user.
  • the control unit 15 determines whether or not there are a plurality of sound parts with similar sound frequencies among the plurality of sound parts after division.
  • the plurality of sound parts with similar frequencies are, for example, a plurality of sound parts in which the difference between the lowest frequency and the other frequencies among the plurality of sound parts is equal to or less than a threshold.
  • the plurality of sound parts with similar frequencies may be, for example, a plurality of sound parts in which the difference between the average frequencies of the plurality of sound parts is equal to or less than a threshold.
  • the threshold may be set in consideration of frequency masking. Frequency masking is a phenomenon in which the closer the frequency of the masker and the frequency of the masker are, the greater the amount of masking.
  • the threshold is set, for example, based on the difference between the frequency of the masker and the frequency of the masker when the amount of masking is acceptable.
  • the control unit 15 determines that there are a plurality of sound parts with similar sound frequencies, it makes the frequencies of the plurality of sound parts different, for example, until the amount of masking is reduced to an acceptable amount.
  • the control unit 15 may make the frequency of some sound parts higher or lower than the frequency of other sound parts among the plurality of sound parts with similar sound frequencies. For example, when the frequencies of sound parts 2a to 2e are close as shown in FIG. 2, the control unit 15 may gradually increase or decrease the frequency from sound part 2a to sound part 2e.
  • the masking effect generally makes it harder to hear high-frequency sounds than low-frequency sounds.
  • control unit 15 may increase the amount of change in frequency more than when making it lower. After dividing the sound into multiple sound parts or making the frequencies of the sound different, the control unit 15 may adjust the volume of the multiple sound parts so that each of the multiple sound parts sounds equally to the user.
  • the control unit 15 uses the speaker unit 10 to localize the multiple sound parts at different sound image positions and reproduce them with at least partial overlap in time. For example, the control unit 15 localizes the multiple sound parts at different sound image positions by adjusting the volume output from the left bone conduction speaker of the speaker unit 10 and the volume output from the right bone conduction speaker of the speaker unit 10.
  • the control unit 15 may vary the timing to start reproducing each of the multiple sound parts based on successive masking. Successive masking is a phenomenon in which, when a masker occurs, a masking effect continues from 20 ms before the masker occurs to 100 ms after the masker occurs. For example, in FIG.
  • the control unit 15 may shift the timing to start reproducing each of the sound parts 2a to 2e by 100 ms or more.
  • the control unit 15 may delay the timing to start reproducing by 100 ms from the sound part 2a to the sound part 2e.
  • sound portion 2b starts to be played 100 ms later than sound portion 2a.
  • Sound portion 2c starts to be played 100 ms later than sound portion 2b.
  • Sound portion 2d starts to be played 100 ms later than sound portion 2e.
  • the playback start timings of sound portions 2a to 2e may be each advanced by 100 ms.
  • the control unit 15 may localize two sound parts that are consecutive in time among the multiple sound parts at two adjacent sound image positions among the multiple sound image positions.
  • the two adjacent sound image positions may be two sound image positions that are closest to each other among the multiple sound image positions.
  • the sound image positions that are consecutive in the arrangement direction may be considered to be adjacent sound image positions.
  • the control unit 15 localizes the sound parts 2a and 2b that are consecutive in time at adjacent sound image positions 2A and 2B, respectively, and localizes the sound parts 2b and 2c that are consecutive in time at adjacent sound image positions 2B and 2C, respectively.
  • control unit 15 localizes the sound parts 2c and 2d that are consecutive in time at adjacent sound image positions 2C and 2D, respectively, and localizes the sound parts 2d and 2e that are consecutive in time at adjacent sound image positions 2D and 2E, respectively.
  • the control unit 15 may receive an input from the user via the input unit 12 to select one of the multiple sound parts. For example, by listening to the multiple sound parts that have been played back, the user can confirm that information about "D Railway Line” as shown in FIG. 2 is included in the announcement sound. In this case, the user wants to listen back to the external sound from "D Railway Line”. The user inputs an input from the input unit 12 to select sound part 2c from sound parts 2a to 2e.
  • the input for selecting one of the multiple sound parts may be an input indicating a sound image position.
  • the input for selecting sound part 2c may be an input indicating sound image position 2C.
  • the control unit 15 may receive the input indicating the sound image position by detecting a gesture indicating the sound image position with the input unit 12.
  • the gesture may be the number of times the microphone is tapped. The number of times the microphone is tapped may correspond to, for example, the number of sound image positions from the right side of the user.
  • the input unit 12 is configured to include an inertial sensor, the gesture may be tilting the head toward the sound image position.
  • the electronic device 3 may be used.
  • the control unit 15 transmits information on the sound image position to the electronic device 3 via the communication unit 13.
  • the electronic device 3 displays an image showing the sound image position for the user.
  • the electronic device 3 displays images showing positions 3a, 3b, 3c, 3d, 3e, and 3f.
  • the positions 3a to 3e correspond to the sound image positions 2A to 2e as shown in FIG. 2, respectively.
  • the position 3f corresponds to the user's position.
  • the positions 3a to 3e are labeled with the characters "left,” “left diagonally forward,” “front,” “right diagonally forward,” and “right,” respectively.
  • the user visually checks the screen of the electronic device 3 and touches a position showing the sound image position of the sound part to be selected. For example, if the user wants to select the sound part 2c, the user taps on the position 3c showing the sound image position 2C.
  • the electronic device 3 detects the tap on the position, it transmits a signal showing the sound image position corresponding to the tapped position to the sound output device 1.
  • the control unit 15 receives a signal indicating the sound image position via the communication unit 13, and accepts input indicating the sound image position from the user.
  • control unit 15 When the control unit 15 receives an input to select one of the multiple sound parts, it plays the external sound from the selected sound part through the speaker unit 10. After playing the sound part selected by the user, the control unit 15 may play some or all of the sound parts that follow in time from the multiple sound parts after division to the sound part selected by the user.
  • the sound part that follows in time may be a sound part that continues in the direction in which time advances. For example, it is assumed that sound part 2c as shown in FIG. 2 is selected.
  • control unit 15 plays the external sound from sound part 2c to sound part 2e, that is, the external sound "Please transfer to D Railway Line, E railway Line...H Railway Line.”
  • the control unit 15 may make the playback speed of the external sound from the selected sound part faster than the normal playback speed according to the user input received from the input unit 12.
  • FIG. 4 is a flowchart showing an example of the procedure of a sound output method according to an embodiment of the present disclosure. For example, when the power supply of the sound output device 1 is turned on, the control unit 15 starts the process of step S1.
  • the control unit 15 collects external sounds around the sound output device 1, i.e., around the user, as stereo sounds using the microphone unit 11.
  • the control unit 15 stores data of the external sounds collected as stereo sounds in the storage unit 14 (step S1).
  • the control unit 15 determines whether or not the first input has been received by the input unit 12 (step S2). If the control unit 15 determines that the first input has been received (step S2: YES), the control unit 15 proceeds to the process of step S3. On the other hand, if the control unit 15 does not determine that the first input has been received (step S2: NO), the control unit 15 returns to the process of step S1.
  • step S3 the control unit 15 acquires stereo sound data from the current time to the set time ago from the storage unit 14.
  • the control unit 15 converts the stereo sound data acquired in the process of step S3 into monaural sound data (step S4).
  • the control unit 15 divides the converted monaural sound data into multiple sound parts (step S5).
  • the control unit 15 determines whether or not there are multiple sound parts with similar sound frequencies among the multiple sound parts (step S6).
  • step S6 determines that there are multiple sound parts with similar sound frequencies
  • step S7 the control unit 15 varies the frequencies of the multiple sound parts until the amount of masking is reduced to an acceptable amount.
  • control unit 15 does not determine that there are multiple sound parts with similar sound frequencies (step S6: NO), it proceeds to processing in step S8.
  • control unit 15 adjusts the volume of the multiple sound parts so that each of the multiple sound parts sounds equally to the user.
  • the control unit 15 uses the speaker unit 10 to position the multiple sound parts at different sound image positions and play them with at least partial overlap in time (step S9).
  • the control unit 15 continues playing the multiple sound parts (step S10).
  • the control unit 15 determines whether or not an input to end the playback of multiple sound parts has been received (step S11). If the control unit 15 determines that an input to end the playback of multiple sound parts has been received (step S11: YES), the control unit 15 ends the processing of the sound output method as shown in FIG. 4. If the control unit 15 does not determine that an input to end the playback of multiple sound parts has been received (step S11: NO), the control unit 15 proceeds to the processing of step S12.
  • control unit 15 determines whether or not an input for selecting one of the multiple sound parts has been received by the input unit 12.
  • step S12 determines that an input to select one of the multiple sound parts has been received (step S12: YES)
  • the control unit 15 proceeds to the processing of step S13.
  • step S13 the control unit 15 reproduces the external sound from the selected sound part through the speaker unit 10.
  • step S13 the reproduction of the external sound from the selected sound part is started.
  • the control unit 15 ends the processing of the sound output method as shown in FIG. 4.
  • control unit 15 If the control unit 15 does not determine that an input to select any one of the multiple sound parts has been received (step S12: NO), the control unit 15 returns to the processing of step S10.
  • the control unit 15 may end the playback of the multiple sound parts without receiving an input to end the playback of the multiple sound parts or an input to select any one of the multiple sound parts.
  • the control unit 15 may end the processing of the sound output method as shown in FIG. 4 when a predetermined time has elapsed since executing the processing of step S9. The predetermined time may be set by the user or according to the specifications of the sound output device 1.
  • control unit 15 may resume processing from step S1 at any time.
  • the control unit 15 divides the external sound data into a plurality of sound parts, localizes at least a portion of the plurality of sound parts at different sound image positions, and plays them with at least a partial overlap in time.
  • the control unit 15 localizes the plurality of divided sound parts as at least a portion of the plurality of sound parts at different sound image positions and plays them with at least a partial overlap in time. For example, as shown in FIG. 2, the control unit 15 localizes sound parts 2a to 2e at different sound image positions 2A to 2E, and plays them with at least a partial overlap in time. By localizing the plurality of sound parts at different sound image positions, the user can distinguish between the plurality of sound parts.
  • the control unit 15 plays back multiple sound parts with at least partial overlap in time.
  • the user can check the content of the external sound in a short time. For example, the user can check whether the information "D Railway Line” is included in the announcement sound in a shorter time than if the user were to listen again to the entire announcement sound "Transfer information. Please transfer to A Railway Line, ... D Railway Line, ... H Railway Line.”
  • the control unit 15 plays back multiple sound parts with at least partial overlap in time.
  • this embodiment can provide an improved technique for playing back recorded sound.
  • control unit 15 may vary the timing at which each of the multiple sound parts starts to be played.
  • the control unit 15 may vary the timing at which each of the multiple sound parts starts to be played based on sequential masking. With this configuration, the amount of masking is reduced, and the user can more clearly distinguish each of the multiple sound parts.
  • control unit 15 may play back multiple sound parts with different frequencies. If the control unit 15 determines that there are multiple sound parts with similar sound frequencies, it may play back the multiple sound parts with different frequencies, for example, until the amount of masking is reduced to an acceptable amount. As a result of such processing, the control unit 15 may play back the multiple sound parts with different frequencies from the corresponding parts in the external sound. By playing back the multiple sound parts with different frequencies, the amount of masking is reduced and the user can more clearly distinguish between the multiple sound parts.
  • control unit 15 may localize two temporally consecutive sound parts of the multiple sound parts at two adjacent sound image positions among the multiple sound image positions. For example, in FIG. 2, as described above, the control unit 15 may localize temporally consecutive sound parts 2a and 2b at adjacent sound image positions 2A and 2B, respectively. By localizing two temporally consecutive sound parts at two adjacent sound image positions, the user can grasp the temporal relationship between the sound parts.
  • control unit 15 may play an external sound from a sound portion selected by the user from among the multiple sound portions that have already been played. After playing the sound portion selected by the user, the control unit 15 may play a sound portion that temporally follows the sound portion selected by the user from among the multiple sound portions after division. For example, when sound portion 2c as shown in FIG. 2 is selected, the control unit 15 plays the external sound from sound portion 2c to sound portion 2e, that is, the external sound "Please transfer to Railway Line D, railway Line E...Railway Line H.” With this configuration, the user can check the details of the information he or she needs.
  • control unit 15 may divide the external sound data into multiple sound parts by dividing the data at equal time intervals. By dividing the data at equal time intervals, the multiple sound parts after division can have the same length. By making the multiple sound parts after division have the same length, the user can pay equal attention to each of the multiple sound parts when the multiple sound parts are played back.
  • the control unit 15 may receive a second input via the input unit 12.
  • the second input is an input for rewinding and playing back the external sound, sound portion by sound portion.
  • the control unit 15 may receive the second input multiple times.
  • control unit 15 When the control unit 15 receives the second input for the first time, it acquires stereo sound data from the memory unit 14 from the current time to the set time ago in the same or similar manner as the above-mentioned process. In the same or similar manner as the above-mentioned process, the control unit 15 converts the acquired stereo sound data into monaural sound data and divides the converted monaural sound data into multiple sound parts.
  • the control unit 15 when the control unit 15 receives the second input for the first time, it plays the most recent sound part of the multiple sound parts after division by the speaker unit 10.
  • the most recent sound part includes the tail part of the external sound, which is the monaural sound before division.
  • the multiple sound parts after division include sound parts 2a to 2e as shown in FIG. 2.
  • the control unit 15 plays the most recent sound part 2e of the sound parts 2a to 2e by the speaker unit 10 as shown in FIG. 5.
  • the control unit 15 localizes the sound part 2e at the sound image position 2A.
  • the user listens to the reproduced sound portion and feels that the reproduced sound portion does not contain the information the user wants to check, the user further inputs a second input to the input unit 12.
  • the control unit 15 may accept the second input during the reproduction of the sound portion, or may accept the second input within a predetermined time after the end of the reproduction of the sound portion.
  • the predetermined time may be set in consideration of the convenience of the user.
  • control unit 15 When the control unit 15 next receives the second input, it plays the already played sound part and the sound part preceding the already played sound part by the speaker unit 10. At this time, the control unit 15 localizes the already played sound part and the sound part preceding the already played sound part at different sound image positions, and plays them with at least a partial overlap in time. For example, the control unit 15 accepts the second input during playback of the sound part 2e as shown in FIG. 5 or within a predetermined time after the end of playback of the sound part 2e. In this case, as shown in FIG. 6, the control unit 15 plays the already played sound part 2e and the sound part 2d preceding the sound part 2e in the external sound by the speaker unit 10.
  • the control unit 15 localizes the sound part 2e at the sound image position 2B, and the sound part 2d at the sound image position 2A. In other words, the control unit 15 localizes the oldest sound part 2d in the announcement sound among the sound parts 2d and 2e to be played at the specific sound image position, sound image position 2A. If the user listens to the reproduced sound portion and feels that the reproduced sound portion does not contain the information the user wants to check, the user further inputs a second input to the input unit 12. In the same or similar manner as described above, the control unit 15 may accept the second input during the reproduction of the sound portion, or may accept the second input within a predetermined time after the end of the reproduction of the sound portion.
  • control unit 15 When the control unit 15 further receives a second input, it reproduces the reproduced sound portion and the sound portion of the external sound preceding the reproduced sound portion by the speaker unit 10 in the same or similar manner as the above-mentioned process. For example, after reproducing the sound portions 2e and 2d as shown in FIG. 6, the control unit 15 accepts the second input. In this case, as shown in FIG. 7, the control unit 15 reproduces the reproduced sound portions 2e and 2d and the sound portion 2c preceding the sound portion 2d in the external sound by the speaker unit 10. The control unit 15 localizes the sound portion 2e at the sound image position 2C, the sound portion 2d at the sound image position 2B, and the sound portion 2c at the sound image position 2A. In other words, the control unit 15 localizes the oldest sound portion 2c in the announcement sound among the reproduced sound portions 2c, 2d, and 2e at the specific sound image position, the sound image position 2A.
  • control unit 15 when the control unit 15 receives the second input multiple times, it localizes the same number of sound parts as the number of times the second input was received among the multiple sound parts after division to different sound image positions and plays them with at least partial overlap in time. Also, each time the control unit 15 receives the second input, it plays back the sound parts that have already been played among the multiple sound parts, while adding and playing back a sound part that precedes the sound part that has already been played in the external sound. Among the sound parts that have already been played, the control unit 15 adds and plays back a sound part that precedes the sound part that has already been played the least number of times.
  • control unit 15 plays back the sound portion 2e that has already been played back in the configuration shown in FIG. 5, while also playing back the sound portion 2d that precedes the sound portion 2e that has already been played back.
  • the control unit 15 plays back the sound portions 2d and 2e that have already been played in the configuration shown in FIG. 6, while additionally playing back the sound portion 2c that precedes the played back sound portion 2d.
  • the sound portion 2e has already been played twice in the configuration shown in FIG. 5 and FIG. 6.
  • the sound portion 2d has already been played once in the configuration shown in FIG. 6.
  • the control unit 15 additionally plays back the sound portion 2c that precedes the played back sound portion 2d that has already been played the least number of times, of the played back sound portions 2d and 2e.
  • the control unit 15 may fix the sound image position for localizing the additional sound part to be played back. Furthermore, for a sound part that has already been played back, the control unit 15 may change the sound image position for localizing the sound part according to the number of times it has already been played back. As an example, the control unit 15 may shift the sound image position for localizing the sound part that has already been played back more in a predetermined rotation direction around the user. For example, in Figs. 5 to 7, the control unit 15 fixes the sound image position for localizing the additional sound part to be played back to sound image position 2A. That is, in Fig. 6, the additional sound part 2d to be played back is localized at sound image position 2A, and in Fig.
  • the additional sound part 2c to be played back is localized at sound image position 2A. Furthermore, the control unit 15 shifts the sound image position for localizing the sound part that has already been played back more in a clockwise direction around the user. For example, in the configuration shown in Fig. 6, the sound part 2e has already been played back once in the configuration shown in Fig. 5. In the configuration shown in FIG. 7, sound portion 2e has already been played twice in the configurations shown in FIG. 5 and FIG. 6. Sound image position 2C that localizes sound portion 2e in FIG. 7 is shifted clockwise from sound image position 2A around the user, more so than sound image position 2B that localizes sound portion 2e in FIG. 6.
  • the control unit 15 may adjust the volume of the sound parts so that the more times a sound part has already been played, the lower its volume.
  • the degree to which the volume is lowered may be set taking into consideration the convenience of the user. For example, in the configuration shown in FIG. 7, sound part 2e has already been played twice in the configurations shown in FIG. 5 and FIG. 6, sound part 2d has already been played once in the configuration shown in FIG. 6, and sound part 2c is additionally played.
  • the control unit 15 adjusts the volume of sound parts 2c, 2d, and 2e in that order so that the volume decreases in that order.
  • the volume threshold may be set based on a volume that the user can pay attention to.
  • the divided sound parts include sound part 2a1, "Thank you for using the aaa railway line," in addition to sound parts 2a to 2e.
  • Sound part 2a1 is the sound part that precedes sound part 2a.
  • the volume of sound part 2e falls below the volume threshold as a result of reducing the volume of sound part 2e depending on the number of times it is played. Therefore, the control unit 15 does not play sound part 2e.
  • the control unit 15 may localize the played sound portion and the sound portion preceding the played sound portion at a sound image position according to the temporal order of the played sound portion and the sound portion preceding the played sound portion in the external sound. For example, in the configuration shown in FIG. 8, the older sound portion 2a1 to the newer sound portion 2d in the announcement sound are localized in the order of sound image positions 2A to 2E.
  • control unit 15 may determine whether or not there are multiple sound parts with similar sound frequencies among the multiple sound parts to be played back, in the same or similar manner as the processing described above. If the control unit 15 determines that there are multiple sound parts with similar sound frequencies, it may vary the frequencies of the multiple sound parts until the amount of masking is reduced to an acceptable amount, in the same or similar manner as the processing described above.
  • control unit 15 may vary the timing for starting the playback of each of the multiple sound parts based on sequential masking in the same or similar manner as the above-mentioned process.
  • control unit 15 Even if the control unit 15 receives the second input, if all of the multiple sound parts after division have already been played, the control unit 15 may stop playing the sound parts.
  • the control unit 15 may receive an input from the user via the input unit 12 to select one of the multiple sound portions that have been played back, in the same or similar manner as the above-described process.
  • the control unit 15 may play an external sound from the selected sound portion via the speaker unit 10, in the same or similar manner as the above-described process.
  • FIG. 9 is a flowchart showing an example of the procedure of a sound output method according to another embodiment of the present disclosure. For example, when the power of the sound output device 1 is turned on, the control unit 15 starts the process of step S21.
  • the control unit 15 executes the process of step S21 in the same or similar manner as the process of step S1 shown in FIG. 4.
  • the control unit 15 determines whether or not the second input has been received by the input unit 12 (step S22). If the control unit 15 determines that the second input has been received (step S22: YES), the control unit 15 proceeds to the process of step S23. On the other hand, if the control unit 15 does not determine that the second input has been received (step S22: NO), the control unit 15 returns to the process of step S21.
  • the control unit 15 executes steps S23, S24, S25, S26, and S27 in the same or similar manner as steps S3, S4, S5, S6, and S7 shown in FIG. 4. However, after step S27, the control unit 15 proceeds to step S28. Also, if the control unit 15 does not determine that there are multiple sound parts with similar sound frequencies (step S26: NO), it proceeds to step S28.
  • the control unit 15 adjusts the volume of the sound parts so that the more times a sound part has already been played, the lower its volume (step S28). If there is only one sound part to play, i.e., if the second input is received for the first time, the control unit 15 does not need to execute the process of step S28.
  • the control unit 15 causes the speaker unit 10 to position the multiple sound parts at different sound image positions and play them with at least a partial temporal overlap (step S29).
  • control unit 15 may fix the sound image position for localizing the additional sound portion to be played back, as described above. Furthermore, for a sound portion that has already been played back, the control unit 15 may change the sound image position for localizing the sound portion according to the number of times it has already been played back.
  • step S29 if the volume of the sound part falls below the volume threshold as a result of the process of step S28, the control unit 15 may not play that sound part.
  • the control unit 15 determines whether or not the second input has been received by the input unit 12 (step S30). If the control unit 15 determines that the second input has been received (step S30: YES), the control unit 15 proceeds to the process of step S31. On the other hand, if the control unit 15 does not determine that the second input has been received (step S30: NO), the control unit 15 proceeds to the process of step S32.
  • step S31 the control unit 15 determines whether or not all of the multiple sound parts divided by the process of step S25 have been played. If the control unit 15 determines that all of the multiple sound parts have been played (step S31: YES), the control unit 15 proceeds to the process of step S32. On the other hand, if the control unit 15 does not determine that all of the multiple sound parts have been played (step S31: NO), the control unit 15 proceeds to the process of step S28.
  • the control unit 15 executes the processes of steps S32 and S33 in the same or similar manner as the processes of steps S12 and S13 shown in Fig. 4. However, if the control unit 15 does not determine that an input to select any one of the multiple sound parts has been received (step S32: NO), it ends the process of the sound output method shown in Fig. 9.
  • the control unit 15 localizes, as at least a portion of the multiple sound parts, the same number of multiple sound parts as the number of times the second input was received at different sound image positions and plays them with at least partial overlap in time.
  • the control unit 15 localizes, as at least a portion of the multiple sound parts, the same number of multiple sound parts as the number of times the second input was received at different sound image positions and plays them with at least partial overlap in time.
  • control unit 15 may, each time it receives a second input, play back the sound parts that have already been played back from among the multiple sound parts after division, while adding and playing back the sound parts that precede the sound parts that have already been played back.
  • the user can check the added sound parts while checking the sound parts that have already been played back.
  • control unit 15 may fix the sound image position for localizing the additional sound part to be played back, and may change the sound image position for localizing the sound part for the already played sound part depending on the number of times it has been played back.
  • the control unit 15 may fix the sound image position for localizing the additional sound part to be played back, and may change the sound image position for localizing the sound part for the already played sound part depending on the number of times it has been played back.
  • control unit 15 may adjust the volume of the sound parts that have already been played so that the more times a sound part has been played, the lower its volume becomes. With this configuration, the user can pay attention to sound parts that have been played less frequently.
  • a sound output device includes: A storage unit that stores data of an external sound; a control unit that divides the data of the external sound into a plurality of sound parts, localizes at least a portion of the plurality of sound parts at different sound image positions, and reproduces the sound parts with at least a portion of the sound parts overlapping each other in time; Equipped with.
  • the control unit may vary the timing at which the playback of each of the plurality of sound portions begins.
  • the control unit may reproduce the plurality of sound parts at frequencies different from corresponding parts of the external sound.
  • the control unit may localize two temporally consecutive sound parts of the plurality of sound parts at two adjacent sound image positions of the plurality of sound image positions.
  • the control unit may reproduce the external sound from a sound portion selected by a user from among the plurality of reproduced sound portions.
  • the control unit may play back a sound portion that temporally follows the sound portion selected by the user after playing back the sound portion selected by the user.
  • the control unit may divide the external sound data into the plurality of sound portions by dividing the data at equal time intervals.
  • the control unit may, when receiving a first input, divide data of an external sound from a current time to a set time ago, which is stored in the storage unit, into the plurality of sound portions.
  • the control unit may localize a number of sound parts equal to the number of times the second input has been received at different sound image positions and play the sound parts with at least a partial overlap in time.
  • the control unit may additionally play back, each time the second input is received, a sound portion that has already been played back and a sound portion preceding the already played back sound portion, among the plurality of sound portions.
  • the control unit may fix a sound image position for localizing an additional sound portion to be reproduced, and may change a sound image position for localizing the already reproduced sound portion depending on the number of times the sound portion has already been reproduced.
  • the control unit may localize the reproduced sound portion and the sound portion preceding the reproduced sound portion at a sound image position according to the temporal order of the reproduced sound portion and the sound portion preceding the reproduced sound portion in the external sound.
  • the control unit may adjust the volume of the already-played sound portion such that the more times a sound portion has been played back, the lower its volume becomes.
  • a sound output method includes: storing external sound data; Dividing the data of the external sound into a plurality of sound parts, localizing at least a part of the plurality of sound parts at different sound image positions, and reproducing the sound parts with at least a part of the sound parts overlapping each other in time; including.
  • the program comprises: On the computer, storing external sound data; Dividing the data of the external sound into a plurality of sound parts, localizing at least a part of the plurality of sound parts at different sound image positions, and reproducing the sound parts with at least a part of the sound parts overlapping in time;
  • the method executes an operation including:
  • each functional unit, each means, each step, etc. can be added to other embodiments so as not to be logically inconsistent, or replaced with each functional unit, each means, each step, etc. of other embodiments.
  • multiple functional units, each means, each step, etc. can be combined into one or divided.
  • each of the above-described embodiments of the present disclosure is not limited to being implemented faithfully according to each of the described embodiments, but may be implemented by combining each feature or omitting some features as appropriate.
  • the control unit 15 may receive a second input after receiving a first input. For example, the control unit 15 may proceed to processing of step S22 as shown in FIG. 9 after processing step S9 as shown in FIG. 4. In this case, the control unit 15 does not need to execute any of the steps shown in FIG. 9 whose processing content overlaps with that of FIG. 4. For example, the control unit 15 does not need to execute the processing of steps S23, S24, S25, S26, and S27 as shown in FIG. 9.
  • control unit 15 of the sound output device 1 may execute the process of step S12 while executing step S13 as shown in FIG. 4, i.e., while playing external sound. If the control unit 15 determines that an input to select one of the multiple sound parts has been received (step S12: YES), the control unit 15 may play the external sound from the newly selected sound part through the speaker unit 10. In the same or similar manner as the process of steps S12 and S13, the control unit 15 may execute the process of step S32 while executing step S33 as shown in FIG. 9.
  • a general-purpose computer functions as the sound output device 1 according to the above-described embodiment.
  • a program describing the processing content for realizing each function of the sound output device 1 according to the above-described embodiment is stored in the memory of the general-purpose computer, and the program is read and executed by a processor.
  • the present disclosure can also be realized as a program executable by a processor, or a non-transitory computer-readable medium that stores the program.
  • references such as “first” and “second” are identifiers for distinguishing the configuration.
  • Configurations distinguished by descriptions such as “first” and “second” in this disclosure may have their numbers exchanged.
  • the first input may exchange identifiers “first” and “second” with the second input.
  • the exchange of identifiers is performed simultaneously.
  • the configurations remain distinguished even after the exchange of identifiers.
  • Identifiers may be deleted.
  • a configuration from which an identifier has been deleted is distinguished by a code. Descriptions of identifiers such as “first” and “second” in this disclosure alone should not be used to interpret the order of the configuration or to justify the existence of an identifier with a smaller number.

Abstract

音出力装置は、外部音のデータを記憶する記憶部と、制御部とを備える。制御部は、外部音のデータを複数の音部分に分割し、複数の音部分の少なくとも一部をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する。

Description

音出力装置、音出力方法及びプログラム 関連出願へのクロスリファレンス
 本出願は、2022年10月27日に日本国に特許出願された特願2022-172735の優先権を主張するものであり、この先の出願の開示全体をここに参照のために取り込む。
 本開示は、音出力装置、音出力方法及びプログラムに関する。
 録音した音を再生する技術が知られている。例えば、特許文献1には、運転者からの巻き戻し要求を受けて、音声を巻き戻す音声再生装置が開示されている。
特開2016-119133号公報
 本開示の一実施形態に係る音出力装置は、
 外部音のデータを記憶する記憶部と、
 前記外部音のデータを複数の音部分に分割し、前記複数の音部分の少なくとも一部をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する制御部と、
 を備える。
 本開示の一実施形態に係る音出力方法は、
 外部音のデータを記憶することと、
 前記外部音のデータを複数の音部分に分割し、前記複数の音部分の少なくとも一部をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生することと、
 を含む。
 本開示の一実施形態に係るプログラムは、
 コンピュータに、
 外部音のデータを記憶することと、
 前記外部音のデータを複数の音部分に分割し、前記複数の音部分の少なくとも一部をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生することと、
 を含む動作を実行させる。
本開示の一実施形態に係る音出力装置の概略構成を示す図である。 ユーザに対する音像位置の一例を示す図である。 図1に示す音出力装置のブロック図である。 本開示の一実施形態に係る音出力方法の手順例を示すフローチャートである。 本開示の他の実施形態に係る音部分の再生を説明するための図である。 本開示の他の実施形態に係る音部分の再生を説明するための図である。 本開示の他の実施形態に係る音部分の再生を説明するための図である。 本開示の他の実施形態に係る音部分の再生を説明するための図である。 本開示の他の実施形態に係る音出力方法の手順例を示すフローチャートである。
 録音した音を再生する従来の技術には、改善の余地がある。例えば、ユーザ操作に応じて、再生する音が長すぎたり、短すぎたりしてしまう場合がある。本開示の一実施形態によれば、改善された、録音した音を再生する技術を提供することができる。
 以下、本開示に係る実施形態について、図面を参照して説明する。
 図1に示すような音出力装置1は、ヒアラブルデバイスである。本実施形態では、音出力装置1は、骨伝導イヤホンである。ただし、音出力装置1は、ヒアラブルデバイスであれば、骨伝導イヤホンに限定されない。他の例として、音出力装置1は、耳掛け型イヤホン、首掛け型スピーカ、インナーイヤー型イヤホン、カナル型イヤホン又はヘッドホンであってもよい。音出力装置1は、インナーイヤー型イヤホン又はヘッドホンである場合、外部音の取り込み機能を有してよい。外部音の取り込み機能は、音出力装置1の外部音を集音してユーザに出力する機能である。外部音とは、音出力装置1の外部で発せられる音である。一例として、外部音には、ユーザの周囲で発せられる音が含まれる。外部音には、ユーザ自身が発する音が含まれてよい。
 音出力装置1は、筐体1Lと、筐体1Rと、固定部材1Fとを含む。筐体1Lは、ユーザの左側のこめかみ部分に当てられる。筐体1Rは、ユーザの右側のこめかみ部分に当てられる。固定部材1Fは、筐体1L及び筐体1Rをそれぞれユーザの左側及び右側のこめかみ部分に固定する。固定部材1Fは、ユーザの左耳に掛けられる左用のイヤーフックと、ユーザの右耳に掛けられる右用のイヤーフックと、これらのイヤーフックを接続するバンドとを含む。固定部材1Fは、後述の通信部13等を収容可能な筐体を含んでもよい。
 音出力装置1は、ユーザの頭部に装着される。ユーザは、音出力装置1を頭部に装着した状態で、外部音を聞くことができる。しかしながら、ユーザは、他の物事に注意を向けていると、必要な情報を含む外部音を聞き逃してしまうことがある。例えば、ユーザは、パソコンで書類作成をしていたり、本を読んでいたりすると、必要な情報を含む外部音を聞き逃してしまうことがある。このような場合でも、ユーザは、選択的注意によって、必要な情報を含む外部音を聞き逃したと感じることができる。選択的注意とは、例えば、多様な外部音が存在する環境下において、選択的に特定の情報に注意を向けることである。本実施形態では、ユーザは、必要な情報を含む外部音を聞き逃したと感じた場合、後述の第1入力によって音出力装置1に外部音を再生させることができる。音出力装置1に外部音を再生させることにより、ユーザは、必要な情報が外部音に含まれるか否かを確認することができる。
 例えば、ユーザが電車に乗っているものとする。さらに、電車内に、外部音である「乗り換えのご案内です。A鉄道線、…D鉄道線、…H鉄道線は、お乗り換えください」とのアナウンス音が流れるものとする。また、「D鉄道線」の情報がユーザに必要な情報であるものとする。この場合、ユーザは、「D鉄道線」との外部音を聞き逃したと感じた場合、後述の第1入力によって音出力装置1にアナウンス音を再生させることができる。
 音出力装置1は、外部音を再生する際、外部音のデータを複数の音部分に分割し、複数の音部分をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部を重複させて再生する。音部分とは、所定の長さを有する外部音等の音を、所定の長さを有する複数の部分に分割した一部を意味する。分割後の複数の部分のそれぞれの長さは、同じであってもよいし、異なってもよい。例えば、図2に示すように、音出力装置1は、アナウンス音を音部分2a,2b,2c,2d,2eに分割する。音部分2a~2eは、時間的に連続する。「時間的に連続する」とは、外部音において音部分が互いに隣り合っていることを意味する。「時間的に連続する」は、連続する音部分2a及び音部分2bのうち、音部分2aの後尾部分と音部分2bの先頭部分が重複していることも含んでよい。音部分2aは、アナウンス音の先頭部分を含む。音部分2eは、アナウンス音の後尾部分を含む。音部分2aは、「乗り換えのご案内です。A鉄道線」との音を含む。音部分2bは、「B鉄道線、C鉄道線」との音を含む。音部分2cは、「D鉄道線、E鉄道線」との音を含む。音部分2dは、「F鉄道線、G鉄道線」との音を含む。音部分2eは、「H鉄道線は、お乗り換えください」との音を含む。音出力装置1は、音部分2a,2b,2c,2d,2eをそれぞれ異なる音像位置2A,2B,2C,2D,2Eに定位させ、時間的に少なくとも一部重複させて再生する。「音部分を時間的に少なくとも一部重複させて再生する」とは、例えば、音部分2aと音部分2bのそれぞれの少なくとも一部が同時に再生されることを意味する。例えば、音部分2aの再生が終了する前に、音部分2bの再生を開始する場合を含む。複数の音部分を時間的に重複させて再生されることにより、ユーザは、「乗り換えのご案内です。A鉄道線、B鉄道線…、E鉄道線は、お乗り換えください」とのアナウンス音の全てを連続して聞き返す場合よりも、短い時間でアナウンス音に「D鉄道線」の情報が含まれているか否かを確認することができる。
 音部分を定位させる音像位置は、マスキング効果を考慮して設定されてよい。マスキング効果とは、複数の音のうち、一部の音が他の音によって妨害されて聞こえなくなる現象である。マスキング効果において、複数の音のうち、妨害されて聞こえなくなる音は、「マスキー」と称される。また、複数の音のうち、妨害する音は、「マスカー」と称される。音像位置は、方向性マスキングを考慮して設定されてよい。方向性マスキングとは、マスキーとマスカーとが同じ方向からユーザに到来する場合では、マスキーとマスカーとが異なる方向からユーザに到来する場合よりも、マスキング量が大きくなる現象である。マスキング量とは、マスキング効果が発生するときのマスキーの聴覚閾値の上昇量である。本実施形態では、音出力装置1が複数の音部分をそれぞれ異なる音像位置に定位させて再生することにより、マスキング量を低減させることができる。つまり、図2では、ユーザは、音部分2a~2eをそれぞれ聞き分けることができる。
 音像位置の設定例として、図2に示すように、ユーザを中心としてユーザの左側から前方を経て右側に向けて45度の間隔で音像位置2A~2Eが設定されてよい。マスカーとマスキーの周波数が1[kHz]である場合、マスカーがユーザに到来する方向とマスキーがユーザに到来する方向との差が45度程度であると、マスキング量が-18[dB]程度小さくなることが知られている。そのため、アナウンス音の周波数が1[kHz]である場合は、図2に示すように45度の間隔で音像位置2A~2Eを設定することにより、マスキング量を-18[dB]程度小さくすることができる。ただし、音像位置の設定例は、図2に示す構成に限定されない。他の例として、音像位置は、ユーザの後方に設定されてもよいし、ユーザの上方に設定されてもよいし、下方に設定されてもよい。また、複数の音像位置の間隔及び各音像位置とのユーザとの間の距離は、特定の値に限定されない。
 図3に示すように、音出力装置1は、電子機器3と通信可能であってよい。電子機器3は、音出力装置1を装着するユーザによって使用される。電子機器3は、例えば、スマートホンである。音出力装置1の各種設定又は操作が電子機器3によって可能であってよい。
 図3に示すように、音出力装置1は、スピーカ部10と、マイク部11と、入力部12と、通信部13と、記憶部14と、制御部15とを備える。通信部13、記憶部14及び制御部15は、図1に示すような、筐体1L及び筐体1Rの何れかに収容されてもよいし、固定部材1Fに含まれる筐体に収容されてもよい。
 スピーカ部10は、音を出力可能である。本実施形態では、スピーカ部10は、左用の骨伝導スピーカ及び右用の骨伝導スピーカを含んで構成される。骨伝導スピーカは、ユーザの頭蓋骨に振動を伝達させることにより、音をユーザに対して出力する。左用の骨伝導スピーカは、筐体1Lに収容される。右用の骨伝導スピーカは、筐体1Rに収容される。
 マイク部11は、音出力装置1の周囲の外部音を集音可能である。マイク部11は、左用のマイク及び右用のマイクを含んで構成される。左用のマイクは、筐体1Lに収容される。右用のマイクは、筐体1Rに収容される。マイク部11は、左用のマイク及び右用のマイクによって、外部音をステレオ音として集音する。
 入力部12は、ユーザからの入力を受け付け可能である。入力部12は、ユーザからの入力を受け付け可能な少なくとも1つの入力用インタフェースを含んで構成される。入力用インタフェースは、例えば、物理キー、静電容量キー、慣性センサ、光センサ又はマイク等である。物理キー及び静電容量キーは、筐体1L及び筐体1Rの何れかの表面に位置してよい。慣性センサ、光センサ及びマイクは、図1に示すような、筐体1L及び筐体1Rの何れかに収容されてもよいし、固定部材1Fに含まれる筐体に収容されてもよい。
 入力部12は、物理キー又は静電容量キーを含んで構成される場合、物理キー又は静電容量キーに対するユーザ操作をユーザからの入力として受け付ける。
 入力部12は、慣性センサ、光センサ又はマイクを含んで構成される場合、ユーザのジェスチャーを検出可能である。ジェスチャーは、入力部12が慣性センサを含んで構成される場合、頭部を傾ける動作を含んでよい。ジェスチャーは、入力部12が光センサを含んで構成される場合、光センサに手をかざす動作を含んでよい。ジェスチャーは、入力部12がマイクを含んで構成される場合、マイクをたたく動作を含んでよい。入力部12は、検出したジェスチャーをユーザからの入力として受け付ける。
 通信部13は、電子機器3と通信可能な少なくとも1つの通信モジュールを含んで構成される。通信モジュールは、例えば、Bluetooth(登録商標)等の近距離無線通信規格に対応した通信モジュールである。
 記憶部14は、少なくとも1つの半導体メモリ、少なくとも1つの磁気メモリ、少なくとも1つの光メモリ又はこれらのうちの少なくとも2種類の組み合わせを含んで構成される。半導体メモリは、例えば、RAM(Random Access Memory)又はROM(Read Only Memory)等である。RAMは、例えば、SRAM(Static Random Access Memory)又はDRAM(Dynamic Random Access Memory)等である。ROMは、例えば、EEPROM(Electrically Erasable Programmable Read Only Memory)等である。記憶部14は、主記憶装置、補助記憶装置又はキャッシュメモリとして機能してよい。記憶部14は、音出力装置1の動作に用いられるデータと、音出力装置1の動作によって得られたデータとを記憶する。
 制御部15は、少なくとも1つのプロセッサ、少なくとも1つの専用回路又はこれらの組み合わせを含んで構成される。プロセッサは、CPU(Central Processing Unit)若しくはGPU(Graphics Processing Unit)等の汎用プロセッサ又は特定の処理に特化した専用プロセッサである。専用回路は、例えば、FPGA(Field-Programmable Gate Array)又はASIC(Application Specific Integrated Circuit)等である。制御部15は、音出力装置1の各部を制御しながら、音出力装置1の動作に関わる処理を実行する。
 制御部15は、音出力装置1の周囲すなわちユーザの周囲の外部音をマイク部11によって集音する。マイク部11によって集音される外部音は、上述したように、ステレオ音である。制御部15は、集音したステレオ音のデータを記憶部14に記憶させる。制御部15は、現在時刻から所定時間前までのステレオ音のデータを記憶部14に記憶させてよい。所定時間は、後述の設定時間よりも長い。所定時間は、例えば、2分である。記憶部14は、ステレオ音のデータを記憶するためのリングバッファを含んでもよい。リングバッファからは、所定時間以前のステレオ音のデータが順次削除されてよい。
 制御部15は、第1入力を入力部12によって受け付け得る。第1入力は、現在時刻から設定時間前までの外部音を複数の音部分に分割して再生させるための入力である。ユーザは、必要な情報を含む外部音を聞き逃したこと感じた場合、第1入力を入力部12から入力する。設定時間は、ユーザによって予め設定されてもよいし、音出力装置1の仕様に応じて予め設定されてもよい。設定時間は、例えば、30秒である。
 制御部15は、第1入力を受け付けると、現在時刻から設定時間前までのステレオ音のデータを記憶部14から取得する。例えば、図2では、制御部15は、現在時刻から設定時間前までのステレオ音のデータとして、「乗り換えのご案内です。A鉄道線、…D鉄道線、…H鉄道線は、お乗り換えください」とのアナウンス音のデータを取得する。制御部15は、取得したステレオ音のデータをモノラル音のデータに変換する。
 制御部15は、変換後のモノラル音のデータを複数の音部分に分割する。分割後の複数の音部分の数は、設定時間の長さ又は予め設定される音像位置の数に基づいて設定されてよい。例えば、図2では、制御部15は、アナウンス音を5つの音部分すなわち音部分2a~2eに分割する。
 分割処理の一例として、制御部15は、モノラル音のデータを同じ時間間隔で分割することにより、複数の音部分に分割してもよい。この時間間隔は、設定時間の長さ及び予め設定される音像位置の数に基づいて設定されてよい。この時間間隔は、例えば、6秒である。
 分割処理の他の例として、制御部15は、モノラル音のデータから発話区間を検出することにより、複数の音部分に分割してもよい。発話区間は、発話が続く区間である。一般的に、人間は、発話途中において息継ぎ又は句読点等に到達した際に発話を休止する。このような人間が発話を休止する位置が、発話区間の区切りとされてよい。発話を休止する位置を発話区間の区切りとすることにより、制御部15は、発話の発生しない無音区間を除き、且つ発話途中で分割のない単語単位で発話区間を検出することができる。制御部15は、検出した発話区間の数が予め設定される音像位置の数よりも多い場合、時間的に連続する複数の発話区間を1つ音部分とすることにより、分割後の複数の音部分の数と音像位置の数とが同じになるように調整してもよい。また、制御部15は、時間的に連続する複数の発話区間を1つ音部分とすることにより、分割後の複数の音部分の長さの差が所定範囲内になるように調整してもよい。所定範囲内は、例えば、1秒以内であってよい。
 分割処理のさらに他の例として、制御部15は、モノラル音のデータに対して音声認識処理を実行し、モノラル音のデータを単語単位で複数の音部分に分割してもよい。制御部15は、時間的に連続する複数の単語を1つにまとめることにより、分割後の複数の音部分の数と音像位置の数とが同じになるように調整してもよいし、分割後の複数の音部分の長さの差が所定範囲内になるように調整してもよい。
 制御部15は、分割後の複数の音部分の数に応じて、音像位置の数及び配置を決定してもよい。例えば、制御部15は、アナウンス音を図2のように5つの音部分すなわち音部分2a~2eに分割した場合、音像位置を、ユーザを中心に45度ずつ異なる角度の方向に5つ配置すると決定する。
 複数の音部分に分割すると、制御部15は、分割後の複数の音部分のうちで、音の周波数が近い複数の音部分が存在するか否かを判定する。周波数が近い複数の音部分とは、例えば、複数の音部分のそれぞれの周波数のうち、最も低い周波数と他の周波数との差分が閾値以下となる複数の音部分である。周波数が近い複数の音部分とは、例えば、複数の音部分のそれぞれの平均周波数の差が閾値以下となる複数の音部分であってもよい。閾値は、周波数マスキングを考慮して設定されてよい。周波数マスキングとは、マスカーの周波数とマスキーの周波数が近いほど、マスキング量が増加する現象である。閾値は、例えば、許容可能なマスキング量になるときのマスカーの周波数とマスキーの周波数との差分に基づいて設定される。制御部15は、音の周波数が近い複数の音部分が存在すると判定した場合、例えばマスキング量が許容可能な量に低減するまで、複数の音部分の周波数を異ならせる。制御部15は、音の周波数が近い複数の音部分のうち、一部の音部分の周波数を他の音部分の周波数よりも高くしてもよいし、低くしてもよい。例えば、図2に示すような音部分2a~2eの周波数が近い場合、制御部15は、音部分2aから音部分2eに向けて、徐々に周波数が高くなるようにしてもよいし、周波数が低くなるようにしてもよい。ここで、マスキング効果では、一般的に、低い周波数よりも高い周波数の音の方が聞こえにくくなることが知られている。そこで、制御部15は、一部の音部分の周波数を他の音部分の周波数よりも高くする場合、低くする場合よりも、周波数の変更量を大きくしてよい。複数の音部分に分割した後又は音の周波数を異ならせた後、制御部15は、複数の音部分のそれぞれがユーザに等価に聞こえるように、複数の音部分の音量を調整してよい。
 制御部15は、スピーカ部10によって、複数の音部分をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する。例えば、制御部15は、スピーカ部10の左用の骨伝導スピーカから出力する音量とスピーカ部10の右用の骨伝導スピーカから出力する音量とを調整することにより、複数の音部分をそれぞれ異なる音像位置に定位させる。ここで、制御部15は、継時マスキングに基づいて、複数の音部分のそれぞれの再生を開始するタイミングを異ならせてもよい。継時マスキングとは、マスカーが発生したとき、マスカーの発生前20[ms]からマスカーの発生後100「ms」までマスキング効果が続く現象である。例えば、図2では、制御部15は、音部分2a~2eのそれぞれの再生を開始するタイミングを100「ms」以上ずつずらしてよい。制御部15は、音部分2aから音部分2eに向けて、再生を開始するタイミングが100「ms」ずつ遅くなるようにしてもよい。この場合、音部分2bは、音部分2aに対して、100[ms]遅れたタイミングで再生が開始される。音部分2cは、音部分2bに対して、100[ms]遅れたタイミングで再生が開始される。音部分2dは、音部分2eに対して、100[ms]遅れたタイミングで再生が開始される。音部分2a~2eのそれぞれの再生を開始するタイミングが100「ms」ずつ早くなるようにしてもよい。
 制御部15は、複数の音像位置のうちの隣り合う2つの音像位置に、複数の音部分のうちの時間的に連続する2つの音部分を定位させてもよい。隣り合う2つ音像位置とは、複数の音像位置のうちで、その間の距離が最も近くなる2つの音像位置であってよい。音像位置が所定の法則に従って配置されている場合には、その配置方向において連続する位置の音像位置が、隣り合う音像位置とされてよい。例えば、図2では、制御部15は、時間的に連続する音部分2a,2bをそれぞれ隣り合う音像位置2A,2Bに定位させ、時間的に連続する音部分2b,2cをそれぞれ隣り合う音像位置2B,2Cに定位させる。また、制御部15は、時間的に連続する音部分2c,2dをそれぞれ隣り合う音像位置2C,2Dに定位させ、時間的に連続する音部分2d,2eをそれぞれ隣り合う音像位置2D,2Eに定位させる。
 制御部15は、複数の音部分を再生した後、ユーザから、複数の音部分のうちの何れかを選択する入力を入力部12によって受け付けてよい。例えば、ユーザは、再生された複数の音部分を聞くことにより、図2に示すような「D鉄道線」の情報がアナウンス音に含まれると確認することができる。この場合、ユーザは、「D鉄道線」からの外部音を聞き返したいと考える。ユーザは、音部分2a~2eのうちで音部分2cを選択する入力を入力部12から入力する。
 複数の音部分のうちの何れかを選択する入力は、音像位置を示す入力であってもよい。例えば、音部分2cを選択する入力は、音像位置2Cを示す入力であってもよい。この場合、制御部15は、音像位置を示すジェスチャーを入力部12によって検出することにより、音像位置を示す入力を受け付けてもよい。一例として、ジェスチャーは、入力部12がマイクを含んで構成される場合、マイクをたたく回数であってよい。マイクをたたく回数は、例えば、音像位置がユーザの右側から何番目の音像位置であるかに対応してよい。他の例として、ジェスチャーは、入力部12が慣性センサを含んで構成される場合、音像位置の方へ頭部を傾けることであってよい。
 入力部12の代わりに、電子機器3が用いられてもよい。この場合、制御部15は、音像位置の情報を電子機器3に通信部13によって送信する。電子機器3は、音像位置の情報を受信すると、ユーザに対する音像位置を示す画像を表示する。例えば、図3に示すように、電子機器3は、位置3a,3b,3c,3d,3e,3fを示す画像を表示する。位置3a~3eは、それぞれ、図2に示すような音像位置2A~2eに対応する。位置3fは、ユーザの位置に対応する。位置3a~3eには、それぞれ、「左」、「左斜め前」、「前」、「右斜め前」及び「右」との文字が付されている。ユーザは、電子機器3の画面を視認し、選択したい音部分の音像位置を示す位置をタッチする。例えば、ユーザは、音部分2cを選択したい場合、音像位置2Cを示す位置3cをタップする。電子機器3は、位置に対するタップを検出すると、タップされた位置に対応する音像位置を示す信号を音出力装置1に送信する。制御部15は、音像位置を示す信号を通信部13によって受信することにより、音像位置を示す入力をユーザから受け付ける。
 制御部15は、複数の音部分のうちの何れかを選択する入力を受け付けると、選択された音部分から外部音をスピーカ部10によって再生する。制御部15は、ユーザが選択した音部分を再生した後、分割後の複数の音部分のうち、ユーザが選択した音部分に時間的に後続する一部又は全ての音部分を再生してよい。時間的に後続する音部分とは、時刻が進む方向に続く音部分であってよい。例えば、図2に示すような音部分2cが選択されるものとする。この場合、制御部15は、音部分2cから音部分2eまでの外部音すなわち「D鉄道線、E鉄道線…H鉄道線は、お乗り換えください」との外部音を再生する。制御部15は、入力部12から受け付けるユーザ入力に応じて、選択された音部分からの外部音の再生速度を、通常の再生速度よりも高速にしてもよい。
 図4は、本開示の一実施形態に係る音出力方法の手順例を示すフローチャートである。制御部15は、例えば音出力装置1の電源がオン状態になると、ステップS1の処理を開始する。
 制御部15は、音出力装置1の周囲すなわちユーザの周囲の外部音を、マイク部11によってステレオ音として集音する。制御部15は、ステレオ音として集音した外部音のデータを記憶部14に記憶させる(ステップS1)。
 制御部15は、第1入力を入力部12によって受け付けたか否かを判定する(ステップS2)。制御部15は、第1入力を受け付けたと判定した場合(ステップS2:YES)、ステップS3の処理に進む。一方、制御部15は、第1入力を受け付けたと判定しない場合(ステップS2:NO)、ステップS1の処理に戻る。
 ステップS3の処理では、制御部15は、現在時刻から設定時間前までのステレオ音のデータを記憶部14から取得する。制御部15は、ステップS3の処理で取得したステレオ音のデータをモノラル音のデータに変換する(ステップS4)。制御部15は、変換後のモノラル音のデータを複数の音部分に分割する(ステップS5)。
 制御部15は、複数の音部分のうちで、音の周波数が近い複数の音部分が存在するか否かを判定する(ステップS6)。
 制御部15は、音の周波数が近い複数の音部分が存在すると判定した場合(ステップS6:YES)、ステップS7の処理に進む。ステップS7の処理では、制御部15は、マスキング量が許容可能な量に低減するまで、複数の音部分の周波数を異ならせる。
 制御部15は、音の周波数が近い複数の音部分が存在すると判定しない場合(ステップS6:NO)、ステップS8の処理に進む。
 ステップS8の処理では、制御部15は、複数の音部分のそれぞれがユーザに等価に聞こえるように、複数の音部分の音量を調整する。
 制御部15は、スピーカ部10によって、複数の音部分をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する(ステップS9)。制御部15は、複数の音部分の再生を継続する(ステップS10)。
 制御部15は、複数の音部分の再生を終了する入力を受け付けたか否かを判定する(ステップS11)。制御部15は、複数の音部分の再生を終了する入力を受け付けたと判定した場合(ステップS11:YES)、図4に示すような音出力方法の処理を終了する。制御部15は、複数の音部分の再生を終了する入力を受け付けたと判定しない場合(ステップS11:NO)、ステップS12の処理に進む。
 ステップS12の処理では、制御部15は、複数の音部分のうちの何れかを選択する入力を入力部12によって受け付けたか否かを判定する。
 制御部15は、複数の音部分のうちの何れかを選択する入力を受け付けたと判定した場合(ステップS12:YES)、ステップS13の処理に進む。ステップS13の処理では、制御部15は、選択された音部分から外部音をスピーカ部10によって再生する。このようなステップS13の処理により、選択された音部分から外部音の再生が開始される。ステップS13の処理後、制御部15は、図4に示すような音出力方法の処理を終了する。
 制御部15は、複数の音部分のうちの何れかを選択する入力を受け付けたと判定しない場合(ステップS12:NO)、ステップS10の処理に戻る。ステップS10~S12の処理を繰り返し実行する場合に、制御部15が複数の音部分の再生を終了する入力及び複数の音部分のうちの何れかを選択する入力を受け付けずに、複数の音部分の再生が終了する場合がある。この場合、制御部15は、ステップS9の処理を実行してから所定時間経過したとき、図4に示すような音出力方法の処理を終了してもよい。所定時間は、ユーザによって設定されてもよいし、音出力装置1の仕様に応じて設定されてもよい。
 制御部15は、図4に示すような音出力方法の処理後、任意のタイミングでステップS1からの処理を再開してよい。
 このように音出力装置1では、制御部15は、外部音のデータを複数の音部分に分割し、複数の音部分の少なくとも一部をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する。本実施形態では、制御部15は、複数の音部分の少なくとも一部として、分割後の複数の音部分をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する。例えば、図2に示すように、制御部15は、音部分2a~2eをそれぞれ異なる音像位置2A~2Eに定位させ、時間的に少なくとも一部重複させて再生する。複数の音部分をそれぞれ異なる音像位置に定位させることにより、ユーザは、複数の音部分をそれぞれ聞き分けることができる。
 ここで、比較例として、外部音のデータをユーザが指定した時間だけ巻き戻して再生することを考える。このような比較例では、ユーザが指定した時間が長いと、ユーザは、その時間分の外部音のデータを全て聞き返して必要な情報を探さなければならない。例えば、ユーザは、図2に示すような「D鉄道線」の情報が必要であるものとする。また、ユーザは、「乗り換えのご案内です。A鉄道線、…D鉄道線、…H鉄道線は、お乗り換えください」とのアナウンス音の時間だけ巻き戻すものとする。この場合、ユーザは、「乗り換えのご案内です。A鉄道線、…D鉄道線、…H鉄道線は、お乗り換えください」とのアナウンス音を全て聞き返して「D鉄道線」の情報が含まれるか否かを確認しなければならない。また、ユーザが指定した時間が短いと、ユーザは、必要な情報を見つけるまで、何回も、外部音のデータを巻き戻さなければならない。上記アナウンス音の例では、ユーザは、「D鉄道線」の音が再生されるまで、何回も、アナウンス音を巻き戻さなければならない。
 このような比較例に対し、本実施形態では、制御部15は、複数の音部分を時間的に少なくとも一部重複させて再生する。複数の音部分を時間的に少なくとも一部重複させて再生することにより、ユーザは、外部音の内容を短い時間で確認することができる。例えば、ユーザは、「乗り換えのご案内です。A鉄道線、…D鉄道線、…H鉄道線は、お乗り換えください」とのアナウンス音を全て聞き返す場合よりも、短い時間で「D鉄道線」との情報がアナウンス音に含まれるか否かを確認することができる。また、複数の音部分を時間的に少なくとも一部重複させて再生することにより、比較例のように必要な情報を見つけるまで何回も外部音のデータを巻き戻さなければならないといった事態を回避することができる。
 よって、本実施形態によれば、改善された、録音した音を再生する技術を提供することができる。
 さらに、本実施形態では、制御部15は、複数の音部分のそれぞれの再生を開始するタイミングを異ならせてもよい。制御部15は、継時マスキングに基づいて、複数の音部分のそれぞれの再生を開始するタイミングを異ならせてもよい。このような構成により、マスキング量が低減され、ユーザは、複数の音部分をそれぞれより明確に聞き分けることができる。
 また、本実施形態では、制御部15は、複数の音部分の周波数を異ならせて再生してもよい。制御部15は、音の周波数が近い複数の音部分が存在すると判定した場合、例えばマスキング量が許容可能な量に低減するまで、複数の音部分の周波数を異ならせてもよい。このような処理の結果、制御部15は、複数の音部分の周波数を、外部音において対応する部分とは異ならせて再生し得る。複数の音部分の周波数を異ならせて再生することにより、マスキング量が低減され、ユーザは、複数の音部分をそれぞれより明確に聞き分けることができる。
 また、本実施形態では、制御部15は、複数の音像位置のうちの隣り合う2つの音像位置に、複数の音部分のうちの時間的に連続する2つの音部分を定位させてもよい。例えば、図2では、上述したように、制御部15は、時間的に連続する音部分2a,2bをそれぞれ隣り合う音像位置2A,2Bに定位させる等してよい。時間的に連続する2つの音部分が隣り合う2つの音像位置に定位されることにより、ユーザは、音部分の時間的な前後関係を把握することができる。
 また、本実施形態では、制御部15は、再生済みの複数の音部分のうち、ユーザが選択した音部分から外部音を再生してもよい。制御部15は、ユーザが選択した音部分を再生した後、分割後の複数の音部分のうち、ユーザが選択した音部分に時間的に後続する音部分を再生してもよい。例えば、図2に示すような音部分2cが選択された場合、制御部15は、音部分2cから音部分2eまでの外部音すなわち「D鉄道線、E鉄道線…H鉄道線は、お乗り換えください」との外部音を再生する。このような構成により、ユーザは、必要とする情報の詳細を確認することができる。
 また、本実施形態では、制御部15は、外部音のデータを分割する際、外部音のデータを同じ時間間隔で分割することにより、複数の音部分に分割してもよい。同じ時間間隔で分割することにより、分割後の複数の音部分の長さを同じにすることができる。分割後の複数の音部分の長さを同じにすることにより、ユーザは、複数の音部分が再生されるとき、複数の音部分のそれぞれに対して同等に注意を払うことができる。
 (他の実施形態)
 制御部15は、第2入力を入力部12によって受け付けてもよい。第2入力は、外部音を音部分ずつ巻き戻して再生させるための入力である。制御部15は、第2入力を複数回受け付けてもよい。
 制御部15は、第2入力を最初に受け付けた場合、上述した処理と同じ又は類似に、現在時刻から設定時間前までのステレオ音のデータを記憶部14から取得する。上述した処理と同じ又は類似に、制御部15は、取得したステレオ音のデータをモノラル音のデータに変換し、変換後のモノラル音のデータを複数の音部分に分割する。ここで、制御部15は、第2入力を最初に受け付けた場合、分割後の複数の音部分のうち、直近の音部分をスピーカ部10によって再生する。直近の音部分は、分割前のモノラル音である外部音の後尾部分を含む。例えば、分割後の複数の音部分は、図2に示すような音部分2a~2eを含むものとする。この場合、第2入力を最初に受け付けたことにより、図5に示すように、制御部15は、音部分2a~2eのうち、直近の音部分2eをスピーカ部10によって再生する。制御部15は、音部分2eを音像位置2Aに定位させる。ユーザは、再生される音部分を聞き、再生された音部分に確認したい情報が含まれないと思った場合、第2入力をさらに入力部12に入力する。制御部15は、第2入力を音部分の再生中に受け付けてもよいし、音部分の再生終了後から所定時間以内に受け付けてもよい。所定時間は、ユーザの利便性を考慮して設定されてよい。
 制御部15は、第2入力を次に受け付けた場合、再生済みの音部分と、再生済みの音部分に先行する音部分とをスピーカ部10によって再生する。この際、制御部15は、再生済みの音部分と、再生済みの音部分に先行する音部分とをそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する。例えば、図5に示すような音部分2eの再生中又は音部分2eの再生終了後の所定時間以内に、制御部15は、第2入力を受け付けるものとする。この場合、図6に示すように、制御部15は、再生済みの音部分2eと、外部音において音部分2eに先行する音部分2dとをスピーカ部10によって再生する。制御部15は、音部分2eを音像位置2Bに定位させ、音部分2dを音像位置2Aに定位させる。つまり、制御部15は、再生する音部分2d,2eのうち、アナウンス音において最も古い音部分2dを特定の音像位置である音像位置2Aに定位させる。ユーザは、再生される音部分を聞き、再生された音部分に確認したい情報が含まれないと思った場合、第2入力をさらに入力部12に入力する。上述と同じ又は類似に、制御部15は、第2入力を音部分の再生中に受け付けてもよいし、音部分の再生終了後から所定時間以内に受け付けてもよい。
 制御部15は、第2入力をさらに受け付けた場合、上述した処理と同じ又は類似に、再生済みの音部分と、外部音において再生済みの音部分に先行する音部分とをスピーカ部10によって再生する。例えば、図6に示すように音部分2e,2dを再生した後、制御部15は、第2入力を受け付けるものとする。この場合、図7に示すように、制御部15は、再生済みの音部分2e,2dと、外部音において音部分2dに先行する音部分2cとをスピーカ部10によって再生する。制御部15は、音部分2eを音像位置2Cに定位させ、音部分2dを音像位置2Bに定位させ、音部分2cを音像位置2Aに定位させる。つまり、制御部15は、再生する音部分2c,2d,2eのうち、アナウンス音において最も古い音部分2cを特定の音像位置である音像位置2Aに定位させる。
 このように、制御部15は、第2入力を複数回受け付けた場合、分割後の複数の音部分のうち、第2入力を受け付けた回数と同じ数の複数の音部分をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する。また、制御部15は、第2入力を受け付ける毎に、複数の音部分のうち、再生済みの音部分を再生しつつ、外部音において再生済みの音部分に先行する音部分を追加して再生する。制御部15は、再生済みの音部分のうち、既に再生した回数が最も少ない再生済みの音部分に先行する音部分を追加して再生する。
 例えば、図6では、制御部15は、図5に示す構成にて再生済みの音部分2eを再生しつつ、再生済みの音部分2eに先行する音部分2dを追加して再生する。
 例えば、図7では、制御部15は、図6に示す構成にて再生済みの音部分2d,2eを再生しつつ、再生済みの音部分2dに先行する音部分2cを追加して再生する。ここで、図7では、音部分2eは、図5及び図6に示す構成にて既に2回再生されている。また、音部分2dは、図6に示す構成にて既に1回再生されている。つまり、図7では、再生済みの音部分2d,2eのうち、音部分2dの方が音部分2eよりも既に再生された回数が少ない。そのため、図7では、制御部15は、再生済みの音部分2d,2eのうち、既に再生した回数が最も少ない再生済みの音部分2dに先行する音部分2cを追加して再生する。
 制御部15は、複数の音部分を再生する場合、追加して再生する音部分を定位させる音像位置を固定してもよい。さらに、制御部15は、再生済みの音部分については、既に再生した回数に応じて音部分を定位させる音像位置を変えてもよい。一例として、制御部15は、既に再生した回数が多い音部分を定位させる音像位置ほど、ユーザを中心に所定の回転方向にシフトするようにしてもよい。例えば、図5~図7では、制御部15は、追加して再生する音部分を定位させる音像位置を音像位置2Aに固定している。つまり、図6では、追加して再生する音部分2dを音像位置2Aに定位させ、図7では、追加して再生する音部分2cを音像位置2Aに定位させている。さらに、制御部15は、既に再生した回数が多い音部分を定位させる音像位置ほど、ユーザを中心に右回りにシフトするようにしている。例えば、図6に示す構成では、音部分2eは、図5に示す構成において既に1回再生されている。図7に示す構成では、音部分2eは、図5及び図6に示す構成において既に2回再生されている。図7において音部分2eを定位させる音像位置2Cは、図6において音部分2eを定位させる音像位置2Bよりも、音像位置2Aからユーザを中心に右回りにシフトしている。
 制御部15は、複数の音部分を再生する場合、既に再生した回数が多い音部分ほど、その音量が小さくなるように、音部分の音量を調整してもよい。音量を小さくする度合いは、ユーザの利便性を考慮して設定されてよい。例えば、図7に示す構成では、音部分2eが図5及び図6に示す構成において既に2回再生され、音部分2dが図6に示す構成において既に1回再生され、音部分2cが追加されて再生される。制御部15は、音部分2c,2d,2eの順に音量が小さくなるように調整する。
 制御部15は、再生した回数に応じて音部分の音量を小さくしていった結果、その音部分の音量が音量閾値を下回った場合、その音部分を再生しなくてもよい。音量閾値は、ユーザが注意を払うことができる音量に基づいて設定されてよい。例えば、図8に示す構成では、分割後の音部分は、音部分2a~2eに加えて、「aaa鉄道線をご利用いただき、ありがとうございます」との音部分2a1を含む。音部分2a1は、音部分2aに先行する音部分である。図8では、再生した回数に応じて音部分2eの音量を小さくしていった結果、音部分2eの音量が音量閾値を下回る。そのため、制御部15は、音部分2eを再生していない。
 制御部15は、外部音における、再生済みの音部分及び再生済みの音部分に先行する音部分の時間的な順序に応じた音像位置に、再生済みの音部分及び再生済みの音部分に先行する音部分を定位させてもよい。例えば、図8に示す構成では、音像位置2A~2Eの順に、アナウンス音において古い音部分2a1から新しい音部分2dが定位される。
 制御部15は、複数の音部分を再生する場合、再生する複数の音部分のうちで、上述した処理と同じ又は類似に、音の周波数が近い複数の音部分が存在するか否かを判定してもよい。上述した処理と同じ又は類似に、制御部15は、音の周波数が近い複数の音部分が存在すると判定した場合、マスキング量が許容可能な量に低減するまで、複数の音部分の周波数を異ならせてよい。
 制御部15は、複数の音部分を再生する場合、上述した処理と同じ又は類似に、継時マスキングに基づいて、複数の音部分のそれぞれの再生を開始するタイミングを異ならせてもよい。
 制御部15は、第2入力を受け付けた場合であっても、分割後の複数の音部分の全てが再生済みである場合、音部分の再生を停止してもよい。
 制御部15は、上述した処理と同じ又は類似に、ユーザから、再生済みの複数の音部分のうちの何れかを選択する入力を入力部12によって受け付けてよい。上述した処理と同じ又は類似に、制御部15は、再生済みの複数の音部分のうちの何れかを選択する入力を受け付けると、選択された音部分から外部音をスピーカ部10によって再生してよい。
 図9は、本開示の他の実施形態に係る音出力方法の手順例を示すフローチャートである。制御部15は、例えば音出力装置1の電源がオン状態になると、ステップS21の処理を開始する。
 制御部15は、図4に示すようなステップS1の処理と同じ又は類似に、ステップS21の処理を実行する。
 制御部15は、第2入力を入力部12によって受け付けたか否かを判定する(ステップS22)。制御部15は、第2入力を受け付けたと判定した場合(ステップS22:YES)、ステップS23の処理に進む。一方、制御部15は、第2入力を受け付けたと判定しない場合(ステップS22:NO)、ステップS21の処理に戻る。
 制御部15は、図4に示すようなステップS3,S4,S5,S6,S7の処理と同じ又は類似に、ステップS23,S24,S25,S26,S27の処理を実行する。ただし、制御部15は、ステップS27の処理後、ステップS28の処理に進む。また、制御部15は、音の周波数が近い複数の音部分が存在すると判定しない場合(ステップS26:NO)、ステップS28の処理に進む。
 制御部15は、既に再生した回数が多い音部分ほど、その音量が小さくなるように、音部分の音量を調整する(ステップS28)。制御部15は、再生する音部分の数が1個である場合すなわち第2入力を最初に受け付けた場合、ステップS28の処理を実行しなくてもよい。
 制御部15は、スピーカ部10によって、複数の音部分をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する(ステップS29)。
 ステップS29の処理では、制御部15は、上述したように、追加して再生する音部分を定位させる音像位置を固定してもよい。さらに、制御部15は、再生済みの音部分については、既に再生した回数に応じて音部分を定位させる音像位置を変えてもよい。
 ステップS29の処理では、制御部15は、ステップS28の処理の結果、その音部分の音量が音量閾値を下回った場合、その音部分を再生しなくてもよい。
 制御部15は、第2入力を入力部12によって受け付けたか否かを判定する(ステップS30)。制御部15は、第2入力を受け付けたと判定した場合(ステップS30:YES)、ステップS31の処理に進む。一方、制御部15は、第2入力を受け付けたと判定しない場合(ステップS30:NO)、ステップS32の処理に進む。
 ステップS31の処理では、制御部15は、ステップS25の処理によって分割された複数の音部分の全てが再生済みであるか否かを判定する。制御部15は、複数の音部分の全てが再生済みであると判定した場合(ステップS31:YES)、ステップS32の処理に進む。一方、制御部15は、複数の音部分の全てが再生済みであると判定しない場合(ステップS31:NO)、ステップS28の処理に進む。
 制御部15は、図4に示すようなステップS12,S13の処理と同じ又は類似に、ステップS32,33の処理を実行する。ただし、制御部15は、複数の音部分のうちの何れかを選択する入力を受け付けたと判定しない場合(ステップS32:NO)、図9に示すような音出力方法の処理を終了する。
 このように他の実施形態に係る音出力装置1では、制御部15は、複数の音部分の少なくとも一部として、第2入力を受け付けた回数と同じ数の複数の音部分をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する。上述した実施形態と同じ又は類似に、複数の音部分をそれぞれ異なる音像位置に定位させることにより、ユーザは、複数の音部分をそれぞれ聞き分けることができる。上述した実施形態と同じ又は類似に、複数の音部分を時間的に少なくとも一部重複させて再生することにより、ユーザは、外部音の内容を短い時間で確認することができる。
 さらに、他の実施形態では、制御部15は、第2入力を受け付ける毎に、分割後の複数の音部分のうち、再生済みの音部分を再生しつつ、再生済みの音部分に先行する音部分を追加して再生してもよい。このような構成により、ユーザは、再生済みの音部分を確認しつつ、追加された音部分を確認することができる。
 また、他の実施形態では、制御部15は、追加して再生する音部分を定位させる音像位置を固定し、再生済みの音部分については、既に再生した回数に応じて音部分を定位させる音像位置を変えてもよい。追加して再生する音部分を定位させる音像位置を固定することにより、ユーザは、追加された音部分すなわち新たに再生される音部分が到来する方向を把握することができる。また、再生済みの音部分について既に再生した回数に応じて音部分を定位させる音像位置を変えることにより、ユーザは、音部分が到来する方向によって、何回目に再生された音部分であるかを把握することができる。
 また、他の実施形態では、制御部15は、再生済みの音部分について、既に再生した回数が多い音部分ほど、その音量が小さくなるように音部分の音量を調整してもよい。このような構成により、ユーザは、再生された回数が少ない音部分に注意を払うことができる。
 他の実施形態に係る音出力装置1の構成及び効果は、上述した実施形態と同じ又は類似である。
 一実施形態において、(1)音出力装置は、
 外部音のデータを記憶する記憶部と、
 前記外部音のデータを複数の音部分に分割し、前記複数の音部分の少なくとも一部をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する制御部と、
 を備える。
 (2)上記(1)の音出力装置では、
 前記制御部は、前記複数の音部分のそれぞれの再生を開始するタイミングを異ならせてもよい。
 (3)上記(1)又は(2)に記載の音出力装置では、
 前記制御部は、前記複数の音部分の周波数を、前記外部音において対応する部分と異ならせて再生してもよい。
 (4)上記(1)から(3)までの何れか1つに記載の音出力装置では、
 前記制御部は、前記複数の音像位置のうちの隣り合う2つの音像位置に、前記複数の音部分のうちの時間的に連続する2つの音部分を定位させてもよい。
 (5)上記(1)から(4)までの何れか1つに記載の音出力装置では、
 前記制御部は、再生済みの前記複数の音部分のうち、ユーザが選択した音部分から前記外部音を再生してもよい。
 (6)上記(1)から(5)までの何れか1つに記載の音出力装置では、
 前記制御部は、前記ユーザが選択した音部分を再生した後、前記ユーザが選択した音部分に時間的に後続する音部分を再生してもよい。
 (7)上記(1)から(6)までの何れか1つに記載の音出力装置では、
 前記制御部は、前記外部音のデータを同じ時間間隔で分割することにより、前記複数の音部分に分割してもよい。
 (8)上記(1)から(7)までの何れか1つに記載の音出力装置では、
 前記制御部は、第1入力を受け付けると、前記記憶部に記憶された現在時刻から設定時間前までの外部音のデータを前記複数の音部分に分割してもよい。
 (9)上記(1)から(8)までの何れか1つに記載の音出力装置では、
 前記制御部は、第2入力を受け付けた回数と同じ数の複数の音部分をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生してもよい。
 (10)上記(1)から(9)までの何れか1つに記載の音出力装置では、
 前記制御部は、前記第2入力を受け付ける毎に、前記複数の音部分のうち、再生済みの音部分及び前記再生済みの音部分に先行する音部分を追加して再生してもよい。
 (11)上記(1)から(10)までの何れか1つに記載の音出力装置では、
 前記制御部は、追加して再生する音部分を定位させる音像位置を固定し、前記再生済みの音部分については、既に再生した回数に応じて定位させる音像位置を変えてもよい。
 (12)上記(1)から(11)までの何れか1つに記載の音出力装置では、
 前記制御部は、前記外部音における、再生済みの音部分及び前記再生済みの音部分に先行する音部分の時間的な順序に応じた音像位置に、再生済みの音部分及び前記再生済みの音部分に先行する音部分を定位させてもよい。
 (13)上記(1)から(12)までの何れか1つに記載の音出力装置では、
 前記制御部は、前記再生済みの音部分について、既に再生した回数が多い音部分ほど、その音量が小さくなるように音部分の音量を調整してもよい。
 一実施形態において、(14)音出力方法は、
 外部音のデータを記憶することと、
 前記外部音のデータを複数の音部分に分割し、前記複数の音部分の少なくとも一部をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生することと、
 を含む。
 一実施形態において、(15)プログラムは、
 コンピュータに、
 外部音のデータを記憶することと、
 前記外部音のデータを複数の音部分に分割し、前記複数の音部分の少なくとも一部をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生することと、
 を含む動作を実行させる。
 本開示を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は修正を行うことが容易であることに注意されたい。したがって、これらの変形又は修正は本開示の範囲に含まれることに留意されたい。例えば、各機能部に含まれる機能等は論理的に矛盾しないように再配置可能である。複数の機能部等は、1つに組み合わせられたり、分割されたりしてよい。上述した本開示に係る各実施形態は、それぞれ説明した各実施形態に忠実に実施することに限定されるものではなく、適宜、各特徴を組み合わせたり、一部を省略したりして実施され得る。つまり、本開示の内容は、当業者であれば本開示に基づき種々の変形及び修正を行うことができる。したがって、これらの変形及び修正は本開示の範囲に含まれる。例えば、各実施形態において、各機能部、各手段又は各ステップ等は論理的に矛盾しないように他の実施形態に追加し、若しくは、他の実施形態の各機能部、各手段又は各ステップ等と置き換えることが可能である。また、各実施形態において、複数の各機能部、各手段又は各ステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。また、上述した本開示の各実施形態は、それぞれ説明した各実施形態に忠実に実施することに限定されるものではなく、適宜、各特徴を組み合わせたり、一部を省略したりして実施することもできる。
 例えば、音出力装置1では、制御部15は、第1入力を受け付けた後、第2入力を受け付けてもよい。例えば、制御部15は、図4に示すようなステップS9の処理後、図9に示すようなステップS22の処理に進んでもよい。この場合、制御部15は、図9に示すステップのうち、図4と処理内容が重複するステップについては、実行しなくてよい。例えば、制御部15は、図9に示すようなステップS23,S24,S25,S26,S27の処理を実行しなくてもよい。
 例えば、音出力装置1の制御部15は、図4に示すようなステップS13の実行中すなわち外部音の再生中、ステップS12の処理を実行してもよい。制御部15は、複数の音部分のうちの何れかを選択する入力を受け付けたと判定した場合(ステップS12:YES)、新たに選択された音部分から外部音をスピーカ部10によって再生してよい。ステップS12,13の処理と同じ又は類似に、制御部15は、図9に示すようなステップS33の実行中、ステップS32に処理を実行してもよい。
 例えば、汎用のコンピュータを、上述した実施形態に係る音出力装置1として機能させる実施形態も可能である。具体的には、上述した実施形態に係る音出力装置1の各機能を実現する処理内容を記述したプログラムを、汎用のコンピュータのメモリに格納し、プロセッサによって当該プログラムを読み出して実行させる。したがって、本開示は、プロセッサが実行可能なプログラム、又は、当該プログラムを記憶する非一時的なコンピュータ可読媒体としても実現可能である。
 本開示において「第1」及び「第2」等の記載は、当該構成を区別するための識別子である。本開示における「第1」及び「第2」等の記載で区別された構成は、当該構成における番号を交換することができる。例えば、第1入力は、第2入力と識別子である「第1」と「第2」とを交換することができる。識別子の交換は同時に行われる。識別子の交換後も当該構成は区別される。識別子は削除してよい。識別子を削除した構成は、符号で区別される。本開示における「第1」及び「第2」等の識別子の記載のみに基づいて、当該構成の順序の解釈、小さい番号の識別子が存在することの根拠に利用してはならない。
 1 音出力装置
 1F 固定部材
 1L,1R 筐体
 2A,2B,2C,2D,2E 音像位置
 2a,2a1,2b,2c,2d,2e, 音部分
 3 電子機器
 3a,3b,3c,3d,3e 位置
 10 スピーカ部
 11 マイク部
 12 入力部
 13 通信部
 14 記憶部
 15 制御部

Claims (15)

  1.  外部音のデータを記憶する記憶部と、
     前記外部音のデータを複数の音部分に分割し、前記複数の音部分の少なくとも一部をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する制御部と、
     を備える、音出力装置。
  2.  前記制御部は、前記複数の音部分のそれぞれの再生を開始するタイミングを異ならせる、請求項1に記載の音出力装置。
  3.  前記制御部は、前記複数の音部分の周波数を、前記外部音において対応する部分と異ならせて再生する、請求項1に記載の音出力装置。
  4.  前記制御部は、前記複数の音像位置のうちの隣り合う2つの音像位置に、前記複数の音部分のうちの時間的に連続する2つの音部分を定位させる、請求項1に記載の音出力装置。
  5.  前記制御部は、再生済みの前記複数の音部分のうち、ユーザが選択した音部分から前記外部音を再生する、請求項1に記載の音出力装置。
  6.  前記制御部は、前記ユーザが選択した音部分を再生した後、前記ユーザが選択した音部分に時間的に後続する音部分を再生する、請求項5に記載の音出力装置。
  7.  前記制御部は、前記外部音のデータを同じ時間間隔で分割することにより、前記複数の音部分に分割する、請求項1に記載の音出力装置。
  8.  前記制御部は、第1入力を受け付けると、前記記憶部に記憶された現在時刻から設定時間前までの外部音のデータを前記複数の音部分に分割する、請求項1から7までの何れか一項に記載の音出力装置。
  9.  前記制御部は、第2入力を受け付けた回数と同じ数の複数の音部分をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生する、請求項1から7までの何れか一項に記載の音出力装置。
  10.  前記制御部は、前記第2入力を受け付ける毎に、前記複数の音部分のうち、再生済みの音部分及び前記再生済みの音部分に先行する音部分を追加して再生する、請求項9に記載の音出力装置。
  11.  前記制御部は、追加して再生する音部分を定位させる音像位置を固定し、前記再生済みの音部分については、既に再生した回数に応じて定位させる音像位置を変える、請求項10に記載の音出力装置。
  12.  前記制御部は、前記外部音における、再生済みの音部分及び前記再生済みの音部分に先行する音部分の時間的な順序に応じた音像位置に、再生済みの音部分及び前記再生済みの音部分に先行する音部分を定位させる、請求項9に記載の音出力装置。
  13.  前記制御部は、前記再生済みの音部分について、既に再生した回数が多い音部分ほど、その音量が小さくなるように音部分の音量を調整する、請求項10に記載の音出力装置。
  14.  外部音のデータを記憶することと、
     前記外部音のデータを複数の音部分に分割し、前記複数の音部分の少なくとも一部をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生することと、
     を含む、音出力方法。
  15.  コンピュータに、
     外部音のデータを記憶することと、
     前記外部音のデータを複数の音部分に分割し、前記複数の音部分の少なくとも一部をそれぞれ異なる音像位置に定位させ、時間的に少なくとも一部重複させて再生することと、
     を含む動作を実行させる、プログラム。
PCT/JP2023/037722 2022-10-27 2023-10-18 音出力装置、音出力方法及びプログラム WO2024090309A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022172735 2022-10-27
JP2022-172735 2022-10-27

Publications (1)

Publication Number Publication Date
WO2024090309A1 true WO2024090309A1 (ja) 2024-05-02

Family

ID=90830813

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/037722 WO2024090309A1 (ja) 2022-10-27 2023-10-18 音出力装置、音出力方法及びプログラム

Country Status (1)

Country Link
WO (1) WO2024090309A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016109832A (ja) * 2014-12-05 2016-06-20 三菱電機株式会社 音声合成装置および音声合成方法
WO2019087646A1 (ja) * 2017-11-01 2019-05-09 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016109832A (ja) * 2014-12-05 2016-06-20 三菱電機株式会社 音声合成装置および音声合成方法
WO2019087646A1 (ja) * 2017-11-01 2019-05-09 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
EP3424229B1 (en) Systems and methods for spatial audio adjustment
JP4612728B2 (ja) 音声出力装置、及び音声処理システム
CN102026082B (zh) 用于发声装置的声道自适应方法和装置
JP5499633B2 (ja) 再生装置、ヘッドホン及び再生方法
EP2430753B1 (en) A method and apparatus for providing information about the source of a sound via an audio device
JP6781898B2 (ja) 音出力装置及び携帯装置
US20090252355A1 (en) Targeted sound detection and generation for audio headset
KR102369589B1 (ko) 이어셋, 이어셋 시스템 및 그 제어방법
JP2009152666A (ja) 音響出力制御装置、音響再生装置および音響出力制御方法
JP2006279548A (ja) 車載用スピーカシステム及びオーディオ装置
KR20150003528A (ko) 머리 움직임을 이용한 사용자 인터페이스 방법 및 장치
KR20140077097A (ko) 안경 장치 및 이의 제어 방법, 오디오 장치 및 이의 오디오 신호 제공 방법, 그리고 디스플레이 장치
JP4764711B2 (ja) 音声データ再生方法およびプログラム
JP4493530B2 (ja) 車載音響処理装置、および、ナビゲーション装置
JP2003037886A (ja) ヘッドホン装置
JP2007036610A (ja) 発音装置
WO2024090309A1 (ja) 音出力装置、音出力方法及びプログラム
WO2016140058A1 (ja) 音声信号再生装置、音声信号再生方法、プログラム、および記録媒体
US20050100180A1 (en) Audio system, audio apparatus, and method for performing audio signal output processing
US9806753B2 (en) Navigation method using wearable device in vehicle and vehicle carrying out the same
JP6904255B2 (ja) 情報処理システム及びプログラム
JP2002281599A (ja) マルチチャンネルオーディオ再生装置
CN110809219A (zh) 播放音频的方法、装置、设备及存储介质
WO2016009850A1 (ja) 音声信号再生装置、音声信号再生方法、プログラム、および、記録媒体
JP2008207768A (ja) 車載用音響装置及び車載用音響装置の制御方法