WO2017068858A1 - 情報処理装置、情報処理システム及びプログラム - Google Patents
情報処理装置、情報処理システム及びプログラム Download PDFInfo
- Publication number
- WO2017068858A1 WO2017068858A1 PCT/JP2016/074784 JP2016074784W WO2017068858A1 WO 2017068858 A1 WO2017068858 A1 WO 2017068858A1 JP 2016074784 W JP2016074784 W JP 2016074784W WO 2017068858 A1 WO2017068858 A1 WO 2017068858A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- unit
- audio
- voice
- information processing
- time
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 123
- 238000012545 processing Methods 0.000 claims abstract description 165
- 230000006870 function Effects 0.000 claims description 64
- 238000000034 method Methods 0.000 claims description 55
- 230000005540 biological transmission Effects 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 41
- 230000015572 biosynthetic process Effects 0.000 claims description 39
- 238000003786 synthesis reaction Methods 0.000 claims description 39
- 238000004458 analytical method Methods 0.000 claims description 36
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 2
- 238000003860 storage Methods 0.000 description 54
- 238000004364 calculation method Methods 0.000 description 16
- 230000005236 sound signal Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 230000001629 suppression Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000008929 regeneration Effects 0.000 description 8
- 238000011069 regeneration method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000004904 shortening Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 239000012141 concentrate Substances 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 101100001678 Emericella variicolor andM gene Proteins 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241000956207 Picola Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 210000003454 tympanic membrane Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/002—Programmed access in sequence to a plurality of record carriers or indexed parts, e.g. tracks, thereof, e.g. for editing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/005—Reproducing at a different information rate from the information rate of recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/34—Indicating arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/238—Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
- H04N21/2387—Stream processing in response to a playback request from an end-user, e.g. for trick-play
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/60—Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client
- H04N21/65—Transmission of management data between client and server
- H04N21/658—Transmission by the client directed to the server
- H04N21/6587—Control parameters, e.g. trick play commands, viewpoint selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/78—Television signal recording using magnetic recording
- H04N5/782—Television signal recording using magnetic recording on tape
- H04N5/783—Adaptations for reproducing at a rate different from the recording rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/41—Detection or adaptation of hearing aid parameters or programs to listening situation, e.g. pub, forest
Definitions
- the present disclosure relates to an information processing apparatus, an information processing system, and a program.
- a function is provided to rehearse the missed voice.
- a past audio signal to be rehearsed and a current input voice are processed so as to be easily discriminable and simultaneously provided to the user.
- some hearing aids have a voice memo function that allows the user to record the necessary voice.
- the voice memo function requires the user to press a button or the like to explicitly instruct the start, end, and playback of recording, which is inconvenient for listening back to the voice during conversation.
- the present disclosure proposes a new and improved information processing apparatus, information processing system, and program capable of smoothly listening back to speech.
- the current replay start instruction is caught up to a current time from a position that is back a predetermined time from the replay start time at which the replay start instruction is input.
- An information processing apparatus including a reproduction processing unit for reproduction is provided.
- the first device that acquires and outputs sound, and the start of listening based on the instruction to start listening back to start listening to the recorded sound acquired by the first device.
- an information processing system including a second device that includes a playback processing unit that plays back until a current time catches up from a position that is back a predetermined time from the listening start time when the instruction is input.
- the computer based on a hearback start instruction for starting to hear back the recorded recorded voice, the computer is started from a position that is a predetermined time later than the hearback start time at which the hearback start instruction is input.
- a program is provided that functions as a playback processing unit that plays back until it catches up with the time.
- a hearing aid system that provides a function capable of listening back to audio in real time.
- Such a hearing aid system reproduces until it catches up to the current time from a position that is back by a predetermined time from the listen back start time at which the listen back start instruction is input, based on the listen back start instruction to start listening back to the recorded recorded voice. To do. If the playback of the recorded audio catches up with the current time, only normal real-time audio is provided. The user can smoothly listen back to the desired voice simply by performing a listen-back start operation.
- the sound collector will be described as including a hearing aid and a hearing aid that is a medical device.
- First embodiment (separate type: hearing aid system) 1.1. System configuration (1) Minimum configuration (2) Application configuration 1.2. Listen-back playback process (1) When instructing only the start of listen-back playback (2) When there is an instruction to end the playback of playback back 1.3. Supplement (1) Non-stationary noise suppression processing (2) Simultaneous listening of back-heard speech and real-time speech 1.4. Summary 2. Second Embodiment (Integrated Type: Hearing Aid Device) (1) Minimum configuration (2) Application configuration Hardware configuration example
- the hearing aid system according to the present embodiment includes an acoustic device 100 that acquires sound and outputs the sound, and an information processing device 200 that performs sound reproduction control by the acoustic device 100.
- the acoustic device 100 is a member that a user wears on his / her ear, and is, for example, an earphone or a headphone that is used in connection with a device having an information processing function. As the shape of the earphone, a sealed type for both ears is assumed, but the present disclosure is not limited to such an example.
- the acoustic device 100 includes an audio input unit 110, an acoustic device data transmission unit 120, an acoustic device data reception unit 130, a signal synthesis switching unit 140, and an audio output unit 150.
- the audio input unit 110 is a sound collection unit that acquires external audio, and includes, for example, a user including one or a plurality of microphones and an AD converter.
- the voice input unit 110 converts surrounding acoustic signals into digital waveform data and outputs the digital waveform data to the acoustic device data transmission unit 120.
- the acoustic device data transmission unit 120 transmits the digital signal input from the audio input unit 110 to the information processing device 200.
- the transmission of the digital signal may be wired transmission or wireless transmission.
- wireless transmission it can be realized by Bluetooth (registered trademark) or the like.
- the acoustic device data receiving unit 130 receives the waveform data of the encoded listening sound received from the information processing device 200.
- the acoustic device data receiving unit 130 decodes the received trimming data into raw waveform data (PCM) that can be signal-processed, and outputs the data to the signal synthesis switching unit 140.
- PCM raw waveform data
- the signal synthesis switching unit 140 performs a process of generating an audio signal output from the audio output unit 150 in accordance with an input from the control input unit 220 described later, and outputs the audio signal to the audio output unit 150. For example, when the acquired audio is being played back, the past audio received from the information processing device 200 is output, and at other times, the return audio is not output.
- the audio output unit 150 is an output unit that provides audio to the user, and includes, for example, a DA converter or a driver unit.
- the audio output unit 150 converts the audio digital data processed by the signal synthesis switching unit 140 into an acoustic signal and outputs it.
- the audio input unit 110 and the audio output unit 150 may be operated independently for each of the left and right ears or may be operated independently of each other when wearing both ears.
- the information processing device 200 is a device having an information processing function, and is, for example, an information processing terminal such as a smartphone that can be paired with the acoustic device 100. As illustrated in FIG. 1, the information processing device 200 includes a listening / reproduction processing unit 210, a control input unit 220, a first audio storage unit 231, and a second audio storage unit 233.
- the listening reproduction processing unit 210 is a functional unit that performs processing for listening back and reproducing the recorded voice. As shown in FIG. 1, the information processing device data receiving unit 211, the chasing reproduction signal processing unit 213, And an information processing device data transmission unit 215.
- the information processing device data receiving unit 211 receives the data stream from the acoustic device data transmitting unit 120, decodes the encoded data, and acquires audio waveform data.
- the information processing device data receiving unit 211 outputs the acquired audio waveform data to the chasing playback signal processing unit 213.
- the chasing playback signal processing unit 213 analyzes the audio data input from the information processing device data receiving unit 211, and outputs audio from a time that is back by a predetermined time according to the input from the control input unit 220. Process.
- an audio signal that reaches the user's ear after being subjected to signal processing by the chasing reproduction signal processing unit 213 is also referred to as “listening audio”.
- an audio signal that reaches the user's ear without being subjected to signal processing by the chasing playback signal processing unit 213 is also referred to as “real-time audio”.
- the follow-up reproduction signal processing unit 213 can reproduce the audio by shortening the time of the listening sound in response to the input from the control input unit 220.
- the listening sound may be played back at a playback speed faster than 1 ⁇ speed.
- a technique of reproducing at a higher speech speed without changing the pitch of sound may be applied (for example, see Non-Patent Document 1).
- the chasing reproduction signal processing unit 213 outputs the generated reproduction signal to the information processing device data transmission unit 215.
- a time interval or silent interval in which no human voice is present may be automatically detected as a skip target interval, and at least a part of the skip target interval may be skipped for playback.
- the skip target section may be detected based on a criterion such as a section in which the volume level does not exceed a predetermined threshold for a predetermined time or longer. Further, shortening by changing the playback speed and shortening by skip playback can be performed simultaneously.
- the information processing device data transmission unit 215 encodes the audio processed by the chasing playback signal processing unit 213 and transmits the encoded audio to the acoustic device 100.
- the control input unit 220 receives the operation input from the user and controls the functions of the acoustic device 100 and the information processing device 200. For example, the control input unit 220 executes a listen-back playback function or ends the listen-back playback function based on an operation input from the user. Further, the control input unit 220 performs various settings such as the volume of the acoustic device 100 based on an operation input from the user.
- the device directly operated by the user is not limited to the information processing device 200. For example, it is assumed that a user operates a computer or a remote controller or the like separate from the information processing device 200 and that the information processing device 200 communicates with the user to give a user input to the control input unit 220.
- the first sound storage unit 231 stores the sound acquired by the acoustic device 100 and received by the information processing device data receiving unit 211.
- the sound recorded in the first sound storage unit 231 can be used as a recorded sound at the time of listening and reproduction.
- Information such as a voice recorded in the first voice storage unit 231 may be recorded in the second voice storage unit 233 in parallel therewith.
- the second voice storage unit 233 may be used for listening and reproduction.
- the first sound storage unit 231 may be a volatile memory
- the second sound storage unit 233 may be a non-volatile memory or a hard disk drive.
- the recording of the recorded voice, the voice feature amount, or the time stamp to the first voice storage unit 231 or the second voice storage unit 233 all information may be accumulated and recorded as long as the capacity permits. Of course, only the latest information for a predetermined time length may be recorded. In the former recording method, since the information for a longer time is accumulated, the degree of freedom of chasing playback can be increased. The latter recording method can save information unnecessarily in consideration of saving the capacity of the storage unit to be used and considering that the recorded information is information related to the privacy of others.
- the hearing aid system shown in FIG. 2 includes a speech analysis function, a noise canceling function, and the like in addition to the hearing aid function and the listen back reproduction function, which are the minimum functions.
- functions newly added to the first configuration of the hearing aid system shown in FIG. 1 will be mainly described, and description of the same functional configuration as the hearing aid system of FIG. 1 will be omitted.
- the acoustic device 100 is similar to the acoustic device 100 illustrated in FIG. 1, and includes an audio input unit 110, an acoustic device data transmission unit 120, an acoustic device data reception unit 130, and an audio output unit 150. Is provided. Furthermore, the acoustic device 100 of FIG. 2 includes a voice feature calculation unit 121, a time stamp information generation unit 123, a first signal synthesis switching unit 141, a real-time voice processing unit 143, a second signal synthesis switching unit 145, A cancellation signal generation unit 160.
- the voice input unit 110 is a sound collection unit that acquires external voice, and is configured in the same manner as the voice input unit 110 in FIG.
- the voice input unit 110 converts surrounding acoustic signals into digital waveform data, and outputs the digital waveform data to the voice feature calculation unit 121, the first signal synthesis switching unit 141, and the cancel signal generation unit 160.
- the converted digital signal is also output to the acoustic device data transmission unit 120.
- the voice feature calculation unit 121 calculates a voice feature amount necessary for the operation of the chasing playback signal processing unit 213 or the voice analysis processing unit 212 of the information processing device 200 from the waveform data input from the voice input unit 110.
- the voice feature calculation unit 121 calculates, for example, an amplitude ratio and a phase difference at regular intervals between the microphones as voice feature amounts.
- the voice feature amount calculated by the voice feature calculation unit 121 is output to the acoustic device data transmission unit 120.
- the time stamp information generation unit 123 generates time stamp information to be added to data transmitted to the information processing device 200 by the acoustic device data transmission unit 120 in response to an input from the control input unit 220.
- the time stamp information generation unit 123 generates time stamp information to be added to the time interval of the digital signal to be transmitted, for example, when performing an operation of not transmitting the digital signal of the non-audio time interval to the information processing device 200 To do.
- the time stamp information generated by the time stamp information generation unit 123 is transmitted to the acoustic device data transmission unit 120. This is because, as described above, when the operation of not transmitting the digital signal in the non-speech time interval to the information processing device 200 is executed, the information processing device 200 at which time the signal transmitted from time to time is transmitted. This is a measure for solving the problem that information as to whether it is a corresponding signal is lost and it becomes impossible to listen back for a specified time.
- the acoustic device data transmission unit 120 outputs the digital signal input from the audio input unit 110 as in FIG.
- the transmission of the digital signal may be wired transmission or wireless transmission.
- wireless transmission it can be realized by Bluetooth (registered trademark) or the like.
- the acoustic device data transmission unit 120 can also transmit an output from a real-time audio processing unit 143, which will be described later, instead of the audio signal input from the audio input unit 110, and dynamically switch the output signal. It is also possible.
- the acoustic device data transmission unit 120 according to the present embodiment can compress the acoustic feature amount information calculated by the speech feature calculation unit 121 together with the speech waveform data and transmit the compressed information to the information processing device 200.
- the acoustic device data transmission unit 120 performs transmission after performing simple bit depth conversion on the audio feature amount.
- the acoustic device data transmission unit 120 extracts only the input from a predetermined microphone, performs an encoding process using an SBC (SubBand Codec), etc., and encodes / decodes information. May be transmitted.
- SBC SubBand Codec
- the acoustic device data transmitter 120 resamples a signal derived from one microphone input of the left ear sound collector to 8 kHz, and then simply performs bit depth conversion with the SBC-encoded speech waveform data.
- the acoustic feature amount data may be packed for each conversion length frame and transmitted.
- the transmission data may be transmitted by SPP (Serial Port Profile) based on the defined unique protocol.
- SPP Serial Port Profile
- the encoding / decoding method can be arbitrarily selected. For example, in a system such as FIG. 1 that does not use acoustic features, A2DP (Advanced Audio Distribution Profile), HSP (Headset Profile), HFP (Hands-Free Profile). ) Etc. may be used. It is also possible to transmit data by an original protocol encoding method using APP, A2DP, HSP, and HFP.
- the voice feature calculation unit 121 functions to maintain the functionality of the voice analysis processing unit 212 and the chasing playback signal processing unit 213 while reducing the amount of data transmitted and received between the acoustic device 100 and the information processing device 200. To do. For example, in the description in the previous paragraph, since lossy encoding is used for data transmission and reception, and the channel and band for transmitting data are limited, the data is transmitted from the acoustic device data transmission unit 120 to the information processing device data reception unit 211. In the data, some information is lost from the original speech waveform data. For this reason, the audio analysis processing unit 212 and the chasing playback signal processing unit 213 limit the processing that can be realized using this waveform data.
- the speech feature calculation unit 121 uses the feature quantity. Can be calculated and transmitted to the information processing device 200 to realize a desired function.
- the acoustic device data transmission unit 120 transmits data based on the acoustic feature amount data calculated by the speech feature calculation unit 121, for example, when it is determined that a human voice is not included in the current input sound. It is also possible not to.
- the time stamp information of the time interval of the transmitted audio waveform data is transmitted to the information processing device data reception unit 211. Is done.
- the function of the speech feature calculation unit 121 at this time is different from the description in the previous paragraph, and functions to further reduce the data transmission / reception amount between the acoustic device 100 and the information processing device 200.
- the acoustic device data receiving unit 130 receives the streaming data of the encoded listening sound received from the information processing device 200.
- the acoustic device data receiving unit 130 decodes the received streaming data into waveform data (PCM or the like) that can be processed, and outputs the decoded data to the first signal synthesis switching unit 141 or the second signal synthesis switching unit 145.
- PCM waveform data
- an antenna for encoding / decoding / radio transmission is required. It is possible to adopt a configuration in which at least a part of the antennas is included in the same device. In this case, the exchange of block data between the same devices can be realized by simple exchange of data using a shared memory without performing data companding.
- the first signal synthesis switching unit 141 and the second signal synthesis switching unit 145 perform processing for generating an audio signal output from the audio output unit 150 in accordance with the input of the control input unit 220 and output the audio signal to the audio output unit 150. . Only one of the first signal synthesis switching unit 141 and the second signal synthesis switching unit 145 has the input signal from the acoustic device data receiving unit 130 valid, and the input signal to the other is output as it is. .
- the first signal synthesis switching unit 141 and the second signal synthesis switching unit 145 perform processing on each of the real-time voice and the listen-back voice according to the input from the control input unit 220, and synthesize them. And output to the audio output unit 150. For example, when only real-time audio is reproduced, “1” is applied to the real-time audio, “0” is applied to the return audio, and the sum is obtained as an output signal. In the case of reproducing only the listening sound, “0” is applied to the real time sound and “1” is applied to the listening sound, and the sum is obtained as an output signal. Furthermore, separate processing may be applied to the real-time audio and the listen-back audio, and both may be superimposed on each other as an output signal.
- the real-time audio processing unit 143 is an audio processing unit that performs signal processing with low delay on the audio obtained from the audio input unit 110, as in a general sound collector.
- the real-time audio processing unit 143 executes, for example, beam forming processing using a multi-microphone, howling cancellation / suppression processing, stationary / non-stationary noise suppression, audio amplification, equalizing, compressor, and the like, and the user outputs the output in real time. Can listen to.
- the audio output unit 150 is an output unit that provides audio to the user, and includes, for example, a DA converter or a driver unit.
- the audio output unit 150 converts the audio digital data processed by the first signal synthesis switching unit 141 and the second signal synthesis switching unit 145 into an acoustic signal and outputs it.
- the cancellation signal generation unit 160 performs signal processing for realizing a noise cancellation function.
- the cancel signal generation unit 160 generates a cancel signal that cancels the sound that leaks from the outside and reaches the eardrum even when the sound collector is attached.
- the generated cancel signal is combined with the output of the real-time audio processing unit 143 and output from the audio output unit 150.
- the audio input unit 110, the real-time audio processing unit 143, and the audio output unit 150 may be operated independently for each of the left and right ears in the case of binaural wearing. May be.
- the information processing device 200 is a device having an information processing function, and is, for example, an information processing terminal such as a smartphone that can be paired with the acoustic device 100. As illustrated in FIG. 2, the information processing device 200 includes a listen-back reproduction processing unit 210, a control input unit 220, a first audio storage unit 231, and a second audio storage unit 233. Furthermore, the information processing device 200 according to the present embodiment includes an information presentation unit 240.
- the replay playback processing unit 210 is a functional unit that performs processing for replaying back recorded audio. As shown in FIG. 2, the information processing device data receiving unit 211, the voice analysis processing unit 212, and the chase A reproduction signal processing unit 213 and an information processing device data transmission unit 215 are provided.
- the information processing device data receiving unit 211 receives the data stream from the acoustic device data transmitting unit 120, decodes the encoded data, and acquires audio waveform data.
- the information processing device data receiving unit 211 outputs the acquired voice waveform data to the voice analysis processing unit 212 and the chasing playback signal processing unit 213.
- the voice analysis processing unit 212 analyzes the acoustic feature amount and the voice waveform data input from the information processing device data receiving unit 211, and extracts information necessary for chasing playback signal processing and information presentation to the user. For analysis for chasing playback signal processing, for example, the voice analysis processing unit 212 calculates signal power and autocorrelation coefficient at regular time intervals from waveform data, and extracts information by applying a low-pass filter. May be. Then, when both values exceed a certain time threshold, the voice analysis processing unit 212 may regard the time as a “voiced section” and output the information to the chasing playback signal processing unit 213.
- the voice analysis processing unit 212 applies a low-pass filter, for example, by taking a temporary difference between the acoustic feature amounts (amplitude ratio / phase difference between microphones) calculated by the voice feature calculation unit 121. Information may be extracted with. Then, the voice analysis processing unit 212 may regard a position where the value exceeds a certain threshold as a “speaker change point” and output the information to the information presenting unit 240. As another specific example, considering the case where the information processing device 200 is a smartphone and an audio waveform is displayed on a display that is one of the information presentation units 240, the visibility is good on a limited display area of the display. The voice analysis processing unit 212 can perform processing for displaying a waveform.
- the voice analysis processing unit 212 applies a bandpass filter that extracts a waveform of only the human voice band from the voice waveform data, and then displays a few samples (for example, 005 sec) instead of displaying the sample value itself. ), The range of the maximum value and the minimum value may be displayed by a vertical line. Thereby, speech waveform data can be presented to the user in an easy-to-understand manner.
- the chasing playback signal processing unit 213 analyzes the audio data input from the information processing device data receiving unit 211, and outputs audio from a time that is back by a predetermined time according to the input from the control input unit 220. Process.
- an audio signal that reaches the user's ear after being subjected to signal processing by the chasing reproduction signal processing unit 213 is also referred to as “listening audio”.
- an audio signal that reaches the user's ear without being subjected to signal processing by the chasing playback signal processing unit 213 is also referred to as “real-time audio”.
- the follow-up reproduction signal processing unit 213 can reproduce the audio by shortening the time of the listening sound in response to the input from the control input unit 220.
- the listening sound may be played back at a playback speed faster than 1 ⁇ speed.
- a technique of reproducing at a higher speech speed without changing the pitch of sound may be applied (for example, see Non-Patent Document 1).
- the chasing reproduction signal processing unit 213 outputs the generated reproduction signal to the information processing device data transmission unit 215.
- a time interval or silent interval in which no human voice is present may be automatically detected as a skip target interval, and at least a part of the skip target interval may be skipped for playback.
- the skip target section may be detected based on a criterion such as a section in which the volume level does not exceed a predetermined threshold for a predetermined time or longer. Further, shortening by changing the playback speed and shortening by skip playback can be performed simultaneously.
- the information processing device data transmission unit 215 encodes the audio processed by the chasing playback signal processing unit 213 and transmits the encoded audio to the acoustic device 100.
- the control input unit 220 receives the operation input from the user and controls the functions of the acoustic device 100 and the information processing device 200. For example, the control input unit 220 executes a listen-back playback function or ends the listen-back playback function based on an operation input from the user. Further, the control input unit 220 performs various settings such as the volume of the acoustic device 100 based on an operation input from the user.
- the device directly operated by the user is not limited to the information processing device 200. For example, it is assumed that a user operates a computer or a remote controller or the like separate from the information processing device 200 and that the information processing device 200 communicates with the user to give a user input to the control input unit 220.
- the first sound storage unit 231 stores the sound acquired by the acoustic device 100 and received by the information processing device data receiving unit 211. At this time, the audio feature amount and the time stamp information may be recorded together in the first audio storage unit 231.
- the sound recorded in the first sound storage unit 231 can be used as a recorded sound at the time of listening and reproduction.
- Information such as a voice recorded in the first voice storage unit 231 may be recorded in the second voice storage unit 233 in parallel therewith.
- the second voice storage unit 233 may be used for listening and reproduction.
- the first sound storage unit 231 may be a volatile memory
- the second sound storage unit 233 may be a non-volatile memory or a hard disk drive.
- the recording of the recorded voice, the voice feature amount, or the time stamp to the first voice storage unit 231 or the second voice storage unit 233 all information may be accumulated and recorded as long as the capacity permits. Of course, only the latest information for a predetermined time length may be recorded. In the former recording method, since the information for a longer time is accumulated, the degree of freedom of chasing playback can be increased. The latter recording method can save information unnecessarily in consideration of saving the capacity of the storage unit to be used and considering that the recorded information is information related to the privacy of others.
- the information presentation unit 240 is a functional unit that displays a still image, a moving image, character information, or the like based on information input from the voice analysis processing unit 212, and is, for example, a display.
- the information presentation unit 240 includes not only the display itself but also a display processing unit for displaying information on the display.
- the information presentation unit 240 does not necessarily have to be the same as the information processing device 200. That is, the information presentation unit 240 is built in a device that is physically separated from the information processing device 200, and is a still image, a movie, or a character to be presented through moving image or sound information by wired or wireless communication. Information or the like may be received and presented to the user.
- the information presentation unit 240 physically separated from the information processing device 200 as described above, for example, there are a television, a tablet terminal, a PC, and the like.
- FIG. 3 shows a replay playback screen 10 as a display example of the information presentation unit 240 according to the present embodiment.
- the listen-back playback screen 10 is a screen for performing various settings for the listen-back playback function. Note that the playback screen 10 is not limited to the configuration shown in FIG. 3 and can be changed as appropriate.
- a timeline display area 11 that displays the sound waveform data input from the sound analysis processing unit 212 as an image buffered for a predetermined period of time (for example, 60 seconds) is displayed. May be.
- a line for example, a line
- 11a to 11d may be displayed.
- a line L Tp indicating the current playback position for playback may be displayed on the audio waveform data image.
- the information presentation unit 240 includes a touch sensor or the like so that the information displayed on the information presentation unit 240 can be directly operated with a finger or the like, the position of the time axis of the line L Tp is moved. By doing so, it is possible to change the listening playback position.
- the listen-back playback screen 10 may present information indicating the current operation status of the chasing playback signal processing unit 213.
- the chasing playback signal processing unit 213 currently outputs and may display how much sound (for example, how many seconds before) the sound the user is listening to at the acoustic device 100 is before the current time.
- a listening playback start button (Playback button) 12 a listening playback end button (Stop button) 13, and a listening position setting unit 14 may be provided on the listening playback screen 10. Good.
- the listen-back playback start button 12 is pressed, the listen-back playback process can be started, and when the listen-back playback end button 13 is pressed, the listen-back playback process can be ended.
- the listening position setting unit 14 can set how far back the recorded sound is to be played back from the starting point of the listening playback. For example, in the example shown in FIG. 3, the sound is reproduced from a time point that is 3 seconds back from the start point of the listening reproduction.
- the listen-back playback screen 10 can include a speech speed adjustment unit 15 that sets the playback speed during the playback process.
- a speech speed adjustment unit 15 that sets the playback speed during the playback process.
- the playback speed may be set by numerical value input such as “1.5 times speed”, and when the skip mode for skipping the non-voice section is set. An icon or characters indicating that the skip mode is set may be displayed.
- FIG. 4 is a flowchart showing the listening reproduction process by the hearing aid system according to the present embodiment.
- FIG. 5 to FIG. 8 are explanatory diagrams for explaining the listening reproduction processing by the hearing aid system according to the present embodiment.
- Tnow indicates the current time position
- Tp indicates the listening reproduction position.
- T 1 indicates a point in time at which a playback operation is input
- T 2 indicates a point in time that goes back in the past by a return time set from T 1
- T 3 indicates a point in time at which the playback position has caught up with the present time. Is shown.
- the flowchart of the playback process shown in FIG. 4 shows a case where only the playback of the playback process is instructed. That is, a case is shown in which the operation shifts to the real-time audio reproduction without the user's operation after there is an operation input for starting the listening reproduction.
- the control input unit 220 performs the listening reproduction process.
- the listening reproduction process by the unit 210 is started.
- the operation for starting the listening playback may be, for example, an operation of pressing the listening playback start button 12 on the listening playback screen 10 shown in FIG.
- the control input unit 220 starts the listening reproduction processing by the listening reproduction processing unit 210 and instructs the acoustic device 100 so that the sound output from the sound output unit 150 is only the listening sound. (S110).
- step S130 the playback position is changed to a position returned by a predetermined return time (S120), and the playback of the return sound that has been subjected to the voice enhancement process is started (S130).
- the voice enhancement process does not necessarily have to be performed, and the return sound may be reproduced without performing the voice enhancement process.
- step S100 For example, as shown in FIG. 5, at the time of the time T 1 has elapsed since the recording start, and hear back reproduction starting operation of step S100 is performed. Until the operation is performed, real-time sound is output to the user, and the real-time sound is recorded in the first sound storage unit 231.
- the listen rewind reproduction start after only the audio back to hear is output in step S110, the audio reproduction back to hear a predetermined return time only back time period from the time T 1 as shown in FIG. 6 T 2 at step S120 Be started.
- the return time is set to 15 seconds. For example, if the time T 1 when the operation of starting the playback is 15 minutes and 30 seconds, the time T 2 that is 15 seconds later (that is, Listening sound is reproduced from the position of 15 minutes and 15 seconds.
- the listening audio is played back at the first playback speed.
- the first playback speed may be set in advance or may be set by the user. Since the user wants to confirm the content again, the first playback speed is normally set to a playback speed of 1 ⁇ speed or lower. Of course, the playback speed may be set to be faster than 1 ⁇ speed.
- reproduction hear back audio in step S130 is performed until it reaches the start time T 1 back to hear back playback position Tp is heard (S140).
- chasing reproduction signal processing section 213 the section from the position Tp catch up to the current time position Tnow, speech returned heard at a second reproduction speed Is reproduced (S150).
- the second playback speed is set to a speed faster than 1 ⁇ speed.
- the control input unit 220 instructs the acoustic device 100 to output only the real-time audio from the audio output unit 150 (S170), and the real-time audio processing is performed by the real-time audio processing unit 143. Only the voice is provided to the user (S180).
- Figure 7 shows the reproduction state of the audio back heard after reaching the starting time T 1 back to hear back playback position Tp to hear the.
- playback is performed at a second playback speed that is faster than 1 ⁇ speed. Thereafter, when the listening reproduction position Tp catches up with the current position Tnow, the reproduction of the listening sound is finished and only the real-time sound is output as shown in FIG.
- FIG. 9 is a flowchart showing the listen-back playback process when there is a listen-back playback end instruction. That is, a case is shown in which, after an operation input for starting playback for listening back is received, an operation input for finishing playback for listening back is received, and a transition is made to shortened playback of the playback sound and playback of real-time audio.
- processing different from the listening reproduction processing shown in FIG. 4 will be mainly described, and detailed description of the same processing will be omitted.
- the control input unit 220 performs the listening reproduction process.
- the listening reproduction process by the unit 210 is started.
- the control input unit 220 starts the listening reproduction processing by the listening reproduction processing unit 210 and instructs the acoustic device 100 so that the sound output from the sound output unit 150 is only the listening sound. (S210).
- the playback position is changed to a position returned by a predetermined return time, and playback of the return sound that has been subjected to the voice enhancement processing is started (S220).
- the processing in steps S200 to S220 is the same as the processing in steps S100 to S130 in FIG.
- the speech enhancement process does not necessarily have to be performed, and the return sound may be reproduced without performing the speech enhancement process.
- step S220 even during playback to hear back audio in step S220, until it reaches the start time T 1 back to hear back playback position Tp is heard, and there is an operation input to hear back playback end user (S230) .
- chasing reproduction signal processing section 213, heard back is moved to the start time T 1 back and listen to playback position Tp (S240), from the start time T 1 back to hear, hear reverse playback position Tp is the current time
- the listening sound is reproduced at the second reproduction speed (S250).
- the second playback speed is set to a speed higher than 1 ⁇ speed.
- the chasing playback signal processing unit 213 may increase the playback speed of the return sound, or may end the playback of the return sound itself.
- Unsteady Noise Suppression Processing For example, in the hearing aid system according to the present embodiment, it is possible to execute unsteady noise suppression processing. For example, non-stationary noise such as keyboard typing sounds and door opening / closing that collide with each other is annoying and is an object to be suppressed.
- non-stationary noise such as keyboard typing sounds and door opening / closing that collide with each other is annoying and is an object to be suppressed.
- the consonant part of the voice is important for listening to the voice, it is necessary to reproduce it reliably.
- the consonant part of speech and the non-stationary noise such as the above-mentioned collision sound have the common feature that energy concentrates instantaneously in the high range, and both are discriminated only by observing the instantaneous signal. It is difficult.
- the chasing reproduction signal processing unit 213 executes non-stationary noise suppression processing to suppress non-stationary noise such as a collision sound.
- non-stationary noise such as a collision sound.
- the signal processing technique described in Non-Patent Document 2 can be applied to the non-stationary noise suppression process.
- the technique described in Non-Patent Document 2 uses a signal before and after a time interval to be processed as a clue, and therefore has a relatively large amount of computation and requires processing time. Therefore, it is difficult to implement in the real-time speech processing unit 143.
- the temporal restriction and the calculation cost are loose, so that the non-stationary noise suppression process can be performed.
- the rehearsed voice can be processed to be heard as if it were dry and close to the real-time voice.
- the head-related transfer function or room impulse response (or equivalent effect) filter is applied to the rehearsed sound, as if the sound was emitted in a different environment from the real-time sound. It can also be processed and told to the user.
- This processing includes measures such as localization in the head and unclear sound source position.
- pitch conversion technology can be used to increase (or decrease) the pitch of the returned audio, or to apply an effect such as that used for a voice changer to make it sound different from real-time audio. .
- Vocoder technology which is one of so-called speech analysis and synthesis technologies
- the voice envelope of speech and the separation of the pitch information and the spectrum envelope are interchanged, thereby converting the voice quality of the returned speech and replacing the pitch information. It is also possible to change the pitch of the listening sound with.
- the configuration of the hearing aid system according to the present embodiment and the listen-back reproduction process using the hearing aid system have been described. According to this embodiment, even if the user misses the voice, the user can immediately listen again in the middle of the conversation, and smooth playback of the return voice and normal playback (that is, real-time voice listening) can be performed smoothly. Can come and go.
- the hearing aid system according to the present embodiment can provide an easy-to-listen return sound.
- the hearing aid apparatus 300 according to the present embodiment has a configuration in which the hearing aid system according to the first embodiment is combined into one device.
- a description will be given of a minimum configuration of the hearing aid device 300 according to the present embodiment and a configuration example when a function such as a noise cancellation function is added to the minimum configuration.
- 10 corresponds to the configuration of the hearing aid system of the first embodiment shown in FIG. 1
- FIG. 11 corresponds to the configuration of the hearing aid system of the first embodiment shown in FIG. Yes. For this reason, detailed description of each function is omitted.
- the hearing aid device 300 includes a voice input unit 310, a chasing playback signal processing unit 320, a signal synthesis switching unit 330, a control input unit 340, a voice output unit 350, and a first voice storage. Part 361 and a second sound storage part 363.
- the hearing aid device 300 has a function unit that transmits and receives data between devices omitted.
- the audio input unit 310 corresponds to the audio input unit 110
- the chasing playback signal processing unit 320 corresponds to the chasing playback signal processing unit 213.
- the signal synthesis switching unit 330 corresponds to the signal synthesis switching unit 140
- the control input unit 340 corresponds to the control input unit 220.
- the audio output unit 350 corresponds to the audio output unit 150
- the first audio storage unit 361 corresponds to the first audio storage unit 231
- the second audio storage unit 233 corresponds to the second audio storage unit 363. It corresponds. Since the function of each functional unit is the same as that of the first embodiment, detailed description is omitted. In this way, one device having a listen-back playback function can be configured.
- a hearing aid apparatus 300 shown in FIG. 11 includes a speech analysis function, a noise canceling function, and the like in addition to a hearing aid function and a listen-back playback function, which are minimum functions.
- functions that are newly added to the hearing aid system of the first configuration shown in FIG. 10 will be mainly described while comparing with the hearing aid system according to the first embodiment shown in FIG.
- the function of the hearing aid device 300 can be broadly divided into a voice input / output unit 302 and a listening / reproducing unit 304 as shown in FIG.
- the voice input / output unit 302 is a processing unit that realizes the function of the acoustic device 100 of the hearing aid system of FIG. 2
- the listening / reproducing processing unit 304 is a process that realizes the function of the information processing device 200 of the hearing aid system of FIG. Part. Similar to the hearing aid device 300 in FIG. 10, the hearing aid device 300 is different from the hearing aid system in FIG. 2 in that a functional unit that transmits and receives data between devices is omitted.
- the voice input / output unit 302 includes a voice input unit 310, a first signal synthesis switching unit 331, a real-time voice processing unit 333, a second signal synthesis switching unit 335, and a cancel signal generation unit 370. These are respectively applied to the audio input unit 110, the first signal synthesis switching unit 141, the real-time audio processing unit 143, the second signal synthesis switching unit 145, the audio output unit 150, and the cancel signal generation unit 160 of the acoustic device 100 of FIG. Correspond.
- the listen-back playback processing unit 304 includes a chasing playback signal processing unit 320 and a voice analysis processing unit 321. These correspond to the chase reproduction signal processing unit 213 and the voice analysis processing unit 212 of the information processing device 200 in FIG.
- the hearing aid apparatus 300 includes a first sound storage unit 361, a second sound storage unit 363, and an information presentation unit 380. These correspond to the first audio storage unit 231, the second audio storage unit 233, and the information presentation unit 240 of the hearing aid system of FIG. 2, respectively. Since the function of each functional unit is the same as that of the first embodiment, detailed description is omitted, but in this way, one device having the function of the hearing aid system of FIG. 2 can be configured.
- FIG. 12 is a hardware configuration diagram illustrating a hardware configuration of the information processing device 200 according to the above embodiment.
- the information processing device 200 can be realized by a processing apparatus such as a computer as described above.
- the information processing device 200 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM (Random Access Memory) 903, and a host bus 904a.
- the information processing device 200 includes a bridge 904, an external bus 904b, an interface 905, an input device 906, an output device 907, a storage device 908, a drive 909, a connection port 911, and a communication device 913. Prepare.
- the CPU 901 functions as an arithmetic processing unit and a control unit, and controls the overall operation in the information processing device 200 according to various programs. Further, the CPU 901 may be a microprocessor.
- the ROM 902 stores programs used by the CPU 901, calculation parameters, and the like.
- the RAM 903 temporarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like. These are connected to each other by a host bus 904a including a CPU bus.
- the host bus 904a is connected to an external bus 904b such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 904.
- an external bus 904b such as a PCI (Peripheral Component Interconnect / Interface) bus
- PCI Peripheral Component Interconnect / Interface
- the host bus 904a, the bridge 904, and the external bus 904b do not necessarily have to be configured separately, and these functions may be mounted on one bus.
- the input device 906 includes an input means for inputting information by the user such as a mouse, keyboard, touch panel, button, microphone, switch, and lever, and an input control circuit that generates an input signal based on the input by the user and outputs the input signal to the CPU 901. Etc.
- the output device 907 includes, for example, a liquid crystal display (LCD) device, an OLED (Organic Light Emitting Diode) device and a display device such as a lamp, and an audio output device such as a speaker.
- LCD liquid crystal display
- OLED Organic Light Emitting Diode
- the storage device 908 is an example of a storage unit of the information processing device 200 and is a device for storing data.
- the storage device 908 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deletion device that deletes data recorded on the storage medium, and the like.
- the storage device 908 drives a hard disk and stores programs executed by the CPU 901 and various data.
- the drive 909 is a storage medium reader / writer, and is built in or externally attached to the information processing device 200.
- the drive 909 reads information recorded on a mounted removable recording medium such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and outputs the information to the RAM 903.
- the connection port 911 is an interface connected to an external device, and is a connection port with an external device capable of transmitting data by USB (Universal Serial Bus), for example.
- the communication device 913 is a communication interface configured by a communication device or the like for connecting to the communication network 5, for example.
- the communication device 913 may be a wireless LAN (Local Area Network) compatible communication device, a wireless USB compatible communication device, or a wire communication device that performs wired communication.
- a playback processing unit that plays back until a current time catches up from a position that is traced back a predetermined time from the start-back time when the start-back request is input based on the start-back instruction that starts listening back to the recorded audio.
- An information processing apparatus (2) The reproduction processing unit reproduces the recorded audio at a first reproduction speed until the listening start time, and reproduces the recorded audio at a second reproduction speed from the listening start time to the current time, (1) The information processing apparatus described in 1. (3) When an instruction to finish listening back of the recorded voice is input before reaching the listening start time, the playback processing unit moves the playback position of the recorded voice to the listening back start time (2) The information processing apparatus described in 1.
- a voice analysis processing unit for analyzing the recorded voice The information processing apparatus according to any one of (1) to (8), wherein the reproduction processing unit performs a voice enhancement process based on an analysis result by the voice analysis processing unit.
- a voice analysis processing unit for analyzing the recorded voice Based on the analysis result by the voice analysis processing unit, an information presentation unit that presents information related to the voice;
- the information processing apparatus according to any one of (1) to (8) comprising: (11) The information processing apparatus according to (10), wherein the information presenting unit displays a voice waveform of the acquired voice on a display.
- a real-time audio processing unit that performs predetermined audio correction processing on the input audio and outputs real-time audio.
- the information processing apparatus further including a signal synthesis switching unit that performs playback processing of the recorded voice and the real-time voice based on a control input.
- the information processing apparatus wherein the signal synthesis switching unit does not reproduce the real-time audio when reproducing the recorded audio.
- a first device that acquires and outputs audio; Based on the start-back instruction to start listening back to the recorded sound acquired by the first device, catch up to the current time from a position that is back a predetermined time from the start-back time at which the start-back instruction is input.
- a second device including a reproduction processing unit that reproduces up to Including an information processing system.
- the first device is: A data transmission unit that compresses and transmits data to be transmitted to the second device; A data receiving unit for decompressing data received from the second device;
- the first device further includes an audio feature calculator that calculates a feature amount included in the acquired audio waveform data, The information processing system according to (16), wherein the data transmission unit transmits the feature amount to the second device.
- the first device further includes an audio feature calculator that calculates a feature amount included in the acquired audio waveform data, The information according to (16), wherein the data transmission unit determines a voice section to be transmitted to the second device from the acquired voice based on the feature amount, and transmits the voice section to the second device. Processing system.
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Neurosurgery (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】スムーズに音声の聞き戻しを行うことが可能な情報処理装置を提供する。 【解決手段】録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部を備える、情報処理装置が提供される。
Description
本開示は、情報処理装置、情報処理システム及びプログラムに関する。
補聴装置において、ユーザが何らかの音声を聞き逃した際、聞き逃した音声を聞き直す機能が提供されている。例えば、特許文献1では、聞き直す過去の音声信号と現在の入力音声とを、容易に判別可能となるように処理を行って、同時にユーザに提供している。
森田,板倉「ポインター移動量制御による重複加算法(PICOLA)を用いた音声の時間軸での伸張圧縮とその評価」,S61.10,PP149-150
野口,阪内,羽田,片岡「1チャネル入力信号中の突発性雑音の判別と除去」,日本音響学会講演論文集,655頁~656頁,2004年3月
H. Kinoshita, M. Delcroix, T. Nakatani andM. Miyoshi, "Suppression of late reveberation effect on speech signalusing long-term multiple-step linear predicition,", IEEE Trans. Audio,Speech and Lang. Proc., Vol.17, No.4, pp.534-545, 2009
しかし、補聴装置を利用するユーザは、通常、複数話者の音声の聞き取りに苦労している場合が多い。このため、上記特許文献1のように2つの音声を判別可能となるようにして提供したとしても、音声の同時提供では、音声の聞き戻し機能としては十分な機能を提供できていない可能性がある。また、聞き戻したい音声自体は、一度で聞き取れなかった音声であるため、聞き直す際にはユーザはより集中して音声を聞く必要がある。この点においても、過去と現在との音声を同時に提供することは、聞き取り易い音声を提供できているとは言えず、音声の聞き戻し機能としては十分ではない。
また、補聴装置には、ユーザが必要な音声を録音可能なボイスメモ機能を備えるものもある。しかし、一般に、ボイスメモ機能は、ユーザがボタン等を押下して、明示的に録音の開始及び終了、再生を指示する必要があり、会話中でとっさに音声を聞き戻すには不便である。
そこで、本開示では、スムーズに音声の聞き戻しを行うことが可能な、新規かつ改良された情報処理装置、情報処理システム及びプログラムを提案する。
本開示によれば、録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部を備える、情報処理装置が提供される。
また、本開示によれば、音声を取得し、出力する第1のデバイスと、第1のデバイスにて取得された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生させる再生処理部を備える第2のデバイスと、を含む、情報処理システムが提供される。
さらに、本開示によればコンピュータを、録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部として機能させる、プログラムが提供される。
以上説明したように本開示によれば、スムーズに音声の聞き戻しを行うことが可能となる。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
以下では、本開示の情報処理システムの好適な実施の形態として、リアルタイムで音声を聞き戻し可能な機能を提供する補聴システムについて説明する。かかる補聴システムは、録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する。記録音声の再生が現時刻に追いつくと、通常のリアルタイムの音声のみが提供される。ユーザは、聞き戻し開始操作を行うだけで、スムーズに所望の音声の聞き戻しを行うことができる。なお、以下の説明において、集音器には、助聴器及び医療機器である補聴器も含むものとして説明する。
なお、説明は以下の順序で行うものとする。
1.第1の実施形態(分離型:補聴システム)
1.1.システム構成
(1)最小構成
(2)応用構成
1.2.聞き戻し再生処理
(1)聞き戻し再生開始のみ指示する場合
(2)聞き戻し再生終了指示がある場合
1.3.補足
(1)非定常雑音抑圧処理
(2)聞き戻し音声とリアルタイム音声との同時聴取
1.4.まとめ
2.第2の実施形態(一体型:補聴装置)
(1)最小構成
(2)応用構成
3.ハードウェア構成例
1.第1の実施形態(分離型:補聴システム)
1.1.システム構成
(1)最小構成
(2)応用構成
1.2.聞き戻し再生処理
(1)聞き戻し再生開始のみ指示する場合
(2)聞き戻し再生終了指示がある場合
1.3.補足
(1)非定常雑音抑圧処理
(2)聞き戻し音声とリアルタイム音声との同時聴取
1.4.まとめ
2.第2の実施形態(一体型:補聴装置)
(1)最小構成
(2)応用構成
3.ハードウェア構成例
<1.第1の実施形態>
[1.1.システム構成]
まず、図1及び図2を参照して、本開示の第1の実施形態に係る補聴システムの機能構成について説明する。本実施形態に係る補聴システムは、音声を取得し、また、音声を出力する音響デバイス100と、音響デバイス100による音声の再生制御を行う情報処理デバイス200とからなる。
[1.1.システム構成]
まず、図1及び図2を参照して、本開示の第1の実施形態に係る補聴システムの機能構成について説明する。本実施形態に係る補聴システムは、音声を取得し、また、音声を出力する音響デバイス100と、音響デバイス100による音声の再生制御を行う情報処理デバイス200とからなる。
(1)最小構成
まず、図1に基づいて、本実施形態に係る補聴システムの最小限の機能構成を説明する。図1に示す補聴システムは、最小限の機能として、通常の補聴機能に加えて聞き戻し再生機能を実行可能にするものである。
まず、図1に基づいて、本実施形態に係る補聴システムの最小限の機能構成を説明する。図1に示す補聴システムは、最小限の機能として、通常の補聴機能に加えて聞き戻し再生機能を実行可能にするものである。
(音響デバイス)
音響デバイス100は、ユーザが耳に装着して使用する部材であり、例えば情報処理機能を備えるデバイスと接続して使用されるイヤホンあるいはヘッドホン等である。イヤホンの形状として、両耳装用の密閉型を想定しているが、本開示はかかる例に限定されない。音響デバイス100は、図1に示すように、音声入力部110と、音響デバイスデータ送信部120と、音響デバイスデータ受信部130と、信号合成切換部140と、音声出力部150とからなる。
音響デバイス100は、ユーザが耳に装着して使用する部材であり、例えば情報処理機能を備えるデバイスと接続して使用されるイヤホンあるいはヘッドホン等である。イヤホンの形状として、両耳装用の密閉型を想定しているが、本開示はかかる例に限定されない。音響デバイス100は、図1に示すように、音声入力部110と、音響デバイスデータ送信部120と、音響デバイスデータ受信部130と、信号合成切換部140と、音声出力部150とからなる。
音声入力部110は、外部の音声を取得する集音部であって、例えば、ユーザが1または複数のマイクロフォン及びAD変換器等を含んで構成される。音声入力部110は、周囲の音響信号をデジタルの波形データへと変換し、音響デバイスデータ送信部120へ出力する。
音響デバイスデータ送信部120は、音声入力部110から入力されたデジタル信号を、情報処理デバイス200へ送信する。デジタル信号の送信は、有線伝送であってもよく、無線伝送であってもよい。例えば、無線伝送の場合、Bluetooth(登録商標)等により実現可能である。
音響デバイスデータ受信部130は、情報処理デバイス200から受信した、エンコードされた聴き戻し音声の波形データを受信する。音響デバイスデータ受信部130は、受信したトリーミングデータを、信号処理可能な生波形のデータ(PCM)にデコードし、信号合成切換部140へ出力する。
信号合成切換部140は、後述する制御入力部220からの入力に応じて、音声出力部150から出力する音声信号を生成する処理を行い、音声出力部150へ出力する。例えば、取得された音声の聞き戻し再生が行われているときには、情報処理デバイス200から受信した過去の音声を出力し、それ以外のときには聞き戻し音声を出力しないようにする。
音声出力部150は、ユーザへ音声を提供する出力部であって、例えば、DA変換器あるいはドライバーユニット等を含んで構成される。音声出力部150は、信号合成切換部140により処理が施された音声のデジタルデータを音響信号へと変換し、出力する。
音響デバイス100において、音声入力部110及び音声出力部150は、両耳装用の場合には、左右の耳毎に独立動作であってもよく、非独立動作であってもよい。
(情報処理デバイス)
情報処理デバイス200は、情報処理機能を備えるデバイスであり、例えば、音響デバイス100とペアリング可能なスマートフォン等の情報処理端末等である。情報処理デバイス200は、図1に示すように、聞き戻し再生処理部210と、制御入力部220と、第1の音声記憶部231と、第2の音声記憶部233とを備える。
情報処理デバイス200は、情報処理機能を備えるデバイスであり、例えば、音響デバイス100とペアリング可能なスマートフォン等の情報処理端末等である。情報処理デバイス200は、図1に示すように、聞き戻し再生処理部210と、制御入力部220と、第1の音声記憶部231と、第2の音声記憶部233とを備える。
聞き戻し再生処理部210は、記録音声を聞き戻し再生するための処理を行う機能部であって、図1に示すように、情報処理デバイスデータ受信部211と、追いかけ再生信号処理部213と、情報処理デバイスデータ送信部215とを備える。
情報処理デバイスデータ受信部211は、音響デバイスデータ送信部120からのデータストリームを受信し、エンコードされたデータをデコードして音声波形データを取得する。情報処理デバイスデータ受信部211は、取得した音声波形データを、追いかけ再生信号処理部213へ出力する。
追いかけ再生信号処理部213は、情報処理デバイスデータ受信部211から入力された音声データを分析し、制御入力部220からの入力に応じて、所定時間だけ遡った時刻からの音声を出力するための処理を行う。なお、以下において、追いかけ再生信号処理部213により信号処理された後ユーザの耳に届く音声信号を「聞き戻し音声」ともいう。これに対して、追いかけ再生信号処理部213による信号処理が行われることなくユーザの耳に届く音声信号を「リアルタイム音声」ともいう。追いかけ再生信号処理部213は、制御入力部220からの入力に応じて、聞き戻し音声の時間を短縮して再生することが可能である。例えば、聞き戻し音声の少なくとも一部を1倍速よりも速い再生速度で再生してもよい。当該処理には、例えば、音の高さを変えずに話速を速めて再生する技術を適用してもよい(例えば、非特許文献1参照)。追いかけ再生信号処理部213は、生成した再生信号を情報処理デバイスデータ送信部215へ出力する。
また、他の短縮再生の方法としては、人の声の存在しない時間区間あるいは無音区間をスキップ対象区間として自動で検出し、そのスキップ対象区間のうち少なくとも一部をスキップして再生してもよい。スキップ対象区間の検出は、例えば、音量レベルが所定の閾値を超えない時間が所定の時間以上続いた区間とする等の基準で判断してもよい。また、再生速度を変更することによる短縮とスキップ再生による短縮とは同時に行うことも可能である。
情報処理デバイスデータ送信部215は、追いかけ再生信号処理部213によって処理された音声をエンコードして、音響デバイス100へ送信する。
制御入力部220は、ユーザからの操作入力を受けて、音響デバイス100及び情報処理デバイス200の機能を制御する。例えば、制御入力部220は、ユーザからの操作入力に基づいて、聞き戻し再生機能を実行させたり、聞き戻し再生機能を終了させたりする。また、制御入力部220は、ユーザからの操作入力に基づき、音響デバイス100の音量等、各種設定を行う。なお、図示していないが、ユーザが直接操作するデバイスは、情報処理デバイス200には限定されない。例えば情報処理デバイス200とは別体のコンピュータあるいはリモコン等をユーザが操作し、それらと情報処理デバイス200とが通信することで、制御入力部220にユーザ入力を与えることも想定される。
第1の音声記憶部231は、情報処理デバイスデータ受信部211が受信した、音響デバイス100により取得された音声を記憶する。第1の音声記憶部231に記録された音声は、記録音声として、聞き戻し再生時等に利用可能である。第1の音声記憶部231に記録された音声等の情報は、それと並行して第2の音声記憶部233に記録されてもよい。この場合、第1の音声記憶部231の代わりに、第2の音声記憶部233を聞き戻し再生時等に利用してもよい。例えば、第1の音声記憶部231は揮発性メモリであり、第2の音声記憶部233は不揮発性メモリまたはハードディスクドライブであってもよい。
なお、第1の音声記憶部231または第2の音声記憶部233への記録音声、音声特徴量、あるいはタイムスタンプの記録に関しては、その容量が許す限り全ての情報を累積して記録してもよく、最新かつ所定時間長分の情報のみを記録してもよい。前者の記録方法では、より長時間の情報を蓄積するため、追いかけ再生の自由度を上げることができる。後者の記録方法は、使用する記憶部の容量の節約や、記録された情報が他人のプライバシーに関する情報であることを考慮して不必要に情報を保持しないようにすることができる。
(2)応用構成
次に、図2に基づいて、図1に示した最小構成の補聴システムをベースとして、さらに機能を追加した、補聴システムの一構成例を説明する。図2に示す補聴システムは、最小限の機能である補聴機能及び聞き戻し再生機能に加え、音声分析機能、ノイズキャンセル機能等を備える。以下では、図1に示した最初構成の補聴システムに対して新たに追加された機能について主に説明し、図1の補聴システムと同一の機能構成についての説明は省略する。
次に、図2に基づいて、図1に示した最小構成の補聴システムをベースとして、さらに機能を追加した、補聴システムの一構成例を説明する。図2に示す補聴システムは、最小限の機能である補聴機能及び聞き戻し再生機能に加え、音声分析機能、ノイズキャンセル機能等を備える。以下では、図1に示した最初構成の補聴システムに対して新たに追加された機能について主に説明し、図1の補聴システムと同一の機能構成についての説明は省略する。
(音響デバイス)
音響デバイス100は、図2に示すように、図1に示した音響デバイス100と同様、音声入力部110と、音響デバイスデータ送信部120と、音響デバイスデータ受信部130と、音声出力部150とを備える。さらに、図2の音響デバイス100は、音声特徴計算部121と、タイムスタンプ情報生成部123と、第1信号合成切換部141と、リアルタイム音声処理部143と、第2信号合成切換部145と、キャンセル信号生成部160とを備える。
音響デバイス100は、図2に示すように、図1に示した音響デバイス100と同様、音声入力部110と、音響デバイスデータ送信部120と、音響デバイスデータ受信部130と、音声出力部150とを備える。さらに、図2の音響デバイス100は、音声特徴計算部121と、タイムスタンプ情報生成部123と、第1信号合成切換部141と、リアルタイム音声処理部143と、第2信号合成切換部145と、キャンセル信号生成部160とを備える。
音声入力部110は、外部の音声を取得する集音部であって、図1の音声入力部110と同様に構成される。音声入力部110は、周囲の音響信号をデジタルの波形データへと変換し、音声特徴計算部121、第1信号合成切換部141、及びキャンセル信号生成部160へ出力する。また、制御入力部220の指示に応じて、音響デバイスデータ送信部120へも変換したデジタル信号を出力する。
音声特徴計算部121は、音声入力部110から入力された波形データから、情報処理デバイス200の追いかけ再生信号処理部213または音声分析処理部212の動作に必要な音声特徴量を計算する。音声特徴計算部121は、例えば、各マイク間の一定時間毎の振幅比及び位相差を音声特徴量として計算する。音声特徴計算部121により計算された音声特徴量は、音響デバイスデータ送信部120へ出力される。
タイムスタンプ情報生成部123は、制御入力部220の入力に応じて、音響デバイスデータ送信部120にて情報処理デバイス200へ送信されるデータに付与するタイムスタンプ情報を生成する。タイムスタンプ情報生成部123は、例えば、非音声の時間区間のデジタル信号を情報処理デバイス200へ送信しないという動作を実行させる場合等に、送信するデジタル信号の時間区間に付与するタイムスタンプ情報を生成する。タイムスタンプ情報生成部123により生成されたタイムスタンプ情報は、音響デバイスデータ送信部120に送信される。これは、上述のように、非音声の時間区間のデジタル信号を情報処理デバイス200へ送信しないという動作を実行させる場合等には、情報処理デバイス200では、随時送られてきた信号がどの時刻に対応する信号であるかの情報が失われてしまい、指定された時間だけ遡って聴き戻すことが不可能になる問題を解決するための施策である。
音響デバイスデータ送信部120は、図1と同様、音声入力部110から入力されたデジタル信号を出力する。デジタル信号の送信は、有線伝送であってもよく、無線伝送であってもよい。例えば、無線伝送の場合、Bluetooth(登録商標)等により実現可能である。なお、音響デバイスデータ送信部120は、音声入力部110から入力された音声信号の代わりに、後述するリアルタイム音声処理部143からの出力を送信することも可能であり、出力信号を動的に切り換えることも可能である。また、本実施形態に係る音響デバイスデータ送信部120は、音声波形データとともに、音声特徴計算部121にて計算された音響特徴量の情報を圧縮して情報処理デバイス200に送信することもできる。この際、音響デバイスデータ送信部120は、音声特徴量について、単純なビット深度の変換を行った後、送信する。また、音響デバイスデータ送信部120は、複数のマイクロフォンにて音声データがそれぞれ取得された場合、所定のマイクロフォンからの入力のみ取り出し、SBC(SubBand Codec)等でエンコード処理を行い、情報をエンコード・デコードして送信してもよい。
例えば、音響デバイスデータ送信部120は、左耳用集音器の1つのマイク入力に由来する信号を8kHzにリサンプリングした後、SBCでエンコードした音声波形データと、単純にビット深度変換を行った音響特徴量データとを、変換長フレーム毎にパックし、送信してもよい。このとき、送信データは、定義された独自プロトコルに基づき、SPP(Serial Port Profile)で送信してもよい。なお、エンコード・デコード方式は任意に選択可能であり、例えば、音響特徴量を利用しない図1のようなシステムでは、A2DP(Advanced Audio Distribution Profile)、HSP(Headset Profile)、HFP(Hands-Free Profile)等を用いてもよい。SPPを利用した独自のプロトコルエンコード方式、A2DP、HSP、HFPでデータを送信することも可能である。
音声特徴計算部121は、音響デバイス100と情報処理デバイス200との間のデータ送受信量を削減しながらも、音声分析処理部212及び追いかけ再生信号処理部213の機能性を旦保するために機能する。例えば、前段落での説明では、データ送受信に非可逆符号化を用い、データを送るチャンネル・帯域を限定しているため、音響デバイスデータ送信部120から情報処理デバイスデータ受信部211に送信されたデータは、元の音声波形データから一部情報が失われている。そのため、音声分析処理部212及び追いかけ再生信号処理部213によりこの波形データを用いて実現できる処理が制限されてしまう。例えば、両耳の入力音声波形が必要な特徴量、帯域制限で失われた高域の情報を用いた特徴量が計算できない等といったことが生じる。そこで、情報処理デバイス200側の処理で必要になる特徴量の中に、オリジナルの波形データを用いて計算しなければ得られない特徴量がある場合には、音声特徴計算部121がその特徴量を計算し、情報処理デバイス200に送信することで、所望の機能を実現することができる。
さらに、音響デバイスデータ送信部120は、音声特徴計算部121により計算された音響特徴量データに基づき、例えば現在の入力音に人の声が含まれていないと判断した場合には、データを送信しないことも可能である。この場合、音響デバイスデータ送信部120から情報処理デバイスデータ受信部211へ送信される音声波形データとともに、送信される音声波形データの時間区間のタイムスタンプ情報が、情報処理デバイスデータ受信部211へ送信される。このときの音声特徴計算部121の働きは、前段落での説明とはことなり、音響デバイス100と情報処理デバイス200との間のデータ送受信量をさらに削減するための機能している。
音響デバイスデータ受信部130は、情報処理デバイス200から受信した、エンコードされた聴き戻し音声のストリーミングデータを受信する。音響デバイスデータ受信部130は、受信したストリーミングデータを、信号処理可能な波形データ(PCM等)にデコードし、第1信号合成切換部141または第2信号合成切換部145へ出力する。あるいは、第1信号合成切換部141または第2信号合成切換部145のどちらに入力するかを、制御入力部220からの入力に応じて、動的に切り換えることも可能である。本実施形態に係る補聴システムのように、音響デバイス100と情報処理デバイス200とが分離して構成されている場合には、エンコード・デコード・無線伝送のためのアンテナ等が必要になるが、これらのアンテナのうち少なくとも一部が同一機器に含まれる構成とすること可能である。この場合、同一機器間のブロックのデータのやりとりは、データの圧伸を行わず、共有メモリを利用した単純なデータのやりとりで実現可能である。
第1信号合成切換部141及び第2信号合成切換部145は、制御入力部220の入力に応じて、音声出力部150から出力する音声信号を生成する処理を行い、音声出力部150へ出力する。第1信号合成切換部141または第2信号合成切換部145のうち、いずれか一方のみ、音響デバイスデータ受信部130からの入力信号が有効となっており、他方への入力信号はそのまま出力される。
具体的には、第1信号合成切換部141及び第2信号合成切換部145は、制御入力部220からの入力に応じて、リアルタイム音声、聞き戻し音声のそれぞれに対して処理を行って、合成し、音声出力部150へ出力する。例えば、リアルタイム音声のみ再生する場合には、リアルタイム音声に“1”をかけ、聞き戻し音声に“0”をかけて、和を取り、出力信号とする。また、聞き戻し音声のみ再生する場合には、リアルタイム音声に“0”をかけ、聞き戻し音声に“1”をかけて、和を取り、出力信号とする。さらに、リアルタイム音声と聞き戻し音声とに別々の処理を施して、両方を重ね合わせて出力信号としてもよい。
リアルタイム音声処理部143は、一般的な集音器と同様、音声入力部110から得られた音声に対して低遅延に信号処理を行う音声処理部である。リアルタイム音声処理部143は、例えば、マルチマイクによるビームフォーミング処理や、ハウリングキャンセル・抑圧処理、定常・非定常雑音抑圧、音声の増幅、イコライジング、コンプレッサー等の処理を実行し、ユーザはその出力をリアルタイムに聞くことができる。
音声出力部150は、ユーザへ音声を提供する出力部であって、例えば、DA変換器あるいはドライバーユニット等を含んで構成される。音声出力部150は、第1信号合成切換部141及び第2信号合成切換部145により処理が施された音声のデジタルデータを音響信号へと変換し、出力する。
キャンセル信号生成部160は、ノイズキャンセル機能を実現するための信号処理を行う。キャンセル信号生成部160は、集音器を装着していてもなお、外から漏れ聞こえて鼓膜に届く音声を打ち消すキャンセル信号を生成する。生成されたキャンセル信号は、リアルタイム音声処理部143の出力と合成されて、音声出力部150から出力される。
なお、音響デバイス100において、音声入力部110、リアルタイム音声処理部143及び音声出力部150は、両耳装用の場合には、左右の耳毎に独立動作であってもよく、非独立動作であってもよい。
(情報処理デバイス)
情報処理デバイス200は、情報処理機能を備えるデバイスであり、例えば、音響デバイス100とペアリング可能なスマートフォン等の情報処理端末等である。情報処理デバイス200は、図2に示すように、聞き戻し再生処理部210と、制御入力部220と、第1の音声記憶部231と、第2の音声記憶部233とを備える。さらに、本実施形態に係る情報処理デバイス200は、情報提示部240を備えている。
情報処理デバイス200は、情報処理機能を備えるデバイスであり、例えば、音響デバイス100とペアリング可能なスマートフォン等の情報処理端末等である。情報処理デバイス200は、図2に示すように、聞き戻し再生処理部210と、制御入力部220と、第1の音声記憶部231と、第2の音声記憶部233とを備える。さらに、本実施形態に係る情報処理デバイス200は、情報提示部240を備えている。
聞き戻し再生処理部210は、記録音声を聞き戻し再生するための処理を行う機能部であって、図2に示すように、情報処理デバイスデータ受信部211と、音声分析処理部212と、追いかけ再生信号処理部213と、情報処理デバイスデータ送信部215とを備える。
情報処理デバイスデータ受信部211は、音響デバイスデータ送信部120からのデータストリームを受信し、エンコードされたデータをデコードして音声波形データを取得する。情報処理デバイスデータ受信部211は、取得した音声波形データを、音声分析処理部212及び追いかけ再生信号処理部213へ出力する。
音声分析処理部212は、情報処理デバイスデータ受信部211から入力された音響特徴量及び音声波形データを分析し、追いかけ再生信号処理、及び、ユーザへの情報提示に必要な情報を抽出する。追いかけ再生信号処理のための分析として、音声分析処理部212は、例えば、波形データから、一定時間毎の信号のパワー、及び、自己相関係数を計算し、ローパスフィルタをかけることで情報を抽出してもよい。そして、音声分析処理部212は、両者の値が一定時間閾値を超えたとき、その時刻を「有音声区間」とみなし、追いかけ再生信号処理部213に当該情報を出力してもよい。
また、情報提示のための分析として、音声分析処理部212は、例えば、音声特徴計算部121で計算された音響特徴量(マイク間振幅比・位相差)の一時差分をとりローパスフィルタをかけることで情報を抽出してもよい。そして、音声分析処理部212は、その値がある閾値を超えた位置を「発話者の変化点」とみなし、情報提示部240に当該情報を出力してもよい。また別の具体例として、情報処理デバイス200がスマートフォンであり、情報提示部240の1つであるディスプレイに音声波形を表示させる場合を考えると、限られたディスプレイの表示エリア上で視認性のよい波形を表示するための処理を音声分析処理部212で行うことができる。このとき、音声分析処理部212は、例えば、音声波形データについて人の音声帯域のみの波形を取り出すようなバンドパスフィルタをかけた後、サンプル値そのものを表示するのでなく、数サンプル(例えば、005sec)毎に最大値及び最小値の範囲を縦線で表示してもよい。これにより、ユーザに対して音声波形データをわかりやすく提示することができる。
追いかけ再生信号処理部213は、情報処理デバイスデータ受信部211から入力された音声データを分析し、制御入力部220からの入力に応じて、所定時間だけ遡った時刻からの音声を出力するための処理を行う。なお、以下において、追いかけ再生信号処理部213により信号処理された後ユーザの耳に届く音声信号を「聞き戻し音声」ともいう。これに対して、追いかけ再生信号処理部213による信号処理が行われることなくユーザの耳に届く音声信号を「リアルタイム音声」ともいう。追いかけ再生信号処理部213は、制御入力部220からの入力に応じて、聞き戻し音声の時間を短縮して再生することが可能である。例えば、聞き戻し音声の少なくとも一部を1倍速よりも速い再生速度で再生してもよい。当該処理には、例えば、音の高さを変えずに話速を速めて再生する技術を適用してもよい(例えば、非特許文献1参照)。追いかけ再生信号処理部213は、生成した再生信号を情報処理デバイスデータ送信部215へ出力する。
また、他の短縮再生の方法としては、人の声の存在しない時間区間あるいは無音区間をスキップ対象区間として自動で検出し、そのスキップ対象区間のうち少なくとも一部をスキップして再生してもよい。スキップ対象区間の検出は、例えば、音量レベルが所定の閾値を超えない時間が所定の時間以上続いた区間とする等の基準で判断してもよい。また、再生速度を変更することによる短縮とスキップ再生による短縮とは同時に行うことも可能である。
情報処理デバイスデータ送信部215は、追いかけ再生信号処理部213によって処理された音声をエンコードして、音響デバイス100へ送信する。
制御入力部220は、ユーザからの操作入力を受けて、音響デバイス100及び情報処理デバイス200の機能を制御する。例えば、制御入力部220は、ユーザからの操作入力に基づいて、聞き戻し再生機能を実行させたり、聞き戻し再生機能を終了させたりする。また、制御入力部220は、ユーザからの操作入力に基づき、音響デバイス100の音量等、各種設定を行う。なお、図示していないが、ユーザが直接操作するデバイスは、情報処理デバイス200には限定されない。例えば情報処理デバイス200とは別体のコンピュータあるいはリモコン等をユーザが操作し、それらと情報処理デバイス200とが通信することで、制御入力部220にユーザ入力を与えることも想定される。
第1の音声記憶部231は、情報処理デバイスデータ受信部211が受信した、音響デバイス100により取得された音声を記憶する。このとき、第1の音声記憶部231に、音声特徴量やタイムスタンプ情報も合わせて記録してもよい。第1の音声記憶部231に記録された音声は、記録音声として、聞き戻し再生時等に利用可能である。第1の音声記憶部231に記録された音声等の情報は、それと並行して第2の音声記憶部233に記録されてもよい。この場合、第1の音声記憶部231の代わりに、第2の音声記憶部233を聞き戻し再生時等に利用してもよい。例えば、第1の音声記憶部231は揮発性メモリであり、第2の音声記憶部233は不揮発性メモリまたはハードディスクドライブであってもよい。
なお、第1の音声記憶部231または第2の音声記憶部233への記録音声、音声特徴量、あるいはタイムスタンプの記録に関しては、その容量が許す限り全ての情報を累積して記録してもよく、最新かつ所定時間長分の情報のみを記録してもよい。前者の記録方法では、より長時間の情報を蓄積するため、追いかけ再生の自由度を上げることができる。後者の記録方法は、使用する記憶部の容量の節約や、記録された情報が他人のプライバシーに関する情報であることを考慮して不必要に情報を保持しないようにすることができる。
情報提示部240は、音声分析処理部212から入力された情報に基づいて、静止画または動画、文字情報等を表示する機能部であって、例えばディスプレイ等である。なお、情報提示部240には、ディスプレイそのものだけでなく、当該ディスプレイに情報を表示させるための表示処理部も含まれるものとする。なお、図示しないが、情報提示部240は必ずしも情報処理デバイス200と同体でなくとも構わない。すなわち、情報提示部240は、情報処理デバイス200とは物理的に分離したデバイスに内蔵されており、有線または無線の通信により、動画像または音情報等を通じて、提示すべき静止画、動画、文字情報等を受信し、ユーザに提示してもよい。このように情報処理デバイス200とは物理的に分離した情報提示部240としては、例えば、テレビジョン、タブレット端末、PC等がある。
ここで、図3に、本実施形態に係る情報提示部240の一表示例として、聞き戻し再生画面10を示す。聞き戻し再生画面10は、聞き戻し再生機能の各種設定を行うための画面である。なお、聞き戻し再生画面10は、図3に示す構成に限定されるものではなく、適宜変更可能である。
聞き戻し再生画面10には、例えば、過去所定時間分(例えば、60秒分)バッファリングした、音声分析処理部212から入力された音声波形データを画像として表示するタイムライン表示エリア11を表示してもよい。この音声波形データの画像に対して、例えば、音声分析処理部212にて分析された発話者の変化点の時刻に対応する位置に、発話区間の開始位置及び終了位置を区切るライン(例えば、ライン11a~11d)を表示してもよい。さらに、現在の聞き戻し再生位置を示すラインLTpを音声波形データの画像に表示させてもよい。例えば、情報提示部240に表示されている情報を指等で直接操作可能なように、情報提示部240がタッチセンサ等を備えている場合には、このラインLTpの時間軸の位置を移動させることで、聞き戻し再生位置を変更することも可能となる。
さらに、聞き戻し再生画面10は、現在の追いかけ再生信号処理部213の動作状況を示す情報を提示してもよい。例えば、現在、追いかけ再生信号処理部213が出力し、音響デバイス100でユーザが聞いている音声が、現時刻に対してどのくらい前(例えば何秒前)の音声であるかを表示してもよい。また、図3に示すように、聞き戻し再生画面10に、聞き戻し再生開始ボタン(Playbackボタン)12、聞き戻し再生終了ボタン(Stopボタン)13、及び、聞き戻し位置設定部14を設けてもよい。聞き戻し再生開始ボタン12が押下されると聞き戻し再生処理が開始させることができ、聞き戻し再生終了ボタン13が押下されると聞き戻し再生処理が終了させることができる。また、聞き戻し位置設定部14では、聞き戻し再生開始時点からどのくらい遡った時点から記録された音声を再生させるかを設定することができる。例えば、図3に示す例では、聞き戻し再生開始時点から3秒遡った時点から音声が再生させる。
また、聞き戻し再生画面10は、聞き戻し再生処理時の再生速度を設定する話速調整部15を備えることもできる。図3の例では、つまみ部15aをスライドさせることで、聞き戻し再生処理時の再生速度を遅くしたり速くしたりすることができる。なお、聞き戻し再生処理時において複数の区間に分けて再生速度を変化させることも可能であり、その場合には、再生速度を設定可能な区間の数だけ話速調整部15を設けてもよい。また、図3の例以外も、例えば、「1.5倍速」等のように再生速度を数値入力により設定可能にしてもよく、非音声区間をスキップするスキップモードに設定されている場合にはスキップモードに設定されている旨を示すアイコンあるいは文字等を表示させてもよい。
[1.2.聞き戻し再生処理]
以下、本実施形態に係る補聴システムによる聞き戻し再生処理について2つのケースを説明する。以下の2つのケースでは、聞き戻し開始位置からの戻り時間については「現在から5sec過去の音声から聞き戻す」といったように予め設定されているものとし、リアルタイム音声と聞き戻し音声との同時聴取はしないものとして説明する。また、追いかけ再生信号処理部213における短縮再生方法として、1倍速よりも速い速度での再生を行う例を用いて説明する。
以下、本実施形態に係る補聴システムによる聞き戻し再生処理について2つのケースを説明する。以下の2つのケースでは、聞き戻し開始位置からの戻り時間については「現在から5sec過去の音声から聞き戻す」といったように予め設定されているものとし、リアルタイム音声と聞き戻し音声との同時聴取はしないものとして説明する。また、追いかけ再生信号処理部213における短縮再生方法として、1倍速よりも速い速度での再生を行う例を用いて説明する。
(1)聞き戻し再生開始のみ指示する場合
まず、図4~図8に基づいて、本実施形態に係る補聴システムによる聞き戻し再生処理について説明する。なお、図4は、本実施形態に係る補聴システムによる聞き戻し再生処理を示すフローチャートである。図5~図8は、本実施形態に係る補聴システムによる聞き戻し再生処理を説明するための説明図である。なお、図5~図8において、Tnowは現時刻の位置を示し、Tpは聞き戻し再生位置を示す。また、T1は聞き戻し再生操作が入力された時点を示し、T2はT1から設定された戻り時間だけ過去に遡った時点を示し、T3は聞き戻し再生位置が現時点に追いついた時点を示している。
まず、図4~図8に基づいて、本実施形態に係る補聴システムによる聞き戻し再生処理について説明する。なお、図4は、本実施形態に係る補聴システムによる聞き戻し再生処理を示すフローチャートである。図5~図8は、本実施形態に係る補聴システムによる聞き戻し再生処理を説明するための説明図である。なお、図5~図8において、Tnowは現時刻の位置を示し、Tpは聞き戻し再生位置を示す。また、T1は聞き戻し再生操作が入力された時点を示し、T2はT1から設定された戻り時間だけ過去に遡った時点を示し、T3は聞き戻し再生位置が現時点に追いついた時点を示している。
図4に示す聞き戻し再生処理のフローチャートは、聞き戻し再生開始のみ指示する場合を示している。すなわち、聞き戻し再生開始の操作入力があってから、ユーザの操作なしにリアルタイム音声の再生へと移行するケースを示している。
本実施形態に係る補聴システムによる聞き戻し再生処理では、まず、図4に示すように、ユーザから聞き戻し再生開始の操作が入力されると(S100)、制御入力部220は、聞き戻し再生処理部210による聞き戻し再生処理を開始する。聞き戻し再生開始の操作は、例えば図3に示した聞き戻し再生画面10の聞き戻し再生開始ボタン12を押下する操作であってもよい。制御入力部220は、聞き戻し再生処理部210による聞き戻し再生処理を開始させるとともに、音響デバイス100に対して、音声出力部150から出力される音声を、聞き戻し音声のみとなるように指示する(S110)。そして、再生位置を所定の戻り時間だけ戻った位置に変更し(S120)、音声強調処理を行った聞き戻し音声の再生を開始する(S130)。なお、ステップS130では、必ずしも音声強調処理を行わなくともよく、音声強調処理を行わずに聞き戻し音声を再生してもよい。
例えば、図5に示すように、録音開始から時間T1経過した時点で、ステップS100の聞き戻し再生開始の操作が行われたとする。当該操作が行われるまでは、リアルタイム音声がユーザに対して出力されており、当該リアルタイム音声は第1の音声記憶部231に記録されている。聞き戻し再生開始により、ステップS110で聞き戻し音声のみが出力された後、ステップS120で図6に示すように時間T1から所定の戻り時間だけ遡った時間時間T2から聞き戻し音声の再生が開始される。図6の例では、戻り時間は15秒に設定されており、例えば聞き戻し再生開始の操作のあった時間T1が15分30秒であれば、そこから15秒遡った時間T2(すなわち15分15秒)の位置から聞き戻し音声が再生される。
ステップS130の聞き戻し音声再生の区間は、例えば、第1の再生速度で聞き戻し音声が再生される。第1の再生速度は、予め設定されていてもよく、ユーザにより設定されてもよい。当該区間の音声は、ユーザが再度内容を確認したいものであるため、第1の再生速度は、通常、1倍速あるいはそれ以下の再生速度に設定される。もちろん、1倍速よりも速い再生速度に設定されてもよい。
図4の説明に戻り、ステップS130の聞き戻し音声の再生は、聞き戻し再生位置Tpが聞き戻し開始時刻T1に到達するまで行われる(S140)。そして、聞き戻し再生位置Tpが聞き戻し開始時刻T1に到達すると、追いかけ再生信号処理部213は、当該位置Tpから現時刻の位置Tnowに追いつくまでの区間、第2の再生速度で聞き戻し音声を再生する(S150)。当該区間では聞き戻し再生位置Tpを現時刻に追いかせる必要があるため、第2の再生速度は、1倍速よりも速い速度に設定される。そして、第1の音声記憶部231にバッファリングされた未再生の聞き戻し音声がなくなったとき(S160)、すなわち、聞き戻し再生位置Tpを現時刻の位置Tnowに追いついたとき、追いかけ再生信号処理部213による聞き戻し音声再生処理が終了する。そして、制御入力部220は、音響デバイス100に対して音声出力部150から出力される音声を、リアルタイム音声のみとなるように指示し(S170)、リアルタイム音声処理部143により音声強調処理されたリアルタイム音声のみがユーザに提供されるようになる(S180)。
図7に、聞き戻し再生位置Tpが聞き戻し開始時刻T1に到達した後の聞き戻し音声の再生状態を示す。図7に示すように、ステップS150の区間においては、1倍速より速い第2の再生速度で再生される。その後、聞き戻し再生位置Tpを現時刻の位置Tnowに追いつくと、図8に示すように、聞き戻し音声の再生が終了され、リアルタイム音声のみが出力されるようになる。
(2)聞き戻し再生終了指示がある場合
次に、図9に基づいて、本実施形態に係る補聴システムによる聞き戻し再生処理の他のケースについて説明する。なお、図9は、聞き戻し再生終了指示がある場合の、聞き戻し再生処理を示すフローチャートである。すなわち、聞き戻し再生開始の操作入力があってから、ユーザの聞き戻し再生終了の操作入力を受けて、聞き戻し音声の短縮再生、リアルタイム音声の再生へと移行するケースを示している。以下では、図4に示した聞き戻し再生処理と異なる処理について主に説明し、同一処理については詳細な説明を省略する。
次に、図9に基づいて、本実施形態に係る補聴システムによる聞き戻し再生処理の他のケースについて説明する。なお、図9は、聞き戻し再生終了指示がある場合の、聞き戻し再生処理を示すフローチャートである。すなわち、聞き戻し再生開始の操作入力があってから、ユーザの聞き戻し再生終了の操作入力を受けて、聞き戻し音声の短縮再生、リアルタイム音声の再生へと移行するケースを示している。以下では、図4に示した聞き戻し再生処理と異なる処理について主に説明し、同一処理については詳細な説明を省略する。
本実施形態に係る補聴システムによる聞き戻し再生処理では、まず、図9に示すように、ユーザから聞き戻し再生開始の操作が入力されると(S200)、制御入力部220は、聞き戻し再生処理部210による聞き戻し再生処理を開始する。制御入力部220は、聞き戻し再生処理部210による聞き戻し再生処理を開始させるとともに、音響デバイス100に対して、音声出力部150から出力される音声を、聞き戻し音声のみとなるように指示する(S210)。そして、再生位置を所定の戻り時間だけ戻った位置に変更し、音声強調処理を行った聞き戻し音声の再生を開始する(S220)。ステップS200~220の処理は、図4のステップS100~S130の処理と同一である。なお、ステップS220では、必ずしも音声強調処理を行わなくともよく、音声強調処理を行わずに聞き戻し音声を再生してもよい。
ここで、ステップS220の聞き戻し音声の再生中であって、聞き戻し再生位置Tpが聞き戻し開始時刻T1に到達するまでに、ユーザから聞き戻し再生終了の操作入力があったとする(S230)。当該操作入力をうけて、追いかけ再生信号処理部213は、聞き戻し再生位置Tpを聞き戻し開始時刻T1に移動させ(S240)、聞き戻し開始時刻T1から、聞き戻し再生位置Tpが現時刻の位置Tnowに追いつくまでの区間、第2の再生速度で聞き戻し音声を再生する(S250)。当該区間では、図4のステップS150と同様、聞き戻し再生位置Tpを現時刻に追いかせる必要があるため、第2の再生速度は、1倍速よりも速い速度に設定される。
そして、第1の音声記憶部231にバッファリングされている未再生の聞き戻し音声がなくなったとき(S260)、すなわち、聞き戻し再生位置Tpを現時刻の位置Tnowに追いついたとき、追いかけ再生信号処理部213による聞き戻し音声再生処理が終了する。そして、制御入力部220は、音響デバイス100に対して音声出力部150から出力される音声を、リアルタイム音声のみとなるように指示し(S270)、リアルタイム音声処理部143により音声強調処理されたリアルタイム音声のみがユーザに提供されるようになる(S280)。ステップS250~280の処理は、図4のステップS150~S180の処理と同一である。このように、ユーザが明示的に聞き戻し再生処理を終了させた場合にも、聞き戻し再生処理中のリアルタイム音声をステップS250の区間で聞くことができる。
なお、図9の例では、聞き戻し再生位置Tpが聞き戻し開始時刻T1に到達するまでに、ユーザから聞き戻し再生終了の操作入力があった場合について説明したが、聞き戻し再生位置Tpが聞き戻し開始時刻T1に到達した後であっても、ユーザは聞き戻し再生終了の操作入力を行うことはできる。この場合、例えば、追いかけ再生信号処理部213は、聞き戻し音声の再生速度をより速くしてもよく、聞き戻し音声の再生自体を終了させてもよい。
また、ユーザが聞き戻し再生位置Tpを次次と変更するようなケースも考えられるが、その場合には、聞き戻し再生開始の操作が入力される度にその時点から所定の戻り時間だけ遡り、聞き戻し音声の再生を開始すればよい。
[1.3.補足]
本実施形態に係る補聴システムでは、取得した音声信号を聞き戻し再生することができるため、音声信号を先読みした音声処理や、演算時間のかかる処理を実行することが可能となる。この結果、より高品質な音声強調が可能になる。
本実施形態に係る補聴システムでは、取得した音声信号を聞き戻し再生することができるため、音声信号を先読みした音声処理や、演算時間のかかる処理を実行することが可能となる。この結果、より高品質な音声強調が可能になる。
(1)非定常雑音抑圧処理
例えば、本実施形態に係る補聴システムでは、非定常雑音抑圧処理を実行することが可能である。例えば、キーボードのタイプ音やドアの開閉等、物同士が衝突したような非定常雑音は耳障りであり、抑圧すべき対象である。一方で、音声の子音部分は、音声の聞き取りに重要であるため、確実に再生する必要がある。しかし、音声の子音部分と上記衝突音等の非定常雑音とは、瞬間的に高域にエネルギーが集中するという共通の特徴があり、瞬時的な信号を観察しただけでは、両者を判別することは困難である。
例えば、本実施形態に係る補聴システムでは、非定常雑音抑圧処理を実行することが可能である。例えば、キーボードのタイプ音やドアの開閉等、物同士が衝突したような非定常雑音は耳障りであり、抑圧すべき対象である。一方で、音声の子音部分は、音声の聞き取りに重要であるため、確実に再生する必要がある。しかし、音声の子音部分と上記衝突音等の非定常雑音とは、瞬間的に高域にエネルギーが集中するという共通の特徴があり、瞬時的な信号を観察しただけでは、両者を判別することは困難である。
そこで、信号がバッファされており、ある程度の時間遅らせて再生することを前提として、追いかけ再生信号処理部213にて、非定常雑音抑圧処理を実行することで、衝突音等の非定常雑音を抑制することで、精度良く突発性雑音を判別、除去することができ、より高品質な音声強調を実現できる。非定常雑音抑圧処理には、例えば非特許文献2に記載の信号処理技術を適用できる。非特許文献2に記載の手法は、処理すべき時間区間前後の信号を手がかりにするため、比較的演算量が多く、処理時間を要するため、リアルタイム音声処理部143での実施は難しい。しかし、本実施形態に係る補聴システムの聞き戻し再生処理においては、時間的制約及び演算コストが緩いため、非定常雑音抑圧処理を実施可能である。
(2)聞き戻し音声とリアルタイム音声との同時聴取
聞き戻したい音声が長く、その間に自分が何かしらの応答を求められる場合には、聞き戻し音声とリアルタイム音声とを同時聴取する機能があるとよい。そこで、上記実施形態に係る補聴システムにおいて、聞き戻し音声再生の機能を有しつつ、聞き戻し音声とリアルタイム音声との同時聴取を実現することも可能である。
聞き戻したい音声が長く、その間に自分が何かしらの応答を求められる場合には、聞き戻し音声とリアルタイム音声とを同時聴取する機能があるとよい。そこで、上記実施形態に係る補聴システムにおいて、聞き戻し音声再生の機能を有しつつ、聞き戻し音声とリアルタイム音声との同時聴取を実現することも可能である。
これらの音声は、第1信号合成切換部141及び第2信号合成切換部145において、合成することは可能である。しかし、単純に聞き戻し音声とリアルタイム音声とを足し合わせると、両方とも聞き取りづらくなる可能性がある。このため、両者の弁別をしやすくするよう、聞き戻し音声またはリアルタイム音声のうち少なくともいずれか一方の音声信号を加工してもよい。音声信号の加工は、第1信号合成切換部141及び第2信号合成切換部145において行ってもよいが、演算コストの制約及び演算時間の制約が少ない追いかけ再生信号処理部213にて、聞き戻し音声に対して加工を施してもよい。
具体的には、例えば非特許文献3に記載された残響抑圧処理を施すことで、聞き戻し音声を、リアルタイム音声と比べてドライで近接の音声であるかのような聞こえに加工することができる。あるいは、聞き戻し音声に対して、頭部伝達関数や部屋のインパルス応答(あるいはこれ相当の効果を有する)フィルタをかけることで、リアルタイム音声とは別の環境で発せられた音声であるかのように加工し、ユーザに聞かせることもできる。この加工には、頭内定位させる、音源位置を不明確にする、等といった対応も含むものとする。さらに、音高変換技術により、聞き戻し音声のピッチを上げたり(もしくは下げたり)、あるいはボイスチェンジャーに使用されるようなエフェクトをかけてリアルタイム音声とは異質な聞こえにするよう加工してもよい。また、いわゆる音声の分析合成技術のひとつであるVocoder技術により、音声のスペクトル包絡と、ピッチ情報の分離、スペクトル包絡とを入れ換えることで、聞き戻し音声の声質を変換したり、ピッチ情報を入れ替えることで聞き戻し音声の音高を変化させたりすることもできる。
[1.4.まとめ]
以上、本実施形態に係る補聴システムの構成と、これによる聞き戻し再生処理について説明した。本実施形態によれば、ユーザは音声に聞き逃しがあっても、会話の途中で即座に聞き直しすることができ、聞き戻し音声の再生と通常再生(すなわち、リアルタイム音声の聞き取り)とをスムーズに行き来できる。また、本実施形態に係る補聴システムにより、聞き取りやすい聞き戻し音声を提供することができる。
以上、本実施形態に係る補聴システムの構成と、これによる聞き戻し再生処理について説明した。本実施形態によれば、ユーザは音声に聞き逃しがあっても、会話の途中で即座に聞き直しすることができ、聞き戻し音声の再生と通常再生(すなわち、リアルタイム音声の聞き取り)とをスムーズに行き来できる。また、本実施形態に係る補聴システムにより、聞き取りやすい聞き戻し音声を提供することができる。
<2.第2の実施形態>
次に、図10及び図11に基づいて、本開示の第2の実施形態に係る補聴装置300について説明する。本実施形態に係る補聴装置300は、第1の実施形態に係る補聴システムを1つのデバイスにまとめた構成となっている。以下、本実施形態に係る補聴装置300の最小限構成と、最小限構成に対してノイズキャンセル機能等の機能が付加された場合の一構成例について、説明する。なお、図10は、図1に示した第1の実施形態の補聴システムの構成に対応しており、図11は、図2に示した第1の実施形態の補聴システムの構成に対応している。このため、各機能の詳細な説明は省略する。
次に、図10及び図11に基づいて、本開示の第2の実施形態に係る補聴装置300について説明する。本実施形態に係る補聴装置300は、第1の実施形態に係る補聴システムを1つのデバイスにまとめた構成となっている。以下、本実施形態に係る補聴装置300の最小限構成と、最小限構成に対してノイズキャンセル機能等の機能が付加された場合の一構成例について、説明する。なお、図10は、図1に示した第1の実施形態の補聴システムの構成に対応しており、図11は、図2に示した第1の実施形態の補聴システムの構成に対応している。このため、各機能の詳細な説明は省略する。
(1)最小構成
まず、図10に基づいて、本実施形態に係る補聴装置300の最小限の機能構成を説明する。図10に示す補聴システムは、最小限の機能として、通常の補聴機能に加えて聞き戻し再生機能を実行可能にするものである。
まず、図10に基づいて、本実施形態に係る補聴装置300の最小限の機能構成を説明する。図10に示す補聴システムは、最小限の機能として、通常の補聴機能に加えて聞き戻し再生機能を実行可能にするものである。
補聴装置300は、図10に示すように、音声入力部310と、追いかけ再生信号処理部320と、信号合成切換部330と、制御入力部340と、音声出力部350と、第1の音声記憶部361と、第2の音声記憶部363とからなる。この補聴装置300は、図1の補聴システムと比較して、デバイス間のデータの送受信を行う機能部が省略されたものとなっている。音声入力部310は音声入力部110に対応し、追いかけ再生信号処理部320は追いかけ再生信号処理部213に対応する。また、信号合成切換部330は信号合成切換部140に対応し、制御入力部340は制御入力部220に対応する。そして、音声出力部350は音声出力部150に対応し、第1の音声記憶部361は第1の音声記憶部231に対応し、第2の音声記憶部233は第2の音声記憶部363に対応している。各機能部の機能は第1の実施形態と同様であるため、詳細な説明は省略する。このように、聞き戻し再生機能を備える1つのデバイスを構成することができる。
(2)応用構成
次に、図11に基づいて、図10に示した最小構成の補聴システムをベースとして、さらに機能を追加した、補聴装置300の一構成例を説明する。図11に示す補聴装置300は、最小限の機能である補聴機能及び聞き戻し再生機能に加え、音声分析機能、ノイズキャンセル機能等を備える。以下では、図2に示した第1の実施形態に係る補聴システムと対比しつつ、図10に示した最初構成の補聴システムに対して新たに追加された機能について主に説明する。
次に、図11に基づいて、図10に示した最小構成の補聴システムをベースとして、さらに機能を追加した、補聴装置300の一構成例を説明する。図11に示す補聴装置300は、最小限の機能である補聴機能及び聞き戻し再生機能に加え、音声分析機能、ノイズキャンセル機能等を備える。以下では、図2に示した第1の実施形態に係る補聴システムと対比しつつ、図10に示した最初構成の補聴システムに対して新たに追加された機能について主に説明する。
補聴装置300の機能は、図11に示すように、音声入出力部302と、聞き戻し再生処理部304に大きく分けることができる。音声入出力部302は、図2の補聴システムの音響デバイス100の機能を実現する処理部であり、聞き戻し再生処理部304は、図2の補聴システムの情報処理デバイス200の機能を実現する処理部である。かかる補聴装置300は、図10の補聴装置300と同様、図2の補聴システムと比較して、デバイス間のデータの送受信を行う機能部が省略されたものとなっている。
すなわち、音声入出力部302は、音声入力部310と、第1信号合成切換部331と、リアルタイム音声処理部333と、第2信号合成切換部335と、キャンセル信号生成部370とを備える。これらは、図2の音響デバイス100の音声入力部110、第1信号合成切換部141、リアルタイム音声処理部143、第2信号合成切換部145、音声出力部150、及びキャンセル信号生成部160にそれぞれ対応する。
また、聞き戻し再生処理部304は、追いかけ再生信号処理部320と、音声分析処理部321を備える。これらは、図2の情報処理デバイス200の追いかけ再生信号処理部213と、音声分析処理部212とにそれぞれ対応する。そして、補聴装置300は、第1の音声記憶部361と、第2の音声記憶部363と、情報提示部380とを備えている。これらは、図2の補聴システムの第1の音声記憶部231と、第2の音声記憶部233と、情報提示部240とにそれぞれ対応する。各機能部の機能は第1の実施形態と同様であるため、詳細な説明は省略するが、このように、図2の補聴システムの機能を備える1つのデバイスを構成することができる。
<3.ハードウェア構成例>
最後に、上記実施形態に係る音響デバイス100、情報処理デバイス200、補聴装置300のハードウェア構成例について説明する。これらの機器は同様に構成することができるため、以下では、情報処理デバイス200を例として説明する。図12は、上実施形態に係る情報処理デバイス200のハードウェア構成を示すハードウェア構成図である。
最後に、上記実施形態に係る音響デバイス100、情報処理デバイス200、補聴装置300のハードウェア構成例について説明する。これらの機器は同様に構成することができるため、以下では、情報処理デバイス200を例として説明する。図12は、上実施形態に係る情報処理デバイス200のハードウェア構成を示すハードウェア構成図である。
本実施形態に係る情報処理デバイス200は、上述したように、コンピュータ等の処理装置により実現することができる。情報処理デバイス200は、図12に示すように、CPU(Central Processing Unit)901と、ROM(Read Only Memory)902と、RAM(Random Access Memory)903と、ホストバス904aとを備える。また、情報処理デバイス200は、ブリッジ904と、外部バス904bと、インタフェース905と、入力装置906と、出力装置907と、ストレージ装置908と、ドライブ909と、接続ポート911と、通信装置913とを備える。
CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理デバイス200内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス904aにより相互に接続されている。
ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
入力装置906は、マウス、キーボード、タッチパネル、ボタン、マイク、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU901に出力する入力制御回路などから構成されている。出力装置907は、例えば、液晶ディスプレイ(LCD)装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置や、スピーカなどの音声出力装置を含む。
ストレージ装置908は、情報処理デバイス200の記憶部の一例であり、データ格納用の装置である。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、ハードディスクを駆動し、CPU901が実行するプログラムや各種データを格納する。
ドライブ909は、記憶媒体用リーダライタであり、情報処理デバイス200に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体に記録されている情報を読み出して、RAM903に出力する。
接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。また、通信装置913は、例えば、通信網5に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置913は、無線LAN(Local Area Network)対応通信装置であっても、ワイヤレスUSB対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部を備える、情報処理装置。
(2)
前記再生処理部は、前記記録音声を、前記聞き戻し開始時刻までは第1の再生速度で再生し、前記聞き戻し開始時刻から現時刻までは第2の再生速度で再生する、前記(1)に記載の情報処理装置。
(3)
前記聞き戻し開始時刻に到達する前に前記記録音声の聞き戻し終了指示が入力されたとき、前記再生処理部は、前記記録音声の再生位置を前記聞き戻し開始時刻に移動する、前記(2)に記載の情報処理装置。
(4)
前記第2の再生速度は、前記第1の再生速度以上である、前記(2)または(3)に記載の情報処理装置。
(5)
前記第2の再生速度は1倍速より速い、前記(2)~(4)のいずれか1項に記載の情報処理装置。
(6)
前記再生処理部は、前記聞き戻し開始時刻から前記現時刻までの区間のうち少なくとも一部をスキップして再生する、前記(1)~(5)に記載の情報処理装置。
(7)
スキップされるスキップ対象区間は、人の声の存在しない時間区間または無音区間である、前記(6)に記載の情報処理装置。
(8)
少なくとも前記記録音声の再生中にノイズキャンセリング機能を実行するキャンセル信号生成部をさらに備える、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)
前記記録音声を分析する音声分析処理部を備え、
前記再生処理部は、前記音声分析処理部による分析結果に基づいて音声強調処理を行う、前記(1)~(8)のいずれか1項に記載の情報処理装置。
(10)
前記記録音声を分析する音声分析処理部と、
前記音声分析処理部による分析結果に基づいて、当該音声に関する情報を提示する情報提示部と、
を備える、前記(1)~(8)のいずれか1項に記載の情報処理装置。
(11)
前記情報提示部は、取得された前記音声の音声波形をディスプレイに表示させる、前記(10)に記載の情報処理装置。
(12)
入力された音声に対して所定の音声の補正処理を行い、リアルタイム音声を出力するリアルタイム音声処理部を備える、前記(1)~(11)のいずれか1項に記載の情報処理装置。
(13)
制御入力に基づいて、前記記録音声及び前記リアルタイム音声の再生処理を行う信号合成切換部をさらに備える、前記(12)に記載の情報処理装置。
(14)
前記信号合成切換部は、前記記録音声の再生時には、前記リアルタイム音声を再生しない、前記(13)に記載の情報処理装置。
(15)
音声を取得し、出力する第1のデバイスと、
前記第1のデバイスにて取得された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生させる再生処理部を備える第2のデバイスと、
を含む、情報処理システム。
(16)
前記第1のデバイスは、
前記第2のデバイスに対して送信するデータを圧縮して送信するデータ送信部と、
前記第2のデバイスから受信したデータを伸張するデータ受信部と、
をさらに備える、前記(15)に記載の情報処理システム。
(17)
前記第1のデバイスは、取得した音声の波形データに含まれる特徴量を計算する音声特徴計算部をさらに備え、
前記データ送信部は、前記特徴量を前記第2のデバイスへ送信する、前記(16)に記載の情報処理システム。
(18)
前記第1のデバイスは、取得した音声の波形データに含まれる特徴量を計算する音声特徴計算部をさらに備え、
前記データ送信部は、前記特徴量に基づいて、取得された音声のうち前記第2のデバイスに送信する音声区間を決定し、前記第2のデバイスへ送信する、前記(16)に記載の情報処理システム。
(19)
前記第2のデバイスは、記録音声の聞き戻し再生に関する情報を提示する情報提示部を備える、前記(15)~(18)のいずれか1項に記載の情報処理システム。
(20)
コンピュータを、録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部として機能させる、プログラム。
(1)
録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部を備える、情報処理装置。
(2)
前記再生処理部は、前記記録音声を、前記聞き戻し開始時刻までは第1の再生速度で再生し、前記聞き戻し開始時刻から現時刻までは第2の再生速度で再生する、前記(1)に記載の情報処理装置。
(3)
前記聞き戻し開始時刻に到達する前に前記記録音声の聞き戻し終了指示が入力されたとき、前記再生処理部は、前記記録音声の再生位置を前記聞き戻し開始時刻に移動する、前記(2)に記載の情報処理装置。
(4)
前記第2の再生速度は、前記第1の再生速度以上である、前記(2)または(3)に記載の情報処理装置。
(5)
前記第2の再生速度は1倍速より速い、前記(2)~(4)のいずれか1項に記載の情報処理装置。
(6)
前記再生処理部は、前記聞き戻し開始時刻から前記現時刻までの区間のうち少なくとも一部をスキップして再生する、前記(1)~(5)に記載の情報処理装置。
(7)
スキップされるスキップ対象区間は、人の声の存在しない時間区間または無音区間である、前記(6)に記載の情報処理装置。
(8)
少なくとも前記記録音声の再生中にノイズキャンセリング機能を実行するキャンセル信号生成部をさらに備える、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)
前記記録音声を分析する音声分析処理部を備え、
前記再生処理部は、前記音声分析処理部による分析結果に基づいて音声強調処理を行う、前記(1)~(8)のいずれか1項に記載の情報処理装置。
(10)
前記記録音声を分析する音声分析処理部と、
前記音声分析処理部による分析結果に基づいて、当該音声に関する情報を提示する情報提示部と、
を備える、前記(1)~(8)のいずれか1項に記載の情報処理装置。
(11)
前記情報提示部は、取得された前記音声の音声波形をディスプレイに表示させる、前記(10)に記載の情報処理装置。
(12)
入力された音声に対して所定の音声の補正処理を行い、リアルタイム音声を出力するリアルタイム音声処理部を備える、前記(1)~(11)のいずれか1項に記載の情報処理装置。
(13)
制御入力に基づいて、前記記録音声及び前記リアルタイム音声の再生処理を行う信号合成切換部をさらに備える、前記(12)に記載の情報処理装置。
(14)
前記信号合成切換部は、前記記録音声の再生時には、前記リアルタイム音声を再生しない、前記(13)に記載の情報処理装置。
(15)
音声を取得し、出力する第1のデバイスと、
前記第1のデバイスにて取得された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生させる再生処理部を備える第2のデバイスと、
を含む、情報処理システム。
(16)
前記第1のデバイスは、
前記第2のデバイスに対して送信するデータを圧縮して送信するデータ送信部と、
前記第2のデバイスから受信したデータを伸張するデータ受信部と、
をさらに備える、前記(15)に記載の情報処理システム。
(17)
前記第1のデバイスは、取得した音声の波形データに含まれる特徴量を計算する音声特徴計算部をさらに備え、
前記データ送信部は、前記特徴量を前記第2のデバイスへ送信する、前記(16)に記載の情報処理システム。
(18)
前記第1のデバイスは、取得した音声の波形データに含まれる特徴量を計算する音声特徴計算部をさらに備え、
前記データ送信部は、前記特徴量に基づいて、取得された音声のうち前記第2のデバイスに送信する音声区間を決定し、前記第2のデバイスへ送信する、前記(16)に記載の情報処理システム。
(19)
前記第2のデバイスは、記録音声の聞き戻し再生に関する情報を提示する情報提示部を備える、前記(15)~(18)のいずれか1項に記載の情報処理システム。
(20)
コンピュータを、録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部として機能させる、プログラム。
100 音響デバイス
110 音声入力部
120 音響デバイスデータ送信部
121 音声特徴計算部
123 タイムスタンプ情報生成部
130 音響デバイスデータ受信部
140 信号合成切換部
141 第1信号合成切換部
143 リアルタイム音声処理部
145 第2信号合成切換部
150 音声出力部
160 キャンセル信号生成部
200 情報処理デバイス
210 再生処理部
211 情報処理デバイスデータ受信部
212 音声分析処理部
213 再生信号処理部
215 情報処理デバイスデータ送信部
220 制御入力部
231 第1の音声記憶部
233 第2の音声記憶部
240 情報提示部
300 補聴装置
302 音声入出力部
304 再生処理部
310 音声入力部
320 再生信号処理部
321 音声分析処理部
330 信号合成切換部
331 第1信号合成切換部
333 リアルタイム音声処理部
335 第2信号合成切換部
340 制御入力部
350 音声出力部
361 第1の音声記憶部
363 第2の音声記憶部
370 キャンセル信号生成部
380 情報提示部
110 音声入力部
120 音響デバイスデータ送信部
121 音声特徴計算部
123 タイムスタンプ情報生成部
130 音響デバイスデータ受信部
140 信号合成切換部
141 第1信号合成切換部
143 リアルタイム音声処理部
145 第2信号合成切換部
150 音声出力部
160 キャンセル信号生成部
200 情報処理デバイス
210 再生処理部
211 情報処理デバイスデータ受信部
212 音声分析処理部
213 再生信号処理部
215 情報処理デバイスデータ送信部
220 制御入力部
231 第1の音声記憶部
233 第2の音声記憶部
240 情報提示部
300 補聴装置
302 音声入出力部
304 再生処理部
310 音声入力部
320 再生信号処理部
321 音声分析処理部
330 信号合成切換部
331 第1信号合成切換部
333 リアルタイム音声処理部
335 第2信号合成切換部
340 制御入力部
350 音声出力部
361 第1の音声記憶部
363 第2の音声記憶部
370 キャンセル信号生成部
380 情報提示部
Claims (20)
- 録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部を備える、情報処理装置。
- 前記再生処理部は、前記記録音声を、前記聞き戻し開始時刻までは第1の再生速度で再生し、前記聞き戻し開始時刻から現時刻までは第2の再生速度で再生する、請求項1に記載の情報処理装置。
- 前記聞き戻し開始時刻に到達する前に前記記録音声の聞き戻し終了指示が入力されたとき、前記再生処理部は、前記記録音声の再生位置を前記聞き戻し開始時刻に移動する、請求項2に記載の情報処理装置。
- 前記第2の再生速度は、前記第1の再生速度以上である、請求項2に記載の情報処理装置。
- 前記第2の再生速度は1倍速より速い、請求項2に記載の情報処理装置。
- 前記再生処理部は、前記聞き戻し開始時刻から前記現時刻までの区間のうち少なくとも一部をスキップして再生する、請求項1に記載の情報処理装置。
- スキップされるスキップ対象区間は、人の声の存在しない時間区間または無音区間である、請求項6に記載の情報処理装置。
- 少なくとも前記記録音声の再生中にノイズキャンセリング機能を実行するキャンセル信号生成部をさらに備える、請求項1に記載の情報処理装置。
- 前記記録音声を分析する音声分析処理部を備え、
前記再生処理部は、前記音声分析処理部による分析結果に基づいて音声強調処理を行う、請求項1に記載の情報処理装置。 - 前記記録音声を分析する音声分析処理部と、
前記音声分析処理部による分析結果に基づいて、当該音声に関する情報を提示する情報提示部と、
を備える、請求項1に記載の情報処理装置。 - 前記情報提示部は、取得された前記音声の音声波形をディスプレイに表示させる、請求項10に記載の情報処理装置。
- 入力された音声に対して所定の音声の補正処理を行い、リアルタイム音声を出力するリアルタイム音声処理部を備える、請求項1に記載の情報処理装置。
- 制御入力に基づいて、前記記録音声及び前記リアルタイム音声の再生処理を行う信号合成切換部をさらに備える、請求項12に記載の情報処理装置。
- 前記信号合成切換部は、前記記録音声の再生時には、前記リアルタイム音声を再生しない、請求項13に記載の情報処理装置。
- 音声を取得し、出力する第1のデバイスと、
前記第1のデバイスにて取得された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生させる再生処理部を備える第2のデバイスと、
を含む、情報処理システム。 - 前記第1のデバイスは、
前記第2のデバイスに対して送信するデータを圧縮して送信するデータ送信部と、
前記第2のデバイスから受信したデータを伸張するデータ受信部と、
をさらに備える、請求項15に記載の情報処理システム。 - 前記第1のデバイスは、取得した音声の波形データに含まれる特徴量を計算する音声特徴計算部をさらに備え、
前記データ送信部は、前記特徴量を前記第2のデバイスへ送信する、請求項16に記載の情報処理システム。 - 前記第1のデバイスは、取得した音声の波形データに含まれる特徴量を計算する音声特徴計算部をさらに備え、
前記データ送信部は、前記特徴量に基づいて、取得された音声のうち前記第2のデバイスに送信する音声区間を決定し、前記第2のデバイスへ送信する、請求項16に記載の情報処理システム。 - 前記第2のデバイスは、記録音声の聞き戻し再生に関する情報を提示する情報提示部を備える、請求項15に記載の情報処理システム。
- コンピュータを、録音された記録音声の聞き戻しを開始する聞き戻し開始指示に基づいて、当該聞き戻し開始指示が入力された聞き戻し開始時刻より所定時間遡った位置から現時刻に追いつくまで再生する再生処理部として機能させる、プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/767,525 US10666995B2 (en) | 2015-10-19 | 2016-08-25 | Information processing apparatus, information processing system, and program |
EP16857176.8A EP3367382A4 (en) | 2015-10-19 | 2016-08-25 | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING SYSTEM, AND PROGRAM |
JP2017546443A JP6904255B2 (ja) | 2015-10-19 | 2016-08-25 | 情報処理システム及びプログラム |
CN201680054421.XA CN108028055A (zh) | 2015-10-19 | 2016-08-25 | 信息处理装置、信息处理系统和程序 |
US16/832,388 US11081136B2 (en) | 2015-10-19 | 2020-03-27 | Information processing apparatus, information processing system, and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015205389 | 2015-10-19 | ||
JP2015-205389 | 2015-10-19 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US15/767,525 A-371-Of-International US10666995B2 (en) | 2015-10-19 | 2016-08-25 | Information processing apparatus, information processing system, and program |
US16/832,388 Continuation US11081136B2 (en) | 2015-10-19 | 2020-03-27 | Information processing apparatus, information processing system, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017068858A1 true WO2017068858A1 (ja) | 2017-04-27 |
Family
ID=58556932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2016/074784 WO2017068858A1 (ja) | 2015-10-19 | 2016-08-25 | 情報処理装置、情報処理システム及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (2) | US10666995B2 (ja) |
EP (1) | EP3367382A4 (ja) |
JP (1) | JP6904255B2 (ja) |
CN (1) | CN108028055A (ja) |
WO (1) | WO2017068858A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10666995B2 (en) | 2015-10-19 | 2020-05-26 | Sony Corporation | Information processing apparatus, information processing system, and program |
DK3649792T3 (da) * | 2018-06-08 | 2022-06-20 | Sivantos Pte Ltd | Fremgangsmåde til overførsel af en bearbejdningstilstand i en audiologisk tilpasningsapplikation til et høreapparat |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259884A (ja) * | 1993-03-08 | 1994-09-16 | Sanyo Electric Co Ltd | 磁気再生装置 |
JPH07129190A (ja) * | 1993-09-10 | 1995-05-19 | Hitachi Ltd | 話速変換方法及び話速変換装置並びに電子装置 |
JP2004205578A (ja) * | 2002-12-24 | 2004-07-22 | Toshiba Corp | 音声信号を無線通信する音声再生機器及び音声再生機器の消費電力制御方法 |
JP2005165183A (ja) * | 2003-12-05 | 2005-06-23 | Matsushita Electric Ind Co Ltd | 無線通信装置 |
JP2006203900A (ja) * | 2002-07-16 | 2006-08-03 | Advanced Media Inc | 音声認識サーバ及び音声認識システム |
JP2013114723A (ja) * | 2011-11-30 | 2013-06-10 | Sony Corp | 情報処理装置、プログラムおよび情報処理方法 |
JP2015517683A (ja) * | 2012-05-10 | 2015-06-22 | シラス ロジック、インコーポレイテッド | 雑音消去パーソナルオーディオデバイスにおける二次経路モデルおよび漏出経路モデルのエラー信号コンテンツ制御適応 |
JP2015139083A (ja) * | 2014-01-22 | 2015-07-30 | 日東電工株式会社 | 聴覚補完システム及び聴覚補完方法 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5717818A (en) * | 1992-08-18 | 1998-02-10 | Hitachi, Ltd. | Audio signal storing apparatus having a function for converting speech speed |
US6721710B1 (en) * | 1999-12-13 | 2004-04-13 | Texas Instruments Incorporated | Method and apparatus for audible fast-forward or reverse of compressed audio content |
CN1463441A (zh) * | 2001-04-20 | 2003-12-24 | 皇家菲利浦电子有限公司 | Mp3的特技播放 |
US6839446B2 (en) * | 2002-05-28 | 2005-01-04 | Trevor I. Blumenau | Hearing aid with sound replay capability |
JP2004104757A (ja) | 2002-07-16 | 2004-04-02 | Advanced Media Inc | 音声入力装置 |
JP4602204B2 (ja) * | 2005-08-31 | 2010-12-22 | ソニー株式会社 | 音声信号処理装置および音声信号処理方法 |
JP2007304933A (ja) * | 2006-05-12 | 2007-11-22 | Sony Corp | 情報処理システム、端末装置、情報処理方法、プログラム |
US8365235B2 (en) * | 2007-12-18 | 2013-01-29 | Netflix, Inc. | Trick play of streaming media |
US8416959B2 (en) * | 2009-08-17 | 2013-04-09 | SPEAR Labs, LLC. | Hearing enhancement system and components thereof |
US8515089B2 (en) * | 2010-06-04 | 2013-08-20 | Apple Inc. | Active noise cancellation decisions in a portable audio device |
US9749676B2 (en) * | 2010-06-08 | 2017-08-29 | Microsoft Technology Licensing, Llc | Virtual playback speed modification |
JP2012134919A (ja) | 2010-12-24 | 2012-07-12 | Panasonic Corp | 補聴器 |
US20150024348A1 (en) * | 2013-07-19 | 2015-01-22 | Starkey Laboratories, Inc. | System to visually display and demonstrate hearing assistance device features |
KR102172149B1 (ko) * | 2013-12-03 | 2020-11-02 | 주식회사 케이티 | 컨텐츠 재생 방법, 대사 구간 데이터 제공 방법 및 동영상 컨텐츠 재생 단말 |
US9380374B2 (en) * | 2014-01-17 | 2016-06-28 | Okappi, Inc. | Hearing assistance systems configured to detect and provide protection to the user from harmful conditions |
US9496000B2 (en) * | 2014-05-16 | 2016-11-15 | Comcast Cable Communications, Llc | Audio modification for adjustable playback rate |
KR102224568B1 (ko) * | 2014-08-27 | 2021-03-08 | 삼성전자주식회사 | 오디오 데이터 처리 방법과 이를 지원하는 전자 장치 |
US10666995B2 (en) | 2015-10-19 | 2020-05-26 | Sony Corporation | Information processing apparatus, information processing system, and program |
-
2016
- 2016-08-25 US US15/767,525 patent/US10666995B2/en active Active
- 2016-08-25 WO PCT/JP2016/074784 patent/WO2017068858A1/ja active Application Filing
- 2016-08-25 EP EP16857176.8A patent/EP3367382A4/en not_active Withdrawn
- 2016-08-25 JP JP2017546443A patent/JP6904255B2/ja active Active
- 2016-08-25 CN CN201680054421.XA patent/CN108028055A/zh active Pending
-
2020
- 2020-03-27 US US16/832,388 patent/US11081136B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259884A (ja) * | 1993-03-08 | 1994-09-16 | Sanyo Electric Co Ltd | 磁気再生装置 |
JPH07129190A (ja) * | 1993-09-10 | 1995-05-19 | Hitachi Ltd | 話速変換方法及び話速変換装置並びに電子装置 |
JP2006203900A (ja) * | 2002-07-16 | 2006-08-03 | Advanced Media Inc | 音声認識サーバ及び音声認識システム |
JP2004205578A (ja) * | 2002-12-24 | 2004-07-22 | Toshiba Corp | 音声信号を無線通信する音声再生機器及び音声再生機器の消費電力制御方法 |
JP2005165183A (ja) * | 2003-12-05 | 2005-06-23 | Matsushita Electric Ind Co Ltd | 無線通信装置 |
JP2013114723A (ja) * | 2011-11-30 | 2013-06-10 | Sony Corp | 情報処理装置、プログラムおよび情報処理方法 |
JP2015517683A (ja) * | 2012-05-10 | 2015-06-22 | シラス ロジック、インコーポレイテッド | 雑音消去パーソナルオーディオデバイスにおける二次経路モデルおよび漏出経路モデルのエラー信号コンテンツ制御適応 |
JP2015139083A (ja) * | 2014-01-22 | 2015-07-30 | 日東電工株式会社 | 聴覚補完システム及び聴覚補完方法 |
Non-Patent Citations (1)
Title |
---|
See also references of EP3367382A4 * |
Also Published As
Publication number | Publication date |
---|---|
EP3367382A1 (en) | 2018-08-29 |
JP6904255B2 (ja) | 2021-07-14 |
US20200228849A1 (en) | 2020-07-16 |
US11081136B2 (en) | 2021-08-03 |
JPWO2017068858A1 (ja) | 2018-08-02 |
US20180293970A1 (en) | 2018-10-11 |
CN108028055A (zh) | 2018-05-11 |
EP3367382A4 (en) | 2019-07-10 |
US10666995B2 (en) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11251763B2 (en) | Audio signal adjustment method, storage medium, and terminal | |
US5794201A (en) | Digital acoustic signal processing apparatus | |
US9531338B2 (en) | Signal processing apparatus, signal processing method, program, signal processing system, and communication terminal | |
JP5499633B2 (ja) | 再生装置、ヘッドホン及び再生方法 | |
KR102513461B1 (ko) | 헤드폰 시스템 | |
JP2018528479A (ja) | スーパー広帯域音楽のための適応雑音抑圧 | |
CN110602594A (zh) | 具体环境声音提醒模式的耳机装置 | |
EP3364638B1 (en) | Recording method, recording playing method and apparatus, and terminal | |
CN106170108B (zh) | 具有分贝提醒模式的耳机装置 | |
JP2009139592A (ja) | 音声処理装置、音声処理システム及び音声処理プログラム | |
CN110636402A (zh) | 具有本地通话情况确认模式的耳机装置 | |
JP2014515140A (ja) | 骨伝導振動子を備えるユーザインタフェースを制御するためのシステムおよび装置 | |
CN105704598A (zh) | 一种歌唱耳机 | |
US11081136B2 (en) | Information processing apparatus, information processing system, and program | |
WO2020017518A1 (ja) | 音声信号処理装置 | |
JP3308567B2 (ja) | ディジタル音声処理装置及びディジタル音声処理方法 | |
JP4402644B2 (ja) | 発話抑制装置、発話抑制方法および発話抑制装置のプログラム | |
JP7284570B2 (ja) | 音声再生システムおよびプログラム | |
CN109360588B (zh) | 一种基于移动设备的音频处理方法及装置 | |
WO2020149227A1 (ja) | 復号装置、復号方法、及びプログラム | |
JP2009075280A (ja) | コンテンツ再生装置 | |
CN109360574B (zh) | 一种无线蓝牙系统改进的高级音频编码/解码方法及系统 | |
JP7515128B2 (ja) | 耳装着型デバイス、及び、再生方法 | |
US20240029755A1 (en) | Intelligent speech or dialogue enhancement | |
JP2012194295A (ja) | 音声出力システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16857176 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2017546443 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 15767525 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |