WO2008065730A1 - Dispositif et méthode de traitement audio - Google Patents

Dispositif et méthode de traitement audio Download PDF

Info

Publication number
WO2008065730A1
WO2008065730A1 PCT/JP2007/000698 JP2007000698W WO2008065730A1 WO 2008065730 A1 WO2008065730 A1 WO 2008065730A1 JP 2007000698 W JP2007000698 W JP 2007000698W WO 2008065730 A1 WO2008065730 A1 WO 2008065730A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency band
audio signal
input
filter
input audio
Prior art date
Application number
PCT/JP2007/000698
Other languages
English (en)
French (fr)
Inventor
Kosei Yamashita
Shinichi Honda
Original Assignee
Sony Computer Entertainment Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc. filed Critical Sony Computer Entertainment Inc.
Priority to CN2007800016366A priority Critical patent/CN101361123B/zh
Priority to US12/093,047 priority patent/US8204614B2/en
Priority to EP07790220.3A priority patent/EP2088589B8/en
Publication of WO2008065730A1 publication Critical patent/WO2008065730A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/01Input selection or mixing for amplifiers or loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Definitions

  • the present invention relates to a technique for processing an audio signal, and more particularly to an audio processing apparatus that mixes and outputs a plurality of audio signals, and an audio processing method applied thereto.
  • Thumbnail display is a technology for displaying a plurality of still images and moving images side by side on a display as small-sized still images or moving images. Thumbnail display saves a lot of image data that has been taken or downloaded by a camera or recording device, for example, and even if it is difficult to understand the attribute information such as the file name and recording date and time, the contents can be seen at a glance. This makes it possible to select the desired data accurately. In addition, by listing multiple image data, it is now possible to quickly view all the data and quickly understand the contents of the storage medium that stores the data.
  • Thumbnail display is a technique for inputting a part of a plurality of contents visually in parallel to a user. Therefore, sounds that cannot be visually arranged Naturally, for audio data such as music, thumbnail display cannot be used without additional media such as album jackets. However, the number of audio data such as music content owned by individuals is on the increase. For example, even if it is not possible to make a judgment based on clues such as the title, date and time of acquisition, and additional image data, it is desirable. There is a need to easily select or view audio data in the same way as with image data.
  • the present invention has been made in view of such problems, and an object of the present invention is to provide a technique that allows a plurality of audio data to be auditorially separated and listened simultaneously. Means for solving the problem
  • This speech processing device is a speech processing unit that processes a plurality of input speech signals and adjusts the degree of enhancement according to an index indicating the degree of enhancement required for the input speech signal input from a user. And an output unit that mixes a plurality of input audio signals adjusted in degree of emphasis by the audio processing unit and outputs them as an output audio signal having a predetermined number of channels, and the audio processing unit includes a plurality of input audio signals.
  • a frequency band division filter is provided that allocates a frequency band corresponding to the index to each of the signals and extracts a frequency component belonging to the allocated frequency band from each input audio signal.
  • This speech processing device is a speech processing unit that processes a plurality of input speech signals and adjusts the degree of enhancement according to an index indicating the degree of enhancement required for the input speech signal input from a user. And an output unit that mixes a plurality of input audio signals adjusted in degree of emphasis by the audio processing unit and outputs them as an output audio signal having a predetermined number of channels.
  • a frequency band division filter that assigns a frequency band corresponding to the index to each of a plurality of input audio signals, extracts a frequency component belonging to the assigned frequency band from each input audio signal, and a plurality of input audio signals
  • a time-division filter that modulates the amplitude of each signal by varying the phase at a common period, and at least one of a plurality of input audio signals
  • a modulation filter that performs a predetermined acoustic processing process at a predetermined cycle, a processing filter that steadily performs a predetermined acoustic processing process on at least one of a plurality of input audio signals, and a plurality of input sounds
  • a localization setting filter that gives different localization to each of the signals, and the speech processing device further includes the frequency band division filter, the time division filter, the modulation filter, the processing filter, and the
  • the storage unit further stores a combination of any of the filters selected from the filters provided in the audio processing unit among the localization setting filters in association with the index, and the
  • Yet another embodiment of the present invention relates to an audio processing method.
  • a step of assigning a frequency band to each of a plurality of input audio signals so that a higher bandwidth is required as the degree of enhancement required for the input audio signal input from a user is higher.
  • a step of outputting as a signal is possible.
  • a plurality of audio data can be heard and distinguished at the same time.
  • FIG. 1 is a diagram showing an overall structure of a speech processing system including a speech processing apparatus according to the present embodiment.
  • FIG. 2 illustrates frequency band division of an audio signal in the present embodiment
  • FIG. 3 is a diagram for explaining time division of an audio signal in the present embodiment.
  • FIG. 4 is a diagram showing in detail the configuration of a speech processing unit in the present embodiment.
  • FIG. 5 is a diagram showing an example of a screen displayed on the input unit of the speech processing apparatus in the present embodiment.
  • FIG. 6 is a diagram schematically showing a pattern of block allocation in the present embodiment.
  • FIG. 7 is a diagram showing an example of music data information stored in the storage unit in the present embodiment.
  • FIG. 8 is a diagram showing an example of a table in which a focus value and a setting of each filter are associated with each other and stored in a storage unit in the present embodiment.
  • FIG. 9 is a flowchart showing the operation of the speech processing apparatus according to the present embodiment.
  • FIG. 1 shows the overall structure of a voice processing system including a voice processing device according to the present embodiment.
  • the audio processing system according to the present embodiment plays back a plurality of audio data stored in a storage device such as a hard disk or a recording medium at the same time by a user, and performs a filtering process on the obtained audio signals.
  • the output audio signal with the desired number of channels is mixed and output from an output device such as a stereo or earphone.
  • the speech processing apparatus By simply mixing and outputting multiple audio signals, they cancel each other out. It is difficult to recognize each one independently, as in the case of thumbnail display of image data. Therefore, the speech processing apparatus according to the present embodiment relatively separates each speech signal at the level of the auditory extinction system, that is, the inner ear, among the mechanisms for humans to recognize the speech, and at the level of the auditory central system, that is, the brain. By providing clues for independent recognition, auditory separation of multiple audio signals is performed. This process is the filter process described above.
  • the audio processing device is configured to output a signal of audio data that is a target to which the user pays attention as the user pays attention to one thumbnail image in the thumbnail display of the image data. It should be emphasized in the mixed output audio signal.
  • the degree of emphasis of each of the plurality of audio signals is output in various stages or continuously so that the user shifts the viewpoint in the thumbnail display of the image data.
  • “degree of emphasis” means “easy to hear” of a plurality of audio signals, that is, ease of perception by auditory sense. For example, when the degree of emphasis is greater than the others, the audio signal may be heard more clearly, louder or closer than other audio signals.
  • the degree of emphasis is a subjective parameter that comprehensively considers such human feeling.
  • the audio data is music data.
  • voice signal data such as human voices in rakugo or meetings, environmental sounds, and voices included in broadcast waves, and they may be mixed.
  • the audio processing system 10 performs processing so that a plurality of audio signals generated by respectively reproducing a plurality of music data can be listened to separately by a storage device 12 storing a plurality of music data, It includes an audio processing device 16 that mixes after reflecting the degree of emphasis requested by the user, and an output device 30 that outputs the mixed audio signal as sound.
  • the audio processing system 10 may be configured by an integral or local connection such as a personal computer or a music playback device such as a portable player.
  • the storage device 12 can be a hard disk or flash memory
  • the sound processing device 16 can be a processor unit
  • the output device 30 can be a built-in speaker, an externally connected speaker, an earphone, or the like.
  • the storage device 12 may be composed of a hard disk in a server connected to the voice processing device 16 via a network.
  • the music data stored in the storage device 12 may be encoded by a general encoding format such as MP3.
  • the audio processing device 16 includes an input unit 18 for inputting user instructions relating to selection and enhancement of music data to be played back, and a plurality of audio signals by respectively reproducing a plurality of music data selected by the user.
  • the input unit 18 selects a desired plurality of music data from the music data stored in the storage device 12 or changes the object to be emphasized among the plurality of music data being reproduced. Provides an interface for inputting instructions.
  • the power unit 18 reads information such as icons symbolizing the music data to be selected from the storage unit 2 2 and displays a list and displays a cursor, and moves the cursor to select a point on the screen. Consists of pointing devices to be used.
  • a general input device such as a keyboard, a trackball, a button, or a touch panel, a display device, or a combination thereof may be used.
  • the music data stored in the storage device 12 is one piece of music data, and instruction input and processing are performed for each piece of music.
  • the control unit 20 gives the information to the playback device 14 and also plays an audio signal of the music data to be played back.
  • the necessary parameters are obtained from the storage unit 22 and the initial settings are made for the audio processing unit 24 so that appropriate processing is performed every time.
  • the input is reflected by changing the setting of the audio processing unit 24. Details of the setting will be described later.
  • the playback device 14 appropriately decodes the selected music data stored in the storage device 12 to generate an audio signal.
  • FIG. 1 four music data that can be played back simultaneously are shown, and four playback devices 14 are shown. However, the number is not limited to this.
  • the playback device 14 is only one in appearance, but here, each music data is played back and separately processed as a processing unit for generating each audio signal. It shows.
  • the audio processing unit 24 performs the filtering process as described above on each of the audio signals corresponding to the selected music data, so that the audio signal is separated in an auditory manner reflecting the degree of enhancement requested by the user. To generate a plurality of audio signals that can be recognized. Details will be described later.
  • the downmixer 26 mixes a plurality of input audio signals after making various adjustments as necessary, and outputs an output signal having a predetermined number of channels such as monaural, stereo, 5.1 channels, etc. Output as.
  • the number of channels is fixed Alternatively, it may be configured so that the user can switch between hardware and software.
  • the down mixer 26 may be a general down mixer.
  • the storage unit 2 2 may be a storage element such as a memory or a hard disk, or a storage device.
  • Information of music data stored in the storage device 1 2, an index indicating the degree of emphasis, and a voice processing unit 24 are set.
  • the music data information may include general information such as the song name, performer name, icon, and genre of the song corresponding to the music data, and parameters required by the audio processing unit 24. May be included.
  • the music data information may be read when the music data is stored in the storage device 1 2 and stored in the storage unit 2 2, or from the storage device 1 2 each time the sound processing device 16 is operated. You may make it read and memorize
  • FIG. 2 is a diagram for explaining frequency band division.
  • the horizontal axis in the figure is the frequency, and the frequency range from f 0 to f 8 is the audible band.
  • the figure shows the case of listening to mixed audio signals of song a and song b, but any number of songs can be used.
  • the audible band is divided into a plurality of blocks, and each block is assigned to at least one of a plurality of audio signals. Then, only the frequency components belonging to the assigned block are extracted from each audio signal.
  • the audible band is divided into eight blocks at frequencies of f1, f2, ⁇ , and f7.
  • the audible band is divided into eight blocks at frequencies of f1, f2, ⁇ , and f7.
  • four blocks of frequencies f 1 to f 2, f 3 to f 4, f 5 to f 6, and f 7 to f 8 are assigned to the song a, and the frequency f O to the song b. Allocate four blocks: ⁇ f1, f2 ⁇ f3, f4 ⁇ f5, f6 ⁇ f7.
  • the critical band is a frequency band in which a sound having a certain frequency band does not increase the masking amount for other sounds even if the bandwidth is further expanded.
  • Masking is a phenomenon in which the minimum audible value for a certain sound increases due to the presence of another sound, that is, a phenomenon that makes it difficult to hear.
  • the masking amount is the amount by which the minimum audible value increases. In other words, sounds in different critical bands are unlikely to be masked together.
  • the division into blocks may not be based on the critical band. In either case, separation information can be given by using the frequency resolution of the inner ear by reducing the overlapping frequency bands.
  • each block has the same bandwidth, but in practice the bandwidth may be changed depending on the frequency band.
  • the method of division into blocks may be determined in consideration of general sound characteristics such as, for example, that sounds with low frequencies are difficult to mask, or for each song. It may be determined in consideration of the characteristic frequency band.
  • the characteristic frequency band here is a frequency band that is important for the expression of music, such as the frequency band occupied by the main melody. If characteristic frequency bands are expected to overlap, it is desirable to divide the bands finely and assign them equally to prevent problems such as inability to hear the main melody in either song.
  • a series of blocks are alternately assigned to song a and song b, but the assignment method is not limited to this, such as assigning two consecutive blocks to song a. In this case as well, for example, when the characteristic frequency band of a song spans two consecutive blocks, the two blocks are assigned to that song. It is desirable to determine the allocation method so that the important part is minimized.
  • FIG. 3 is a diagram for explaining time division of an audio signal.
  • the horizontal axis represents time
  • the vertical axis represents the amplitude of the audio signal, that is, the volume.
  • the case of listening to a mixture of audio signals of songs a and b is shown as an example.
  • the amplitude of the audio signal is modulated with a common period.
  • the phase is then shifted so that the peak appears at different times depending on the song.
  • the period at this time may be about several tens of milliseconds to several hundreds of milliseconds.
  • the amplitudes of the music pieces a and b are modulated with a common period T. Then, at time t0, t2, t4, t6 when the amplitude of song a reaches its peak, the amplitude of song b is reduced, and at time t1, t3, t5 when the amplitude of song b reaches its peak, song a Reduce the amplitude of.
  • the amplitude may be modulated so that the time at which the amplitude is maximum and the time at which the amplitude is minimum have a certain time width as shown in FIG. In this case, the time when the amplitude of the music piece a is minimum can be matched with the time when the amplitude of the music piece b is maximum.
  • the time when the amplitude of the song “b” is the maximum and the time when the amplitude of the song “c” is the maximum can be set at the time when the amplitude of the song “a” is the smallest.
  • sinusoidal modulation having no time width may be performed at the peak time. In this case, simply shift the phase to change the peak timing. In either case, separation information can be provided using the temporal resolution of the inner ear.
  • the separation information given at the fl3 ⁇ 4 level gives a clue to recognize the sound pulse of each sound when analyzing the sound in the brain.
  • a method for periodically giving a specific change to an audio signal a method for constantly processing an audio signal, and a method for changing a localization are introduced.
  • the amplitude of all or some of the audio signals to be mixed is modulated, or the frequency characteristics are modulated.
  • the modulation may be generated in a pulse form in a short time, or may be changed gradually over a long period of several seconds.
  • the timing of the peak is made different for each audio signal.
  • noise such as a clicking sound may be periodically added, a processing process that can be realized by a general audio filter may be performed, or the localization may be shifted left and right.
  • a processing process that can be realized by a general audio filter may be performed, or the localization may be shifted left and right.
  • all or some of the audio signals to be mixed can be realized with a general effector, and various acoustic processing such as echo, reverb, pitch shift, etc. 1 One or a combination.
  • the frequency characteristics may be steadily different from the original audio signal. For example, even if a song with the same instrument and the same tune is applied to one of the songs, it becomes easier to recognize it as another song.
  • the processing content and the intensity of processing differ depending on the audio signal.
  • the audio processing unit 24 in the audio processing device 16 allows each audio signal to be separated and recognized when mixed. Process it.
  • FIG. 4 shows the configuration of the audio processing unit 24 in detail.
  • the audio processing unit 24 includes a preprocessing unit 40, a frequency band division filter 42, a time division filter 44, a modulation filter 46, a processing filter 48, and a localization setting filter 50.
  • the preprocessing unit 40 may be a general auto gain controller or the like, and performs gain adjustment so that the volumes of a plurality of audio signals input from the playback device 14 are approximately equal.
  • the frequency band division filter 42 assigns a block obtained by dividing the audible band to each audio signal, and extracts a frequency component belonging to the assigned block from each audio signal.
  • a frequency band division filter 4 2 is provided with a band pass filter provided for each channel and block of the audio signal. By configuring as a filter (not shown), frequency components can be extracted.
  • the method of assigning blocks to division patterns and audio signals (hereinafter referred to as assignment patterns) allows the control unit 20 to control each bandpass filter, etc. to set the frequency band and effective bandbus filter settings. It can be changed by doing. Specific examples of allocation patterns will be described later.
  • the time division filter 44 performs the time division method of the audio signal described above, and time-modulates the amplitude of each audio signal by changing the phase in a period of several tens of milliseconds to several hundreds of milliseconds.
  • the time division filter 44 can be realized, for example, by controlling the gain controller on the time axis.
  • the modulation filter 46 can be realized by performing the above-described method of periodically giving a specific change to the audio signal and controlling, for example, a gain controller, an equalizer, an audio filter, and the like on the time axis.
  • the processing filter 48 can be realized by an effector or the like, for example, by implementing the above-described technique for applying a special effect (hereinafter referred to as processing) to the audio signal.
  • the localization setting filter 50 implements the above-described method of changing the localization, and can be realized by, for example, a pan pot.
  • FIG. 5 shows an example of a screen displayed on the input unit 18 of the audio processing device 16 in a state where four music data are selected and their audio signals are mixed and output.
  • the input screen 90 has the title power ⁇ "Songa",”Songb”,"Songc”,"Song” d ”includes icons 9 2 a, 9 2 b, 9 2 c, 9 2 d for playing music data, a“ stop ”button 9 4 for stopping playback, and a cursor 9 6.
  • the audio processing device 16 determines that the music data represented by the icon pointed to by the cursor is to be emphasized.
  • the cursor 9 6 indicates the icon 9 2 b of “Song b”. Therefore, the music data corresponding to the icon 9 2 b of “Song b” is targeted for emphasis, and the sound signal is processed by the sound processing unit.
  • 2 Control unit 20 operates as emphasized in 4. At this time, the other three music data may be unemphasized and the same filtering process may be performed by the audio processing unit 24. This allows the user to hear four songs simultaneously and separately, and only “songs” can be heard particularly well.
  • the degree of emphasis of music data other than the music object to be emphasized may be changed.
  • the music data corresponding to the “song b” icon 9 2 b indicated by the cursor 9 6 has the highest degree of emphasis on the music data, and the “song“ The degree of emphasis of the music data corresponding to the “a” icon 9 2 a and the “song c” icon 9 2 c is moderate.
  • the degree of enhancement of the music data corresponding to the “song d” icon 9 2 d farthest from the point indicated by the cursor 96 is minimized.
  • the degree of emphasis can be determined by the distance from the point being pointed. For example, if the degree of emphasis is changed continuously according to the distance from the cursor 96, the song will move closer to the movement of the cursor 96, just as the viewpoint gradually shifts in the thumbnail display. It can be heard as if you are far away.
  • the icon itself may be moved on the screen by the left and right input from the user, and the degree of emphasis increases as the icon is closer to the center of the screen.
  • the control unit 20 acquires information related to the movement of the cursor 96 in the input unit 18 Then, an index indicating the degree of emphasis is set for the music data corresponding to each icon according to the distance from the point to which it points.
  • This index is hereinafter referred to as the focus value.
  • the focus value described here is an example, and any numerical value or figure may be used as long as it is an index that can determine the degree of enhancement.
  • each focus value may be set independently regardless of the position of the cursor, or the whole may be set to 1 and determined in proportion.
  • FIG. 2 in order to explain the method of separating and recognizing multiple audio signals, the frequency band blocks were assigned almost equally to “Song a” and “Song b”. On the other hand, in order to emphasize a certain audio signal and make it unnoticeable, the number of blocks to be allocated is increased or decreased.
  • Figure 6 schematically shows the block allocation pattern.
  • the figure shows a case where the audible band is divided into seven blocks.
  • frequency is plotted on the horizontal axis, and for convenience of explanation, block 1, block 2, ⁇ ⁇ ⁇ , and block 7 are designated from the low-frequency side block.
  • pattern group A The numerical value shown to the left of each assigned pattern is the focus value. For example, “1.0”, “0.5”, and “0.1” are shown. In this case, the greater the focus value, the higher the degree of emphasis.
  • the maximum value is 1.0 and the minimum value is 0.1.
  • an allocation pattern with a focus value of 1.0 is applied to the audio signal.
  • Block Group A in the figure, four blocks, Block 2, Block 3, Block 5, and Block 6, are assigned to the same audio signal.
  • the allocation pattern is changed to an allocation pattern with a focus value of 0.5, for example.
  • pattern group A three blocks, block 1, block 2, and block 3, are assigned.
  • you want to minimize the degree of enhancement of the same audio signal In other words, to make it the least noticeable in the audible range, change the allocation pattern to an allocation pattern with a focus value of 0.1.
  • Pattern Group A one block of block 1 is assigned. In this way, the focus value is changed according to the required degree of emphasis, and a large number of blocks are allocated when the force value is large, and a small number of blocks are allocated when the force value is small.
  • information on the degree of emphasis can be given at the inner ear level, and emphasis and non-emphasis can be recognized.
  • Block 1 Block 4
  • Block 7 Block 7
  • block 1 is assigned to an audio signal with focus 1.0
  • the frequency component of another audio signal with focus value 0.1 assigned only block 1 may be masked. Because of this.
  • allocation pattern is set in advance with a number of focus values. May set a threshold value for the focus value, and an audio signal having a focus value lower than that may be unenhanced. Then, an allocation pattern may be set so that a block to be allocated to a non-emphasized target audio signal is not allocated to an emphasized target audio signal having a focus value larger than the threshold value.
  • the distinction between emphasized objects and non-emphasized objects may be made by two threshold values.
  • the assignment pattern group is There are three types of “turn group A”, “pattern group B”, and “pattern group C” in order to avoid overlapping as much as possible the blocks to be assigned in the audio signal with focus value 0.5, 0.1, etc. .
  • “Pattern Group A”, “Pattern Group B”, and “Pattern Group C” are applied to the corresponding three audio signals, respectively.
  • the block allocation pattern shown in FIG. 6 is stored in the storage unit 22 in association with the focus value. Then, the control unit 20 determines the focus value of each audio signal according to the movement of the cursor 96 in the input unit 18, and responds to the focus value among the pattern groups assigned in advance to the audio signal.
  • the block to be allocated is acquired by reading the allocation pattern from the storage unit 22. For the frequency band division filter 42, the effective band pass filter setting corresponding to the block is performed.
  • the allocation pattern stored in the storage unit 2 2 is the focus value 0 Focus values other than 1, 0.5, 1.0 may be included.
  • the assignment pattern is determined by interpolating the last focus value assignment pattern stored in the storage unit 22 with the previous and subsequent focus values. .
  • the block is further divided to adjust the frequency band to be allocated, or the amplitude of the frequency component belonging to a certain block is adjusted.
  • the frequency band division filter 42 includes a gain controller.
  • the allocation pattern stored in the storage unit 22 may include several types of series having different division patterns. In this case, when the music data is first selected, it is determined which division pattern is applied. At the time of determination, information on each music data can be used as a clue as will be described later.
  • the division pattern is reflected in the frequency band division filter 42 by the control unit 20 setting the upper limit and lower limit frequencies of the bandpass filter.
  • FIG. 7 shows the music data stored in the storage unit 22. An example of overnight information is shown.
  • the music data information table 1 1 0 includes a title field 1 1 2 and a pattern group field 1 1 4.
  • the title column 1 1 2 contains the title of the song corresponding to each music data. This column may be a column that describes other attributes as long as it identifies music data such as a music data ID.
  • the name or ID of the assigned pattern group recommended for each music data is described.
  • the characteristic frequency band of the music data may be used as the basis for selecting the recommended pattern group. For example, we recommend a pattern group that assigns a characteristic frequency band when the audio signal has a focus value of 0.1. This makes it easier to hear the most important components of the audio signal, even in the unenhanced state, by masking them with another audio signal with the same force value or an audio signal with a high focus value. .
  • This mode can be realized, for example, by standardizing a pattern group and its ID and adding a recommended pattern group to music data as music data information by a vendor providing music data.
  • the information added to the music data can be a characteristic frequency band instead of the pattern group name and ID.
  • the control unit 20 reads in advance the characteristic frequency band of each music data from the storage device 12, selects the most suitable pattern group for the frequency band, and stores the music data information table 110. It may be generated and stored in the storage unit 2 2. Alternatively, a characteristic frequency band may be determined based on the genre of music or the type of musical instrument, and the pattern group may be selected accordingly.
  • the information added to the music data is a characteristic frequency band
  • the information itself may be stored in the storage unit 22.
  • a new division pattern may be generated at the beginning of processing based on the characteristic frequency band. The same applies when judging by genre or the like.
  • FIG. 8 shows an example of a table in which the focus value and the setting of each filter stored in the storage unit 22 are associated with each other.
  • the filter information table 1 2 0 includes a focus value field 1 2 2, a time division field 1 2 4, a modulation field 1 2 6, a processing field 1 2 8, and a localization setting field 1 3 0.
  • the focus value column 1 2 2 describes the range of the focus value.
  • Time division column 1 2 4, modulation column 1 2 6, processing column 1 2 8 are processed by time division filter 4 4, modulation filter 4 6 and processing filter 4 8 in each range of focus value column.
  • “X” is entered if it is not, and “X” is entered if it is not. Any method other than “ ⁇ ” and “X” may be used as long as it is possible to identify whether the filtering process can be executed.
  • the localization setting field 1 3 0 which localization is given in each range of the focus value field is represented by “center”, “rightward / leftward”, “end”, and the like. As shown in the figure, when the focus value is high, the localization is placed in the center, and when the focus value is low, the localization is moved away from the center. Become. The left and right of the localization may be assigned randomly, or may be based on the position of the music data icon on the screen. Furthermore, if the localization setting field 1 3 0 is disabled so that there is no change in the localization relative to the focus value, and the localization corresponding to the position of the icon is always given to each audio signal, emphasis is given to the movement of the cursor. The direction in which the audio signal is heard can also be changed.
  • the filter information table 1 2 0 may further include selection and non-selection of the frequency band division filter 4 2.
  • the details of the process and the internal parameter are indicated in each column. You may do it. For example, if the time at which the audio signal peaks in the time division filter 4 4 is changed depending on the range of the degree of emphasis, the time is entered in the time division column 1 2 4.
  • the filter information table 1 2 0 is created in advance by experimentation in consideration of the mutual influence of each filter. This makes it suitable for non-emphasized speech signals. Select the result, or avoid over-processing the audio signal that is already heard separately.
  • a plurality of filter information tables 120 may be prepared, and the optimum one may be selected based on the music data information.
  • the control unit 2 0 Whenever the focus value exceeds the boundary of the range shown in the focus value column 1 2 2, the control unit 2 0 refers to the filter information table 1 2 0 to set the internal parameters of each filter, demultiplexer, etc. To reflect. As a result, an audio signal with a large focus value can be heard clearly from the center, and an audio signal with a low focus value can be heard muffled from the edge. Can do.
  • FIG. 9 is a flowchart showing the operation of the audio processing device 16 according to the present embodiment.
  • the user selects and inputs a plurality of music data to be reproduced simultaneously from the music data stored in the storage device 12 to the input unit 18.
  • the music data is played back, various types of filtering and mixing are performed under the control of the control unit 20 and the output device 30 Output from (S 1 2).
  • Selection of a block division pattern used in the frequency band division filter 42 and assignment of an allocation pattern group to each audio signal are also performed here, and the frequency band division filter 42 is set.
  • the output signal at this stage may have the same degree of emphasis by making all the focus values the same. At this time, the user can hear each audio signal evenly and separately.
  • the input screen 90 is displayed on the input unit 18 and the mixed output signal is continuously output while monitoring whether the user moves the cursor 96 on the screen (in S 14). N, S 1 2).
  • the control unit 20 updates the focus value of each audio signal according to the movement (S 16) and stores the block allocation pattern corresponding to that value.
  • the data is read from the unit 22 and the setting of the frequency band division filter 42 is updated (S 18).
  • information on the selection of filters to be processed and information such as processing details and internal parameters set for the range of focus values is stored in the memory unit 2 2 And update the settings of each filter accordingly (S 2 0, S 2 2).
  • the processing from S 14 to S 2 2 may be performed in parallel with the output of the audio signal of S 12.
  • each audio signal is filtered so that it can be heard separately when mixed.
  • separation information is given at the inner ear level, or some or all of the audio signals are changed periodically, acoustic processing is performed, different By giving a localization, etc., separation information is given at the brain level.
  • separation information can be acquired at both the inner ear level and the brain level, and finally it becomes easy to recognize separately.
  • the sound itself can be observed at the same time as if the thumbnail display is viewed, and even if it is desired to check the contents of a large number of music contents, it can be easily performed without taking time.
  • the degree of emphasis of each audio signal is changed. Specifically, the frequency band to be allocated is increased according to the degree of emphasis, the strength of the filtering process is increased or decreased, and the filtering process to be performed is changed. As a result, a highly emphasized audio signal can be heard more clearly than other audio signals. In this case as well, care should be taken not to use the frequency band assigned to the low audio signal so that the low audio signal is not canceled out. As a result, while listening to each of multiple audio signals, you can hear the audio signal you want to focus on so that you can focus. I can do it.
  • Desired content can be easily and sensibly selected from other music content.
  • the degree of emphasis is changed while allowing the audio signal to be heard separately, but depending on the purpose, all audio signals can be heard uniformly without changing the degree of emphasis. You can just let it go.
  • a mode in which the degree of emphasis is not high or low can be realized with the same configuration by, for example, invalidating the focus value setting or fixing the focus value. This also makes it possible to separate and listen to a plurality of audio signals, and to easily grasp a large number of music contents.
  • the audio processing device described in the embodiment may be provided in an audio system of a television receiver. Then, while multi-channel image display is being performed by the user's instruction to the television receiver, the sound of each channel is also mixed and output after filtering. As a result, in addition to multi-channel images, audio can be distinguished and viewed simultaneously. When the user selects a channel in this state, it is possible to emphasize the sound of the channel while listening to the sound of another channel.
  • a block assigned to an audio signal having a focus value of 0.1 is assigned to an audio signal having a focus value of 1.0.
  • the example in which the assignment pattern of each focus value was fixed was explained mainly.
  • all blocks to be assigned to the audio signal with the focus value of 0.1 are assigned to the audio signal with the focus value of 1.0. May be.
  • the entire frequency band may be assigned to the audio signal to be emphasized most.
  • the sound signal is further emphasized and the sound quality is further improved.
  • other audio signals can be separated and recognized by providing separation information by a filter other than the frequency band division filter.
  • the present invention can be used for electronic devices such as an audio playback device, a computer, and a television receiver.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

明 細 書
音声処理装置および音声処理方法
技術分野
[0001 ] 本発明は音声信号を処理する技術に関し、 特に複数の音声信号を混合して 出力する音声処理装置、 およびそれに適用される音声処理方法に関する。 背景技術
[0002] 近年の情報処理技術の発展により、 記録媒体ゃネットワーク、 放送波など を介して膨大な数のコンテンツを容易に入手できるようになった。 例えば音 楽のコンテンツは、 それを記録した C D (Compact D i sk) などの記録媒体を 購入する他、 ネットワークを介して音楽配信サイ 卜からダウンロードするこ とが一般的に行われている。 ユーザが自分で録画、 録音したデータも含める と、 P Cや再生装置、 記録媒体に保存したコンテンツは増大化する一方とな る。 そのため、 このような膨大な数のコンテンツから所望の一のコンテンツ を容易に捜索するための技術が必要になってきた。 その技術の一つにサムネ ィル表示がある。
[0003] サムネイル表示は複数の静止画や動画を、 サイズの小さい静止画像または 動画像としてディスプレイに 1度に並べて表示する技術である。 サムネイル表 示により、 例えばカメラや録画装置で撮り貯めたりダウンロードしたりした 画像データが多数保存され、 それらのファイル名や録画日時などの属性情報 が分かりづらい場合であっても、 一見して内容が把握でき、 所望のデータを 正確に選択することが可能となった。 また複数の画像データを一覧すること で、 全てのデータをざっと鑑賞したり、 それを保存した記録媒体などの中身 を短時間で把握したりすることもできるようになった。
発明の開示
発明が解決しょうとする課題
[0004] サムネイル表示はユーザに対し視覚的に並列に、 複数のコンテンツの一部を インプットする技術である。 したがって、 視覚的に並べることのできない音 楽などの音声データについては当然、 アルバムのジャケットなど付加的な画 像データの仲介なくしてはサムネイル表示を利用することができない。 しか しながら個人が所有する音楽コンテンツなどの音声データの数は増加する一 方であり、 例えば題名や入手日時、 付加的な画像データなどの手がかりにお いて判断がつかない場合であっても所望の音声データを容易に選択したり、 ざっと鑑賞したりするニーズがあるのは画像データの場合と同様である。
[0005] 本発明はこのような課題に鑑みてなされたものであり、 その目的は、 複数 の音声データを聴覚上分離して同時に聴かせる技術を提供することにある。 課題を解決するための手段
[0006] 本発明のある態様は音声処理装置に関する。 この音声処理装置は、 ユーザ から入力された、 入力音声信号に対して要求される強調の度合いを示す指標 に応じて、 複数の入力音声信号をそれぞれ処理し強調の度合いを調整する音 声処理部と、 音声処理部により強調の度合いが調整された複数の入力音声信 号を混合し所定のチャンネル数を有する出力音声信号として出力する出力部 と、 を備え、 音声処理部は、 複数の入力音声信号のそれぞれに対して前記指 標に応じた周波数帯域を割り当て、 各入力音声信号から、 割り当てた周波数 帯域に属する周波数成分を抽出する周波数帯域分割フィルタを備えたことを 特徴とする。
[0007] 本発明の別の態様も音声処理装置に関する。 この音声処理装置は、 ユーザ から入力された、 入力音声信号に対して要求される強調の度合いを示す指標 に応じて、 複数の入力音声信号をそれぞれ処理し強調の度合いを調整する音 声処理部と、 音声処理部により強調の度合いが調整された複数の入力音声信 号を混合し所定のチャンネル数を有する出力音声信号として出力する出力部 と、 を備えた音声処理装置であって、 音声処理部は、 複数の入力音声信号の それぞれに対して指標に応じた周波数帯域を割り当て、 各入力音声信号から 、 割り当てた周波数帯域に属する周波数成分を抽出する周波数帯域分割フィ ルタと、 複数の入力音声信号のそれぞれの振幅を、 共通の周期で位相を異な らせて時間変調させる時分割フィルタと、 複数の入力音声信号の少なくとも いずれかに対し、 所定の周期で所定の音響加工処理を施す変調フィルタと、 複数の入力音声信号の少なくともいずれかに対し、 定常的に所定の音響加工 処理を施す加工フィルタと、 複数の入力音声信号のそれぞれに対して異なる 定位を与える定位設定フィルタと、 の少なくともいずれかを備え、 音声処理 装置はさらに、 前記周波数帯域分割フィルタ、 前記時分割フィルタ、 前記変 調フィルタ、 前記加工フィルタ、 および前記定位設定フィルタのうち前記音 声処理部に備えられたフィルタから選択するフィルタのいずれかの組み合わ せを、 指標に対応づけて記憶する記憶部をさらに備え、 出力部は指標に応じ て、 記憶部に記憶されたフィルタの組み合わせに基づき選択されたフィルタ によってフィルタ処理が施された複数の入力音声信号を混合することを特徴 とする。
[0008] 本発明のさらに別の態様は音声処理方法に関する。 この音声処理方法は、 ユーザから入力された、 入力音声信号に対して要求される強調の度合いが高 いほど広い帯域幅となるように、 複数の入力音声信号のそれぞれに周波数帯 域を割り当てるステップと、 各入力音声信号から、 割り当てた周波数帯域に 属する周波数成分を抽出するステップと、 各入力音声信号から抽出された周 波数成分からなる複数の音声信号を混合し所定のチャンネル数を有する出力 音声信号として出力するステップと、 を含むことを特徴とする。
[0009] なお、 以上の構成要素の任意の組合せ、 本発明の表現を方法、 装置、 シス テム、 コンピュータプログラムなどの間で変換したものもまた、 本発明の態 様として有効である。
発明の効果
[0010] 本発明によれば、 複数の音声データを聴覚上区別して同時に聴くことがで さる。
図面の簡単な説明
[001 1 ] [図 1 ]本実施の形態における音声処理装置を含む音声処理システムの全体構造 を示す図である。
[図 2]本実施の形態における音声信号の周波数帯域分割について説明するため の図である。
[図 3]本実施の形態こおける音声信号の時分割について説明するための図であ る。
[図 4]本実施の形態こおける音声処理部の構成を詳細に示す図である。
[図 5]本実施の形態こおいて音声処理装置の入力部に表示される画面の例を示 す図である。
[図 6]本実施の形態こおいてブロックの割り当て方のパターンを模式的に示す 図である。
[図 7]本実施の形態こおいて記憶部に記憶される音楽データの情報の一例を示 す図である。
[図 8]本実施の形態 おいて記憶部に記憶させる、 フォーカス値と各フィルタ の設定とを対応付けたテーブルの例を示す図である。
[図 9]本実施の形態における音声処理装置の動作を示すフローチヤ一トである 符号の説明
[0012] 1 0…音声処理システム、 1 2…記憶装置、 1 4…再生装置、 1 6 …音声処理装置、 1 8…入力部、 2 0…制御部、 2 2…記憶部、 2 4…音声処理部、 2 6…ダウンミキサー、 3 0…出力装置、 4 0…前 処理部、 4 2…周波数帯域分割フィルタ、 4 4…時分割フィルタ、 4 6…変調フィルタ、 4 8…加工フィルタ、 5 0…定位設定フィルタ。 発明を実施するための最良の形態
[0013] 図 1は本実施の形態における音声処理装置を含む音声処理システムの全体 構造を示している。 本実施の形態における音声処理システムは、 ユーザがハ 一ドディスクなどの記憶装置や記録媒体に保存した複数の音声データを同時 に再生し、 得られた複数の音声信号にフィルタ処理を施した後、 混合して所 望のチャンネル数を有する出力音声信号とし、 ステレオやイヤホンなどの出 力装置から出力する。
[0014] 複数の音声信号を単に混合して出力するだけでは、 それらが互いに打ち消 しあつたりひとつの音声信号のみが際立って聴こえたりして、 画像データの サムネィル表示のようにそれぞれを独立に認識することが難しい。 そこで本 実施の形態における音声処理装置は、 人間が音声を認識するためのメカニズ ムのうち聴覚抹消系すなわち内耳のレベルでそれぞれの音声信号を相対的に 分離し、 聴覚中枢系すなわち脳のレベルで独立に認識するための手がかりを 与えることにより、 複数の音声信号の聴覚上の分離を行う。 この処理が上述 のフィルタ処理である。
[0015] さらに本実施の形態の音声処理装置は、 画像データのサムネイル表示にお いてユーザが 1つのサムネイル画像に注目するが如く、 ユーザが注意を向け る対象となった音声データの信号を、 混合された出力音声信号の中でも強調 されるようにする。 またはユーザが画像データのサムネイル表示において視 点をずらしていくように、 複数の音声信号のそれぞれの強調の度合いを多段 階的にまたは連続的に変化させて出力する。 ここで 「強調の度合い」 とは、 複数の音声信号の "聴こえ易さ" 、 すなわち聴覚上の認識しやすさを意味す る。 例えば強調の度合いが他より大きいとき、 その音声信号は他の音声信号 より鮮明に、 大きく、 あるいは近くに聞こえる音かもしれない。 強調の度合 いはそのような人間の感じ方を総合的に考慮した主観的なパラメータである
[0016] 強調の度合いを変化させる場合に、 単に音量調節をするだけでは、 強調し たい音声データの信号が別の音声信号にかき消されて結局よく聞き取れず、 強調の効果が十分得られなかつたり、 強調しない音声データの音が聴こえな <なってしまい同時に再生する意味がなくなってしまう可能性は十分残され る。 これは人間の聴覚上の聴こえ易さが音量の他、 周波数特性などと密接に 関わっているためである。 そのため、 ユーザが要求する強調の度合いの変化 をユーザ自身が十分認識できるように、 上述のフィルタ処理の内容を調整す る。 以上述べたフィルタ処理の原理、 および具体的な処理内容は後に詳述す る。
[0017] 以下の説明において音声データは音楽データとするが、 それに限る趣旨で はなく、 落語や会議などにおける人声、 環境音、 放送波に含まれる音声など 、 音声信号のデータであればよく、 それらが混合していてもよい。
[0018] 音声処理システム 1 0は、 複数の音楽データを記憶する記憶装置 1 2、 複 数の音楽データをそれぞれ再生して生成した複数の音声信号が分離して聴こ えるように処理を施し、 ユーザが要求する強調の度合いを反映させた上で混 合する音声処理装置 1 6、 混合された音声信号を音響として出力する出力装 置 3 0を含む。
[0019] 音声処理システム 1 0はパーソナルコンピュータや、 ポータブルプレーヤ などの音楽再生機器など、 一体的またはローカルな接続によって構成してよ しゝ。 この場合、 記憶装置 1 2はハードディスクやフラッシュメモリ、 音声処 理装置 1 6はプロセッサユニット、 出力装置 3 0は内蔵スピーカや外部に接 続したスピーカ、 イヤホンなどを用いることができる。 あるいは記憶装置 1 2を、 音声処理装置 1 6とネットワークを介して接続されるサーバ内のハー ドディスクなどで構成してもよい。 また記憶装置 1 2が記憶する音楽データ は、 M P 3など一般的な符号化形式によって符号化されていてもよい。
[0020] 音声処理装置 1 6は、 再生する音楽データの選択や強調に係るユーザの指 示を入力する入力部 1 8、 ユーザが選択した複数の音楽データをそれぞれ再 生して複数の音声信号とする複数の再生装置 1 4、 音声信号の区別や強調を ユーザに認識させるために複数の音声信号のそれぞれに対し所定のフィルタ 処理を施す音声処理部 2 4、 フィルタ処理が施された複数の音声信号を混合 して所望のチヤンネル数を有する出力信号を生成するダウンミキサー 2 6、 再生や強調に関するユーザからの選択指示に応じて再生装置 1 4や音声処理 部 2 4の動作を制御する制御部 2 0、 制御部 2 0による制御に必要なテープ ル、 すなわちあらかじめ設定されているパラメータや、 記憶装置 1 2に記憶 されている音楽データ個々の情報を記憶する記憶部 2 2を含む。
[0021 ] 入力部 1 8は、 記憶装置 1 2に記憶されている音楽データから所望の複数 の音楽データを選択したり、 再生中の複数の音楽データのうち強調する対象 を変化させたりするための指示を入力するインターフェースを提供する。 入 力部 1 8は例えば、 選択対象の音楽データを象徴するアイコンなどの情報を 記憶部 2 2から読み出して一覧表示するとともにカーソルを表示する表示装 置と、 当該カーソルを動かし画面上のポイントを選択するポインティングデ バイスにより構成する。 その他、 キーボード、 トラックボール、 ボタン、 タ ツチパネルなど一般的な入力装置、 表示装置、 それらの組み合わせのいずれ でもよい。
[0022] なお以後の説明では、 記憶装置 1 2に記憶される音楽データはそれぞれひ とつの曲のデータであるとし、 曲単位の指示入力、 処理を行うものとするが 、 1つの音楽データがアルバムなど複数の曲の集合であっても同様である。
[0023] 制御部 2 0は、 入力部 1 8において、 ユーザから再生する音楽データの選 択入力があった場合に、 その情報を再生装置 1 4に与えるとともに、 再生す る音楽データの音声信号ごとに適切な処理が行われるように、 必要なパラメ 一夕を記憶部 2 2から取得し、 音声処理部 2 4に対し初期設定を行う。 さら に強調する音楽データの選択入力があった場合に、 音声処理部 2 4の設定を 変更することによりその入力を反映させる。 設定内容は後に詳述する。
[0024] 再生装置 1 4は、 記憶装置 1 2に記憶された音楽データのうち、 選択され たものを適宜復号して音声信号を生成する。 図 1では同時に再生可能な音楽 データを 4つとして、 4つの再生装置 1 4を示しているが、 その数はこれに 限らない。 また、 マルチプロセッサなどによって並列に再生処理が可能な場 合は、 再生装置 1 4は外観上 1つであるが、 ここでは各音楽データを再生し 、 それぞれの音声信号を生成する処理ュニットとして別々に示している。
[0025] 音声処理部 2 4は選択された音楽データに対応する音声信号のそれぞれに 上述のようなフィルタ処理を施すことにより、 ユーザが要求する強調の度合 いを反映させた、 聴覚上分離して認識できる複数の音声信号を生成する。 詳 細は後に述べる。
[0026] ダウンミキサー 2 6は入力された複数の音声信号を、 必要に応じて各種の 調整を行ったうえで混合し、 モノラル、 ステレオ、 5 . 1チャンネルなど所 定のチャンネル数を有する出力信号として出力する。 チャンネル数は固定で もよいし、 ユーザによりハードウェア的、 ソフトウェア的に切り替え設定が 可能な構成としてもよい。 ダウンミキサー 2 6は一般的なダウンミキサーで 構成してもよい。
[0027] 記憶部 2 2はメモリ、 ハードディスクなどの記憶素子、 記憶装置でよく、 記憶装置 1 2に記憶された音楽データの情報、 強調の度合いを示す指標と音 声処理部 2 4に設定されるパラメータとを対応づけたテーブルなどを記憶す る。 音楽データの情報には、 音楽データに対応した曲の曲名、 演奏者名、 ァ イコン、 ジャンルなど一般的な情報のいずれが含まれていてもよく、 さらに 音声処理部 2 4において必要となるパラメータの一部が含まれていてもよい 。 音楽データの情報は当該音楽データを記憶装置 1 2に記憶させたときに読 み出して記憶部 2 2に記憶させてもよいし、 音声処理装置 1 6を動作させる たびに記憶装置 1 2から読み出して記憶部 2 2に格納するようにしてもよい
[0028] ここで音声処理部 2 4において行われる処理の内容を明らかにするために 、 同時に聴こえる複数の音を聞き分ける原理について説明する。 人間は、 耳 における音の感知と、 脳における音の解析との 2段階によって音を認識する 。 人間が異なる音源から同時に発せられた音を聞き分けるには、 この 2段階 のいずれかまたは双方において別の音源であることを表す情報、 すなわち分 離情報を取得できればよい。 例えば右耳と左耳とで異なる音を聴くことは、 内耳レベルで分離情報を得たことになり、 脳において別の音として解析され 認識できる。 最初から混合されている音の場合は、 音脈や音色の違いなどを 、 これまでの生活で学習し記憶された分離情報と照らして解析することによ り、 脳レベルで分離することが可能である。
[0029] 複数の音楽を混合して 1組のスピーカやイヤホンなどから聴く場合は、 本 来、 内耳レベルでの分離情報が得られないため、 上述のように音脈や音色の 違いなどを頼りに脳で別の音であることを認識することになるが、 そのよう にして聞き分けることのできる音は限定的であり、 多種多様な音楽に適用す ることはほとんど不可能である。 そこで本発明者は、 最終的に混合しても分 離して認識できる音声信号を生成するために、 以下に述べるように内耳また は脳に働きかけを行う分離情報を音声信号に人工的に付加する手法に想到し た。
[0030] まず内耳レベルで分離情報を与える手法として、 周波数帯域での音声信号 の分割、 および音声信号の時分割について説明する。 図 2は、 周波数帯域分 割について説明するための図である。 図の横軸は周波数であり周波数 f 0か ら f 8までを可聴帯域とする。 同図では曲 a、 曲 bの 2曲の音声信号を混合 して聴く場合について示しているが曲の数はいくつでもよい。 周波数帯域分 割の手法では、 可聴帯域を複数のブロックに分割し、 各ブロックを複数の音 声信号の少なくともいずれかに割り当てる。 そして各音声信号から、 割り当 てられたブロックに属する周波数成分のみを抽出する。
[0031] 図 2では、 可聴帯域を f 1、 f 2、 ■ ■ ■、 f 7の周波数で 8つのブロッ クに分割している。 そして例えば斜線にて示すように、 曲 aに対し周波数 f 1 ~ f 2、 f 3~ f 4、 f 5~ f 6、 f 7 ~ f 8の 4つのブロックを、 曲 b に対し周波数 f O~ f 1、 f 2~ f 3、 f 4~ f 5、 f 6~ f 7の 4つのブ ロックを割り当てる。 ここでブロックの境界となる周波数 f 1、 f 2、 ■ ■ ■、 f 7を、 例えば B a r kの 24臨界帯域の境界周波数のいずれかとする ことにより、 周波数帯域分割の効果をより発揮することができる。
[0032] 臨界帯域とは、 ある周波数帯域を有する音が、 それ以上帯域幅を広げても 他の音に対するマスキング量が増加しなくなる周波数帯域のことである。 こ こでマスキングとはある音に対する最小可聴値が他の音の存在によって上昇 する現象、 すなわち聴きづらくなる現象であり、 マスキング量はその最小可 聴値の上昇量である。 すなわち、 異なる臨界帯域にある音どうしは互いにマ スキングされにくい。 実験によって判明した B a r kの 24個の臨界帯域を 利用して周波数帯域を分割することにより、 例えば周波数 f 1〜 f 2のプロ ックに属する曲 aの周波数成分が、 周波数 f 2〜 f 3のブロックに属する曲 bの周波数成分をマスキングするなどの影響を抑えることができる。 他のブ ロックについても同様であり、 結果として、 曲 aと曲 bは互いに打ち消しあ うことの少ない音声信号となる。
[0033] なお、 ブロックへの分割は臨界帯域によらなくてもよい。 いずれの場合で も、 重複する周波数帯域を少なくすることにより、 内耳の周波数分解能を利 用して分離情報を与えることができる。
[0034] 図 2に示した例では、 各ブロックが同程度の帯域幅を有しているが、 実際 には帯域幅を周波数帯によって変化させてもよい。 例えば臨界帯域 2つ分を 1つのブロックとする帯域と 4つ分を 1つのブロックとする帯域があっても よい。 ブロックへの分割の仕方 (以後、 分割パターンと呼ぶ) は、 例えば低 域の周波数を有する音はマスキングされにくい、 などの一般的な音の特性を 考慮して決定してもよいし、 曲ごとの特徴的な周波数帯域を考慮して決定し てもよい。 ここで特徴的な周波数帯域とは、 例えば主旋律が占める周波数帯 域など曲の表現上、 重要となる周波数帯域である。 特徴的な周波数帯域が重 なると予想される場合は、 その帯域を細かく分割して均等に割り当て、 どち らかの曲において主旋律が聞こえないなどの不具合が発生しないようにする ことが望ましい。
[0035] また図 2に示した例では、 一連のブロックを交互に曲 a、 曲 bに割り当て たが、 連続した 2つのブロックを曲 aに割り当てるなど、 割り当て方はこれ に限らない。 この場合も、 例えばある曲の特徴的な周波数帯域が連続したブ ロック 2つ分に渡るときは当該 2つのブロックをその曲に割り当てるなど、 周波数帯域分割を行ったことによる悪影響の発生が曲の重要な部分では最低 限抑制されるように割り当て方を決定することが望ましい。
[0036] —方で、 明らかに高域、 中域、 低域に偏った 3曲を混合したい場合など特 殊な場合を除き、 ブロック数は混合する曲の数より多くし、 ひとつの曲に不 連続な複数のブロックを割り当てるようにすることが望ましい。 これも上述 と同様の理由で、 特徴的な周波数帯域が重なった場合でも、 ある曲の特徴的 な周波数帯域の全てが別の曲に割り当てられてしまうことを防止し、 より幅 広い帯域でおよそ均等に割り当てを行うようにして、 平均的に全ての曲が聞 こえるようにするためである。 [0037] 図 3は音声信号の時分割について説明するための図である。 同図において 横軸は時間、 縦軸は音声信号の振幅、 すなわち音量を示している。 この場合 も曲 a、 曲 bの 2曲の音声信号を混合して聴く場合を一例として示している 。 時分割の手法では、 共通の周期で音声信号の振幅を変調させる。 そしてそ のピークが曲によって異なるタイミングで表れるように位相をずらす。 内耳 レベルへの働きかけのため、 このときの周期は数十ミリ秒から数百ミリ秒程 度でよい。
[0038] 図 3では共通の周期 Tで曲 a、 曲 bの振幅を変調させている。 そして曲 a の振幅がピークとなる時刻 t 0、 t 2、 t 4、 t 6において曲 bの振幅を小 さくし、 曲 bの振幅がピークとなる時刻 t 1、 t 3、 t 5において曲 aの振 幅を小さくする。 実際には、 同図に示すように振幅が最大となる時刻、 最小 となる時刻がある程度の時間的幅を有するように振幅の変調を行ってもよい 。 この場合、 曲 aの振幅が最小となる時間を曲 bの振幅が最大となる時間と 合わせるようにすることができる。 3曲以上を混合する場合でも、 曲 aの振 幅が最小となる時間に、 曲 bの振幅が最大の時間、 曲 cの振幅が最大の時間 を設けることができる。
[0039] —方、 ピークとなる時刻に時間的幅を持たない正弦波状の変調を行っても よい。 この場合は単に位相をずらして、 ピークとなるタイミングを異ならせ る。 いずれの場合によっても、 内耳の時間的分解能を利用して分離情報を与 えることができる。
[0040] 次に脳レベルで分離情報を与える手法について説明する。 fl¾レベルで与え る分離情報は、 脳において音を分析する際に、 各音の音脈を認識する手がか りを与える。 本実施の形態では、 音声信号に周期的に特定の変化を与える手 法、 音声信号に定常的に加工処理を施す手法、 定位を変化させる手法を導入 する。 音声信号に周期的に特定の変化を与える手法では、 混合する全てまた は一部の音声信号の振幅を変調させたり、 周波数特性を変調させたりする。 変調は短期間にパルス状に発生させてもよいし、 数秒の長時間に渡って緩や かに変化するようにしてもよい。 複数の音声信号に共通の変調を行う場合は 、 そのピークのタイミングを音声信号ごとに異ならせる。
[0041 ] あるいは、 周期的にクリック音などのノイズを付加したり一般的なオーデ ィォフィルタによって実現できる加工処理を施したり定位を左右に振ったり してもよい。 これらの変調を組み合わせたり、 音声信号によって別の変調を 適用したり、 タイミングをずらしたりすることにより、 音声信号の音脈を気 づかせる手がかりを与えることができる。
[0042] 音声信号に定常的に加工処理を施す手法では、 混合する全てまたは一部の 音声信号に、 一般的なエフヱクタ一で実現できる、 エコー、 リバーブ、 ピッ チシフトなどの様々な音響加工の 1つまたは組み合わせを施す。 定常的に周 波数特性を元の音声信号と異ならせてもよい。 例えば同じ楽器による同じ亍 ンポの曲であっても一方にエコー処理が施されることにより、 別の曲として 認識しやすくなる。 複数の音声信号に加工処理を施す場合は当然、 加工内容 や加工の強度を音声信号によって異ならせる。
[0043] 定位を変化させる手法では、 混合する全ての音声信号のそれぞれに異なる 定位を与える。 これにより内耳との協働により脳において音響の空間的な情 報解析を行うことで、 音声信号を分離しやすくなる。
[0044] 以上述べた原理を用い、 本実施の形態の音声処理装置 1 6における音声処 理部 2 4は、 混合したときに聴感上分離して認識できるように音声信号のそ れぞれに対し処理を施す。 図 4は音声処理部 2 4の構成を詳細に示している 。 音声処理部 2 4は、 前処理部 4 0、 周波数帯域分割フィルタ 4 2、 時分割 フィルタ 4 4、 変調フィルタ 4 6、 加工フィルタ 4 8、 定位設定フィルタ 5 0を含む。 前処理部 4 0は、 一般的なオートゲインコントローラなどでよく 、 再生装置 1 4から入力した複数の音声信号の音量がおよそ揃うようにゲイ ン調整を行う。
[0045] 周波数帯域分割フィルタ 4 2は、 上述したように、 可聴帯域を分割してな るブロックを各音声信号に割り当て、 それぞれの音声信号から割り当てられ たブロックに属する周波数成分を抽出する。 例えば周波数帯域分割フィルタ 4 2を、 音声信号のチャンネルごと、 ブロックごとに設けたバンドパスフィ ルタ (図示せず) として構成することにより、 周波数成分の抽出が可能とな る。 分割パターンや音声信号へのブロックの割り当て方 (以後、 割り当てパ ターンと呼ぶ) は、 制御部 2 0が各バンドパスフィルタなどを制御して周波 数帯域の設定や有効なバンドバスフィルタの設定を行うことにより変更する ことができる。 割り当てパターンに関しては、 具体例を後に述べる。
[0046] 時分割フィルタ 4 4は上述した音声信号の時分割の手法を実施し、 各音声 信号の振幅を、 数十ミリ秒から数百ミリ秒程度の周期で位相を異ならせて時 間変調させる。 時分割フィルタ 4 4は、 例えばゲインコントローラを時間軸 で制御することによって実現できる。 変調フィルタ 4 6は上述した、 音声信 号に周期的に特定の変化を与える手法を実施し、 例えばゲインコントローラ 、 イコライザ、 オーディオフィルタなどを時間軸で制御することによって実 現できる。 加工フィルタ 4 8は上述した、 音声信号に定常的に特殊効果 (以 下、 加工処理と呼ぶ) を施す手法を実施し、 例えばエフェクターなどで実現 できる。 定位設定フィルタ 5 0は上述した、 定位を変化させる手法を実施し 、 例えばパンポットなどで実現できる。
[0047] 本実施の形態では上述のとおり、 混合した複数の音声信号を聴覚上分離し て認識させたうえで、 ある音声信号を強調して聴かせることを実現する。 そ のため周波数帯域分割フィルタ 4 2やその他のフィルタ内部で、 ユーザが要 求する強調の度合いに応じて処理を変更する。 さらに音声信号を通過させる フィルタも強調の度合いに応じて選択する。 後者の場合、 各フィルタにおけ る音声信号の出力端子にデマルチプレクサを接続するなどする。 このとき、 制御部 2 0からの制御信号によって次のフィルタへの入力の可否を設定する ことにより、 次のフィルタの選択、 非選択を変更できる。
[0048] 次に強調の度合いを変化させる具体的な手法について説明する。 まず、 ュ 一ザが強調したい音楽データを選択する模様について一例を説明する。 図 5 は、 4つの音楽データが選択されそれらの音声信号が混合されて出力されて いる状態において、 音声処理装置 1 6の入力部 1 8に表示される画面の例を 示している。 入力画面 9 0は、 題名力《 「曲 a」 、 「曲 b」 、 「曲 c」 、 「曲 d」 なる再生中の音楽データのアイコン 9 2 a、 9 2 b、 9 2 c、 9 2 dと 、 再生を停止するための 「停止」 ポタン 9 4、 およびカーソル 9 6を含む。
[0049] 音声処理装置 1 6は、 再生中の状態でユーザがカーソル 9 6を入力画面 9 0上で移動させると、 そのカーソルの指し示すアイコンが表す音楽データを 強調させたい対象と判断する。 図 5においてはカーソル 9 6は 「曲 b」 のァ イコン 9 2 bを示しているため、 「曲 b」 のアイコン 9 2 bに対応する音楽 データを強調対象とし、 その音声信号を音声処理部 2 4にて強調するように 制御部 2 0が動作する。 このとき、 他の 3つの音楽データは非強調対象とし て、 音声処理部 2 4にて同一のフィルタ処理を行うようにしてもよい。 これ によりユーザには、 4つの曲が同時かつ分離して聞こえるとともに、 「曲 」 のみが特によく聴こえる状態となる。
[0050] —方で、 カーソル 9 6からアイコンまでの距離に従い、 強調対象の音楽デ 一夕以外の音楽データの強調の度合いを変化させてもよい。 図 5の例では、 カーソル 9 6が示す 「曲 b」 のアイコン 9 2 bに対応する音楽データの強調 の度合いを最も高くし、 カーソル 9 6が示すポイントから同程度の近距離に ある 「曲 a」 のアイコン 9 2 aおよび 「曲 c」 のアイコン 9 2 cに対応する 音楽データの強調の度合いを中程度とする。 そしてカーソル 9 6が示すボイ ントから最も離れた 「曲 d」 のアイコン 9 2 dに対応する音楽データの強調 の度合いを最も低くする。
[0051 ] この態様においては、 たとえカーソル 9 6がいずれかのアイコンを指し示 していなくても、 指し示しているポイントからの距離で強調の度合いを決定 できる。 例えば強調の度合いをカーソル 9 6からの距離に応じて連続的に変 化させるとすると、 サムネイル表示において視点を徐々にずらしていくのと 同様に、 カーソル 9 6の動きに合わせて曲が近づいたり遠のいたりするよう に聴かせることができる。 カーソル 9 6を導入せず、 ユーザからの左右の指 示入力によってアイコン自体を画面上で移動させ、 画面の真ん中に近いアイ コンほど強調の度合いを高くするなどしてもよい。
[0052] 制御部 2 0は、 入力部 1 8におけるカーソル 9 6の動きに係る情報を取得 し、 それが指し示すポイントからの距離などに応じて、 各アイコンに対応す る音楽データに対し、 強調の度合いを示す指標を設定する。 この指標を以後 、 フォーカス値と呼ぶ。 なおここで説明するフォーカス値は一例であり、 強 調の度合いを決定できる指標であればいかなる数値、 図形などでもよい。 例 えばカーソルの位置に関わらず、 それぞれのフォーカス値を独立に設定でき るようにしてもよいし、 全体を 1 として割合で決定するようにしてもよい。
[0053] 次に周波数帯域分割フィルタ 4 2において強調の度合いを変化させる手法 について説明する。 図 2では複数の音声信号を分離して認識させる手法を説 明するため、 「曲 a」 と 「曲 b」 とでほぼ均等に周波数帯域のブロックの割 り当てを行った。 一方、 ある音声信号を強調して聞かせ、 ある音声信号を目 立たなくさせるためには、 ブロックを割り当てる数に大小をつける。 図 6は ブロックの割り当てパターンを模式的に示している。
[0054] 同図は、 可聴帯域を 7個のブロックに分割した場合について示している。
図 2と同様、 横軸に周波数をとり、 説明の便宜上、 低域側のブロックからブ ロック 1、 ブロック 2、 ■ ■ ■、 ブロック 7とする。 まず 「パターン群 A」 と記載された上から 3つの割り当てパターンに着目する。 各割り当てパター ンの左に記載された数値はフォーカス値であり、 例として 「1 . 0」 、 「0 . 5」 、 「0 . 1」 の場合を示している。 この場合のフォーカス値は大きい ほど強調の度合いが高いとし、 最大値を 1 . 0、 最小値を 0 . 1 とする。 あ る音声信号の強調の度合いを最高とする場合、 すなわち他の音声信号と比較 し最も聞き取り易くする場合、 フォーカス値が 1 . 0の割り当てパターンを 当該音声信号に適用する。 同図の 「パターン群 A」 では、 ブロック 2、 プロ ック 3、 ブロック 5、 およびブロック 6の 4つのブロックが同音声信号に割 り当てられる。
[0055] ここで同じ音声信号の強調の度合いを少し低下させる場合、 割り当てバタ ーンを例えばフォーカス値が 0 . 5の割り当てパターンに変更する。 同図の 「パターン群 A」 では、 ブロック 1、 ブロック 2、 ブロック 3の 3つのブロ ックが割り当てられる。 同様に同じ音声信号の強調の度合いを最低としたい 場合、 すなわち聞き取れる範囲で最も目立たなくする場合は、 割り当てバタ ーンを、 フォーカス値が 0 . 1の割り当てパターンに変更する。 同図の 「パ ターン群 A」 では、 ブロック 1の 1つのブロックが割り当てられる。 このよ うに、 求められる強調の度合いによってフォーカス値を変化させ、 フォー力 ス値が大きい場合は多数のブロックを、 小さい場合は少数のブロックを割り 当てる。 これにより内耳レベルで強調の度合いについての情報を与えること ができ、 強調、 非強調を認識させることができる。
[0056] 同図に示すとおり、 強調の度合いが最高である、 フォーカス値が 1 . 0の 音声信号に対しても、 全てのプロックを割り当ててしまわないようにするこ とが望ましい。 同図ではブロック 1、 ブロック 4、 およびブロック 7が割り 当てられていない。 これは、 例えばブロック 1をフォーカス 1 . 0の音声信 号にも割り当ててしまうと、 ブロック 1のみを割り当てられたフォーカス値 0 . 1の別の音声信号の周波数成分をマスキングしてしまう可能性があるた めである。 本実施の形態では、 複数の音声信号を分離して聴かせつつ、 強調 の度合いに高低をつけるため、 強調の度合いが低くても聞き取りが可能とな ることが望ましい。 そのため、 強調の度合いが最低の、 または低い音声信号 に割り当てられたブロックは、 強調の度合いが最高の、 または高い音声信号 には割り当てないようにする。
[0057] 同図では、 フォーカス値が 0 . 1、 0 . 5、 1 . 0の 3段階の割り当てパ タ一ンのみを示したが、 割り当てバターンを多数のフオーカス値であらかじ め設定する場合は、 フォーカス値にしきい値を設け、 それ以下のフォーカス 値を有する音声信号を、 非強調対象としてもよい。 そして非強調対象の音声 信号に対して割り当てるブロックを、 当該しきい値より大きなフォーカス値 を有する強調対象の音声信号には割り当てないように割り当てパターンを設 定してもよい。 強調対象、 非強調対象の区別は 2つのしきい値によって行つ てもよい。
[0058] 以上の説明は 「パターン群 A」 に着目して行ったが、 「パターン群 B」 、
「パターン群 C」 についても同様である。 ここで割り当てパターン群が 「パ ターン群 A」 、 「パターン群 B」 、 「パターン群 C」 と 3種類存在するのは 、 フォーカス値 0 . 5や 0 . 1などの音声信号において割り当てるブロック ができるだけ重複しないようにするためである。 例えば 3つの音楽データを 再生する場合には、 対応する 3つの音声信号にそれぞれ 「パターン群 A」 、 「パターン群 B」 、 「パターン群 C」 を適用する。
[0059] このとき全ての音声信号がフォーカス値 0 . 1であったとしても、 「バタ ーン群 A」 、 「パターン群 B」 、 「パターン群 C」 で異なるブロックが割り 当てられ、 分離して聞き取りやすくなる。 なおいずれのパターン群において も、 フォーカス値 0 . 1で割り当てられるブロックは、 フォーカス値 1 . 0 では割り当てられないブロックである。 この理由は既に述べたとおりである
[0060] フォーカス値 0 . 5の場合は 「パターン群 A」 、 「パターン群 B」 、 「パ ターン群 C」 で重複するブロックが存在するが、 2つのパターン群の組み合 わせでは重複するブロックは最大でも 1つである。 このように、 混合する音 声信号に強調の度合いを設定する場合は、 音声信号同士で割り当てるブロッ クに重複を許してよいが、 重複するブロックの個数を最小限に抑えることや 、 強調の度合いが低い音声信号へ割り当てるブロックの、 他の音声信号への 割り当てを制限するなどの工夫により、 分離と強調を同時に達成することが できる。 また重複するブロックがあっても、 周波数帯域分割フィルタ 4 2以 外のフィルタにおいて分離のレベルを補うように処理を調整してもよい。
[0061 ] 図 6に示したブロックの割り当てパターンは、 フォーカス値と対応づけて 記憶部 2 2に記憶させておく。 そして制御部 2 0は入力部 1 8におけるカー ソル 9 6の動きなどに応じて各音声信号のフォーカス値を決定し、 その音声 信号にあらかじめ割り当てられたパターン群のうち、 そのフォーカス値に対 応ずる割り当てパターンを記憶部 2 2から読み出すことにより割り当てるブ ロックを取得する。 そのブロックに対応させて有効となるバンドパスフィル タの設定などを周波数帯域分割フィルタ 4 2に対して行う。
[0062] ここで記憶部 2 2に記憶させておく割り当てパターンは、 フォーカス値 0 . 1、 0 . 5、 1 . 0以外のフォーカス値を含んでよい。 しかしながらプロ ックの個数は有限であるため、 あらかじめ準備できる割り当てパターンは限 られる。 そのため記憶部 2 2に記憶されていないフォーカス値の場合は、 そ の前後のフォーカス値で、 記憶部 2 2に記憶されている直近のフォーカス値 の割り当てパターンを補間することによって割り当てパターンを決定する。 補間の方法としては、 ブロックをさらに分割して割り当てる周波数帯域を調 整したり、 あるブロックに属する周波数成分の振幅を調整したりする。 後者 の場合、 周波数帯域分割フィルタ 4 2にはゲインコントローラを含める。
[0063] 例えばフォーカス値 0 . 5において、 ある 3つのブロックを割り当て、 フ オーカス値 0 . 3でそのうち 2つのブロックを割り当てる場合、 フォーカス 値 0 . 4ではフォーカス値 0 . 3で与えられない残りの 1つのブロックの周 波数帯域を 2分割したうちの一方を割り当てるか、 当該 1つのブロックを割 り当ててしまい、 その周波数成分のみ振幅を 2分の 1にする。 この例では線 形補間を行っているが、 強調の度合いを示すフォーカス値が人間の聴覚によ る感覚的、 主観的な値であることを考慮した場合、 必ずしも線形補間である 必要はなく、 実際の聴こえ方を実験するなどしてあらかじめテーブルまたは 数式などによって補間のルールを設定してよい。 制御部 2 0はその設定に従 い補間を行い、 周波数帯域分割フィルタ 4 2に対して設定を行う。 これによ り、 フォーカス値をほぼ連続的に設定することができ、 強調の度合いをカー ソル 9 6の動きに合わせて見かけ上連続的に変化させることができる。
[0064] 記憶部 2 2に記憶させる割り当てパターンは、 分割パターンが異なる数種 類のシリーズを含んでいてもよい。 この場合、 最初に音楽データが選択され た時点で、 どの分割パターンを適用するかを決定しておく。 決定に際しては 、 後述するように各音楽データの情報を手がかりにできる。 分割パターンは 、 制御部 2 0がバンドバスフィルタの上限および下限の周波数の設定を行う ことなどによって周波数帯域分割フィルタ 4 2に反映される。
[0065] 各音声信号にどの割り当てパターン群を割り当てるかは、 対応する音楽デ 一夕の情報に基づいて決定してよい。 図 7は記憶部 2 2に記憶される音楽デ 一夕の情報の一例を示している。 音楽データ情報テーブル 1 1 0は、 題名欄 1 1 2、 およびパターン群欄 1 1 4を含む。 題名欄 1 1 2には各音楽データ に対応する曲の題名が記載される。 同欄は音楽データの I Dなど音楽データ を識別するものであれば他の属性を記載する欄としてもよい。
[0066] パターン群欄 1 1 4には、 各音楽データについて推奨される割り当てバタ ーン群の名前または I Dが記載される。 ここで推奨されるパターン群を選択 する根拠として、 当該音楽データの特徴的な周波数帯域を利用してもよい。 例えば、 音声信号がフォーカス値 0 . 1 となったときに、 特徴的な周波数帯 域が割り当てられるようなパターン群を推奨する。 これにより、 非強調の状 態にあっても音声信号の最も重要な成分が、 同じフォー力ス値の別の音声信 号や高いフォーカス値の音声信号にマスキングされづらくなり、 より聞き取 りやすくなる。
[0067] この態様は、 例えばパターン群とその I Dを標準化し、 音楽データを提供 するベンダーなどが、 推奨されるパターン群を音楽データの情報として音楽 データに付加することなどによって実現できる。 一方、 音楽データに付加す る情報を、 パターン群の名前や I Dに代わり、 特徴的な周波数帯域とするこ ともできる。 この場合、 制御部 2 0はあらかじめ、 それぞれの音楽データの 特徴的な周波数帯域を記憶装置 1 2より読み出し、 その周波数帯に最も適し たパターン群をそれぞれ選択して音楽データ情報テーブル 1 1 0を生成し、 記憶部 2 2に保存してもよい。 あるいは音楽のジャンルや楽器の種類などに 基づき特徴的な周波数帯域を判断し、 それによりパターン群を選択するよう にしてもよい。
[0068] 音楽データに付加する情報が特徴的な周波数帯域であった場合は、 その情 報そのものを記憶部 2 2に記憶させておいてもよい。 この場合、 再生する複 数の音楽データの特徴的な周波数帯域を総合的に判断して、 まず最適な分割 パターンを選択し、 次いで割り当てパターンを選択することができる。 さら には特徴的な周波数帯域に基づき処理の最初に新たな分割パターンを生成し てもよい。 ジャンルなどで判断する場合も同様である。 [0069] 次に周波数帯域分割フィルタ 4 2以外のフィルタにおいて、 強調の度合い を変化させる場合について説明する。 図 8は記憶部 2 2に記憶させる、 フォ 一カス値と各フィルタの設定とを対応付けたテーブルの例を示している。 フ ィルタ情報テーブル 1 2 0は、 フォーカス値欄 1 2 2、 時分割欄 1 2 4、 変 調欄 1 2 6、 加工欄 1 2 8、 および定位設定欄 1 3 0を含む。 フォーカス値 欄 1 2 2にはフォーカス値の範囲が記載される。 時分割欄 1 2 4、 変調欄 1 2 6、 加工欄 1 2 8には、 フォーカス値欄の各範囲において、 それぞれ時分 割フィルタ 4 4、 変調フィルタ 4 6、 加工フィルタ 4 8による処理を行う場 合は 「〇」 、 行わない場合は 「X」 が記載される。 フィルタ処理実行の可否 が識別できれば 「〇」 、 「X」 以外の記載方法でもよい。
[0070] 定位設定欄 1 3 0には、 フォーカス値欄の各範囲において、 どの定位を与 えるかが 「中央」 、 「右寄り ■左寄り」 、 「端」 などで表される。 同図に示 すように、 フォーカス値が高いときは定位を中央に置き、 フォーカス値が低 くなるにつれ定位を中央から離していくようにすると、 強調の度合いの変化 を定位によっても認識し易くなる。 定位の左右はランダムに割り振ってもよ いし、 音楽データのアイコンの画面上の位置などに基づいてもよい。 さらに 、 フォーカス値に対する定位の変化がないように定位設定欄 1 3 0の設定を 無効とし、 それぞれの音声信号に対し常にアイコンの位置に対応した定位を 与えれば、 カーソルの動きに対応して強調される音声信号の聴こえる方向も 変化するような態様とすることができる。 なおフィルタ情報テーブル 1 2 0 にはさらに、 周波数帯域分割フィルタ 4 2の選択、 非選択を含めてもよい。
[0071 ] 変調フィルタ 4 6や加工フィルタ 4 8が行うことのできる処理が複数ある 場合や、 処理の度合いを内部パラメータで調整できる場合は、 各欄に具体的 な処理の内容や内部パラメータを表すようにしてもよい。 例えば時分割フィ ルタ 4 4において音声信号のピークとなる時間を強調の度合いの範囲によつ て変化させる場合、 時分割欄 1 2 4にその時間を記載する。 フィルタ情報亍 一ブル 1 2 0は、 各フィルタの相互の影響などを考慮して、 実験などによつ てあらかじめ作成しておく。 これにより非強調音声信号にふさわしい音響効 果を選択したり、 すでに分離して聴こえる音声信号に過剰な加工を行わない ようにしたりする。 フィルタ情報テーブル 1 2 0を複数用意し、 音楽データ の情報に基づき最適なものを選択するようにしてもよい。
[0072] 制御部 2 0はフォーカス値がフォーカス値欄 1 2 2に示される範囲の境界 を越えるたびに、 フィルタ情報テーブル 1 2 0を参照して各フィルタの内部 パラメータや、 デマルチプレクサなどの設定に反映させる。 これにより、 フ オーカス値の大きい音声信号は中央からはっきり聞こえ、 フォーカス値の小 さい音声信号は端の方からくぐもったように聞こえるなど、 強調の度合いを 反映して音声信号にさらにメリハリをつけることができる。
[0073] 図 9は、 本実施の形態における音声処理装置 1 6の動作を示すフローチヤ ートである。 まずユーザは入力部 1 8に対して記憶装置 1 2に記憶された音 楽データの中から、 同時に再生したい複数の音楽データの選択入力を行う。 入力部 1 8において当該選択入力を検出したら (S 1 0の Y ) 、 制御部 2 0 による制御のもと、 それらの音楽データの再生、 各種フィルタ処理、 混合処 理を行い、 出力装置 3 0から出力する (S 1 2 ) 。 周波数帯域分割フィルタ 4 2で用いられるブロックの分割パターンの選択や割り当てパターン群の各 音声信号への割り当てもここで行われ、 周波数帯域分割フィルタ 4 2に設定 される。 その他のフィルタへの初期設定も同様である。 なおこの段階での出 力信号は、 全てのフォーカス値を同一にして強調の度合いを等しくしてよい 。 このときユーザには各音声信号が均等に、 分離して聴こえる。
[0074] 同時に入力部 1 8には入力画面 9 0を表示させ、 ユーザがカーソル 9 6を 画面上で移動させるかどうかを監視しながら、 混合した出力信号を出力し続 ける (S 1 4の N、 S 1 2 ) 。 カーソル 9 6が移動したら (S 1 4の Y ) 、 制御部 2 0はその動きに合わせて各音声信号のフォーカス値を更新し (S 1 6 ) 、 その値に対応するブロックの割り当てパターンを記憶部 2 2から読み 出して、 周波数帯域分割フィルタ 4 2の設定を更新する (S 1 8 ) 。 さらに フォーカス値の範囲に対して設定された、 処理を行うべきフィルタの選択情 報と、 各フィルタでの処理の内容や内部パラメータなどの情報を記憶部 2 2 から読み出し、 それぞれのフィルタの設定を適宜更新する (S 2 0、 S 2 2 ) 。 なお S 1 4から S 2 2までの処理は、 S 1 2の音声信号の出力と並列に 行ってよい。
[0075] これらの処理を、 カーソルが移動するたびに繰り返す (5 2 4の1\1、 S 1 2〜2 2 ) 。 これにより、 各音声信号に強調の度合いの高低がつくとともに カーソル 9 6の動きに合わせてその度合いが経時変化する態様を実現できる 。 結果としてユーザはカーソル 9 6の動きに合わせて音声信号が遠のいたり 近づいたりする感覚を得ることができる。 そして例えばユーザが、 入力画面 9 0の 「停止」 ボタン 9 4を選択した場合 ( 2 4の丫) 、 全ての処理を終 了する。
[0076] 以上述べた本実施の形態によれば、 混合した際に分離して聴くことができ るように、 それぞれの音声信号に対してフィルタ処理を施す。 具体的には各 音声信号に周波数帯域や時間を分配することにより、 内耳レベルで分離情報 を与えたり、 一部または全ての音声信号に対し周期的に変化を与える、 音響 加工処理を施す、 異なる定位を与える、 といったことを行うことにより、 脳 レベルで分離情報を与える。 これにより、 それぞれの音声信号を混合したと きに、 内耳レベル、 脳レベルの双方で分離情報を取得でき、 最終的には分離 して認識することが容易になる。 結果として、 サムネイル表示を眺めるが如 く音声そのものを同時に観測することができ、 多数の音楽コンテンツなどの 内容を確認したい場合でも時間をかけずに容易に行うことができる。
[0077] また本実施の形態では、 各音声信号の強調の度合いを変化させる。 具体的 には、 強調の度合いによって割り当てる周波数帯域を増やしたり、 フィルタ 処理の施し方に強弱をつけたり、 施すフィルタ処理を変更したりする。 これ により、 強調の度合いの高い音声信号を他の音声信号より際立たせて聴こえ るようにすることができる。 この場合も、 強調の度合いの低い音声信号を打 ち消してしまうことがないように、 低い音声信号に割り当てる周波数帯域は 使用しないなどの配慮を行う。 結果的には、 複数の音声信号のそれぞれが聴 こえつつも、 焦点を絞るように、 着目したい音声信号が際立って聴こえるよ うにできる。 この態様を、 ユーザが移動させるカーソルの動きに追随させて 経時変化させることにより、 サムネイル表示において視点をずらしていくよ うに、 カーソルからの距離に応じた聴こえ方の変化を生むことができるため 、 多くの音楽コンテンツなどから所望のコンテンツを容易かつ感覚的に選択 することができる。
[0078] 以上、 本発明を実施の形態をもとに説明した。 上記実施の形態は例示であ り、 それらの各構成要素や各処理プ口セスの組合せにいろいろな変形例が可 能なこと、 またそうした変形例も本発明の範囲にあることは当業者に理解さ れるところである。
[0079] 例えば本実施の形態では、 音声信号が分離して聴こえるようにしながら強 調の度合いも変化させたが、 目的によっては、 強調の度合いを変化させずに 全ての音声信号を均一に聴かせるのみでもよい。 強調の度合いに高低をつけ ない態様は、 例えばフォーカス値の設定を無効にしたりフォーカス値を固定 とすることにより同様の構成で実現することができる。 これによつても複数 の音声信号の分離受聴が可能となり、 多数の音楽コンテンツなどを容易に把 握することができる。
[0080] また本実施の形態では主に、 音楽コンテンツを鑑賞する場合を想定して説 明したが、 本発明はそれに限らない。 例えばテレビ受像機のオーディオ系統 に、 実施の形態で示した音声処理装置を設けてもよい。 そして、 ユーザのテ レビ受像機への指示により多チャンネルの画像表示が行われている間は、 各 チャンネルの音声も、 フィルタ処理後、 混合して出力するようにする。 これ により、 多チャンネルの画像に加え音声も同時に区別して鑑賞することがで きる。 この状態でユーザがチャンネル選択を行うと、 当該チャンネルの音声 を強調させつつ、 別のチャンネルの音声も聴こえるようにしておくことも可 能となる。 さらに単一のチャンネルの画像表示においても、 主音声と副音声 を同時に聴く際、 強調の度合いを段階的に変化させることが可能となり、 互 いに打ち消しあうことなく主として聴きたい音声を強調させることができる [0081 ] さらに図 6に示したように本実施の形態の周波数帯域分割フィルタでは、 フォーカス値 0 . 1の音声信号に対して割り当てたブロックを、 フォーカス 値 1 . 0の音声信号に対しては割り当てない、 というルールに基づいて、 各 フォーカス値の割り当てパターンを固定的とした例を主に説明した。 一方、 例えばフォーカス値 0 . 1 となる音声信号がない期間や状態においては、 フ オーカス値 0 . 1の音声信号に対してに割り当てるべきブロックを全てフォ 一カス値 1 . 0の音声信号に割り当ててもよい。
[0082] 例えば図 6の例で、 再生する音楽データが 3つのみ選択された場合は、 対 応ずる 3つの音声信号にパターン群 A、 パターン群 B、 パターン群 Cをそれ ぞれ割り当てれば、 同一パターン群のフォーカス値 1 . 0とフォーカス値 0 . 1の割り当てパターンが共存することはない。 この場合、 例えばパターン 群 Aが割り当てられた音声信号は、 フォーカス値 1 . 0のときに、 フォー力 ス値 0 . 1で割り当てる最も低域のブロックも一緒に割り当てることができ る。 このように、 各フォーカス値に対する音声信号の数などに応じて、 割り 当てパターンを動的にしてもよい。 これにより、 強調対象の音声信号に割り 当てられるブロック数を、 非強調対象の音声信号を認識できる範囲で可能な 限り多くすることができ、 強調対象の音声信号の音質を高めることができる
[0083] さらに、 最も強調したい音声信号に全周波数帯域を割り当てるようにして もよい。 これにより当該音声信号はより強調されるとともに、 その音質はさ らに向上する。 この場合も、 他の音声信号は周波数帯域分割フィルタ以外の フィルタによって分離情報を与えることにより分離して認識させることは可 能である。
産業上の利用可能性
[0084] 以上のように本発明はオーディオ再生装置、 コンピュータ、 テレビ受像機 などの電子機器に利用可能である。

Claims

請求の範囲
[1 ] ユーザから入力された、 入力音声信号に対して要求される強調の度合いを 示す指標に応じて、 複数の入力音声信号をそれぞれ処理し強調の度合いを調 整する音声処理部と、
前記音声処理部により強調の度合いが調整された複数の入力音声信号を混 合し所定のチャンネル数を有する出力音声信号として出力する出力部と、 を 備え、
前記音声処理部は、 複数の入力音声信号のそれぞれに対して前記指標に応 じた周波数帯域を割り当て、 各入力音声信号から、 割り当てた周波数帯域に 属する周波数成分を抽出する周波数帯域分割フィルタを備えたことを特徴と する音声処理装置。
[2] 前記周波数帯域分割フィルタは、 前記複数の入力音声信号の少なくともい ずれかに対し、 不連続な複数の周波数帯域を割り当て、 要求される強調の度 合いが高い入力音声信号ほど割り当てる周波数帯の帯域幅の合計を大きくす ることを特徴とする請求項 1に記載の音声処理装置。
[3] 前記複数の入力音声信号のうち、 要求される強調の度合いが最高の入力音 声信号に割り当てられた周波数帯域は、 要求される強調の度合いが最低の入 力音声信号に割り当てられた周波数帯域の少なくとも一部を含まないことを 特徴とする請求項 2に記載の音声処理装置。
[4] 前記音声処理部は、 ユーザからの入力に応じた前記指標の連続的な変化を 受け付け、 前記複数の入力音声信号のうち少なくともいずれかの前記強調の 度合いを、 前記指標の変化に応じて経時変化させることを特徴とする請求項 1に記載の音声処理装置。
[5] 前記音声処理部は、 複数の入力音声信号のそれぞれの振幅を、 共通の周期 で位相を異ならせて時間変調させる時分割フィルタをさらに備えたことを特 徴とする請求項 1に記載の音声処理装置。
[6] 前記音声処理部は、 複数の入力音声信号の少なくともいずれかに対し、 所 定の周期で所定の音響加工処理を施す変調フィルタをさらに備えたことを特 徴とする請求項 1に記載の音声処理装置。
[7] 前記音声処理部は、 複数の入力音声信号の少なくともいずれかに対し、 定 常的に所定の音響加工処理を施す加工フィルタをさらに備えたことを特徴と する請求項 1に記載の音声処理装置。
[8] 前記音声処理部は、 複数の入力音声信号のそれぞれに対して異なる定位を 与える定位設定フィルタをさらに備えたことを特徴とする請求項 1に記載の 音声処理装置。
[9] 前記定位設定フィルタは、 前記指標に応じた定位を各入力音声信号に与え ることを特徴とする請求項 8に記載の音声処理装置。
[10] 複数の前記指標と入力音声信号に割り当てる周波数帯域の割り当て方のパ ターンとを対応づけて記憶した記憶部をさらに備え、
前記周波数帯域分割フィルタは、 ユーザからの入力に応じた前記指標が前 記記憶部に記憶されていない場合、 当該指標に基づき前記記憶部に記憶され ている割り当て方のパターンを参照し、 割り当てる周波数帯域を補間するこ とにより、 前記入力に応じた指標に対応する周波数帯域の割り当てを決定す ることを特徴とする請求項 1に記載の音声処理装置。
[11 ] 複数の前記指標と入力音声信号に割り当てる周波数帯域の割り当て方のパ ターンとを対応づけて記憶した記憶部をさらに備え、
前記周波数帯域分割フィルタは、 ユーザからの入力に応じた前記指標が前 記記憶部に記憶されていない場合、 当該指標に基づき前記記憶部に記憶され ている割り当て方のパターンのいずれかを前記入力に応じた指標に対応する パターンとして決定するとともに、 割り当てた周波数帯域のうち一部の周波 数成分の振幅を前記入力に応じた指標に応じて調整することを特徴とする請 求項 1に記載の音声処理装置。
[12] 複数の前記指標と入力音声信号に割り当てる周波数帯域の割り当て方のパ ターンとを対応づけて記憶した記憶部をさらに備え、
前記記憶部は、 前記指標の変化に対して割り当て方のパターンの変化が異 なる複数のパターン群を記憶することを特徴とする請求項 1に記載の音声処 理装置。
[13] ユーザから入力された、 入力音声信号に対して要求される強調の度合いを 示す指標に応じて、 複数の入力音声信号をそれぞれ処理し強調の度合いを調 整する音声処理部と、
前記音声処理部により強調の度合いが調整された複数の入力音声信号を混 合し所定のチャンネル数を有する出力音声信号として出力する出力部と、 を 備えた音声処理装置であって、
前記音声処理部は、
複数の入力音声信号のそれぞれに対して前記指標に応じた周波数帯域を割 り当て、 各入力音声信号から、 割り当てた周波数帯域に属する周波数成分を 抽出する周波数帯域分割フィルタと、
複数の入力音声信号のそれぞれの振幅を、 共通の周期で位相を異ならせて 時間変調させる時分割フィルタと、
複数の入力音声信号の少なくともいずれかに対し、 所定の周期で所定の音 響加工処理を施す変調フィルタと、
複数の入力音声信号の少なくともいずれかに対し、 定常的に所定の音響加 ェ処理を施す加工フィルタと、
複数の入力音声信号のそれぞれに対して異なる定位を与える定位設定フィ ルタと、
の少なくともいずれかを備え、
前記音声処理装置はさらに、 前記周波数帯域分割フィルタ、 前記時分割フ ィルタ、 前記変調フィルタ、 前記加工フィルタ、 および前記定位設定フィル タのうち前記音声処理部に備えられたフィルタから選択するフィルタのいず れかの組み合わせを、 前記指標に対応づけて記憶する記憶部をさらに備え、 前記出力部は前記指標に応じて、 前記記憶部に記憶されたフィルタの組み 合わせに基づき選択されたフィルタによってフィルタ処理が施された前記複 数の入力音声信号を混合することを特徴とする音声処理装置。
[14] 前記時分割フィルタ、 前記変調フィルタ、 前記加工フィルタ、 および前記 定位設定フィルタの少なくともいずれかは、 前記指標に応じて、 フィルタ処 理に必要な内部パラメータを変化させて各入力音声信号を処理することを特 徴とする請求項 1 3に記載の音声処理装置。
[15] ユーザから入力された、 入力音声信号に対して要求される強調の度合いが 高いほど広い帯域幅となるように、 複数の入力音声信号のそれぞれに周波数 帯域を割り当てるステップと、
各入力音声信号から、 割り当てた周波数帯域に属する周波数成分を抽出す るステップと、
各入力音声信号から抽出された周波数成分からなる複数の音声信号を混合 し所定のチャンネル数を有する出力音声信号として出力するステップと、 を含む音声処理方法。
[1 6] 前記割り当てるステップは、
割り当てる帯域幅が所定の値以下である非強調入力音声信号に優先的に割 り当てる優先周波数帯域を取得するステップと、
取得した前記優先周波数帯域を対応する非強調入力音声信号に割り当てる ステップと、
割り当てる帯域幅が所定の値より大きい強調入力音声信号に対し、 割り当 て済みの前記優先周波数帯域以外の周波数帯域を割り当てるステップと、 を含むことを特徴とする請求項 1 5に記載の音声処理方法。
[17] 要求される音声信号の強調の度合いを示す指標と周波数帯域の割り当て方 のパターンとを対応づけて記憶したメモリを参照して、 複数の入力音声信号 のそれぞれに対してユーザが入力した前記指標に応じた周波数帯域を割り当 てる機能と、
各入力音声信号から、 割り当てた周波数帯域に属する周波数成分を抽出す る機能と、
各入力音声信号から抽出された周波数成分からなる音声信号を混合し所定 のチャンネル数を有する出力音声信号として出力する機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。
PCT/JP2007/000698 2006-11-27 2007-06-26 Dispositif et méthode de traitement audio WO2008065730A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2007800016366A CN101361123B (zh) 2006-11-27 2007-06-26 声音处理装置和声音处理方法
US12/093,047 US8204614B2 (en) 2006-11-27 2007-06-26 Audio processing apparatus and audio processing method
EP07790220.3A EP2088589B8 (en) 2006-11-27 2007-06-26 Audio processing device and audio processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006319367A JP4766491B2 (ja) 2006-11-27 2006-11-27 音声処理装置および音声処理方法
JP2006-319367 2006-11-27

Publications (1)

Publication Number Publication Date
WO2008065730A1 true WO2008065730A1 (fr) 2008-06-05

Family

ID=39467533

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/000698 WO2008065730A1 (fr) 2006-11-27 2007-06-26 Dispositif et méthode de traitement audio

Country Status (5)

Country Link
US (1) US8204614B2 (ja)
EP (1) EP2088589B8 (ja)
JP (1) JP4766491B2 (ja)
CN (1) CN101361123B (ja)
WO (1) WO2008065730A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5149991B2 (ja) * 2009-05-29 2013-02-20 シャープ株式会社 音声再生装置、音声再生方法及びプログラム
US8903525B2 (en) 2010-09-28 2014-12-02 Sony Corporation Sound processing device, sound data selecting method and sound data selecting program
EP2463861A1 (en) * 2010-12-10 2012-06-13 Nxp B.V. Audio playback device and method
WO2012088336A2 (en) * 2010-12-22 2012-06-28 Genaudio, Inc. Audio spatialization and environment simulation
EP2571280A3 (en) 2011-09-13 2017-03-22 Sony Corporation Information processing device and computer program
JP5884348B2 (ja) * 2011-09-13 2016-03-15 ソニー株式会社 情報処理装置およびコンピュータプログラム
US9264812B2 (en) 2012-06-15 2016-02-16 Kabushiki Kaisha Toshiba Apparatus and method for localizing a sound image, and a non-transitory computer readable medium
US9338552B2 (en) 2014-05-09 2016-05-10 Trifield Ip, Llc Coinciding low and high frequency localization panning
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US11036462B2 (en) 2017-04-24 2021-06-15 Maxim Integrated Products, Inc. System and method for reducing power consumption in an audio system by disabling filter elements based on signal level
CN110139206B (zh) * 2019-04-28 2020-11-27 北京雷石天地电子技术有限公司 一种立体声音频的处理方法及系统
US20220174450A1 (en) * 2020-12-01 2022-06-02 Samsung Electronics Co., Ltd. Display apparatus and control method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1031500A (ja) * 1996-07-15 1998-02-03 Atr Ningen Joho Tsushin Kenkyusho:Kk 可変レート符号化方法および可変レート符号化装置
JP2000075876A (ja) * 1998-08-28 2000-03-14 Ricoh Co Ltd 文書読み上げシステム
JP2000181593A (ja) * 1998-12-18 2000-06-30 Sony Corp プログラム選択方法、音声出力装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6431500A (en) 1987-07-28 1989-02-01 Sumitomo 3M Ltd Method and apparatus for shielding joint between adjacent panels of assembly type shield room shielding chamber
JPH03236691A (ja) * 1990-02-14 1991-10-22 Hitachi Ltd テレビジョン受信機用音声回路
JP2002023778A (ja) * 2000-06-30 2002-01-25 Canon Inc 音声合成装置、音声合成システム、音声合成方法及び記憶媒体
FR2814891B1 (fr) * 2000-10-04 2003-04-04 Thomson Multimedia Sa Procede de reglages de niveau audio provenant de plusieurs canaux et dispositif de reglage
JP2002116045A (ja) * 2000-10-11 2002-04-19 Clarion Co Ltd 音量制御装置
KR100542129B1 (ko) * 2002-10-28 2006-01-11 한국전자통신연구원 객체기반 3차원 오디오 시스템 및 그 제어 방법
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
JP4271550B2 (ja) * 2003-10-27 2009-06-03 アルパイン株式会社 オーディオシステム、オーディオ装置及び音声信号出力処理方法
US7970144B1 (en) * 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
JP4349123B2 (ja) * 2003-12-25 2009-10-21 ヤマハ株式会社 音声出力装置
JP2005341538A (ja) * 2004-04-28 2005-12-08 Yamaha Corp ミキサモジュール、ミキサ装置およびプログラム
JP2006019908A (ja) * 2004-06-30 2006-01-19 Denso Corp 車両用報知音出力装置及びプログラム
JP2006139818A (ja) * 2004-11-10 2006-06-01 Yamaha Corp 再生装置
JP2006201654A (ja) * 2005-01-24 2006-08-03 Yamaha Corp 伴奏追従システム
JP4493530B2 (ja) * 2005-03-25 2010-06-30 クラリオン株式会社 車載音響処理装置、および、ナビゲーション装置
US7760886B2 (en) * 2005-12-20 2010-07-20 Fraunhofer-Gesellschaft zur Foerderung der Angewandten Forscheng e.V. Apparatus and method for synthesizing three output channels using two input channels

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1031500A (ja) * 1996-07-15 1998-02-03 Atr Ningen Joho Tsushin Kenkyusho:Kk 可変レート符号化方法および可変レート符号化装置
JP2000075876A (ja) * 1998-08-28 2000-03-14 Ricoh Co Ltd 文書読み上げシステム
JP2000181593A (ja) * 1998-12-18 2000-06-30 Sony Corp プログラム選択方法、音声出力装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KAWAHARA H.: "'Tutorial Koen' Chokaku Jokei Bunseki to Onsei Chikaku (Auditory Scene Analysis and Speech Perception A magical function for enabling speech communications in a world of full sounds)", IEICE TECHNICAL REPORT, vol. 105, no. 478, 9 December 2005 (2005-12-09), pages 1 - 6, XP003022670 *
MATSUMOTO M. ET AL.: "Zatsuonchu kara no Renzokuon Chikaku ni Okeru Kurikaeshi Gakushu no Koka (Learning Effect on Perception of Tone Sequences with Noise)", IEICE TECHNICAL REPORT, vol. 100, no. 490, 1 December 2000 (2000-12-01), pages 53 - 58, XP003022669 *
See also references of EP2088589A4 *

Also Published As

Publication number Publication date
US20100222904A1 (en) 2010-09-02
US8204614B2 (en) 2012-06-19
EP2088589A1 (en) 2009-08-12
EP2088589B1 (en) 2016-05-18
EP2088589B8 (en) 2016-09-21
CN101361123A (zh) 2009-02-04
JP2008135891A (ja) 2008-06-12
EP2088589A4 (en) 2013-08-14
CN101361123B (zh) 2011-06-01
JP4766491B2 (ja) 2011-09-07

Similar Documents

Publication Publication Date Title
JP4823030B2 (ja) 音声処理装置および音声処理方法
JP4766491B2 (ja) 音声処理装置および音声処理方法
Thompson Understanding audio: getting the most out of your project or professional recording studio
EP1635611B1 (en) Audio signal processing apparatus and method
EP2434491B1 (en) Sound processing device and sound processing method
US10623879B2 (en) Method of editing audio signals using separated objects and associated apparatus
JP4372169B2 (ja) オーディオ再生装置およびオーディオ再生方法
EP2115912A1 (en) System and method for intelligent equalization
US10484776B2 (en) Headphones with multiple equalization presets for different genres of music
JP2011244196A (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
JP2011244197A (ja) 音声信号処理装置、方法、プログラム、及び記録媒体
Case Mix smart: Professional techniques for the home studio
EP3772224B1 (en) Vibration signal generation apparatus and vibration signal generation program
JP6905332B2 (ja) マルチチャンネル音響の音声信号変換装置及びそのプログラム
Exarchos et al. Audio processing
De Villiers Mastering Paradigms: A South African Perspective
Bazil Sound Equalization Tips and Tricks
GB2561594A (en) Spatially extending in the elevation domain by spectral extension
Liston et al. LISTENER PREFERENCE OF REVERBERATION IN THE POST-PRODUCTION OF LIVE MUSIC RECORDINGS
KR20030093868A (ko) 오디오 다채널 방식을 이용한 노래반주장치

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200780001636.6

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 12093047

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07790220

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2007790220

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE