WO2022239650A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2022239650A1
WO2022239650A1 PCT/JP2022/018998 JP2022018998W WO2022239650A1 WO 2022239650 A1 WO2022239650 A1 WO 2022239650A1 JP 2022018998 W JP2022018998 W JP 2022018998W WO 2022239650 A1 WO2022239650 A1 WO 2022239650A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
sound
setting
array unit
beamforming
Prior art date
Application number
PCT/JP2022/018998
Other languages
English (en)
French (fr)
Inventor
晴輝 西村
愛実 田畑
彰 遠藤
Original Assignee
ピクシーダストテクノロジーズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ピクシーダストテクノロジーズ株式会社 filed Critical ピクシーダストテクノロジーズ株式会社
Priority to JP2023520964A priority Critical patent/JPWO2022239650A1/ja
Publication of WO2022239650A1 publication Critical patent/WO2022239650A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • Patent Literature 1 discloses performing wireless communication using directional beams between a transmitting device having a plurality of directional antennas and a receiving device having one or more directional antennas.
  • Patent Literature 2 discloses estimating the direction of arrival of sound from a sound source to be collected, and performing sound collection by emphasizing the sound in the estimated direction of arrival.
  • a similar problem can also arise when trying to direct the direction of beamforming related to transmission to the direction in which the target exists in order to transmit radio waves or sound waves toward a specific target.
  • the present disclosure has been made in view of the above problems.
  • the purpose is to improve the stability of transmission or reception quality.
  • An information processing apparatus sets a first direction for an array unit including a plurality of elements capable of transmitting or receiving waves, and sets a first direction for the array unit based on the direction of a wave source or target with respect to the array unit. and setting a second direction with respect to the array unit, and performing beamforming processing according to the set first direction and beamforming processing according to the set second direction.
  • FIG. 1 is a block diagram showing the configuration of an information processing system according to an embodiment; FIG. It is a figure which shows the structure of the client apparatus and server of this embodiment.
  • FIG. 4 is an explanatory diagram of azimuth angles and angular widths for directivity setting; BRIEF DESCRIPTION OF THE DRAWINGS
  • FIG. 1 is an explanatory diagram of the outline of this embodiment; It is a figure which shows the data structure of the directivity setting database of this embodiment.
  • 6 is a flowchart of beamforming preparation processing according to the present embodiment; It is a figure which shows the example of a screen displayed in the beamforming preparation process of this embodiment. It is a figure which shows the example of a screen displayed in the beamforming preparation process of this embodiment.
  • FIG. 7 is a flowchart showing details of step S130 in FIG. 6.
  • FIG. 4 is a flowchart of beamforming operation processing according to the present embodiment; It is a figure which shows the example of a screen displayed in the beamforming operation process of this
  • the beamforming process in this embodiment has directivity with respect to at least one of a transmission signal for transmitting waves from a plurality of elements and a reception signal obtained by receiving waves from a plurality of elements. It is a process to let
  • FIG. 1 is a block diagram showing the configuration of the information processing system of this embodiment.
  • the information processing system 1 is, for example, a remote call (for example, web conference) system, a system for automatically creating a statement record (for example, minutes), a system for viewing a statement record, or a voice recording system.
  • the information processing system 1 includes a client device 10 and a server 30 .
  • the client device 10 and server 30 are connected via a network (for example, the Internet or an intranet) NW.
  • the client device 10 is an example of an information processing device that transmits requests to the server 30 .
  • the client device 10 is, for example, a smart phone, a tablet terminal, or a personal computer.
  • the server 30 is an example of an information processing device that provides the client device 10 with a response in response to a request sent from the client device 10 .
  • Server 30 is, for example, a web server.
  • FIG. 2 is a diagram showing configurations of a client device and a server according to this embodiment.
  • the client device 10 includes a storage device 11, a processor 12, an input/output interface 13, and a communication interface .
  • a client device 10 is connected to a microphone array 15 .
  • the storage device 11 is configured to store programs and data.
  • the storage device 11 is, for example, a combination of ROM (Read Only Memory), RAM (Random Access Memory), and storage (eg, flash memory or hard disk).
  • Programs include, for example, the following programs.
  • ⁇ OS (Operating System) program ⁇ Application program that executes information processing (for example, sound source tracking processing and beamforming processing)
  • the data includes, for example, the following data. ⁇ Data and databases referenced in information processing ⁇ Data obtained by executing information processing (that is, execution results of information processing)
  • the processor 12 is configured to implement the functions of the client device 10 by activating programs stored in the storage device 11 and processing data.
  • Processor 12 is an example of a computer.
  • the programs and data stored in the storage device 11 may be provided via a network, or may be provided by being recorded on a computer-readable recording medium. At least part of the functions of the client device 10 may be realized by one or more pieces of dedicated hardware.
  • the input/output interface 13 acquires a signal (such as an acoustic signal or a user's instruction) from an input device connected to the client device 10, and outputs a signal (such as an image signal) to an output device connected to the client device 10. , or control signal).
  • the input device is, for example, a microphone array 15 (an example of an "array unit"), a keyboard, a pointing device, a touch panel, or a combination thereof.
  • Output devices are, for example, displays, speakers, or a combination thereof.
  • the microphone array 15 includes multiple microphones (an example of "elements"). A plurality of microphones are arranged, for example, in a ring. Each microphone receives sound waves and produces an acoustic signal. The microphone array 15 outputs acoustic signals generated by each microphone to the client device 10 .
  • the communication interface 14 is configured to control communication between the client device 10 and an external device (eg, server 30).
  • an external device eg, server 30.
  • the server 30 includes a storage device 31, a processor 32, an input/output interface 33, and a communication interface .
  • the storage device 31 is configured to store programs and data.
  • Storage device 31 is, for example, a combination of ROM, RAM, and storage (eg, flash memory or hard disk).
  • Programs include, for example, the following programs. ⁇ OS program ⁇ Application program that executes information processing (for example, voice recognition processing)
  • the data includes, for example, the following data. ⁇ Databases referenced in information processing ⁇ Execution results of information processing
  • the processor 32 is configured to implement the functions of the server 30 by activating programs stored in the storage device 31 .
  • Processor 32 is an example of a computer.
  • the input/output interface 33 is configured to acquire a signal (for example, a user's instruction) from an input device connected to the server 30 and output a signal (for example, an image signal) to an output device connected to the server 30.
  • a signal for example, a user's instruction
  • Input devices are, for example, keyboards, pointing devices, touch panels, or combinations thereof.
  • Output devices are, for example, displays, speakers, or a combination thereof.
  • the communication interface 34 is configured to control communication between the server 30 and the client device 10 .
  • FIG. 3 is an explanatory diagram of the azimuth angle and angular width of directivity setting.
  • FIG. 4 is an explanatory diagram of the outline of this embodiment.
  • the client device 10 refers to the multi-channel acoustic signals generated by the microphone array 15 and estimates the direction of arrival of sound waves to the microphone array 15 . Further, the client device 10 refers to the estimation result of the directions of arrival of the sound waves, and identifies one or more sound sources existing around the microphone array 15 (that is, sources of sound waves). The client device 10 individually assigns directivity settings (corresponding to beams in beamforming) for sound source separation to all or part of the identified sound sources.
  • the directivity setting DS is an angular area that spreads out in a substantially fan shape with the origin O as the center.
  • the position of the origin O is determined by the position (for example, center position) of the microphone array 15 .
  • the angular width ⁇ w represents the central angle of the sector corresponding to the directivity setting DS.
  • the azimuth angle ⁇ a represents the angle formed by the reference line REF and the bisector BIS of the central angle of the sector corresponding to the directivity setting DS.
  • the reference line REF is determined by the position and orientation of the microphone array 15 .
  • Tracking modes include fixed and variable modes.
  • fixed mode the azimuth angle of the directivity setting is fixed.
  • fixed mode the angular width of the directivity setting may be fixed or variable.
  • variable mode the azimuth angle of the directivity setting is variable (ie, the azimuth angle can be changed automatically by the processor 12 without requiring user instruction).
  • variable mode the angular width of directivity setting may be variable or fixed.
  • the client device 10 selects the fixed mode for the directivity setting DS1 corresponding to the sound source SS1, selects the variable mode for the directivity setting DS2 corresponding to the sound source SS2, and selects the variable mode for the directivity setting DS2 corresponding to the sound source SS3.
  • Select fixed mode for directivity setting DS3. By selecting the fixed mode for the sound sources SS1 and SS3 with small movements, the client device 10 simplifies the calculation of various parameters required for sound source separation compared to the variable mode, and achieves accurate sound source separation with a small amount of calculation. It can be carried out.
  • the client device 10 changes the azimuth angle of the directivity setting DS2 to follow changes in the position of the sound source SS2, thereby performing sound source separation targeting the moving sound source SS2.
  • the client device 10 selects one of a plurality of sound effect modes for each assigned directivity setting.
  • Sound effect modes include enhancement mode and suppression mode.
  • enhancement mode the sound obtained by source separation for the directional setting of interest is enhanced. For example, a presentation, lecture, or conference can be heard clearly by selecting an emphasis mode for the directional setting corresponding to the presenter, speaker, or conference participant of the presentation. Also, for example, during a remote call such as a web conference, by selecting the emphasis mode for the directivity setting corresponding to the user who operates the client device 10, the user's other party can clearly hear the user's speech.
  • suppression mode the sound obtained by source separation for the directional setting of interest is suppressed.
  • noise can be made less noticeable by selecting a suppression mode for directional settings corresponding to an audience, people talking in the background, or ambient noise.
  • the suppression mode for the directivity setting corresponding to people talking around the user who operates the client device 10 can be the user. It becomes difficult to hear the voices of people around you.
  • FIG. 5 is a diagram showing the data structure of the directivity setting database of this embodiment.
  • Directivity setting information is stored in the directivity setting database.
  • the directivity setting information is information on directivity setting assigned to the sound source.
  • the directivity setting database includes a "sound source ID” field, a "sound source name” field, a “tracking” field, an "azimuth” field, an "angle width” field, and a “sound source name” field. ” field. Each field is associated with each other.
  • a sound source ID is stored in the "sound source ID" field.
  • a sound source ID is information for identifying a sound source to which a directivity setting is assigned.
  • the "sound source name” field stores sound source name information.
  • the sound source ID is information regarding the name of the sound source to which the directivity setting is assigned.
  • the sound source name information may be defined so as to be editable according to a user's instruction. Alternatively, the sound source name information may be determined, for example, according to the results of speaker recognition processing.
  • Tracking mode information is information about the tracking mode selected for directivity setting.
  • the value of the tracking mode information is "fixed”.
  • the value of the tracking mode information is "variable”.
  • the client device 10 may select a tracking mode according to an algorithm to be described later, or may select a tracking mode according to a user's instruction.
  • Azimuth information is stored in the "azimuth" field.
  • the azimuth angle information is information about the azimuth angle of directivity setting.
  • the value of the azimuth angle information is the azimuth angle of the directivity setting.
  • the value of the azimuth angle information is "AUTO".
  • the "angle width” field stores angle width information.
  • the angular width information is information about the angular width of directivity setting.
  • the client device 10 determines the angle width according to the algorithm.
  • an algorithm for determining the angular width a method of determining the angular width based on the identification result of the target sound source (for example, the tracking attribute such as the covariance of the direction of arrival of the sound from the sound source) can be adopted as described later. Other algorithms may be employed. If the value of the angle width information is other than "AUTO”, the client device 10 uses the angle width indicated by the value (for example, the value set by default or the value specified by user's operation).
  • the "sound effect” field stores sound effect mode information.
  • the sound effect mode information is information regarding the sound effect mode selected for directivity setting.
  • the sound effect mode information may be editably defined according to user instructions.
  • the azimuth angle and the angular width in the horizontal direction are set for each directivity setting. .
  • an elevation angle and vertical angular width may be set for each directivity setting, or both an azimuth angle and an elevation angle and their respective angular widths may be set.
  • FIG. 6 is a flowchart of beamforming preparation processing according to the present embodiment.
  • FIG. 7 is a diagram showing an example of a screen displayed in the beamforming preparation process of this embodiment.
  • FIG. 8 is a diagram showing an example of a screen displayed in the beamforming preparation process of this embodiment.
  • FIG. 9 is a flow chart showing details of step S130 in FIG.
  • the beamforming preparation process in FIG. 6 starts when the start condition is satisfied.
  • a start condition may be, for example, any of the following, or a combination thereof.
  • the application has been activated in the client device 10.
  • a user instruction for calling the beamforming preparation process has been given to the client device 10.
  • the microphone array 15 has been powered on.
  • the client device 10 performs sound collection (S100). Specifically, the microphone array 15 receives sound waves. A plurality of microphones included in the microphone array 15 generates acoustic signals of a plurality of channels according to reception results of sound waves. The processor 12 acquires multi-channel acoustic signals from the microphone array 15 .
  • the client device 10 stores the acoustic signal obtained in the sound collection (S100) in the storage device 11, and after the beamforming preparation processing (FIG. 6) ends, the beamforming operation processing (FIG. 10) described later. ), beam forming processing (S240) may be performed on the acoustic signal. This makes it possible to perform sound source separation even for acoustic signals obtained during the beamforming preparation process (FIG. 6).
  • the client device 10 After step S100, the client device 10 performs direction-of-arrival estimation (S110). Specifically, the processor 12 estimates the direction of arrival of sound waves to the microphone array 15 based on the multi-channel acoustic signals acquired in step S100.
  • the client device 10 repeats sound collection (S100) and direction-of-arrival estimation (S110) over a predetermined period of time, thereby obtaining results of estimating the direction of arrival of sound waves at multiple points in time.
  • the client device 10 executes sound source identification (S120).
  • the processor 12 refers to the estimation results of the directions of arrival of the sound waves at a plurality of time points to identify the sound sources existing around the microphone array 15 .
  • processor 12 determines whether a sound arriving at microphone array 15 at one point in time and a sound arriving at microphone array 15 at another point in time are sounds emitted from the same sound source.
  • the processor 12 then calculates a tracking attribute including at least one of the following for each of the one or more assumed sound sources corresponding to sounds collected over a predetermined period of time.
  • the processor 12 determines whether or not there is a sound source corresponding to the tracking attribute.
  • the client device 10 performs directivity setting assignment (S130). Specifically, processor 12 assigns directivity settings to the sound sources identified in step S120. In a first example of assigning directional settings (S130), processor 12 assigns directional settings to at least one of the sound sources identified in step S120 in response to user instructions. In a second example of assigning directional settings (S130), processor 12 assigns directional settings to at least one of the sound sources identified in step S120 according to an algorithm. As an example, the processor 12 refers to the sound source identification result (particularly, the tracking attribute) in step S120, and assigns directivity settings to the sound source. A third example of directivity setting assignment (S130) is a combination of the above first and second examples.
  • the processor 12 may not necessarily assign directivity settings to all identified sound sources, and may assign directivity settings to only a limited number of sound sources.
  • the processor 12 generates a directivity setting according to the user's instruction (for example, a directivity setting having a fixed azimuth angle and angular width specified by the user). good too.
  • processor 12 displays screen P10 (FIG. 7) on the display.
  • the screen P10 includes display objects A10a to A10b and an operation object B10.
  • the display object A10a is an object for displaying a sound source map.
  • a sound source map is an image that indicates the relative position (for example, direction) of a sound source with respect to the microphone array 15 .
  • the display object A10 includes objects OBJ10a to OBJ10c.
  • Objects OBJ10a-OBJ10c present the direction of the sound source with respect to the microphone array 15.
  • FIG. Object OBJ10a is an object corresponding to microphone array 15 .
  • Object OBJ10b is an object corresponding to a sound source to which a directivity setting has not yet been assigned.
  • Object OBJ10c is an object corresponding to a sound source to which a directivity setting has already been assigned.
  • processor 12 Upon receiving an operation for object OBJ10b and object OBJ10c, processor 12 displays screen P11 (FIG. 8) for editing the directivity setting of the corresponding sound source.
  • Object OBJ10b and object OBJ10c are arranged based on the relative positions of the corresponding sound sources. Thereby, the user can easily associate the sound source recognized by the user with the sound source corresponding to the object OBJ10b or the object OBJ10c displayed on the sound source map. In other words, the user can specify the sound source to which the directivity setting is to be assigned (hereinafter referred to as "target sound source”) as intended.
  • the display object A10b is an object for displaying messages.
  • the message can contain the content of the request to the user.
  • the operation object B10 is an object that receives a user instruction to end the beamforming preparation process (FIG. 6).
  • the client device 10 performs directivity setting assignment (S130) according to the flowchart of FIG.
  • the client device 10 selects a tracking mode (S131). Specifically, the processor 12 selects a tracking mode of directivity setting (hereinafter referred to as “target setting”) corresponding to the target sound source from a plurality of tracking modes. Multiple tracking modes include fixed mode and variable mode. When fixed mode is selected, the angle parameter of the corresponding directivity setting is fixed. If variable mode is selected, the angle parameter of the corresponding directivity setting is updated based on the sound source direction. In a first example of tracking mode selection (S131), the processor 12 selects a target setting tracking mode in accordance with a user instruction (for example, an input to a field object F11b on a screen P11 (FIG. 8) described later). do.
  • a user instruction for example, an input to a field object F11b on a screen P11 (FIG. 8) described later.
  • processor 12 selects a targeted tracking mode according to an algorithm. Specifically, the processor 12 selects the tracking mode with reference to the result of specifying the target sound source in step S120. For example, the processor 12 selects the variable mode for target setting when the angular velocity or direction of arrival covariance is greater than or equal to a threshold value (i.e., the target sound source is moving rapidly), and the angular velocity or direction of arrival covariance is A fixed mode may be selected for the target setting if it is below a threshold (ie the motion of the target sound source is slow).
  • a threshold value i.e., the target sound source is moving rapidly
  • a fixed mode may be selected for the target setting if it is below a threshold (ie the motion of the target sound source is slow).
  • processor 12 selects the fixed mode for target settings when the presence probability is greater than or equal to the threshold (i.e., tracking is stable) and the presence probability is less than the threshold (i.e., tracking is not stable). stable), the variable mode may be selected for targeting.
  • a third example of tracking mode selection (S131) is a combination of the first and second examples.
  • processor 12 displays screen P11 (FIG. 8) on the display.
  • the screen P11 includes field objects F11a to F11e and an operation object B11.
  • the field object F11a is an object for designating the sound source name of the target sound source.
  • the field object F11b is an object for designating a tracking mode for target setting.
  • the field object F11c is an object for designating the azimuth angle of target setting.
  • the field object F11d is an object for designating the angular width of target setting.
  • the field object F11e is an object for designating the target sound effect mode.
  • the operation object B11 issues a user instruction for registering the directivity setting information based on the information specified by the field objects F11a to F11e (for example, causing the client device 10 to register the directivity setting information (S134)). It is an object that accepts
  • processor 12 determines an angular parameter of targeting.
  • Angular parameters include azimuth and angular width.
  • processor 12 determines an angular parameter of targeting in response to user instructions. For example, processor 12 may determine the azimuth angle in response to a user instruction (eg, input to at least one of field objects F11c or F11d) for a directivity setting in which fixed mode is selected.
  • processor 12 determines an angular parameter of interest according to an algorithm.
  • the processor 12 refers to the identification result of the target sound source in step S120 to determine the angle parameter of the target setting.
  • Processor 12 may determine the azimuth angle depending on the direction of the estimated sound source for a directivity setting in which the variable mode is selected.
  • a third example of angle parameter determination (S132) is a combination of the above first and second examples.
  • the processor 12 continues to display the screen P11 (FIG. 8) on the display.
  • the client device 10 selects a sound effect mode (S133).
  • processor 12 selects a targeted sound effects mode.
  • Sound effect modes include, for example, an enhancement mode and a suppression mode.
  • processor 12 selects a targeted sound effects mode in response to a user instruction.
  • processor 12 may select a sound effect mode according to a user's instruction (for example, an input to field object F11e).
  • processor 12 selects a targeted sound effects mode according to an algorithm.
  • the processor 12 refers to the result of identifying the target sound source in step S120, and selects the target setting sound effect mode.
  • a third example of sound effect mode selection (S133) is a combination of the first and second examples.
  • the processor 12 continues to display the screen P11 (FIG. 8) on the display.
  • the client device 10 executes registration of directivity setting information (S134).
  • the processor 12 refers to the execution results of steps S131 to S133 and adds a new record to the directivity setting database (FIG. 5).
  • the processor 12 adds to the directivity settings database a record in which at least one of the following information is associated with the sound source identification information identifying the target sound source. - Sound source name information input to field object F11a - Tracking mode information input to field object F11b - Azimuth angle information input to field object F11c - Angle width information input to field object F11d - Input to field object F11e sound effect mode information
  • the client device 10 repeatedly executes assignment of directivity setting (S130) until the termination condition is satisfied.
  • the termination condition may be, for example, any of the following or a combination thereof.
  • - Directivity settings have been assigned to all sound sources
  • - Directivity settings have been assigned to a predetermined number of sound sources
  • a user instruction to end the beamforming preparation process has been given to the client device 10
  • the client device 10 may update (at least partially change) the directivity setting information corresponding to the sound source to which the directivity setting has already been assigned, using a method similar to the setting method described above.
  • FIG. 10 is a flowchart of beamforming operation processing according to this embodiment.
  • FIG. 11 is a diagram showing an example of a screen displayed in the beamforming operation process of this embodiment.
  • the beamforming operation process of FIG. 10 is started when the start condition is satisfied.
  • a start condition may be, for example, any of the following, or a combination thereof.
  • the beamforming preparation process (FIG. 6) has ended.
  • the application has been activated in the client device 10.
  • the user instruction for calling the beamforming operation process has been given to the client device 10.
  • a predetermined date and time has arrived. In the present embodiment, the case where beamforming operation processing is performed after completion of beamforming preparation processing will be mainly described. good too.
  • the client device 10 performs sound collection (S200). Specifically, the microphone array 15 receives sound waves. A plurality of microphones included in the microphone array 15 generates acoustic signals of a plurality of channels according to reception results of sound waves. The processor 12 acquires multi-channel acoustic signals from the microphone array 15 .
  • the client device 10 After step S200, the client device 10 performs direction-of-arrival estimation (S210). Specifically, the processor 12 estimates the direction of arrival of sound waves to the microphone array 15 based on the multi-channel acoustic signals acquired in step S200.
  • the client device 10 repeats sound collection (S200) and direction-of-arrival estimation (S210) over a predetermined period of time, thereby obtaining results of estimating the directions of arrival of sound waves at multiple points in time.
  • the client device 10 executes sound source identification (S220).
  • the processor 12 refers to the estimation results of the directions of arrival of the sound waves at a plurality of time points to identify the sound sources existing around the microphone array 15 .
  • processor 12 computes the aforementioned tracking attributes.
  • the client device 10 updates the directivity setting (S230).
  • the processor 12 refers to the directivity setting database (FIG. 5) to identify the directivity setting in which the variable mode is selected.
  • the processor 12 refers to the sound source identification result in step S220 for each directivity setting for which the variable mode is selected, and updates the angle parameter (at least the azimuth angle) of the directivity setting. This makes it possible to optimize the angle parameter of the directivity setting in which the variable mode is selected. That is, directivity settings can be adapted to changes in the sound source (eg, changes in the position of the sound source, or changes in the severity of the motion of the sound source).
  • the directivity setting for which the fixed mode is selected has a fixed angle parameter and is not updated in S230.
  • the client device 10 executes beamforming processing (S240). Specifically, the processor 12 performs individual beamforming processing for each directivity setting on the multi-channel acoustic signals acquired in step S200, thereby generating acoustic data corresponding to each directivity setting. . As an example, the processor 12 synthesizes multi-channel acoustic signals with reference to the angular parameters. The processor 12 generates acoustic data by applying amplitude adjustment (for example, enhancement or suppression) to the synthesis result according to the acoustic effect mode.
  • amplitude adjustment for example, enhancement or suppression
  • the client device 10 performs speech recognition (S250).
  • the client device 10 executes a speech recognition request.
  • processor 12 transmits voice recognition request data to server 30 .
  • the voice recognition request data includes time stamps, acoustic data corresponding to each directivity setting (that is, results of beamforming processing in step S240), and sound source name information.
  • a time stamp is information about the time corresponding to the sound data.
  • the processor 12 generates a time stamp, for example, based on the execution time of sound collection (S200).
  • the server 30 executes the speech recognition response.
  • the processor 32 obtains voice recognition request data.
  • the processor 32 refers to the voice recognition request data and performs voice recognition on the acoustic data corresponding to each directivity setting.
  • Processor 32 transmits the voice recognition response data to client device 10 .
  • the speech recognition response data includes speech recognition results of acoustic data corresponding to each directivity setting.
  • the speech recognition result is, for example, time-series utterance text for each sound source.
  • the client device 10 After the speech recognition response, the client device 10 presents the speech recognition result.
  • the processor 12 refers to the speech recognition response data and causes the output device to output the speech recognition result.
  • processor 12 causes screen P20 (FIG. 11) to be displayed on the display.
  • the screen P20 includes a display object A20a.
  • the display object A20a is an object for displaying the speech recognition result.
  • the speech recognition result may be displayed in a format in which utterance information including the time corresponding to the time stamp, the name of the sound source, and the speech recognition result are arranged in chronological order, as illustrated in FIG. 11 . This allows the user to view automatically created statement records (for example, meeting minutes).
  • the beamforming operation process of FIG. 10 ends when the end condition is satisfied.
  • the termination condition may be, for example, any of the following or a combination thereof.
  • ⁇ Beam forming preparation processing (FIG. 6) has started ⁇ The application has been stopped in the client device 10 ⁇ The microphone array 15 has not detected an acoustic signal for a period equal to or greater than the threshold ⁇ Power supply of the microphone array 15 has been disconnected, a user instruction to call the beamforming preparation process has been given to the client device 10, and a predetermined date and time has arrived.
  • the client device 10 identifies sound sources existing around the microphone array 15 and assigns one or more directivity settings to the identified sound sources. Assigning a directional setting includes at least selecting a tracking mode for that directional setting.
  • the client device 10 performs individual beamforming processing for each directivity setting on acoustic signals obtained by receiving sound waves with the microphone array 15 .
  • it is possible to switch between fixed mode directivity setting and variable mode directivity setting for sound sources existing around the microphone array 15 .
  • the client device 10 it is possible to balance the stability of reception quality of sound waves and the amount of calculation required for sound source separation.
  • the client device 10 may assign a directivity setting to at least one of the sound sources according to the user's instruction. This makes it possible to reflect the user's needs in assigning directivity settings for the sound sources.
  • the client device 10 may refer to the sound source identification result and assign a directivity setting to at least one of the sound sources. As a result, it is possible to reduce the user's burden of allocating the directivity setting of the sound source.
  • the client device 10 may select at least one directivity setting tracking mode according to the user's instruction. As a result, user needs can be reflected in the selection of the tracking mode in directivity setting.
  • the client device 10 may refer to the sound source identification result and select at least one directivity setting tracking mode. As a result, it is possible to reduce the burden on the user regarding selection of the tracking mode for directivity setting.
  • the client device 10 may determine at least one angle parameter for directivity setting according to the user's instruction. This makes it possible to reflect the needs of the user in determining the angle parameter for directivity setting.
  • the client device 10 may refer to the identification result of the sound source to determine the angle parameter of at least one directivity setting. This can reduce the burden on the user regarding the determination of the angle parameter for directivity setting.
  • the client device 10 changes the azimuth angle of the directivity setting according to the identification result of the sound source corresponding to the directivity setting for which the variable mode is selected.
  • high-quality acoustic data can be obtained by adapting the azimuth angle of the directivity setting for which the variable mode is selected to changes in the sound source corresponding to the directivity setting.
  • the client device 10 selects a sound effect mode of a directivity setting from a plurality of sound effect modes, and performs signal processing on an acoustic signal according to the sound effect mode of the directivity setting for each directivity setting. Acoustic data corresponding to the gender setting may be generated. This makes it possible to flexibly switch the acoustic effect to be added for each sound obtained by sound source separation for each directivity setting.
  • the client device 10 may select at least one directivity setting sound effect mode according to the user's instruction. As a result, user needs can be reflected in the selection of the sound effect mode for directivity setting.
  • the client device 10 may present speech recognition results of acoustic data, which are results of beamforming processing for each directivity setting. This allows the user to visually grasp the utterance content of each sound source (speaker).
  • the storage device 11 may be connected to the client device 10 via the network NW.
  • Storage device 31 may be connected to server 30 via network NW.
  • Each step of the information processing described above can be executed by either the client device 10 or the server 30 . Also, part of the above information processing steps may be executed by a processor built into the microphone array 15 or dedicated hardware. In the above description, an example of executing each step in a specific order in each process was shown, but the execution order of each step is not limited to the example described as long as there is no dependency.
  • processor 12 refers to the target sound source identification result to determine the angular width of the target setting.
  • processor 12 may refer to other information to determine the angular width of the targeting.
  • the processor 12 identifies the usage status of the microphone array 15, refers to the identification result of the usage status, An angular parameter (eg, angular width) of at least one directivity setting is determined.
  • angular parameter eg, angular width
  • the processor 12 receives instructions from the user, sensing results from sensors not shown (for example, sensors capable of detecting objects such as cameras, LiDAR, and millimeter wave sensors), user schedule information, or locations where the microphone array 15 is installed (for example, , conference room, or lecture hall) to estimate the usage status of the microphone array 15 .
  • the user may provide user instructions to the client device 10 specifying usage of the microphone array 15 .
  • the processor 12 sets the angle width of the directivity setting (fixed mode) corresponding to sound sources other than the presenter to the default value or the value specified by the user.
  • the angular width of the directivity setting (fixed mode) corresponding to the person may be determined to be larger than the default value.
  • the processor 12 may determine the angular width of the directivity setting corresponding to the sound source to be the default value or less. good. This makes it possible to clearly identify and extract the utterances of each speaker in a situation where the speakers do not move around very vigorously.
  • the processor 12 estimates the arrival direction of sound waves to the microphone array 15 (that is, the direction of the sound source to the microphone array 15) based on the results of reception of sound waves by the microphones included in the microphone array 15.
  • the processor 12 may estimate the direction of the sound source with respect to the microphone array 15 based on the sensing results of a sensor capable of detecting an object (for example, camera, LiDAR, millimeter wave sensor, ToF sensor, etc.). good.
  • a sensor capable of detecting an object for example, camera, LiDAR, millimeter wave sensor, ToF sensor, etc.
  • the processor 12 may change the directivity setting from the fixed mode to the variable mode or from the variable mode to the fixed mode with reference to the sound source identification result (particularly, the tracking attribute) in step S220.
  • the client device 10 estimates the direction of the sound source and controls the directivity direction related to beamforming so as to follow the estimated direction.
  • the client device 10 may limit the angular range in which the pointing direction is followed. For example, only when the estimated direction of the sound source exists in a direction that is not included in the angle range of the directivity setting for which the tracking mode is set to "fixed", the client device 10 performs tracking so as to follow the estimated direction.
  • the azimuth angle of the directivity setting whose mode is "variable” may be determined. That is, the client device 10 extracts the sound of the sound source existing within a specific range by beamforming with the tracking mode of "fixed”, and extracts the sound of the sound source existing outside the range by beamforming with the tracking mode of "variable”. It may be extracted by forming.
  • the sound of a sound source that is almost stationary within a specific range can be stably extracted by "fixed” beamforming, while the sound of other sound sources moving around outside of that range can be extracted by "variable” beamforming. can be extracted.
  • a display mode for each sound source may be selected according to a user's instruction, for example.
  • the client device 10 switches the display/non-display of the utterance corresponding to the sound source in the utterance record or the display form (text color, font, or other decoration) according to the display mode of each sound source.
  • the display mode of each sound source may depend on the sound effect mode of the directivity setting corresponding to the sound source, or may be selected independently of the sound effect mode.
  • the method of presenting the result of the beamforming process by the client device 10 is not limited to presenting the utterance record in text form.
  • the client device 10 uses acoustic data corresponding to each of a plurality of sound sources extracted by beamforming processing to output, from a speaker, a reproduced sound in which the sound corresponding to a specific sound source is emphasized.
  • a reproduced sound in which the corresponding sound is suppressed may be output from a speaker.
  • the client device 10 uses acoustic data corresponding to each of a plurality of sound sources extracted by beamforming processing to generate recording data for reproducing a reproduced sound in which the sound corresponding to a specific sound source is emphasized.
  • recording data may be generated for reproducing reproduced sound in which the sound for a specific sound source is suppressed.
  • speech recognition (S250) may be performed as a batch process. That is, after the collection of a series of acoustic data (for example, acoustic data of one presentation, lecture, or conference, or acoustic data for a predetermined period of time) is completed, speech recognition (S250) is performed on the acoustic data.
  • a series of acoustic data for example, acoustic data of one presentation, lecture, or conference, or acoustic data for a predetermined period of time
  • the microphone array 15 including multiple microphones capable of receiving sound waves has been described.
  • the microphone array 15 may be replaced with a speaker array (an example of an “array unit") including a plurality of speakers (an example of an “element") capable of transmitting sound waves.
  • the "sound source” in the above description can be read as a "target” (of sound waves).
  • the "acoustic signal” in the above description can be read as "a transmission signal for transmitting a sound wave”.
  • the client device 10 estimates the direction of a target to which sound waves should be delivered from a directivity-controllable speaker array.
  • the client device 10 also assigns a directional setting to each target based on the estimated direction and specifies parameters (eg, azimuth, angular width, and tracking mode) for each assigned directional setting. Then, the client device 10 performs beam forming processing with reference to the directivity setting according to the specified parameter, thereby generating a transmission signal for transmitting sound waves from the speaker array, and outputting the transmission signal to the speaker array. do. As a result, sound waves can be stably delivered to each target.
  • the microphone array 15 may be replaced with an antenna array (an example of an "array unit") including a plurality of antennas (an example of an "element”) capable of transmitting or receiving radio waves (an example of a "wave”). .
  • the "sound source” in the above description can be read as a “target” (of radio waves) or a “source” (of radio waves).
  • the "acoustic signal” in the above description can be read as a "transmission signal for transmitting radio waves” or a “reception signal obtained by receiving radio waves”.
  • the client device 10 estimates the direction of a target to which radio waves should be delivered from an antenna array whose directivity is controllable.
  • the client device 10 also assigns a directional setting to each target based on the estimated direction and specifies parameters (eg, azimuth, angular width, and tracking mode) for each assigned directional setting.
  • the client device 10 performs beamforming processing with reference to the directivity setting according to the designated parameter, thereby generating a transmission signal for transmitting radio waves from the antenna array and outputting the transmission signal to the antenna array. do.
  • radio waves can be stably delivered to each target.
  • the client device 10 estimates the direction of arrival of radio waves coming from a transmission source to an antenna array whose directivity can be controlled.
  • the client device 10 also assigns a directivity setting to each source based on the estimated direction of arrival, and specifies parameters (eg, azimuth, angular width, and tracking mode) for each assigned directivity setting.
  • the client device 10 performs beamforming processing with reference to the directivity setting according to the specified parameter, thereby obtaining a signal corresponding to each transmission source from the received signal obtained by receiving radio waves with the antenna array. to extract This makes it possible to stably identify and receive the signal transmitted from each transmission source.
  • information processing system 10 client device 11: storage device 12: processor 13: input/output interface 14: communication interface 15: microphone array 30: server 31: storage device 32: processor 33: input/output interface 34: communication interface

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

情報処理装置は、波動を送信又は受信可能である複数の素子を備えるアレイユニットに対する第1方向を設定し、前記アレイユニットに対する波動の発信源又は目標物の方向に基づいて、前記アレイユニットに対する第2方向を設定し、設定された前記第1方向に応じたビームフォーミング処理と、設定された前記第2方向に応じたビームフォーミング処理とを行う。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 特定の方向に電波又は音波を送信したり、特定の方向から到来する電波又は音波を受信したりするために、電波又は音波の送信又は受信に係る指向性を制御するビームフォーミング技術が考えられている。特許文献1には、複数の指向性アンテナを備える送信装置と、1又は複数の指向性アンテナを備える受信装置との間で、指向性ビームを使用して無線通信を行うことが開示されている。特許文献2には、集音したい音源からの音の到来方向を推定し、推定された到来方向の音を強調した集音を行うことが開示されている。
特開2017-152830号公報 特開2020-18015号公報
 特定の発信源又は音源から到来する電波又は音波を抽出して受信するために、受信に係るビームフォーミングの指向方向を発信源又は音源が存在する方向に向けることが考えられる。ここで、指向方向を特定の方向に固定することとすると、発信源又は音源が移動した場合に、発信源又は音源から到来する電波又は音波を受信できなくなってしまう。一方、発信源又は音源が存在する方向を常時推定し、推定された方向に指向方向を向けることとすると、ビームフォーミングのパラメータが頻繁に変更されることにより受信の品質が不安定になる虞がある。特に、発信源又は音源の方向の推定精度が十分に高くない場合には、発信源又は音源が移動を停止していても指向方向が細かく変化してしまい、受信の品質の安定性が低下することが考えられる。
 同様の課題は、特定の目標物に向けて電波又は音波を送信するために、送信に係るビームフォーミングの指向方向を目標物が存在する方向に向けようとする場合にも生じうる。
 本開示は上記課題に鑑みてなされたものであり、電波又は音波(つまり、波動)の発信源又は目標物が存在する方向に基づいて波動の送信又は受信に係る指向性を制御する場合の、送信又は受信の品質の安定性を向上させることを目的とする。
 本開示の一態様の情報処理装置は、波動を送信又は受信可能である複数の素子を備えるアレイユニットに対する第1方向を設定し、前記アレイユニットに対する波動の発信源又は目標物の方向に基づいて、前記アレイユニットに対する第2方向を設定し、設定された前記第1方向に応じたビームフォーミング処理と、設定された前記第2方向に応じたビームフォーミング処理とを行う。
 本開示によれば、波動の発信源又は目標物が存在する方向に基づいて波動の送信又は受信に係る指向性を制御する場合の、送信又は受信の品質の安定性を向上させることができる。
本実施形態の情報処理システムの構成を示すブロック図である。 本実施形態のクライアント装置およびサーバの構成を示す図である。 指向性設定の方位角および角度幅の説明図である。 本実施形態の概要の説明図である。 本実施形態の指向性設定データベースのデータ構造を示す図である。 本実施形態のビームフォーミング準備処理のフローチャートである。 本実施形態のビームフォーミング準備処理において表示される画面例を示す図である。 本実施形態のビームフォーミング準備処理において表示される画面例を示す図である。 図6のステップS130の詳細を示すフローチャートである。 本実施形態のビームフォーミング運用処理のフローチャートである。 本実施形態のビームフォーミング運用処理において表示される画面例を示す図である。
 以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。本実施形態におけるビームフォーミング処理は、複数の素子から波動を送信するための送信信号と、複数の素子が波動を受信することで得られる受信信号との、少なくとも何れかに対して指向性を持たせる処理である。
(1)情報処理システムの構成
 情報処理システムの構成について説明する。図1は、本実施形態の情報処理システムの構成を示すブロック図である。
 情報処理システム1は、例えば、遠隔通話(例えばWeb会議)システム、発言記録(例えば、議事録)の自動作成システム、発言記録の閲覧システム、音声収録システムである。
 図1に示すように、情報処理システム1は、クライアント装置10と、サーバ30とを備える。
 クライアント装置10及びサーバ30は、ネットワーク(例えば、インターネット又はイントラネット)NWを介して接続される。
 クライアント装置10は、サーバ30にリクエストを送信する情報処理装置の一例である。クライアント装置10は、例えば、スマートフォン、タブレット端末、又は、パーソナルコンピュータである。
 サーバ30は、クライアント装置10から送信されたリクエストに応じたレスポンスをクライアント装置10に提供する情報処理装置の一例である。サーバ30は、例えば、ウェブサーバである。
(1-1)クライアント装置の構成
 本実施形態のクライアント装置の構成について説明する。図2は、本実施形態のクライアント装置およびサーバの構成を示す図である。
 図2に示すように、クライアント装置10は、記憶装置11と、プロセッサ12と、入出力インタフェース13と、通信インタフェース14とを備える。クライアント装置10は、マイクロホンアレイ15に接続される。
 記憶装置11は、プログラム及びデータを記憶するように構成される。記憶装置11は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
 プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理(例えば、音源トラッキング処理及びビームフォーミング処理)を実行するアプリケーションのプログラム
 データは、例えば、以下のデータを含む。
・情報処理において参照されるデータ及びデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
 プロセッサ12は、記憶装置11に記憶されたプログラムを起動してデータを処理することによって、クライアント装置10の機能を実現するように構成される。プロセッサ12は、コンピュータの一例である。記憶装置11により記憶されるプログラム及びデータは、ネットワークを介して提供されてもよいし、コンピュータにより読み取り可能な記録媒体に記録して提供されてもよい。なお、クライアント装置10の機能の少なくとも一部が、1又は複数の専用のハードウェアにより実現されていてもよい。
 入出力インタフェース13は、クライアント装置10に接続される入力デバイスから信号(例えば、音響信号、またはユーザの指示)を取得し、かつ、クライアント装置10に接続される出力デバイスに信号(例えば、画像信号、または制御信号)を出力するように構成される。
 入力デバイスは、例えば、マイクロホンアレイ15(「アレイユニット」の一例)、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
 出力デバイスは、例えば、ディスプレイ、スピーカ、又はそれらの組み合わせである。
 マイクロホンアレイ15は、複数のマイクロホン(「素子」の一例)を含む。複数のマイクロホンは、例えば環状に配置される。各マイクロホンは、音波を受信し、音響信号を生成する。マイクロホンアレイ15は、各マイクロホンによって生成された音響信号を、クライアント装置10へ出力する。
 通信インタフェース14は、クライアント装置10と外部装置(例えばサーバ30)との間の通信を制御するように構成される。
(1-2)サーバの構成
 本実施形態のサーバの構成について説明する。
 図2に示すように、サーバ30は、記憶装置31と、プロセッサ32と、入出力インタフェース33と、通信インタフェース34とを備える。
 記憶装置31は、プログラム及びデータを記憶するように構成される。記憶装置31は、例えば、ROM、RAM、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
 プログラムは、例えば、以下のプログラムを含む。
・OSのプログラム
・情報処理(例えば音声認識処理)を実行するアプリケーションのプログラム
 データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理の実行結果
 プロセッサ32は、記憶装置31に記憶されたプログラムを起動することによって、サーバ30の機能を実現するように構成される。プロセッサ32は、コンピュータの一例である。
 入出力インタフェース33は、サーバ30に接続される入力デバイスから信号(例えばユーザの指示)を取得し、かつ、サーバ30に接続される出力デバイスに信号(例えば画像信号)を出力するように構成される。
 入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
 出力デバイスは、例えば、ディスプレイ、スピーカ、又はそれらの組み合わせである。
 通信インタフェース34は、サーバ30とクライアント装置10との間の通信を制御するように構成される。
(2)実施形態の概要
 本実施形態の概要について説明する。図3は、指向性設定の方位角および角度幅の説明図である。図4は、本実施形態の概要の説明図である。
 クライアント装置10は、マイクロホンアレイ15によって生成された複数チャネルの音響信号を参照し、当該マイクロホンアレイ15に対する音波の到来方向を推定する。さらに、クライアント装置10は、音波の到来方向の推定結果を参照し、マイクロホンアレイ15の周囲に存在する1以上の音源(つまり、音波の発信源)を特定する。クライアント装置10は、特定した音源の全部または一部について、音源分離のための指向性設定(ビームフォーミングにおけるビームに相当)を個別に割り当てる。
 図3に示すように、指向性設定DSは、原点Oを中心として略扇形状に広がる角度領域である。原点Oの位置は、マイクロホンアレイ15の位置(例えば中心位置)によって決まる。角度幅θwは、指向性設定DSに対応する扇形の中心角を表す。方位角θaは、基準線REFと、指向性設定DSに対応する扇形の中心角の二等分線BISとがなす角を表す。基準線REFは、マイクロホンアレイ15の位置および姿勢によって決まる。
 クライアント装置10は、割り当てた指向性設定ごとに、複数のトラッキングモードのうちいずれかを選択する。トラッキングモードは、固定モードおよび可変モードを含む。
 固定モードにおいて、指向性設定の方位角が固定される。固定モードにおいて、指向性設定の角度幅は、固定されてもよいし、可変であってもよい。
 可変モードにおいて、指向性設定の方位角が可変(つまり、ユーザの指示を必要とすることなくプロセッサ12が方位角を自動的に変更可能)である。可変モードにおいて、指向性設定の角度幅は、可変であってもよいし、固定されてもよい。
 クライアント装置10は、例えば図4に示すように、音源SS1に対応する指向性設定DS1について固定モードを選択し、音源SS2に対応する指向性設定DS2について可変モードを選択し、音源SS3に対応する指向性設定DS3について固定モードを選択する。
 クライアント装置10は、動きの小さい音源SS1および音源SS3に関して固定モードを選択することによって、可変モードの場合よりも音源分離に必要な各種パラメータの計算を簡略化し、正確な音源分離を少ない計算量で行うことができる。
 クライアント装置10は、音源SS2の位置の変化に追従して指向性設定DS2の方位角を変更することで、動きのある音源SS2を対象とする音源分離を行うことができる。
 クライアント装置10は、割り当てた指向性設定ごとに、複数の音響効果モードのうちいずれかを選択する。音響効果モードは、強調モードおよび抑圧モードを含む。
 強調モードでは、対象となる指向性設定についての音源分離によって得られた音響が強調される。例えば、プレゼンの発表者、講演者、または会議の参加者に対応する指向性設定について強調モードを選択することで、プレゼン、講演または会議のはっきりした音声を得ることができる。また、例えば、Web会議のような遠隔通話時に、クライアント装置10を操作するユーザに対応する指向性設定について強調モードを選択することで、ユーザの通話相手はユーザの発言をはっきりと聴くことができる。
 抑圧モードでは、対象となる指向性設定についての音源分離によって得られた音響が抑圧される。例えば、聴衆、周囲で喋っている人、または環境騒音に対応する指向性設定について抑圧モードを選択することで、ノイズを目立たなくすることができる。また、例えば、Web会議のような遠隔通話時に、クライアント装置10を操作するユーザの周囲で喋っている人に対応する指向性設定について抑圧モードを選択することで、ユーザの通話相手にはユーザの周囲の人の話し声が聞こえにくくなる。
(3)データベース
 本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置11又は記憶装置31に記憶される。
(3-1)指向性設定データベース
 本実施形態の指向性設定データベースについて説明する。図5は、本実施形態の指向性設定データベースのデータ構造を示す図である。
 指向性設定データベースには、指向性設定情報が格納される。指向性設定情報は、音源に割り当てられた指向性設定に関する情報である。
 図5に示すように、指向性設定データベースは、「音源ID」フィールドと、「音源名」フィールドと、「トラッキング」フィールドと、「方位角」フィールドと、「角度幅」フィールドと、「音源名」フィールドとを含む。各フィールドは、互いに関連付けられている。
 「音源ID」フィールドには、音源IDが格納される。音源IDは、指向性設定が割り当てられた音源を識別する情報である。
 「音源名」フィールドには、音源名情報が格納される。音源IDは、指向性設定が割り当てられた音源の名称に関する情報である。音源名情報は、ユーザの指示に応じて編集可能に定義されてもよい。或いは、音源名情報は、例えば話者認識処理の結果に応じて決定されてもよい。
 「トラッキング」フィールドには、トラッキングモード情報が格納される。トラッキングモード情報は、指向性設定について選択されたトラッキングモードに関する情報である。指向性設定について固定モードが選択された場合に、トラッキングモード情報の値は「固定」となる。指向性設定について可変モードが選択された場合に、トラッキングモード情報の値は「可変」となる。クライアント装置10は、後述するアルゴリズムに従ってトラッキングモードを選択してもよいし、ユーザの指示に応じてトラッキングモードを選択してもよい。
 「方位角」フィールドには、方位角情報が格納される。方位角情報は、指向性設定の方位角に関する情報である。指向性設定について固定モードが選択された場合に、方位角情報の値は当該指向性設定の方位角となる。指向性設定について可変モードが選択された場合に、方位角情報の値は「AUTO」となる。
 「角度幅」フィールドには、角度幅情報が格納される。角度幅情報は、指向性設定の角度幅に関する情報である。角度幅情報の値が「AUTO」である場合に、クライアント装置10はアルゴリズムに従って角度幅を決定する。角度幅を決定するアルゴリズムとしては、後述するように対象音源の特定結果(例えば、音源からの音の到来方向の共分散などのトラッキング属性)に基づいて角度幅を決定する方法を採用できるが、他のアルゴリズムを採用してもよい。角度幅情報の値が「AUTO」以外である場合に、クライアント装置10は当該値(例えば、デフォルトで設定された値、又はユーザ操作により指定された値)の示す角度幅を使用する。
 「音響効果」フィールドには、音響効果モード情報が格納される。音響効果モード情報は、指向性設定について選択された音響効果モードに関する情報である。音響効果モード情報は、ユーザの指示に応じて編集可能に定義されてもよい。
 なお、本実施形態では各指向性設定について方位角と水平方向の角度幅が設定されるものとするが、これに限らず、各指向性設定に係る指向方向及び指向範囲が設定されればよい。例えば、各指向性設定について仰角と垂直方向の角度幅が設定されてもよいし、方位角及び仰角の両方とそれぞれの角度幅とが設定されてもよい。
(4)情報処理
 本実施形態の情報処理について説明する。
(4-1)ビームフォーミング準備処理
 本実施形態のビームフォーミング準備処理について説明する。図6は、本実施形態のビームフォーミング準備処理のフローチャートである。図7は、本実施形態のビームフォーミング準備処理において表示される画面例を示す図である。図8は、本実施形態のビームフォーミング準備処理において表示される画面例を示す図である。図9は、図6のステップS130の詳細を示すフローチャートである。
 図6のビームフォーミング準備処理は、開始条件が成立したことに応じて開始する。開始条件は、例えば以下のいずれか、またはそれらの組み合わせであってもよい。
・クライアント装置10においてアプリケーションが起動されたこと
・ビームフォーミング準備処理を呼び出すためのユーザ指示がクライアント装置10に与えられたこと
・マイクロホンアレイ15に電源投入されたこと
・所定の日時が到来したこと
 図6に示すように、クライアント装置10は、集音(S100)を実行する。
 具体的には、マイクロホンアレイ15が音波を受信する。マイクロホンアレイ15に含まれる複数のマイクロホンが、音波の受信結果に応じて複数チャネルの音響信号を生成する。プロセッサ12は、マイクロホンアレイ15から複数チャネルの音響信号を取得する。
 ここで、クライアント装置10は、集音(S100)において得られた音響信号を記憶装置11に保存しておき、ビームフォーミング準備処理(図6)の終了後に、後述するビームフォーミング運用処理(図10)において当該音響信号に対するビームフォーミング処理(S240)を行ってもよい。これにより、ビームフォーミング準備処理(図6)の間に得られた音響信号についても音源分離を行うことが可能となる。
 ステップS100の後に、クライアント装置10は、到来方向の推定(S110)を実行する。
 具体的には、プロセッサ12は、ステップS100において取得した複数チャネルの音響信号に基づいて、マイクロホンアレイ15に対する音波の到来方向を推定する。
 クライアント装置10は、集音(S100)および到来方向の推定(S110)を所定期間に亘って繰り返すことで、複数時点における音波の到来方向の推定結果を得る。
 ステップS110の後に、クライアント装置10は、音源の特定(S120)を実行する。
 具体的には、プロセッサ12は、複数時点における音波の到来方向の推定結果を参照し、マイクロホンアレイ15の周囲に存在する音源を特定する。一例として、プロセッサ12は、ある時点においてマイクロホンアレイ15に到来した音と、別の時点においてマイクロホンアレイ15に到来した音とが、同じ音源から発された音であるか否かを判断する。そしてプロセッサ12は、所定期間において集音された音に対応する1以上の想定音源それぞれについて、以下の少なくとも1つを含むトラッキング属性を算出する。
・角度(音源の方向を示す値)
・角速度(音源の方向の変化を示す値)
・到来方向の共分散(音源の方向のばらつきを示す値)
・存在確率(音源がある方向に存在する確からしさを示す値)
 プロセッサ12は、算出されたトラッキング属性値に基づいて、当該トラッキング属性に対応する音源の存在有無を判定する。
 ステップS120の後に、クライアント装置10は、指向性設定の割り当て(S130)を実行する。
 具体的には、プロセッサ12は、ステップS120において特定した音源に指向性設定を割り当てる。
 指向性設定の割り当て(S130)の第1の例では、プロセッサ12は、ユーザの指示に応じて、ステップS120において特定した音源の少なくとも1つに指向性設定を割り当てる。
 指向性設定の割り当て(S130)の第2の例では、プロセッサ12は、アルゴリズムに従って、ステップS120において特定した音源の少なくとも1つに指向性設定を割り当てる。一例として、プロセッサ12は、ステップS120における音源の特定結果(特に、トラッキング属性)を参照して、当該音源に指向性設定を割り当てる。
 指向性設定の割り当て(S130)の第3の例は、上記第1の例および第2の例の組み合わせである。
 なお、プロセッサ12は、必ずしも特定された全ての音源に指向性設定を割り当てなくともよく、限られた音源にのみ指向性を割り当ててもよい。また、プロセッサ12は、音源に割り当てられる指向性設定とは別に、ユーザの指示に応じた指向性設定(例えばユーザにより指定された固定の方位角及び角度幅を有する指向性設定)を生成してもよい。
 指向性設定の割り当て(S130)の第1の例または第3の例では、プロセッサ12は、画面P10(図7)をディスプレイに表示する。
 画面P10は、表示オブジェクトA10a~A10bと、操作オブジェクトB10とを含む。
 表示オブジェクトA10aは、音源マップを表示するためのオブジェクトである。音源マップは、マイクロホンアレイ15を基準とする音源の相対位置(例えば方位)を示す画像である。表示オブジェクトA10は、オブジェクトOBJ10a~OBJ10cを含む。オブジェクトOBJ10a~OBJ10cは、マイクロホンアレイ15に対する音源の方向を提示する。
 オブジェクトOBJ10aは、マイクロホンアレイ15に対応するオブジェクトである。
 オブジェクトOBJ10bは、指向性設定が未だ割り当てられていない音源に対応するオブジェクトである。
 オブジェクトOBJ10cは、指向性設定が既に割り当てられている音源に対応するオブジェクトである。
 オブジェクトOBJ10b、およびオブジェクトOBJ10cに対する操作を受け付けると、プロセッサ12は、対応する音源の指向性設定を編集するための画面P11(図8)を表示する。オブジェクトOBJ10b、およびオブジェクトOBJ10cは、対応する音源の相対位置に基づいて配置される。これにより、ユーザは、自らの認識している音源と、音源マップに表示されているオブジェクトOBJ10b、またはオブジェクトOBJ10cに対応する音源とを容易に対応付けることができる。つまり、ユーザは、指向性設定を割り当てる対象の音源(以下、「対象音源」と称する)を意図したとおりに指定することができる
 表示オブジェクトA10bは、メッセージを表示するためのオブジェクトである。メッセージは、ユーザに対する要求の内容を含むことができる。
 操作オブジェクトB10は、ビームフォーミング準備処理(図6)を終了させるためのユーザ指示を受け付けるオブジェクトである。
 一例として、クライアント装置10は、図9のフローチャートに従って、指向性設定の割り当て(S130)を実行する。
 図9に示すように、クライアント装置10は、トラッキングモードの選択(S131)を実行する。
 具体的には、プロセッサ12は、複数のトラッキングモードから、対象音源に対応する指向性設定(以下、「対象設定」と称する)のトラッキングモードを選択する。複数のトラッキングモードは、固定モードおよび可変モードを含む。固定モードが選択された場合、対応する指向性設定の角度パラメータが固定される。可変モードが選択された場合、対応する指向性設定の角度パラメータは音源方向に基づいて更新される。
 トラッキングモードの選択(S131)の第1の例では、プロセッサ12は、ユーザの指示(例えば、後述する画面P11(図8)のフィールドオブジェクトF11bに対する入力)に応じて、対象設定のトラッキングモードを選択する。
 トラッキングモードの選択(S131)の第2の例では、プロセッサ12は、アルゴリズムに従って、対象設定のトラッキングモードを選択する。具体的には、プロセッサ12は、ステップS120における対象音源の特定結果を参照して、トラッキングモードを選択する。
 例えば、プロセッサ12は、角速度又は到来方向の共分散が閾値以上である(つまり、対象音源の動きが激しい)場合に、対象設定に対して可変モードを選択し、角速度又は到来方向の共分散が閾値未満である(つまり、対象音源の動きが緩やかである)場合に、対象設定に対して固定モードを選択してもよい。或いは、プロセッサ12は、存在確率が閾値以上である(つまり、トラッキングが安定している)場合に、対象設定に対して固定モードを選択し、存在確率が閾値未満である(つまり、トラッキングが不安定である)場合に、対象設定に対して可変モードを選択してもよい。
 トラッキングモードの選択(S131)の第3の例は、上記第1の例および第2の例の組み合わせである。
 トラッキングモードの選択(S131)の第1の例または第3の例では、プロセッサ12は、画面P11(図8)をディスプレイに表示する。
 画面P11は、フィールドオブジェクトF11a~F11eと、操作オブジェクトB11とを含む。
 フィールドオブジェクトF11aは、対象音源の音源名を指定するためのオブジェクトである。
 フィールドオブジェクトF11bは、対象設定のトラッキングモードを指定するためのオブジェクトである。
 フィールドオブジェクトF11cは、対象設定の方位角を指定するためのオブジェクトである。
 フィールドオブジェクトF11dは、対象設定の角度幅を指定するためのオブジェクトである。
 フィールドオブジェクトF11eは、対象設定の音響効果モードを指定するためのオブジェクトである。
 操作オブジェクトB11は、フィールドオブジェクトF11a~F11eに指定された情報に基づいて指向性設定情報を登録する(例えば、クライアント装置10に指向性設定情報の登録(S134)を実行させる)ためのユーザ指示を受け付けるオブジェクトである。
 ステップS131の後に、クライアント装置10は、角度パラメータの決定(S132)を実行する。
 具体的には、プロセッサ12は、対象設定の角度パラメータを決定する。角度パラメータは、方位角および角度幅を含む。
 角度パラメータの決定(S132)の第1の例では、プロセッサ12は、ユーザの指示に応じて、対象設定の角度パラメータを決定する。例えば、プロセッサ12は、固定モードを選択されている指向性設定に対し、ユーザの指示(例えば、フィールドオブジェクトF11cまたはF11dの少なくとも1つに対する入力)に応じて方位角を決定してもよい。
 角度パラメータの決定(S132)の第2の例では、プロセッサ12は、アルゴリズムに従って、対象設定の角度パラメータを決定する。一例として、プロセッサ12は、ステップS120における対象音源の特定結果を参照して、対象設定の角度パラメータを決定する。プロセッサ12は、可変モードを選択されている指向性設定に対し、推定された音源の方向に応じて方位角を決定してもよい。
 角度パラメータの決定(S132)の第3の例は、上記第1の例および第2の例の組み合わせである。
 角度パラメータの決定(S132)の第1の例または第3の例では、プロセッサ12は、ディスプレイによる画面P11(図8)の表示を継続する。
 ステップS132の後に、クライアント装置10は、音響効果モードの選択(S133)を実行する。
 具体的には、プロセッサ12は、対象設定の音響効果モードを選択する。音響効果モードは、例えば強調モードと抑圧モードとを含む。
 音響効果モードの選択(S133)の第1の例では、プロセッサ12は、ユーザの指示に応じて、対象設定の音響効果モードを選択する。例えば、プロセッサ12は、ユーザの指示(例えば、フィールドオブジェクトF11eに対する入力)に応じて音響効果モードを選択してもよい。
 音響効果モードの選択(S133)の第2の例では、プロセッサ12は、アルゴリズムに従って、対象設定の音響効果モードを選択する。一例として、プロセッサ12は、ステップS120における対象音源の特定結果を参照して、対象設定の音響効果モードを選択する。
 音響効果モードの選択(S133)の第3の例は、上記第1の例および第2の例の組み合わせである。
 音響効果モードの選択(S133)の第1の例または第3の例では、プロセッサ12は、ディスプレイによる画面P11(図8)の表示を継続する。
 ステップS133の後に、クライアント装置10は、指向性設定情報の登録(S134)を実行する。
 具体的には、プロセッサ12は、ステップS131~ステップS133の実行結果を参照して、指向性設定データベース(図5)に新たなレコードを追加する。一例として、プロセッサ12は、以下の情報の少なくとも1つが対象音源を識別する音源識別情報と関連付けられたレコードを指向性設定データベースに追加する。
・フィールドオブジェクトF11aに入力された音源名情報
・フィールドオブジェクトF11bに入力されたトラッキングモード情報
・フィールドオブジェクトF11cに入力された方位角情報
・フィールドオブジェクトF11dに入力された角度幅情報
・フィールドオブジェクトF11eに入力された音響効果モード情報
 クライアント装置10は、終了条件が成立するまで、指向性設定の割り当て(S130)を繰り返し実行する。終了条件は、例えば以下のいずれか、またはそれらの組み合わせであってもよい。
・全ての音源に指向性設定が割り当てられたこと
・所定数の音源に指向性設定が割り当てられたこと
・ビームフォーミング準備処理を終了するためのユーザ指示がクライアント装置10に与えられたこと
 なお、クライアント装置10は、上述した設定方法と同様の方法で、すでに指向性設定が割り当てられている音源に対応する指向性設定情報の更新(少なくとも一部の変更)を行ってもよい。
(4-2)ビームフォーミング運用処理
 本実施形態のビームフォーミング運用処理について説明する。図10は、本実施形態のビームフォーミング運用処理のフローチャートである。図11は、本実施形態のビームフォーミング運用処理において表示される画面例を示す図である。
 図10のビームフォーミング運用処理は、開始条件が成立したことに応じて開始する。開始条件は、例えば以下のいずれか、またはそれらの組み合わせであってもよい。
・ビームフォーミング準備処理(図6)が終了したこと
・クライアント装置10においてアプリケーションが起動されたこと
・ビームフォーミング運用処理を呼び出すためのユーザ指示がクライアント装置10に与えられたこと
・所定の日時が到来したこと
 本実施形態では、ビームフォーミング準備処理が終了した後にビームフォーミング運用処理が行われる場合を中心に説明するが、ビームフォーミング準備処理とビームフォーミング運用処理は少なくとも一部が並行して行われてもよい。
 図10に示すように、クライアント装置10は、集音(S200)を実行する。
 具体的には、マイクロホンアレイ15が音波を受信する。マイクロホンアレイ15に含まれる複数のマイクロホンが、音波の受信結果に応じて複数チャネルの音響信号を生成する。プロセッサ12は、マイクロホンアレイ15から複数チャネルの音響信号を取得する。
 ステップS200の後に、クライアント装置10は、到来方向の推定(S210)を実行する。
 具体的には、プロセッサ12は、ステップS200において取得した複数チャネルの音響信号に基づいて、マイクロホンアレイ15に対する音波の到来方向を推定する。
 クライアント装置10は、集音(S200)および到来方向の推定(S210)を所定期間に亘って繰り返すことで、複数時点における音波の到来方向の推定結果を得る。
 ステップS210の後に、クライアント装置10は、音源の特定(S220)を実行する。
 具体的には、プロセッサ12は、複数時点における音波の到来方向の推定結果を参照し、マイクロホンアレイ15の周囲に存在する音源を特定する。一例として、プロセッサ12は、前述のトラッキング属性を算出する。
 ステップS220の後に、クライアント装置10は、指向性設定の更新(S230)を実行する。
 具体的には、プロセッサ12は、指向性設定データベース(図5)を参照し、可変モードが選択されている指向性設定を特定する。プロセッサ12は、可変モードが選択されている指向性設定ごとに、ステップS220における音源の特定結果を参照し、当該指向性設定の角度パラメータ(少なくとも方位角)を更新する。これにより、可変モードを選択されている指向性設定の角度パラメータを適正化することができる。つまり、音源の変化(例えば、音源の位置の変化、または音源の動きの激しさの変化)に指向性設定を適応させることができる。なお、固定モードが選択されている指向性設定は、角度パラメータが固定されており、S230において更新されない。
 ステップS230の後に、クライアント装置10は、ビームフォーミング処理(S240)を実行する。
 具体的には、プロセッサ12は、ステップS200において取得した複数チャネルの音響信号に対して、指向性設定ごとに個別のビームフォーミング処理を行うことにより、各指向性設定に対応する音響データを生成する。
 一例として、プロセッサ12は、角度パラメータを参照して複数チャネルの音響信号を合成する。プロセッサ12は、合成結果に対して音響効果モードに応じた振幅調整(例えば、強調または抑圧)を施すことにより、音響データを生成する。
 ステップS240の後に、クライアント装置10は、音声認識(S250)を実行する。
 まず、クライアント装置10は、音声認識リクエストを実行する。具体的には、プロセッサ12は、音声認識リクエストデータをサーバ30へ送信する。音声認識リクエストデータは、タイムスタンプと、各指向性設定に対応する音響データ(つまり、ステップS240におけるビームフォーミング処理の結果)および音源名情報を含む。
 タイムスタンプは、音響データに対応する時刻に関する情報である。プロセッサ12は、例えば集音(S200)の実行時刻に基づいてタイムスタンプを発生する。
 音声認識リクエストの後に、サーバ30は、音声認識レスポンスを実行する。
 具体的には、プロセッサ32は、音声認識リクエストデータを取得する。プロセッサ32は、音声認識リクエストデータを参照し、各指向性設定に対応する音響データに対して音声認識を行う。プロセッサ32は、音声認識レスポンスデータをクライアント装置10へ送信する。音声認識レスポンスデータは、各指向性設定に対応する音響データの音声認識結果を含む。音声認識結果は、例えば、音源ごとの時系列の発言テキストである。
 音声認識レスポンスの後に、クライアント装置10は、音声認識結果の提示を実行する。
 具体的には、プロセッサ12は、音声認識レスポンスデータを参照し、出力デバイスに音声認識結果を出力させる。一例として、プロセッサ12は、画面P20(図11)をディスプレイに表示させる。
 画面P20は、表示オブジェクトA20aを含む。表示オブジェクトA20aは、音声認識結果を表示するためのオブジェクトである。音声認識結果は、図11に例示されるように、タイムスタンプに対応する時刻と、音源名と、音声認識結果とを含む発言情報が時系列に配列された形式で表示されてよい。これにより、ユーザは、自動作成された発言記録(例えば、議事録)を閲覧することができる。
 図10のビームフォーミング運用処理は、終了条件が成立したことに応じて終了する。終了条件は、例えば以下のいずれか、またはそれらの組み合わせであってもよい。
・ビームフォーミング準備処理(図6)が開始したこと
・クライアント装置10においてアプリケーションが停止されたこと
・マイクロホンアレイ15が閾値以上の期間に亘って音響信号を検出しなかったこと
・マイクロホンアレイ15の電源が切断されたこと
・ビームフォーミング準備処理を呼び出すためのユーザ指示がクライアント装置10に与えられたこと
・所定の日時が到来したこと
(5)小括
 以上説明したように、クライアント装置10は、マイクロホンアレイ15の周囲に存在する音源を特定し、特定した音源に対して1つ以上の指向性設定を割り当てる。指向性設定を割り当てることは、少なくとも当該指向性設定のトラッキングモードを選択することを含む。クライアント装置10は、マイクロホンアレイ15によって音波を受信することで得られた音響信号に対して、指向性設定ごとに個別のビームフォーミング処理を行う。これにより、マイクロホンアレイ15の周囲に存在する音源に対して固定モードの指向性設定または可変モードの指向性設定を切り替えて使用することができる。つまり、音源ごとに、固定モードを選択して音源分離に要する計算量を削減するか、または可変モードを選択して音源の変化に適応可能にするかを柔軟に選択することが可能となる。クライアント装置10によれば、音波の受信品質の安定性と、音源分離に要する計算量とをバランスさせることができる。
 クライアント装置10は、ユーザの指示に応じて音源のうち少なくとも1つに指向性設定を割り当ててもよい。これにより、音源の指向性設定の割り当てにユーザのニーズを反映することができる。クライアント装置10は、音源の特定結果を参照して、音源のうち少なくとも1つに指向性設定を割り当ててもよい。これにより、音源の指向性設定の割り当てに関するユーザの負担を軽減することができる。
 クライアント装置10は、ユーザの指示に応じて少なくとも1つの指向性設定のトラッキングモードを選択してもよい。これにより、指向性設定のトラッキングモードの選択にユーザのニーズを反映することができる。クライアント装置10は、音源の特定結果を参照して、少なくとも1つの指向性設定のトラッキングモードを選択してもよい。これにより、指向性設定のトラッキングモードの選択に関するユーザの負担を軽減することができる。
 クライアント装置10は、ユーザの指示に応じて少なくとも1つの指向性設定の角度パラメータを決定してもよい。これにより、指向性設定の角度パラメータの決定にユーザのニーズを反映することができる。クライアント装置10は、音源の特定結果を参照して、少なくとも1つの指向性設定の角度パラメータを決定してもよい。これにより、指向性設定の角度パラメータの決定に関するユーザの負担を軽減することができる。
 クライアント装置10は、可変モードを選択されている指向性設定に対応する音源の特定結果に応じて、当該指向性設定の方位角を変更する。これにより、可変モードを選択されている指向性設定の方位角を、当該指向性設定に対応する音源の変化に適応させて高品質な音響データを得ることができる。
 クライアント装置10は、複数の音響効果モードから指向性設定の音響効果モードを選択し、音響信号に対して、指向性設定ごとに当該指向性設定の音響効果モードに従って信号処理を行うことで当該指向性設定に対応する音響データを生成してもよい。これにより、各指向性設定についての音源分離によって得られた音響ごとに付加する音響効果を柔軟に切り替えることができる。クライアント装置10は、ユーザの指示に応じて少なくとも1つの指向性設定の音響効果モードを選択してもよい。これにより、指向性設定の音響効果モードの選択にユーザのニーズを反映することができる。
 クライアント装置10は、指向性設定ごとのビームフォーミング処理の結果である音響データの音声認識結果を提示してもよい。これにより、ユーザに、各音源(話者)による発言内容を視覚的に把握させることができる。
(6)変形例
 本実施形態の変形例について説明する。
 記憶装置11は、ネットワークNWを介して、クライアント装置10と接続されてもよい。記憶装置31は、ネットワークNWを介して、サーバ30と接続されてもよい。
 上記の情報処理の各ステップは、クライアント装置10及びサーバ30の何れでも実行可能である。また、上記の情報処理のステップの一部が、マイクロホンアレイ15に内蔵されたプロセッサ、または専用ハードウェアによって実行されてもよい。
 上記説明では、各処理において各ステップを特定の順序で実行する例を示したが、各ステップの実行順序は、依存関係がない限りは説明した例に制限されない。
 上記説明において、プロセッサ12が、対象音源の特定結果を参照して、対象設定の角度幅を決定する例を説明した。しかしながら、プロセッサ12は、他の情報を参照して対象設定の角度幅を決定してもよい。
 具体的には、プロセッサ12は、ビームフォーミング準備処理(図6)、またはビームフォーミング運用処理(図10)において、マイクロホンアレイ15の使用状況を特定し、当該使用状況の特定結果を参照して、少なくとも1つの指向性設定の角度パラメータ(例えば角度幅)を決定する。これにより、指向性設定の角度幅を、マイクロホンアレイ15の使用状況に適応させて高品質な音響データを得ることができる。
 プロセッサ12は、ユーザの指示、図示しないセンサ(例えば、カメラ・LiDAR・ミリ波センサなど、物体を検出可能なセンサ)によるセンシング結果、ユーザのスケジュール情報、またはマイクロホンアレイ15が設置される場所(例えば、会議室、または講演会場)のスケジュール情報の少なくとも1つを参照してマイクロホンアレイ15の使用状況を推定してもよい。或いは、ユーザは、マイクロホンアレイ15の使用状況を指定するユーザ指示をクライアント装置10に与えてもよい。
 一例として、マイクロホンアレイ15がプレゼンにおいて使用されている場合に、プロセッサ12は、発表者以外の音源に対応する指向性設定(固定モード)の角度幅をデフォルト値またはユーザの指定した値に、発表者に対応する指向性設定(固定モード)の角度幅をデフォルト値よりも大きな値に決定してもよい。これにより、発表者が壇上を激しく動き回ったとしても、発言を漏らさず捉えることができる。また別の例として、マイクロホンアレイ15が会議室でのミーティングにおいて使用されている場合に、プロセッサ12は、音源に対応する指向性設定の角度幅をデフォルト値又はそれより小さい値に決定してもよい。これにより、発言者があまり激しく動き回らないような状況において、各発言者の発言を明確に識別して抽出することができる。
 上記説明において、プロセッサ12は、マイクロホンアレイ15に含まれるマイクロホンによる音波の受信結果に基づいて、マイクロホンアレイ15に対する音波の到来方向(すなわちマイクロホンアレイ15に対する音源の方向)を推定するものとした。ただしこれに限らず、プロセッサ12は、物体を検出可能なセンサ(例えば、カメラ・LiDAR・ミリ波センサ、ToFセンサなど)によるセンシング結果に基づいて、マイクロホンアレイ15に対する音源の方向を推定してもよい。
 上記説明において、ビームフォーミング準備処理(図6)において、指向性設定のトラッキングモードを選択する例を説明した。しかしながら、ビームフォーミング運用処理(図10)の間に、指向性設定のトラッキングモードを変更することもできる。一例として、プロセッサ12は、ステップS220における音源の特定結果(特に、トラッキング属性)を参照して、指向性設定を固定モードから可変モードへ、または可変モードから固定モードへ変更してもよい。これにより、例えば音源の動きのトレンドが変化した場合であっても、ユーザの手を煩わせることなく適切なトラッキングモードを選択することができる。
 上記説明において、トラッキングモードが「可変」に設定されている場合、クライアント装置10は音源の方向を推定し、推定された方向に追従するようにビームフォーミングに係る指向方向を制御するものとした。ここで、クライアント装置10は、指向方向を追従させる角度範囲を制限してもよい。例えば、クライアント装置10は、トラッキングモードが「固定」に設定されている指向性設定の角度範囲に含まれない方向に音源の推定方向が存在する場合にのみ、その推定方向に追従させるようにトラッキングモードが「可変」である指向性設定の方位角を決定してもよい。すなわち、クライアント装置10は、特定の範囲内に存在する音源の音をトラッキングモードが「固定」のビームフォーミングにより抽出し、その範囲の外に存在する音源の音をトラッキングモードが「可変」のビームフォーミングにより抽出してもよい。これにより、例えば、特定の範囲内でほぼ静止している音源の音を「固定」ビームフォーミングにより安定的に抽出しつつ、その範囲の外で動き回る他の音源の音を「可変」ビームフォーミングにより抽出することができる。
 上記説明では、発言記録を閲覧可能とする例を示した。発言記録の閲覧に関して、例えばユーザの指示に応じて、各音源の表示モードが選択されてよい。クライアント装置10は、各音源の表示モードに従って、発言記録において当該音源に対応する発言の表示/非表示、または表示形態(文字の色、フォント、または他の装飾)を切り替える。各音源の表示モードは、当該音源に対応する指向性設定の音響効果モードに依存してもよいし、当該音響効果モードとは独立に選択されてもよい。
 また、クライアント装置10によるビームフォーミング処理の結果の提示方法は、テキストによる発言記録の提示に限定されない。例えば、クライアント装置10は、ビームフォーミング処理により抽出した複数の音源それぞれに対応する音響データを用いて、特定の音源に対応する音が強調された再生音をスピーカから出力させたり、特定の音源に対応する音が抑圧された再生音をスピーカから出力させたりしてもよい。また例えば、クライアント装置10は、ビームフォーミング処理により抽出した複数の音源それぞれに対応する音響データを用いて、特定の音源に対応する音が強調された再生音を再生するための録音データを生成したり、特定の音源に対する音が抑圧された再生音を再生するための録音データを生成したりしてもよい。
 上記説明において、音声認識(S250)を逐次実行する例を示した。しかしながら、音声認識(S250)は、バッチ処理として行われてもよい。つまり、一連の音響データ(例えば、1つのプレゼン、講演、または会議の音響データ、または所定時間分の音響データ)の収集が終了した後に、当該音響データに対して音声認識(S250)が行われてもよい。
 上記説明において、音波を受信可能な複数のマイクロホンを含むマイクロホンアレイ15について説明した。しかしながら、マイクロホンアレイ15は、音波を送信可能な複数のスピーカ(「素子」の一例)を含むスピーカアレイ(「アレイユニット」の一例)に置き換えられてもよい。この場合に、上記説明における「音源」は、(音波の)「目標物」として読み替え可能である。また、上記説明における「音響信号」は、「音波を送信するための送信信号」として読み替え可能である。
 例えば、クライアント装置10は、指向性を制御可能なスピーカアレイから音波を届けるべき目標物の方向を推定する。また、クライアント装置10は、推定された方向に基づいて各目標物に指向性設定を割り当て、割り当てた指向性設定ごとにパラメータ(例えば方位角、角度幅及びトラッキングモード)を指定する。そして、クライアント装置10は、指定したパラメータに応じた指向性設定を参照してビームフォーミング処理を行うことで、スピーカアレイから音波を送信するための送信信号を生成し、送信信号をスピーカアレイに出力する。これにより、各目標物に安定的に音波を届けることができる。
 或いは、マイクロホンアレイ15は、電波(「波動」の一例)を送信、または受信可能な複数のアンテナ(「素子」の一例)を含むアンテナアレイ(「アレイユニット」の一例)に置き換えられてもよい。この場合に、上記説明における「音源」は、(電波の)「目標物」、または(電波の)「発信源」として読み替え可能である。また、上記説明における「音響信号」は、「電波を送信するための送信信号」、または「電波を受信することで得られた受信信号」として読み替え可能である。
 例えば、クライアント装置10は、指向性を制御可能なアンテナアレイから電波を届けるべき目標物の方向を推定する。また、クライアント装置10は、推定された方向に基づいて各目標物に指向性設定を割り当て、割り当てた指向性設定ごとにパラメータ(例えば方位角、角度幅及びトラッキングモード)を指定する。そして、クライアント装置10は、指定したパラメータに応じた指向性設定を参照してビームフォーミング処理を行うことで、アンテナアレイから電波を送信するための送信信号を生成し、送信信号をアンテナアレイに出力する。これにより、各目標物に安定的に電波を届けることができる。
 また例えば、クライアント装置10は、指向性を制御可能なアンテナアレイに発信源から到来する電波の到来方向を推定する。また、クライアント装置10は、推定された到来方向に基づいて各発信源に指向性設定を割り当て、割り当てた指向性設定ごとにパラメータ(例えば方位角、角度幅及びトラッキングモード)を指定する。そして、クライアント装置10は、指定したパラメータに応じた指向性設定を参照してビームフォーミング処理を行うことで、アンテナアレイにより電波を受信することで得られた受信信号から各発信源に対応する信号を抽出する。これにより、各発信源から送信された信号を安定的に識別して受信することができる。
 以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
1      :情報処理システム
10     :クライアント装置
11     :記憶装置
12     :プロセッサ
13     :入出力インタフェース
14     :通信インタフェース
15     :マイクロホンアレイ
30     :サーバ
31     :記憶装置
32     :プロセッサ
33     :入出力インタフェース
34     :通信インタフェース

Claims (17)

  1.  波動を送信又は受信可能である複数の素子を備えるアレイユニットに対する第1方向を設定する第1方向設定手段と、
     前記アレイユニットに対する波動の発信源又は目標物の方向に基づいて、前記アレイユニットに対する第2方向を設定する第2方向設定手段と、
     前記第1方向設定手段により設定された前記第1方向に応じたビームフォーミング処理と、前記第2方向設定手段により設定された前記第2方向に応じたビームフォーミング処理とを行う処理手段と、
     を有する情報処理装置。
  2.  前記アレイユニットに対する波動の発信源又は目標物の方向を特定する特定手段と、
     前記特定手段により特定された方向に応じて、前記第1方向は更新せず前記第2方向を更新する更新手段と、
     を有する請求項1に記載の情報処理装置。
  3.  前記第1方向設定手段は、ユーザ操作に基づいて前記第1方向を設定する、請求項1に記載の情報処理装置。
  4.  前記ユーザ操作は、前記アレイユニットに対する方向を指定する操作と、前記アレイユニットに対する波動の発信源又は目標物の方向に基づいて提示された方向を固定する操作との少なくとも何れかを含む、請求項3に記載の情報処理装置。
  5.  前記第1方向設定手段により設定された第1方向を基準とする角度幅を設定する角度幅設定手段を有し、
     前記処理手段は、前記第1方向と前記角度幅設定手段により設定された前記角度幅とに応じたビームフォーミング処理と、前記第2方向に応じたビームフォーミング処理とを行う、
     請求項1に記載の情報処理装置。
  6.  前記角度幅設定手段は、前記アレイユニットの使用状況に基づいて前記角度幅を設定する、請求項5に記載の情報処理装置。
  7.  前記第2方向設定手段は、前記第1方向を基準とする前記角度幅に含まれない方向を前記第2方向として設定する、請求項5に記載の情報処理装置。
  8.  前記ビームフォーミング処理は、前記アレイユニットから波動を送信するための送信信号と、前記アレイユニットが波動を受信することで得られる受信信号との、少なくとも何れかに対して指向性を持たせる処理である、請求項1に記載の情報処理装置。
  9.  前記波動は音波と電波との少なくとも何れかを含む、請求項1に記載の情報処理装置。
  10.  前記複数の素子はそれぞれ、波動を受信可能な素子であり、
     前記情報処理装置は、複数の前記素子による波動の受信結果に基づいて、前記アレイユニットに対する波動の発信源の方向を特定する特定手段を有し、
     前記第2方向設定手段は、前記特定手段により特定された波動の発信源の方向を前記第2方向として設定する、
     請求項1に記載の情報処理装置。
  11.  前記複数の素子はそれぞれ、音波を受信可能なマイクロホンであり、
     前記処理手段は、複数の前記マイクロホンにより収音された音響信号から前記第1方向に対応する音響信号を抽出するビームフォーミング処理と、複数の前記マイクロホンにより収音された音響信号から前記第2方向に対応する音響信号を抽出するビームフォーミング処理とを行う、
     請求項1に記載の情報処理装置。
  12.  設定された前記第1方向と前記第2方向それぞれに対して、音響が強調される強調モードと音響が抑圧される抑圧モードとを含む複数の音響効果モードの何れかを割り当てる割当手段を有し、
     前記処理手段は、前記第1方向に応じたビームフォーミング処理と前記第2方向に応じたビームフォーミング処理とを、前記割当手段により割り当てられた前記音響効果モードに応じて行う、
     請求項11に記載の情報処理装置。
  13.  前記複数の素子はそれぞれ、波動を送信可能な素子であり、
     前記情報処理装置は、物体を検出可能なセンサによるセンシング結果に基づいて、波動を送信すべき目標物の前記アレイユニットに対する方向を特定する特定手段を有し、
     前記第2方向設定手段は、前記特定手段により特定された前記目標物の方向を前記第2方向として設定する、
     請求項1に記載の情報処理装置。
  14.  波動を送信又は受信可能である複数の素子を備えるアレイユニットに対する第1方向を設定し、
     前記アレイユニットに対する波動の発信源又は目標物の方向に基づいて、前記アレイユニットに対する第2方向を設定し、
     設定された前記第1方向に応じたビームフォーミング処理と、設定された前記第2方向に応じたビームフォーミング処理とを行う、
     情報処理方法。
  15.  前記アレイユニットに対する波動の発信源又は目標物の方向を特定し、
     特定された波動の発信源又は目標物の方向に応じて、前記第1方向は更新せず前記第2方向を更新する、
     請求項14に記載の情報処理方法。
  16.  前記第1方向はユーザ操作に基づいて設定される、請求項14に記載の情報処理方法。
  17.  コンピュータに、請求項14から請求項16の何れか1項に記載の情報処理方法を実行させるためのプログラム。
PCT/JP2022/018998 2021-05-11 2022-04-27 情報処理装置、情報処理方法、およびプログラム WO2022239650A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023520964A JPWO2022239650A1 (ja) 2021-05-11 2022-04-27

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021080095 2021-05-11
JP2021-080095 2021-05-11

Publications (1)

Publication Number Publication Date
WO2022239650A1 true WO2022239650A1 (ja) 2022-11-17

Family

ID=84028298

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/018998 WO2022239650A1 (ja) 2021-05-11 2022-04-27 情報処理装置、情報処理方法、およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2022239650A1 (ja)
WO (1) WO2022239650A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016080750A (ja) * 2014-10-10 2016-05-16 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
CN110556103A (zh) * 2018-05-31 2019-12-10 阿里巴巴集团控股有限公司 音频信号处理方法、装置、系统、设备和存储介质
JP2020068466A (ja) * 2018-10-24 2020-04-30 ヤマハ株式会社 音信号処理装置、ミキサ、および音信号処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016080750A (ja) * 2014-10-10 2016-05-16 株式会社Nttドコモ 音声認識装置、音声認識方法、及び音声認識プログラム
CN110556103A (zh) * 2018-05-31 2019-12-10 阿里巴巴集团控股有限公司 音频信号处理方法、装置、系统、设备和存储介质
JP2020068466A (ja) * 2018-10-24 2020-04-30 ヤマハ株式会社 音信号処理装置、ミキサ、および音信号処理方法

Also Published As

Publication number Publication date
JPWO2022239650A1 (ja) 2022-11-17

Similar Documents

Publication Publication Date Title
US10970037B2 (en) System and method for differentially locating and modifying audio sources
US10694313B2 (en) Audio communication system and method
JP2019518985A (ja) 分散したマイクロホンからの音声の処理
GB2495472B (en) Processing audio signals
US11863942B1 (en) Microphone array with automated adaptive beam tracking
CN107168518B (zh) 一种用于头戴显示器的同步方法、装置及头戴显示器
US11638091B2 (en) Microphone array with automated adaptive beam tracking
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
KR102638946B1 (ko) 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템
KR20210035725A (ko) 혼합 오디오 신호를 저장하고 지향성 오디오를 재생하기 위한 방법 및 시스템
KR102115222B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
US20210294424A1 (en) Auto-framing through speech and video localizations
WO2022239650A1 (ja) 情報処理装置、情報処理方法、およびプログラム
KR20200095460A (ko) 복수의 디바이스들을 관리하는 방법 및 전자 디바이스
CN110459236B (zh) 音频信号的噪声估计方法、装置及存储介质
JP6678315B2 (ja) 音声再生方法、音声対話装置及び音声対話プログラム
Panek et al. Challenges in adopting speech control for assistive robots
KR102168812B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
CN114594892A (zh) 远程交互方法、远程交互设备以及计算机存储介质
CN113488066A (zh) 音频信号处理方法、音频信号处理装置及存储介质
CN103002171B (zh) 处理音频信号的方法和装置
JP2019537071A (ja) 分散したマイクロホンからの音声の処理
US20210266666A1 (en) Method and apparatus for a camera driven audio equalization of playback in a communication device
US11917386B2 (en) Estimating user location in a system including smart audio devices
KR102650763B1 (ko) 오디오 소스 지향성에 기초한 심리음향 강화

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22807352

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023520964

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22807352

Country of ref document: EP

Kind code of ref document: A1