WO2023157963A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2023157963A1
WO2023157963A1 PCT/JP2023/005887 JP2023005887W WO2023157963A1 WO 2023157963 A1 WO2023157963 A1 WO 2023157963A1 JP 2023005887 W JP2023005887 W JP 2023005887W WO 2023157963 A1 WO2023157963 A1 WO 2023157963A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
map image
information
microphone device
text
Prior art date
Application number
PCT/JP2023/005887
Other languages
English (en)
French (fr)
Inventor
晴輝 西村
愛実 田畑
彰 遠藤
恭寛 羽原
蔵酒 五味
優大 平良
尚 平岡
和希 高澤
Original Assignee
ピクシーダストテクノロジーズ株式会社
住友ファーマ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ピクシーダストテクノロジーズ株式会社, 住友ファーマ株式会社 filed Critical ピクシーダストテクノロジーズ株式会社
Priority to JP2023523217A priority Critical patent/JP7399413B1/ja
Publication of WO2023157963A1 publication Critical patent/WO2023157963A1/ja
Priority to JP2023199974A priority patent/JP2024027122A/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • Hearing-impaired people may have a reduced ability to perceive the incoming direction of sound due to a decline in auditory function.
  • a hearing-impaired person tries to have a conversation with a plurality of people, it is difficult to accurately recognize who is speaking what, and communication is hindered.
  • Patent Document 1 display areas corresponding to each of a plurality of users are set in an image display area of a display unit, and text, which is a speech recognition result for a certain user's speech, is displayed as an image set for another user.
  • a conversation support device for displaying on a display area is disclosed.
  • the purpose of the present disclosure is to enable the user to intuitively associate the speaker with the utterance content based on visual information.
  • An information processing apparatus includes means for acquiring information indicating the direction of a sound source with respect to at least one multi-microphone device, and information on the content of sound emitted from the sound source and collected by the multi-microphone device.
  • FIG. 1 is a block diagram showing the configuration of an information processing system according to an embodiment
  • FIG. It is a block diagram showing the configuration of a controller of the present embodiment. It is a figure which shows the external appearance of the multi-microphone device of this embodiment. It is a figure which shows one aspect
  • 4 is a flowchart of audio processing according to the embodiment; FIG. 4 is a diagram for explaining sound collection by a microphone; FIG. 4 is a diagram for explaining the direction of a sound source in a reference coordinate system; It is a figure which shows an example of a map image.
  • FIG. 10 is a diagram showing one mode of modification 1;
  • FIG. 10 is a diagram showing a data structure of a statement database of modification 1;
  • 10 is a flowchart of voice processing according to Modification 1;
  • FIG. 11 is a diagram showing an example of a map image of modification 2;
  • FIG. 11 is a diagram showing another example of a map image of modification 2;
  • FIG. 11 is a diagram showing an example of a map image of modification 3;
  • FIG. 10 is a diagram showing an example of image display in modification 1;
  • a coordinate system (microphone coordinate system) based on the position and orientation of the multi-microphone device may be used.
  • the origin of the microphone coordinate system is the position of the multi-microphone device (for example, the position of the center of gravity of the multi-microphone device), and the x-axis and the y-axis are perpendicular to each other at the origin.
  • the x+ direction is the front of the multi-microphone device
  • the x- direction is the rear of the multi-microphone device
  • the y+ direction is the left direction of the multi-microphone device
  • the y- direction is the right direction of the multi-microphone device. do.
  • a direction in a specific coordinate system means a direction with respect to the origin of the coordinate system.
  • FIG. 1 is a block diagram showing the configuration of the information processing system of this embodiment.
  • the information processing system 1 includes a display device 10, a controller 30, and a multi-microphone device 50.
  • FIG. The information processing system 1 is used by multiple users. At least one of the users may be hearing-impaired, and not all of the users may be hearing-impaired (that is, all of the users may have sufficient hearing for speech).
  • Display device 10 and controller 30 are connected via a communication cable or wireless channel (eg, Wi-Fi channel or Bluetooth® channel).
  • controller 30 and multi-microphone device 50 are connected via a communication cable or wireless channel (eg, Wi-Fi channel or Bluetooth channel).
  • the display device 10 includes one or more displays 11 (an example of a "display unit").
  • the display device 10 receives an image signal from the controller 30 and displays an image corresponding to the image signal on the display.
  • the display device 10 is, for example, a tablet terminal, a personal computer, a smart phone, or a conference display device.
  • the display device 10 may include an input device or operation unit for obtaining user instructions.
  • the controller 30 controls the display device 10 and the multi-microphone device 50.
  • the controller 30 is an example of an information processing device.
  • the controller 30 is, for example, a smart phone, tablet terminal, personal computer, or server computer.
  • the multi-microphone device 50 can be installed independently from the display device 10. That is, the position and orientation of multi-microphone device 50 can be determined independently from the position and orientation of display device 10 .
  • FIG. 2 is a block diagram showing the configuration of the controller of this embodiment.
  • the controller 30 includes a storage device 31, a processor 32, an input/output interface 33, and a communication interface .
  • the storage device 31 is configured to store programs and data.
  • the storage device 31 is, for example, a combination of ROM (Read Only Memory), RAM (Random Access Memory), and storage (eg, flash memory or hard disk).
  • Programs include, for example, the following programs. ⁇ OS (Operating System) program ⁇ Application program that executes information processing
  • the data includes, for example, the following data. ⁇ Databases referenced in information processing ⁇ Data obtained by executing information processing (that is, execution results of information processing)
  • the processor 32 is a computer that implements the functions of the controller 30 by activating programs stored in the storage device 31 .
  • Processor 32 is, for example, at least one of the following: ⁇ CPU (Central Processing Unit) ⁇ GPU (Graphic Processing Unit) ⁇ ASIC (Application Specific Integrated Circuit) ⁇ FPGA (Field Programmable Array)
  • the input/output interface 33 is configured to acquire information (eg, user instructions) from an input device connected to the controller 30 and output information (eg, an image signal) to an output device connected to the controller 30.
  • Input devices are, for example, keyboards, pointing devices, touch panels, or combinations thereof.
  • An output device is, for example, a display.
  • the communication interface 34 is configured to control communication between the controller 30 and external devices (eg, the display device 10 and the multi-microphone device 50).
  • external devices eg, the display device 10 and the multi-microphone device 50.
  • FIG. 3 is a diagram showing the appearance of the multi-microphone device of this embodiment.
  • the multi-microphone device 50 includes multiple microphones. In the following description, the multi-microphone device 50 is assumed to have five microphones 51-1, . The multi-microphone device 50 uses microphones 51-1, . Also, the multi-microphone device 50 estimates the arrival direction of the sound (that is, the direction of the sound source) in the microphone coordinate system. The multi-microphone device 50 also performs beam forming processing, which will be described later.
  • the microphone 51 collects sounds around the multi-microphone device 50, for example. Sounds collected by the microphone 51 include, for example, at least one of the following sounds. ⁇ Speech by a person ⁇ Sound of the environment where the multi-microphone device 50 is used
  • the multi-microphone device 50 has, for example, a mark 50a on the surface of the housing indicating the reference direction of the multi-microphone device 50 (for example, the front (that is, the x+ direction), but may be another predetermined direction). attached. This allows the user to easily recognize the orientation of the multi-microphone device 50 from visual information. Note that the means for recognizing the orientation of the multi-microphone device 50 is not limited to this.
  • the mark 50 a may be integrated with the housing of the multi-microphone device 50 .
  • the multi-microphone device 50 further includes a processor, a storage device, and a communication or input/output interface for, for example, audio processing, which will be described later. Also, the multi-microphone device 50 can be equipped with an IMU (Inertial Measurement Unit) to detect the movement and state of the multi-microphone device 50 .
  • IMU Inertial Measurement Unit
  • FIG. 4 is a diagram showing one aspect of the present embodiment.
  • the controller 30 generates a map image and displays it on the display 11 of the display device 10 while a conversation (for example, a meeting) is being held by a plurality of participants (that is, users of the information processing system 1).
  • the map image corresponds to a bird's-eye view of the sound source (speaker) environment around the multi-microphone device 50, and text ( An example of "information on the content of voice") is arranged.
  • the controller 30 updates the map image according to the participant's speech.
  • the map image serves as a UI (User Interface) for visually grasping the content of the most recent conversation (particularly, who is speaking what) in real time.
  • UI User Interface
  • the map image includes a microphone icon MI31, a circumference CI31, sound source icons SI31, SI32, SI33, SI34, and text images TI32, TI34.
  • the microphone icon MI31 represents the multi-microphone device 50.
  • the microphone icon MI31 has a mark MR31 indicating the orientation of the microphone icon MI31.
  • a viewer of the map image can recognize where the microphone icon MI31 is directed in the map image by checking the mark MR31.
  • the viewer of the map image can easily associate the participants in the real world with the sound source icons in the map image. be able to.
  • the circumference CI31 corresponds to the circumference centered on the microphone icon MI31.
  • the controller 30 arranges sound source icons SI31, SI32, SI33, and SI34 corresponding to the participants of the conversation on the circle CI31. Specifically, the controller 30 arranges each of the sound source icons SI31, SI32, SI33, and SI34 on the circumference CI31 at a position corresponding to the direction of the sound source represented by the sound source icon with respect to the multi-microphone device 50 .
  • the controller 30 converts the microphone coordinate system into the coordinate system of the map image (hereinafter, “map coordinate system”).
  • the controller 30 places the sound source at the intersection of the straight line extending in the (estimated) direction of the sound source expressed in the map coordinate system from the display position of the microphone icon MI31 (an example of the “origin of the map coordinate system”) and the circumference CI31. Place a sound source icon that expresses
  • the sound source icon SI31 represents a specific one of a plurality of participants (for example, a person who is hard of hearing and who has more opportunities to see map images than other participants; hereinafter also referred to as "you"). .
  • the controller 30 sets a specific format (for example, color, texture, optical effect, shape, size, etc.) for the sound source icon SI31 representing “you” that is different from, for example, sound source icons representing other sound sources. good.
  • the sound source icon SI32 represents Mr. D among the participants. In the example of FIG. 4, Mr. D is speaking.
  • the controller 30 may set the sound source icon SI32 representing the speaker (sound source) who is speaking in a format different from that of the sound source icons representing speakers (sound sources) in other states. That is, the controller 30 can dynamically change the format of the sound source icon depending on the state of the sound source represented by the sound source icon.
  • the text image TI32 represents Mr. D's most recent utterance content (speech recognition result for the voice uttered by Mr. D).
  • the controller 30 arranges the text image TI32 on the map image in such a manner that the viewer of the map image can easily recognize the correspondence between the text image TI32 and the sound source icon SI32.
  • the controller 30 arranges the text image TI32 at a predetermined position (for example, lower right) with respect to the sound source icon SI32.
  • the controller 30 may format the text image TI32 at least partially in the same format as the sound source icon SI32. For example, the controller 30 may align the sound source icon SI32 and the background or characters of the text image TI32 with similar colors.
  • the sound source icon SI33 represents Mr. T among the multiple participants. In the example of FIG. 4, Mr. T does not speak.
  • the controller 30 may set the sound source icon SI33 representing a speaker (sound source) who is not speaking in a format different from that of sound source icons representing speakers (sound sources) in other states.
  • the sound source icon SI34 represents Mr. H among the multiple participants. In the example of FIG. 4, Mr. H has just finished speaking.
  • the controller 30 may set the sound source icon SI34 representing the speaker (sound source) immediately after finishing speaking in a format different from that of the sound source icons representing speakers (sound sources) in other states.
  • the text image TI34 represents Mr. H's most recent remarks.
  • the controller 30 arranges the text image TI34 on the map image in such a manner that the viewer of the map image can easily recognize the correspondence between the text image TI34 and the sound source icon SI34.
  • the controller 30 arranges the text image TI34 at a predetermined position (for example, lower right) with respect to the sound source icon SI34.
  • the controller 30 may format the text image TI34 at least partially the same as the sound source icon SI34. For example, the controller 30 may align the sound source icon SI34 and the background or characters of the text image TI34 with similar colors.
  • the controller 30 generates a map image by arranging the text corresponding to the voice uttered by the speaker at a position according to the estimation result of the direction of the speaker with respect to the multi-microphone device 50, and displays the text on the display device. 10 is displayed on the display 11. This allows the viewer of the map image to intuitively associate the speaker with the utterance content.
  • FIG. 5 is a diagram showing the data structure of the sound source database of this embodiment.
  • Sound source information is stored in the sound source database.
  • the sound source information is information about sound sources (typically speakers) around the multi-microphone device 50 identified by the controller 30 .
  • the sound source database includes an "ID” field, a "name” field, an “icon” field, a “direction” field, a “recognition language” field, and a “translation language” field. .
  • Each field is associated with each other.
  • a sound source ID is stored in the "ID" field.
  • a sound source ID is information for identifying a sound source.
  • the controller 30 detects a new sound source, the controller 30 issues a new sound source ID and assigns the sound source ID to the sound source.
  • the "name" field stores sound source name information.
  • the sound source name information is information regarding the name of the sound source.
  • the controller 30 may automatically determine the sound source name information, or may set it according to a user instruction as described later.
  • the controller 30 can assign some initial sound source name to the newly detected sound source according to a predetermined rule or randomly.
  • the "icon” field stores icon information.
  • the icon information is information about the icon of the sound source.
  • icon information may be an icon image (e.g., one of the preset icon images, or a user-provided photo or drawing), or an icon format (e.g., color, texture, optical effects, shape, etc.). can contain information that can identify
  • the controller 30 may automatically determine the icon information, or may set it according to a user instruction.
  • the controller 30 can assign some initial icon to the newly detected sound source according to a predetermined rule or randomly. However, when the icon of the sound source is not displayed on the map image as in Modification 2, which will be described later, the icon information can be omitted from the sound source information.
  • the "direction" field stores sound source direction information.
  • the sound source direction information is information regarding the direction of the sound source with respect to the multi-microphone device 50 .
  • the direction of the sound source is defined as a reference direction (in the present embodiment, the front (x+ direction) of the multi-microphone device 50) determined with reference to the microphones 51-1 to 51-5 in the microphone coordinate system as 0 degrees. It is expressed as an angle of deviation from the axis that
  • Recognition language information is stored in the "recognition language" field.
  • the recognized language information is information about the language used by the sound source (speaker). Based on the recognized language information of the sound source, a speech recognition engine to be applied to the speech generated from the sound source is selected.
  • the setting of the recognition language information may be specified by a user operation, or may be automatically specified based on a language recognition result by a speech recognition model.
  • Translation language information is stored in the "translation language" field.
  • the translation language information is information about the target language when machine translation is applied to the speech recognition result (text) of the speech emitted from the sound source. Based on the translation language information of the sound source, a machine translation engine to be applied to the speech recognition result for the speech generated from the sound source is selected. Note that the translation language information may be set collectively for all sound sources instead of individual sound sources, or may be set for each display device 10 .
  • the sound source information may include sound source distance information.
  • the sound source distance information is information regarding the distance from the multi-microphone device 50 to the sound source.
  • the sound source direction information and the sound source distance information can also be expressed as sound source position information.
  • the sound source position information is information about the relative position of the sound source with respect to the multi-microphone device 50 (that is, the coordinates of the sound source in the coordinate system of the multi-microphone device 50).
  • FIG. 6 is a flowchart of audio processing according to this embodiment.
  • FIG. 7 is a diagram for explaining sound collection by a microphone.
  • FIG. 8 is a diagram for explaining the direction of the sound source in the reference coordinate system.
  • FIG. 9 is a diagram showing an example of a map image.
  • the audio processing shown in FIG. 6 is started after the display device 10, the controller 30, and the multi-microphone device 50 are powered on and the initial settings are completed.
  • the start timing of the processing shown in FIG. 6 is not limited to this.
  • the processing shown in FIG. 6 may be repeatedly executed, for example, at a predetermined cycle, so that the user of the information processing system 1 can browse the map image updated in real time.
  • the multi-microphone device 50 acquires an audio signal via the microphone 51 (S150). Specifically, a plurality of microphones 51-1, . Microphones 51-1 to 51-5 collect speech sounds arriving via a plurality of paths shown in FIG. The microphones 51-1 to 51-5 convert the collected speech sounds into audio signals.
  • a processor provided in the multi-microphone device 50 acquires audio signals including speech sounds uttered by at least one of the speakers PR3, PR4, and PR5 from the microphones 51-1 to 51-5.
  • the audio signals obtained from the microphones 51-1 to 51-5 contain spatial information (for example, delay and phase change) based on the path along which the speech sound has traveled.
  • the multi-microphone device 50 After step S150, the multi-microphone device 50 performs direction-of-arrival estimation (S151).
  • a direction-of-arrival estimation model is stored in the storage device of the multi-microphone device 50 .
  • the direction-of-arrival estimation model describes information for identifying the correlation between the spatial information included in the speech signal and the direction of arrival of the speech sound.
  • the direction-of-arrival estimation method uses MUSIC (Multiple Signal Classification) using eigenvalue expansion of the input correlation matrix, minimum norm method, or ESPRIT (Estimation of Signal Parameters via Rotational Invariance Techniques).
  • MUSIC Multiple Signal Classification
  • ESPRIT Estimation of Signal Parameters via Rotational Invariance Techniques.
  • the multi-microphone device 50 inputs the sound signals received from the microphones 51-1 to 51-5 into the direction-of-arrival estimation model, so that the direction of arrival ( That is, the direction of the sound source of the speech sound with respect to the multi-microphone device 50) is estimated.
  • the multi-microphone device 50 for example, in the microphone coordinate system, the reference direction determined with reference to the microphones 51-1 to 51-5 (in this embodiment, the front of the multi-microphone device 50 (x + direction))
  • the direction of arrival of the speech sound is represented by the angle of deviation from the axis where is 0 degree. In the example shown in FIG.
  • the multi-microphone device 50 estimates that the direction of arrival of the speech sound emitted by the speaker PR3 is shifted leftward from the x-axis by an angle A2.
  • the multi-microphone device 50 estimates that the direction of arrival of the voice uttered by speaker PR4 is the direction shifted leftward from the x-axis by an angle A3.
  • the multi-microphone device 50 estimates that the direction of arrival of the speech sound emitted by the speaker PR5 is shifted rightward from the x-axis by an angle A1.
  • the multi-microphone device 50 extracts an audio signal (S152).
  • a storage device included in the multi-microphone device 50 stores a beamforming model.
  • the beamforming model describes information for identifying a correlation between a predetermined direction and parameters for forming directivity having a beam in that direction.
  • forming the directivity is a process of amplifying or attenuating a sound coming from a specific direction of arrival.
  • the multi-microphone device 50 calculates parameters for forming directivity having a beam in the direction of arrival.
  • the multi-microphone device 50 inputs the calculated angle A1 into the beamforming model, and forms a directivity with a beam in a direction shifted by an angle A1 to the right from the x-axis. to calculate The multi-microphone device 50 inputs the calculated angle A2 to the beamforming model, and calculates parameters for forming directivity having a beam in a direction shifted by an angle A2 leftward from the x-axis. The multi-microphone device 50 inputs the calculated angle A3 to the beamforming model, and calculates parameters for forming directivity having a beam in a direction shifted by the angle A3 leftward from the x-axis.
  • the multi-microphone device 50 amplifies or attenuates the audio signals acquired from the microphones 51-1 to 51-5 using parameters calculated for the angle A1.
  • the multi-microphone device 50 synthesizes the amplified or attenuated audio signals to extract, from the acquired audio signals, the audio signal of the speech sound coming from the sound source in the direction corresponding to the angle A1.
  • the multi-microphone device 50 amplifies or attenuates the audio signals acquired from the microphones 51-1 to 51-5 using the parameters calculated for the angle A2.
  • the multi-microphone device 50 synthesizes the amplified or attenuated audio signals, and extracts the audio signal of the speech sound coming from the sound source in the direction corresponding to the angle A2 from the acquired audio signals.
  • the multi-microphone device 50 amplifies or attenuates the audio signals acquired from the microphones 51-1 to 51-5 using parameters calculated for the angle A3.
  • the multi-microphone device 50 synthesizes the amplified or attenuated audio signals, and extracts the audio signal of the speech sound coming from the sound source in the direction corresponding to the angle A3 from the acquired audio signals.
  • the multi-microphone device 50 transmits the extracted audio signal to the controller 30 together with information indicating the direction of the sound source corresponding to the audio signal estimated in step S151 (that is, the estimation result of the direction of the sound source for the multi-microphone device 50). do.
  • the controller 30 After step S152, the controller 30 performs sound source identification (S130). Specifically, the controller 30 identifies sound sources existing around the multi-microphone device 50 based on the estimation result of the direction of the sound source (hereinafter referred to as “target direction”) obtained in step 151 .
  • target direction the direction of the sound source
  • the controller 30 determines whether the sound source corresponding to the target direction is the same as the identified sound source, and if the sound source corresponding to the target direction is not the identified sound source, a new sound source ID ( 5). Specifically, the controller 30 compares the direction of interest with the sound direction information (FIG. 5) for the identified sound sources. Then, when the controller 30 determines that the target direction matches any of the sound source direction information about the identified sound sources, the controller 30 selects the sound source corresponding to the target direction as a (identified) sound source having matching sound source direction information.
  • the controller 30 determines that the target direction does not match any of the sound source direction information for the identified sound sources, the controller 30 detects that a new sound source exists in the target direction, is assigned a sound source ID.
  • the fact that the target direction matches the sound source direction information includes at least that the target direction matches the direction indicated by the sound source direction information, and furthermore, the difference or ratio of the target direction to the direction indicated by the sound source direction information is within an allowable range. can include being within
  • the storage device 31 stores a speech recognition model.
  • a speech recognition model describes information for identifying a speech signal and the correlation of text to the speech signal.
  • a speech recognition model is, for example, a trained model generated by machine learning. Note that the speech recognition model may be stored in an external device (for example, a cloud server) that can be accessed by the controller 30 via a network (for example, the Internet) instead of the storage device 31 .
  • the controller 30 determines the text corresponding to the input speech signal by inputting the extracted speech signal into the speech recognition model.
  • the controller 30 may select the speech recognition engine based on the recognition language information of the sound source corresponding to the speech signal.
  • the controller 30 determines the text corresponding to the input speech signals by inputting the speech signals extracted for the angles A1 to A3 into the speech recognition model.
  • the controller 30 executes machine translation (S132). Specifically, when the translation language information (FIG. 5) is set for the sound source of the voice corresponding to the text generated in step S131, the controller 30 performs machine translation of the text. Thereby, the controller 30 obtains the text in the language designated by the translation language information. The controller 30 may select a machine translation engine based on the translation language information of the sound source corresponding to the audio signal. On the other hand, when the translation language information (FIG. 5) is not set for the sound source of the speech corresponding to the text generated in step S131 (that is, when converting the speech into text without translating it), the controller 30 A step can be omitted.
  • the controller 30 After step S132, the controller 30 generates a map image (S133). Specifically, the controller 30 generates a text image representing text based on the result of the speech recognition processing in step S131 or the result of the machine translation processing in step S132. The controller 30 sets the sound source icon representing the identified sound source around the microphone icon (for example, centering around the microphone icon) based on the direction of the sound source with respect to the multi-microphone device 50 (that is, the estimation result of step S151). on the circumference). The controller 30 places the aforementioned text image at a predetermined position with respect to the sound source icon representing the sound source of the corresponding sound.
  • the controller 30 generates the map image shown in FIG.
  • the microphone coordinate system is converted into the map coordinate system so that the front (x+ direction) of the microphone icon MI31 faces upward in the map image.
  • the controller 30 can change the correspondence between the microphone coordinate system and the map coordinate system.
  • the controller 30 displays each sound source icon around the display position of the microphone icon MI31 so that a specific sound source icon is positioned in a predetermined direction (for example, downward direction) of the map coordinate system in accordance with a user instruction. You can rotate the position. For example, in the map image of FIG. 4, the display positions of the sound source icons SI31 to SI34 rotate counterclockwise around the display position of the microphone icon MI31 in the map image of FIG.
  • the sound source icon SI31 is positioned below the map image.
  • the controller 30 may also generate a map image so as to emphasize a sound source icon representing the sound source or text relating to the sound while the sound source is producing sound. Controller 30 may, for example, emphasize the sound source icon or text by at least one of the following. ⁇ Add animation ⁇ Enlarge display ⁇ Change color, texture, optical effect, or shape
  • step S133 the controller 30 performs information display (S134). Specifically, the controller 30 displays the map image generated in step S ⁇ b>133 on the display 11 of the display device 10 .
  • FIG. 10 is a flowchart of sound source setting processing according to the present embodiment.
  • FIG. 11 is a diagram showing an example of a screen displayed in the tone generator setting process of this embodiment.
  • the sound source setting process shown in FIG. 10 is started in response to an instruction from the user of the information processing system 1 after the sound process shown in FIG. 6 is started.
  • the start timing of the sound source setting process shown in FIG. 10 is not limited to this.
  • the processing in FIG. 10 may be executed as initial setting processing before starting the audio processing shown in FIG.
  • the controller 30 performs sound source selection (S230). Specifically, the controller 30 displays a sound source setting UI for the user to set sound source information on the display 11 of the display device 10 . As an example, the controller 30 displays the screen of FIG. 11 on the display 11 of the display device 10.
  • FIG. The screen of FIG. 11 includes a map image MP40 and a sound source setting UI (image) CU40.
  • the sound source setting UI CU40 includes display objects A41 and A42 and an operation object B43.
  • the display object A41 displays information of registered participants (for example, sound source icon and registered sound source name).
  • the registered participants mean the sound sources (speakers) identified in the sound source identification (S130) of FIG. 6 and whose sound source name information is registered by the sound source setting process shown in FIG. .
  • the display object A42 displays information about unregistered participants (eg, sound source icon and initial sound source name).
  • the unregistered participants are the sound sources (speakers) identified in the sound source identification (S130) in FIG. sound source that uses the initial sound source name).
  • the operation object B43 accepts an operation to add a participant. Specifically, the user of the information processing system 1 selects the operation object B43 and further designates one of the unregistered participants. Controller 30 may present input forms (eg, text fields, menus, radio buttons, checkboxes, or combinations thereof) on display device 10 to accept designation of unregistered participants.
  • input forms eg, text fields, menus, radio buttons, checkboxes, or combinations thereof
  • the controller 30 selects a sound source (unregistered participant) for which sound source information is to be set, according to user instructions.
  • the controller 30 acquires sound source information (S231). Specifically, the controller 30 acquires the sound source information to be set for the sound source selected in step S230 according to the user's instruction. As an example, the controller 30 acquires sound source name information for the selected sound source. Further, controller 30 may acquire icon information, recognition language information, translation language information, or a combination thereof for the selected sound source. Controller 30 may display input forms (eg, text fields, menus, radio buttons, check boxes, or combinations thereof) on display 11 of display device 10 to obtain sound source information. The controller 30 may acquire the participant information of the conversation and generate the elements of the input form (menu, radio button, or check box) based on the participant information. Conversation participant information may be set manually before the start of the conversation, or may be obtained from an account name logged into the information processing system 1 or a cooperating conference system.
  • input forms eg, text fields, menus, radio buttons, check boxes, or combinations thereof
  • the controller 30 updates the sound source information (S232). Specifically, the controller 30 updates the sound source information by associating the sound source information acquired in step S231 with the sound source ID that identifies the sound source selected in step S230 and registering it in the sound source database (FIG. 5).
  • the controller 30 may end the tone generator setting process shown in FIG. Alternatively, the controller 30 may repeatedly execute the sound source setting process until the user instructs the end of the sound source setting process or sound source information is set for all unregistered participants.
  • the controller 30 of the present embodiment acquires the estimation result indicating the direction of the sound source with respect to the multi-microphone device 50, and the sound emitted from the sound source and collected by the multi-microphone device 50 Get information about the content of the audio.
  • the controller 30 generates a map image in which the text is arranged at a position corresponding to the direction of the sound source corresponding to the text with respect to the multi-microphone device 50 and displays the map image on the display 11 of the display device 10 . This allows the viewer of the map image to intuitively recognize the association between the sound source (eg, speaker) and the content of the voice (eg, utterance) emitted from the sound source.
  • the controller 30 may identify individual sound sources existing around the multi-microphone device 50 based on the results of estimating the directions of the sound sources, and set sound source information regarding the identified sound sources, for example, according to user instructions. This makes it possible to appropriately set the sound source information for the sound source corresponding to the text displayed on the map image.
  • the controller 30 may set at least one of sound source name information, recognition language information, and translation language information for the identified sound source. This makes it possible to clarify who said the text displayed in the map image, and to generate accurate or user-friendly text.
  • the controller 30 includes a microphone icon representing the multi-microphone device 50 and a sound source icon representing the sound source, and the sound source icon indicates the direction of the sound source corresponding to the sound source icon with respect to the multi-microphone device on the circumference centered on the microphone icon.
  • You may generate
  • the viewer of the map image can intuitively recognize in which direction the text displayed on the map image corresponds to the sound emitted from the sound source positioned with respect to the multi-microphone device 50.
  • the viewer of the map image can intuitively recognize which sound source in the real space the sound source icon displayed on the map image corresponds to.
  • the controller 30 may display the map image so as to emphasize the sound source icon representing the sound source or the information regarding the content of the sound. This allows the viewer to easily identify the sound source and text of interest (e.g., who is speaking and what is being said) even when multiple sound source icons and multiple texts are displayed on the map image. can be discriminated. Further, the controller 30 rotates the display position of each sound source icon and each text around the display position of the microphone icon so that the specific sound source icon is positioned in a specific direction (for example, downward direction) on the map image. good too. As a result, a speaker (for example, a hearing-impaired person) corresponding to a specific sound source icon can easily grasp the correspondence between another speaker (sound source) and the sound source icon in the map image.
  • a speaker for example, a hearing-impaired person
  • Modification 1 is an example of generating the minutes in addition to the map image.
  • FIG. 12 is a diagram illustrating one mode of Modification 1.
  • the controller 30 generates a map image and minutes while a conversation is being held by a plurality of participants, and displays them on the display 11 of the display device 10.
  • the minutes correspond to an utterance history in which utterances by sound sources (speakers) around the multi-microphone device 50 are arranged in chronological order.
  • the controller 30 updates the map image and the minutes according to the participant's remarks. As a result, the minutes play a role of UI for visually grasping the flow of the conversation so far (particularly, who said what) in real time.
  • the controller 30 displays the map image MP50 and the minutes (image) MN50 side by side on the display 11 of the display device 10, for example.
  • the minutes MN50 includes a display object A51.
  • Controller 30 may display only one of map image MP50 and minutes MN50 selected by the user on display 11 of display device 10 instead of arranging map image MP50 and minutes MN50 on one screen. .
  • the display object A51 displays information on the speaker's utterance (for example, speaker (sound source) icon or name, utterance time, utterance content, or a combination thereof).
  • a user of the information processing system 1 finds an error (for example, an error in speech recognition or an error in machine translation) in the statement content arranged in the minutes MN50. ) is found, the user can select the display object A51 that displays the content of the statement and edit the content of the statement.
  • the controller 30 acquires the edited statement content from the user via, for example, an input form, and updates the display object A51 based on the statement content. Further, if the map image MP50 includes text corresponding to the edited comment content, the controller 30 may update the text.
  • the controller 30 may cause the display 11 to display a screen shown in FIG. 18 instead of the screen shown in FIG.
  • the direction of the speaker with respect to the multi-microphone device 50 is indicated by displaying an arc mark on the icon of the speaker.
  • the user can grasp in which direction the speaker of each utterance is present with respect to the multi-microphone device 50 by only confirming the minutes MN50 without confirming the map image MP50.
  • the controller 30 generates minutes corresponding to the history of utterances by speakers present around the multi-microphone device 50 and displays them on the display 11 of the display device 10 . This allows the viewer of the minutes to easily look back on the flow of the conversation.
  • FIG. 13 is a diagram showing the data structure of the utterance database of Modification 1. As shown in FIG.
  • the statement database stores statement information.
  • the utterance information is information about voice (utterance) collected by the multi-microphone device 50 .
  • the statement database includes a "statement ID” field, a “sound source ID field”, a “statement date and time” field, and a “statement content” field. Each field is associated with each other.
  • a statement ID is stored in the "statement ID" field.
  • the statement ID is information that identifies the statement.
  • the controller 30 detects a new utterance from the speech recognition result or the machine translation result, it issues a new utterance ID and assigns the utterance ID to the utterance.
  • the controller 30 divides the utterance according to the turn of the speaker.
  • the controller 30 can delimit even a series of utterances by the same speaker according to speech boundaries (for example, silence intervals) or semantic boundaries of text.
  • a sound source ID is stored in the "sound source ID" field.
  • the sound source ID is information for identifying a speaker (sound source) who has made a statement.
  • the sound source ID corresponds to a foreign key for referring to the sound source database of FIG. 5 as a parent table.
  • the utterance date/time information is information related to the date/time when the utterance was made.
  • the statement date and time information may be information indicating an absolute date and time, or may be information indicating an elapsed time from the start of the conversation.
  • the "statement content” field stores statement content information.
  • the statement content information is information about the content of the statement.
  • the utterance content information is, for example, a speech recognition result for the utterance, a machine translation result for the speech recognition result, or a user's editing result for these.
  • the utterance database can also be used to reproduce a map image at a specific point in time in this embodiment.
  • FIG. 14 is a flowchart of the audio processing of Modification 1.
  • the audio processing shown in FIG. 14 is started after the display device 10, the controller 30, and the multi-microphone device 50 are powered on and the initial settings are completed.
  • the start timing of the processing shown in FIG. 14 is not limited to this.
  • the process shown in FIG. 14 may be repeatedly executed, for example, at a predetermined cycle, so that the user of the information processing system 1 can browse the map image and minutes updated in real time.
  • the multi-microphone device 50 acquires the audio signal (S150), estimates the direction of arrival (S151), and extracts the audio signal (S152), as in FIG.
  • step S152 the controller 30 executes sound source identification (S130), speech recognition processing (S131), machine translation (S132), and map image generation (S133), as in FIG. Note that the controller 30 registers the utterance information in the utterance database (FIG. 13) during steps S130 to S132.
  • the controller 30 executes minutes generation (S334). Specifically, the controller 30 refers to the statement database (FIG. 13) and generates minutes. As an example, the controller 30 may refer to the minutes generated when step S334 was executed last time (hereinafter referred to as "previous “Minutes”) may be updated.
  • controller 30 executes information display (S335). Specifically, controller 30 displays the map image generated in step S133 and the minutes generated in step S334 on display 11 of display device 10 .
  • the controller 30 of Modification 1 provides text (that is, speech recognition results or machine The minutes are generated based on the translation result), and the minutes are displayed on the display 11 of the display device 10 side by side with the map image.
  • text that is, speech recognition results or machine
  • the minutes are displayed on the display 11 of the display device 10 side by side with the map image.
  • the controller 30 may generate the minutes by arranging the texts related to the statements in chronological order of the date and time of the statements. This allows the viewer of the minutes to intuitively recognize the flow of the conversation up to that point.
  • the controller 30 may also edit the text placed in the minutes according to user instructions.
  • Modification 2 is an example of generating a map image different from that of the present embodiment.
  • FIG. 15 is a diagram illustrating an example of a map image according to modification 2.
  • FIG. 16 is a diagram showing another example of the map image of Modification 2. In FIG.
  • the controller 30 generates a map image and displays it on the display 11 of the display device 10 while the conversation is being held by a plurality of participants.
  • the map image corresponds to a bird's-eye view of the sound source (speaker) environment around the multi-microphone device 50, and the text based on the voice uttered by the speaker is at a position based on the direction of the speaker with respect to the multi-microphone device 50. placed.
  • the controller 30 updates the map image according to the participant's speech. As a result, the map image serves as a UI for visually grasping the content of the most recent conversation (particularly, who is speaking what) in real time.
  • the map image shown in FIG. 15 includes a microphone icon MI61, a circumference CI61, display objects A61 and A62, and text images TI61a, TI61b and TI62.
  • Microphone icon MI61 represents multi-microphone device 50, similar to microphone icon MI31 (FIG. 4).
  • the microphone icon MI61 has a mark MR61 indicating the direction of the microphone icon MI61.
  • a circumference CI61 corresponds to a circumference centered on the microphone icon MI61, like the circumference CI31 (FIG. 4).
  • a text image TI61a is an utterance by the first speaker, and corresponds to the utterance content with the second latest utterance date and time among the text images TI61a, TI61b, and TI62 displayed in FIG.
  • the text image TI 61 a is arranged at a position corresponding to the direction of the first speaker with respect to the multi-microphone device 50 .
  • the text image TI61a is arranged along a straight line extending from the display position of the microphone icon MI61 (an example of the “origin of the map coordinate system”) toward the (estimated) direction of the first speaker.
  • a text image TI61b is an utterance by the first speaker, and corresponds to the utterance content with the latest utterance date and time among the text images TI61a, TI61b, and TI62 displayed in FIG.
  • the text image TI61b is placed at a position corresponding to the direction of the first speaker with respect to the multi-microphone device 50.
  • FIG. Specifically, the text image TI61b is arranged along a straight line extending from the display position of the microphone icon MI61 in the (estimated) direction of the first speaker. However, the text image TI61b is arranged at a position closer to the display position of the microphone icon MI61 than the text image TI61a corresponding to the older utterance date and time.
  • the display object A61 displays the (estimated) direction of the first speaker (sound source) with respect to the multi-microphone device 50.
  • the display object A61 corresponds to a sector having a predetermined angular width centered on a straight line extending from the display position of the microphone icon MI61 toward the first speaker.
  • the controller 30 may set a specific format for the display object A61 that is different from other objects displaying the direction of the speaker.
  • the controller 30 may format the display object A61 at least partially identical to the text images TI61a, TI61b. For example, the controller 30 may align the display object A61 with a color similar to the background or characters of the text images TI61a and TI61b.
  • a text image TI62 is an utterance by the second speaker, and corresponds to the utterance content with the oldest utterance date and time among the text images TI61a, TI61b, and TI62 displayed in FIG.
  • the text image TI62 is arranged at a position corresponding to the direction of the second speaker with respect to the multi-microphone device 50.
  • FIG. Specifically, the text image TI62 is arranged along a straight line extending from the display position of the microphone icon MI61 in the (estimated) direction of the second speaker.
  • the display object A62 displays the (estimated) direction of the second speaker (sound source) with respect to the multi-microphone device 50.
  • the display object A62 corresponds to a sector having a predetermined angular width centered on a straight line extending from the display position of the microphone icon MI61 toward the second speaker.
  • the controller 30 may set the display object A62 to a specific format that is different from other objects displaying the direction of the speaker.
  • Controller 30 may format display object A62 at least partially identical to text image TI62. For example, the controller 30 may align the display object A62 with a color similar to the background or characters of the text image TI62.
  • the controller 30 updates the map image shown in FIG. 15 to the map image shown in FIG. 16 in response to new statements by the participants.
  • the map image shown in FIG. 16 includes a microphone icon MI61, a circumference CI61, a display object A61, and text images TI61a, TI61b, and TI61c.
  • the text image TI61a is an utterance by the first speaker, and corresponds to the utterance content with the oldest utterance date and time among the text images TI61a, TI61b, and TI61c displayed in FIG. As in FIG. 15, the text image TI61a is arranged along a straight line extending from the display position of the microphone icon MI61 toward the (estimated) direction of the first speaker. However, the controller 30 moves the display position of the text image TI61a away from the display position of the microphone icon M61 compared to the map image shown in FIG.
  • the text image TI61b is an utterance by the first speaker, and corresponds to the utterance content with the second latest utterance date and time among the text images TI61a, TI61b, and TI61c displayed in FIG.
  • the text image TI61b is arranged along a straight line extending from the display position of the microphone icon MI61 toward the (estimated) direction of the first speaker.
  • the controller 30 moves the display position of the text image TI61b away from the display position of the microphone icon M61 compared to the map image shown in FIG.
  • the text image TI61b is positioned closer to the display position of the microphone icon MI61 than the text image TI61a corresponding to the older utterance date and time, and the microphone icon MI61 is displayed in a position closer to the display position of the microphone icon MI61 than the text image TI61c corresponding to the newer utterance date and time. Placed at a position far from the position.
  • a text image TI61c is an utterance by the first speaker, and corresponds to the utterance content with the latest utterance date and time among the text images TI61a, TI61b, and TI61c displayed in FIG.
  • the text image TI61c is arranged along a straight line extending from the display position of the microphone icon MI61 toward the (estimated) direction of the first speaker. However, the text image TI61c is arranged at a position closer to the display position of the microphone icon MI61 than the text images TI61a and TI61b corresponding to the older utterance date and time.
  • the controller 30 does not place the text image TI62 corresponding to the utterance position older than the text image TI61a on the map image, and does not place the display object A62 on the map image. This makes it easier for the viewer of the map image to pay attention to the content of the most recent utterance and the speaker.
  • the controller 30 multiplies the texts corresponding to the voices uttered by the same speaker so that they move away from the origin of the map coordinate system (for example, the display position of the microphone icon MI61) in chronological order of date and time of corresponding occurrence.
  • a map image is generated by arranging along the (estimated) direction of the speaker with respect to the microphone device 50 .
  • the viewer of the map image can intuitively recognize the association between the speaker and the content of the statement, and the temporal order of the statement can be determined by the display position of the text corresponding to the statement and the map coordinate system. It can be determined based on the distance from the origin.
  • each text image is displayed rotated in the direction corresponding to the direction of the sound source. may be
  • Modification 3 is an example of generating a map image for each of a plurality of multi-microphone devices installed at different locations.
  • 17A and 17B are diagrams illustrating an example of a map image according to Modification 3.
  • FIG. 1
  • the controller 30 During a conversation with multiple participants in different locations (e.g., different conference rooms, different offices, or different companies), the controller 30 generates a map image for each location and displays the display device 10 is displayed on the display 11 of the Each map image corresponds to a bird's-eye view of the sound source (speaker) environment around the multi-microphone device 50 installed at each location. The text is placed based on the sound emitted from the .
  • the controller 30 updates the map image according to the participant's speech.
  • the map image serves as a UI for visually grasping in real time the content of the most recent conversations at each location (particularly, who is speaking what at which location).
  • the controller 30 displays a map image MP71 of the first location and a map image MP72 of the second location side by side on the display 11 of the display device 10, for example.
  • the controller 30 may display only one of the map images MP71 and MP72 selected by the user on the display 11 of the display device 10 instead of arranging the map images MP71 and MP72 on one screen.
  • the controller 30 generates map images for each of the multiple multi-microphone devices 50 installed at different locations.
  • the viewer of the map image can intuitively recognize the association between the location, the speaker, and the utterance content. .
  • the speaker at the second location can be easily identified. In other words, it is possible to compensate for the deterioration of the presence caused by the remote conference.
  • the storage device 31 may be connected to the controller 30 via a network.
  • Each step of the above information processing can be executed by any of the display device 10, the controller 30 and the multi-microphone device 50.
  • the controller 30 may acquire multi-channel audio signals generated by the multi-microphone device 50, estimate the direction of arrival (S151), and extract the audio signal (S152).
  • the display device 10 and the controller 30 are independent devices.
  • display device 10 and controller 30 may be integrated.
  • the display device 10 and controller 30 can be implemented as one tablet terminal or personal computer.
  • the multi-microphone device 50 and the display device 10 or the controller 30 may be integrated.
  • the controller 30 may reside in a cloud server.
  • the display device 10 is an electronic device such as a tablet terminal, a personal computer, a smart phone, a conference display device, etc., which can easily share display contents with multiple users.
  • display device 10 may also be configured to be wearable on a human head.
  • display device 10 may be a glasses-type display device, a head-mounted display, a wearable device, or smart glasses.
  • the display device 10 may be an optical see-through glass type display device, but the format of the display device 10 is not limited to this.
  • display device 10 may be a video see-through glass-type display device. That is, display device 10 may comprise a camera.
  • the display device 10 may display on the display 11 a synthesized image obtained by synthesizing the text image generated based on the voice recognition and the captured image captured by the camera.
  • the captured image is an image captured in front of the user and may include an image of the speaker.
  • the display device 10 may perform AR (Augmented Reality) display by synthesizing a text image generated based on voice recognition and a captured image captured by a camera, for example, in a smartphone, personal computer, or tablet terminal. .
  • a plurality of display devices 10 may be connected to one controller 30 .
  • the layout of the map image for example, correspondence between the microphone coordinate system and the map coordinate system
  • translation language information may be configured to be changeable for each display device 10 .
  • the display 11 may be implemented by any method as long as it can present an image to the user.
  • the display 11 can be implemented, for example, by the following implementation method.
  • ⁇ HOE Holographic optical element
  • DOE diffractive optical element
  • an optical element as an example, a light guide plate
  • ⁇ Liquid crystal display ⁇ Retinal projection display
  • LED Light Emitting Diode
  • Organic EL Electro Luminescence
  • ⁇ Laser display ⁇ Optical element (for example, lens, mirror, diffraction grating, liquid crystal, MEMS mirror, HOE) 2.
  • the display 11 may display only a portion of the map image (for example, the upper half). Thereby, even when the display area of the display 11 is small, the visibility of the text image and the like can be maintained. A part of the map image displayed on the display 11 may be switched according to a user instruction or automatically.
  • a user's instruction may be input from an operation unit provided in the display device 10 .
  • any implementation method can be used as long as voice signals corresponding to a specific speaker can be extracted.
  • the multi-microphone device 50 may extract audio signals by, for example, the following method.
  • Frost beamformer Adaptive filter beamforming generally sidelobe canceller as an example
  • ⁇ Speech extraction methods other than beamforming for example, frequency filter or machine learning
  • the controller 30 may obtain text posted by chat participants in the chat associated with the conversation and place the text (image) on the map image.
  • the controller 30 may arrange contributor icons representing chat participants on the map image in the same manner as the sound source icons. This makes it easier for the conversation participants to recognize the content posted by the chat participants.
  • the text posted by the chat participant hereinafter referred to as “posted text”
  • the display position of the poster icon can be determined by various techniques.
  • the controller 30 may display the poster icon or the posted text outside the circumference CI31 or CI61, for example, to distinguish it from the sound source icon or the text about the statement.
  • the controller 30 detects that the chat participant is the same person as one of the speakers, the controller 30 displays the text posted by the speaker according to the same rule as the text regarding the statement by the speaker. By doing so, the content of comments and the content of posts by the same person may be aggregated.
  • the controller 30 determines the orientation of chat participants with respect to the multi-microphone device 50 in accordance with user instructions, and arranges poster icons or posted texts (for example, on the circumference CI 31) based on the determined orientation. ).
  • the controller 30 may move the display position of the poster icon or the posted text on the map image in accordance with the user's instruction.
  • the display position of the poster icon or posted text is optimized (for example, the speaker sound source icon and text image).
  • Modified Example 1 an example has been described in which minutes are generated and the contents of remarks placed in the minutes can be edited by the user.
  • the user may add a supplementary explanation about the statement, without being limited to correcting the content of the statement itself. As a result, it is possible to prevent the gist of the statement from being misunderstood or misunderstood by the audience of the minutes.
  • Controller 30 may obtain text posted by chat participants in chats associated with the conversation and generate minutes further based on the text. In this case, the controller 30 generates the minutes by arranging the posted texts or the texts indicating the contents of the comments in chronological order of the posting date/time or the speaking date/time. For example, the posted text and the text indicating the content of the statement may be arranged in the same window in chronological order. This makes it easier for the participants in the conversation to recognize the content posted by the chat participant, and prevents the chat participant from overlooking the content posted by the chat participant when reviewing the flow of the discussion.
  • Modified Example 2 an example was shown in which text images corresponding to three utterance contents are arranged on the map image in order of date and time of occurrence.
  • the number of text images arranged on the map image may be two or less, or may be four or more.
  • the number of text images arranged on the map image may be fixed, or may be variable according to various conditions (for example, the size of the map image, the number of characters included in the content of the statement, etc.). good.
  • the text image to be placed on the map image may be determined depending on whether or not the elapsed time from the date and time of the statement corresponding to the text image is within a threshold.
  • the map image described in this embodiment and the map image described in modification 2 can be combined.
  • the sound source icon described in this embodiment may be displayed. may be displayed.
  • controller 30 may generate map images for more than two locations.
  • controller 30 may generate the minutes by arranging the content of statements made by the participants at a plurality of locations in chronological order. In this case, the controller 30 may collect the statements of each participant into the same minutes regardless of where the participants are.
  • information processing system 10 display device 11: display 30: controller 31: storage device 32: processor 33: input/output interface 34: communication interface 50: multi-microphone device

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本開示の一態様の情報処理装置は、少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成する手段と、ディスプレイデバイスの表示部に前記マップ画像を表示する手段とを具備する。

Description

情報処理装置、情報処理方法、及びプログラム
 本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
 難聴者は、聴覚機能の低下のため、音の到来方向を捉える能力が低下していることがある。このような難聴者が、複数人での会話を行おうとする場合、誰が何を話しているかを正確に認識するのが難しく、コミュニケーションに支障が生じる。
 特許文献1には、複数の使用者それぞれに対応する表示領域を表示部の画像表示領域に設定し、ある使用者の音声に対する音声認識結果であるテキストを、他の使用者に設定された画像表示領域に表示する会話支援装置が開示されている。
特開2017-129873号公報
 特許文献1に記載の会話支援装置では、ある使用者に設定された画像表示領域に、他の使用者の発言が集約された状態で表示される。故に、特に会話の参加者が3名以上である場合に、どの発言が誰によるものなのか、また誰がどんな発言をしたのか、を即座に把握することが困難である。
 本開示の目的は、ユーザが視覚情報に基づいて話者と発言内容とを直感的に関連付けられるようにすることである。
 本開示の一態様の情報処理装置は、少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成する手段と、ディスプレイデバイスの表示部に前記マップ画像を表示する手段とを具備する。
本実施形態の情報処理システムの構成を示すブロック図である。 本実施形態のコントローラの構成を示すブロック図である。 本実施形態のマルチマイクデバイスの外観を示す図である。 本実施形態の一態様を示す図である。 本実施形態の音源データベースのデータ構造を示す図である。 本実施形態の音声処理のフローチャートである。 マイクロホンによる集音を説明するための図である。 基準座標系における音源の方向を説明するための図である。 マップ画像の一例を示す図である。 本実施形態の音源設定処理のフローチャートである。 本実施形態の音源設定処理において表示される画面例を示す図である。 変形例1の一態様を示す図である。 変形例1の発言データベースのデータ構造を示す図である。 変形例1の音声処理のフローチャートである。 変形例2のマップ画像の一例を示す図である。 変形例2のマップ画像の別の例を示す図である。 変形例3のマップ画像の例を示す図である。 変形例1の画像表示の一例を示す図である。
 以下、本発明の一実施形態について、図面に基づいて詳細に説明する。なお、実施形態を説明するための図面において、同一の構成要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
 以降の説明において、マルチマイクデバイスの位置及び向きを基準とする座標系(マイク座標系)を用いることがある。マイク座標系は、マルチマイクデバイスの位置(例えばマルチマイクデバイスの重心位置)を原点とし、当該原点においてx軸およびy軸が直交する。マイク座標系において、x+方向をマルチマイクデバイスの前方としたとき、x-方向をマルチマイクデバイスの後方、y+方向をマルチマイクデバイスの左方向、y-方向をマルチマイクデバイスの右方向とそれぞれ定義する。また、特定の座標系における方向とは、当該座標系の原点に対する方向を意味する。
(1)情報処理システムの構成
 情報処理システムの構成について説明する。図1は、本実施形態の情報処理システムの構成を示すブロック図である。
 図1に示すように、情報処理システム1は、ディスプレイデバイス10と、コントローラ30と、マルチマイクデバイス50とを備える。
 情報処理システム1は、複数のユーザによって使用される。ユーザの少なくとも1人は難聴者であってもよいし、ユーザの全員が難聴者でなくてもよい(つまり、ユーザの全員が会話に十分な聴力を有する者であってもよい)。
 ディスプレイデバイス10およびコントローラ30は、通信ケーブル、または無線チャネル(例えば、Wi-Fiチャネル又はBluetooth(登録商標)チャネル)を介して接続される。
 同様に、コントローラ30およびマルチマイクデバイス50は、通信ケーブル、または無線チャネル(例えば、Wi-Fiチャネル又はBluetoothチャネル)を介して接続される。
 ディスプレイデバイス10は、1以上のディスプレイ11(「表示部」の一例)を備える。ディスプレイデバイス10は、コントローラ30から画像信号を受信し、当該画像信号に応じた画像をディスプレイに表示する。ディスプレイデバイス10は、例えば、タブレット端末、パーソナルコンピュータ、スマートフォン、会議用ディスプレイ装置である。ディスプレイデバイス10は、ユーザの指示を取得するための入力デバイスまたは操作部を備えていてもよい。
 コントローラ30は、ディスプレイデバイス10およびマルチマイクデバイス50を制御する。コントローラ30は、情報処理装置の一例である。コントローラ30は、例えば、スマートフォン、タブレット端末、パーソナルコンピュータ、又は、サーバコンピュータである。
 マルチマイクデバイス50は、ディスプレイデバイス10から独立して設置可能である。つまり、マルチマイクデバイス50の位置および向きは、ディスプレイデバイス10の位置および向きから独立して決定することができる。
(1-1)コントローラの構成
 コントローラの構成について説明する。図2は、本実施形態のコントローラの構成を示すブロック図である。
 図2に示すように、コントローラ30は、記憶装置31と、プロセッサ32と、入出力インタフェース33と、通信インタフェース34とを備える。
 記憶装置31は、プログラム及びデータを記憶するように構成される。記憶装置31は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、及び、ストレージ(例えば、フラッシュメモリ又はハードディスク)の組合せである。
 プログラムは、例えば、以下のプログラムを含む。
・OS(Operating System)のプログラム
・情報処理を実行するアプリケーションのプログラム
 データは、例えば、以下のデータを含む。
・情報処理において参照されるデータベース
・情報処理を実行することによって得られるデータ(つまり、情報処理の実行結果)
 プロセッサ32は、記憶装置31に記憶されたプログラムを起動することによって、コントローラ30の機能を実現するコンピュータである。プロセッサ32は、例えば、以下の少なくとも1つである。
 ・CPU(Central Processing Unit)
 ・GPU(Graphic Processing Unit)
 ・ASIC(Application Specific Integrated Circuit)
 ・FPGA(Field Programmable Array)
 入出力インタフェース33は、コントローラ30に接続される入力デバイスから情報(例えば、ユーザの指示)を取得し、かつ、コントローラ30に接続される出力デバイスに情報(例えば画像信号)を出力するように構成される。
 入力デバイスは、例えば、キーボード、ポインティングデバイス、タッチパネル、又は、それらの組合せである。
 出力デバイスは、例えば、ディスプレイである。
 通信インタフェース34は、コントローラ30と外部装置(例えば、ディスプレイデバイス10、およびマルチマイクデバイス50)との間の通信を制御するように構成される。
(1-2)マルチマイクデバイスの構成
 マルチマイクデバイスの構成について説明する。図3は、本実施形態のマルチマイクデバイスの外観を示す図である。
 マルチマイクデバイス50は、複数のマイクロホンを備える。以下の説明では、マルチマイクデバイス50は、5つのマイクロホン51-1,・・・,51-5(以下、特に区別しない場合は単にマイクロホン51と表記する)を備えることとする。マルチマイクデバイス50は、マイクロホン51-1,・・・、51-5を用いて、音源から発せられた音を受信(集音)することで音声信号を生成する。また、マルチマイクデバイス50は、マイク座標系における音の到来方向(つまり、音源の方向)を推定する。また、マルチマイクデバイス50は、後述するビームフォーミング処理を行う。
 マイクロホン51は、例えば、マルチマイクデバイス50の周辺の音を集音する。マイクロホン51により集音される音には、例えば以下の少なくとも1つの音が含まれる。
 ・人物による発話音
 ・マルチマイクデバイス50が使用される環境の音
 マルチマイクデバイス50には、例えば筐体の表面にマルチマイクデバイス50の基準方向(例えば、前方(つまり、x+方向)であるが、その他の所定の方向であってもよい)を示す目印50aが付されている。これにより、ユーザは、マルチマイクデバイス50の向きを視覚情報から容易に認識することができる。なお、マルチマイクデバイス50の向きを認識するための手段はこれに限られない。目印50aは、マルチマイクデバイス50の筐体と一体化されていてもよい。
 マルチマイクデバイス50は、さらに、後述する例えば音声処理を行うためのプロセッサ、記憶装置、および通信もしくは入出力インタフェースを備える。また、マルチマイクデバイス50は、当該マルチマイクデバイス50の動き及び状態を検出するためにIMU(Inertial Measurement Unit)を備えることができる。
(2)実施形態の一態様
 本実施形態の一態様について説明する。図4は、本実施形態の一態様を示す図である。
 コントローラ30は、複数の参加者(つまり、情報処理システム1のユーザ)による会話(例えば、会議)が行われている間、マップ画像を生成し、ディスプレイデバイス10のディスプレイ11に表示する。マップ画像は、マルチマイクデバイス50の周囲の音源(話者)環境を俯瞰した図に相当し、マルチマイクデバイス50に対する話者の方向に基づく位置に当該話者から発せられた音声に基づくテキスト(「音声の内容に関する情報」の一例)が配置される。コントローラ30は、参加者の発言に応じて、マップ画像を更新する。これにより、マップ画像は、直近の会話の内容(特に、誰が何を話しているか)を視覚的にリアルタイムに把握するためのUI(User Interface)の役割を果たす。
 具体的には、図4に示すように、マップ画像は、マイクアイコンMI31と、円周CI31と、音源アイコンSI31,SI32,SI33,SI34と、テキスト画像TI32,TI34とを含む。
 マイクアイコンMI31は、マルチマイクデバイス50を表す。マイクアイコンMI31は、当該マイクアイコンMI31の向きを示す目印MR31を備える。マップ画像の観者は、目印MR31を確認することで、マップ画像においてマイクアイコンMI31がどこを向いているかを認識することができる。マイクアイコンMI31および目印MR31の外観をマルチマイクデバイス50および目印50aの外観に似せることで、マップ画像の観者は、現実世界における参加者と、マップ画像における音源アイコンとの対応付けを容易に行うことができる。ただし、マイクアイコンMI31および目印MR31の外観をマルチマイクデバイス50および目印50aの外観と類似させることは、必須ではない。
 円周CI31は、マイクアイコンMI31を中心とする円周に相当する。図4の例では、コントローラ30は、会話の参加者に相当する音源アイコンSI31,SI32,SI33,SI34を、円周CI31上に配置する。具体的には、コントローラ30は、音源アイコンSI31,SI32,SI33,SI34の各々を、円周CI31上のうち、マルチマイクデバイス50に対する当該音源アイコンの表す音源の方向に応じた位置に配置する。一例として、コントローラ30は、マイク座標系をマップ画像の座標系(以下、「マップ座標系」)に変換する。そして、コントローラ30は、マイクアイコンMI31の表示位置(「マップ座標系の原点」の一例)からマップ座標系で表現される音源の(推定)方向に延びる直線と円周CI31との交点に当該音源を表現する音源アイコンを配置する。
 音源アイコンSI31は、複数の参加者のうち特定の一人(例えば、難聴者であり、他の参加者に比べてマップ画像を見る機会の多い者。以下、「あなた」ということもある)を表す。コントローラ30は、「あなた」を表す音源アイコンSI31に、例えば他の音源を表す音源アイコンとは異なる特定の書式(例えば、色、テクスチャ、光学的効果、形状、大きさ、など)を設定してよい。
 音源アイコンSI32は、複数の参加者のうちDさんを表す。図4の例では、Dさんは発言中である。コントローラ30は、発言中の話者(音源)を表す音源アイコンSI32に、他の状態の話者(音源)を表す音源アイコンとは異なる書式を設定してよい。つまり、コントローラ30は、音源アイコンの書式を、当該音源アイコンの表す音源の状態に依存して動的に変更可能である。
 テキスト画像TI32は、Dさんの直近の発言内容(Dさんから発せられた音声に対する音声認識結果)を表す。コントローラ30は、マップ画像の観者がテキスト画像TI32と音源アイコンSI32とが対応することを認識しやすい形態でテキスト画像TI32をマップ画像上に配置する。一例として、コントローラ30は、テキスト画像TI32を、音源アイコンSI32に対して所定の位置(例えば右下)に配置する。また、コントローラ30は、テキスト画像TI32を、音源アイコンSI32と少なくとも部分的に同一の書式に設定してよい。例えば、コントローラ30は、音源アイコンSI32とテキスト画像TI32の背景または文字とを同系色に揃えてよい。
 音源アイコンSI33は、複数の参加者のうちTさんを表す。図4の例では、Tさんは発言していない。コントローラ30は、発言していない話者(音源)を表す音源アイコンSI33に、他の状態の話者(音源)を表す音源アイコンとは異なる書式を設定してよい。
 音源アイコンSI34は、複数の参加者のうちHさんを表す。図4の例では、Hさんは、発言を終えた直後である。コントローラ30は、発言を終えた直後の話者(音源)を表す音源アイコンSI34に、他の状態の話者(音源)を表す音源アイコンとは異なる書式を設定してよい。
 テキスト画像TI34は、Hさんの直近の発言内容を表す。コントローラ30は、マップ画像の観者がテキスト画像TI34と音源アイコンSI34とが対応することを認識しやすい形態でテキスト画像TI34をマップ画像上に配置する。一例として、コントローラ30は、テキスト画像TI34を、音源アイコンSI34に対して所定の位置(例えば右下)に配置する。また、コントローラ30は、テキスト画像TI34を、音源アイコンSI34と少なくとも部分的に同一の書式に設定してよい。例えば、コントローラ30は、音源アイコンSI34とテキスト画像TI34の背景または文字とを同系色に揃えてよい。
 このように、コントローラ30は、話者から発せられた音声に対応するテキストを、マルチマイクデバイス50に対する話者の方向の推定結果に応じた位置に配置することでマップ画像を生成し、ディスプレイデバイス10のディスプレイ11に表示する。これにより、マップ画像の観者は、話者と発言内容とを直感的に関連付けることができる。
(3)データベース
 本実施形態のデータベースについて説明する。以下のデータベースは、記憶装置31に記憶される。
(3-1)音源データベース
 本実施形態の音源データベースについて説明する。図5は、本実施形態の音源データベースのデータ構造を示す図である。
 音源データベースには、音源情報が格納される。音源情報は、コントローラ30によって識別された、マルチマイクデバイス50の周囲の音源(典型的には、話者)に関する情報である。
 図5に示すように、音源データベースは、「ID」フィールドと、「名称」フィールドと、「アイコン」フィールドと、「方向」フィールドと、「認識言語」フィールドと、「翻訳言語」フィールドとを含む。各フィールドは、互いに関連付けられている。
 「ID」フィールドには、音源IDが格納される。音源IDは、音源を識別する情報である。コントローラ30は、新たな音源を検出すると、新規の音源IDを発行し、当該音源IDを当該音源に割り当てる。
 「名称」フィールドには、音源名情報が格納される。音源名情報は、音源の名称に関する情報である。コントローラ30は、音源名情報を、自動的に決定してもよいし、後述するようにユーザ指示に応じて設定してもよい。コントローラ30は、所定の規則に従って、またはランダムで、新たに検出された音源に何らかの初期音源名称を割り当てることができる。
 「アイコン」フィールドには、アイコン情報が格納される。アイコン情報は、音源のアイコンに関する情報である。一例として、アイコン情報は、アイコン画像(例えば、プリセットアイコン画像のいずれか、またはユーザによって提供された写真、もしくは絵)、またはアイコンの書式(例えば、色、テクスチャ、光学的効果、形状、など)を特定可能な情報を含むことができる。コントローラ30は、アイコン情報を、自動的に決定してもよいし、ユーザ指示に応じて設定してもよい。コントローラ30は、所定の規則に従って、またはランダムで、新たに検出された音源に何らかの初期アイコンを割り当てることができる。
 ただし、後述する変形例2のようにマップ画像に音源のアイコンを表示しない場合には、アイコン情報を音源情報から省略することができる。
 「方向」フィールドは、音源方向情報が格納される。音源方向情報は、マルチマイクデバイス50に対する音源の方向に関する情報である。一例として、音源の方向は、マイク座標系においてマイクロホン51-1~51-5を基準として定められた基準方向(本実施形態においては、マルチマイクデバイス50の前方(x+方向))を0度とする軸からの偏角として表現される。
 「認識言語」フィールドには、認識言語情報が格納される。認識言語情報は、音源(話者)の使用言語に関する情報である。音源の認識言語情報に基づいて、当該音源から発生される音声に適用される音声認識エンジンが選択される。前記認識言語情報の設定は、ユーザ操作により指定されてもよいし、音声認識モデルによる言語認識結果に基づいて自動で指定されてもよい。
 「翻訳言語」フィールドには、翻訳言語情報が格納される。翻訳言語情報は、音源から発せられる音声に対する音声認識結果(テキスト)に機械翻訳を適用する場合における目的言語に関する情報である。音源の翻訳言語情報に基づいて、当該音源から発生される音声に対する音声認識結果に適用される機械翻訳エンジンが選択される。なお、翻訳言語情報は、個別の音源ではなく全音源に対して一括で設定されてもよいし、ディスプレイデバイス10毎に設定されてもよい。
 その他、音源情報は、音源距離情報を含んでもよい。音源距離情報は、マルチマイクデバイス50から音源までの距離に関する情報である。また、音源方向情報および音源距離情報は、音源位置情報として表現することもできる。音源位置情報は、マルチマイクデバイス50に対する音源の相対位置(つまり、マルチマイクデバイス50の座標系における音源の座標)に関する情報である。
(4)情報処理
 本実施形態の情報処理について説明する。
(4-1)音声処理
 本実施形態の音声処理について説明する。図6は、本実施形態の音声処理のフローチャートである。図7は、マイクロホンによる集音を説明するための図である。図8は、基準座標系における音源の方向を説明するための図である。図9は、マップ画像の一例を示す図である。
 図6に示す音声処理は、ディスプレイデバイス10、コントローラ30、およびマルチマイクデバイス50の電源がONになり、かつ初期設定が完了した後に開始される。ただし、図6に示す処理の開始タイミングはこれに限定されない。図6に示す処理は、例えば所定の周期で繰り返し実行されてもよく、これにより情報処理システム1のユーザはリアルタイムに更新されるマップ画像を閲覧することができる。
 マルチマイクデバイス50は、マイクロホン51を介して音声信号の取得(S150)を実行する。
 具体的には、マルチマイクデバイス50の備える複数のマイクロホン51-1,・・・、51-5は、話者から発せられる発話音をそれぞれ集音する。マイクロホン51-1~51-5は、図7に示される複数のパスを介して到来した発話音を集音する。マイクロホン51-1~51-5は、集音した発話音を音声信号へ変換する。
 マルチマイクデバイス50が備えるプロセッサは、マイクロホン51-1~51-5から、話者PR3,PR4,及びPR5の少なくともいずれかから発せられた発話音を含む音声信号を取得する。マイクロホン51-1~51-5から取得される音声信号には、発話音が進行してきたパスに基づく空間的な情報(例えば遅延や位相変化)が含まれている。
 ステップS150の後、マルチマイクデバイス50は、到来方向の推定(S151)を実行する。
 マルチマイクデバイス50の備える記憶装置には、到来方向推定モデルが記憶されている。到来方向推定モデルには、音声信号に含まれる空間的情報と、発話音の到来方向との相関関係を特定するための情報が記述されている。
 到来方向推定モデルで利用される到来方向推定手法は、既存のいかなる手法が用いられてもよい。例えば、到来方向推定手法には、入力の相関行列の固有値展開を利用したMUSIC(Multiple Signal Classification)、最小ノルム法、又はESPRIT(Estimation of Signal Parameters via Rotational Invariance Techniques)などが用いられる。
 マルチマイクデバイス50は、到来方向推定モデルに、マイクロホン51-1~51-5から受信した音声信号を入力することで、マイクロホン51-1~51-5により集音された発話音の到来方向(つまり、マルチマイクデバイス50に対する発話音の音源の方向)を推定する。このとき、マルチマイクデバイス50は、例えば、マイク座標系において、マイクロホン51-1~51-5を基準として定められた基準方向(本実施形態においては、マルチマイクデバイス50の前方(x+方向))を0度とする軸からの偏角で発話音の到来方向を表現する。図8に示される例では、マルチマイクデバイス50は、話者PR3から発せられた発話音の到来方向を、x軸から左方向に角度A2ずれた方向と推定する。マルチマイクデバイス50は、話者PR4から発せられた発話音の到来方向を、x軸から左方向に角度A3ずれた方向と推定する。マルチマイクデバイス50は、話者PR5から発せられた発話音の到来方向を、x軸から右方向に角度A1ずれた方向と推定する。
 ステップS151の後、マルチマイクデバイス50は、音声信号の抽出(S152)を実行する。
 マルチマイクデバイス50が備える記憶装置には、ビームフォーミングモデルが記憶されている。ビームフォーミングモデルには、所定の方向と、その方向にビームを有する指向性を形成するためのパラメータとの相関関係を特定するための情報が記述されている。ここで、指向性を形成するとは、特定の到来方向の音声を増幅させ、又は減衰させる処理である。
 マルチマイクデバイス50は、ビームフォーミングモデルに、推定した到来方向を入力することで、到来方向にビームを有する指向性を形成するためのパラメータを計算する。
 図8に示される例では、マルチマイクデバイス50は、計算された角度A1をビームフォーミングモデルに入力し、x軸から右方向に角度A1ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス50は、計算された角度A2をビームフォーミングモデルに入力し、x軸から左方向に角度A2ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。マルチマイクデバイス50は、計算された角度A3をビームフォーミングモデルに入力し、x軸から左方向に角度A3ずれた方向へビームを有する指向性を形成するためのパラメータを計算する。
 マルチマイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A1について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A1に対応する方向の音源から到来した発話音についての音声信号を抽出する。
 マルチマイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A2について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A2に対応する方向の音源から到来した発話音についての音声信号を抽出する。
 マルチマイクデバイス50は、マイクロホン51-1~51-5から取得した音声信号を、角度A3について計算したパラメータで増幅、又は減衰させる。マルチマイクデバイス50は、増幅又は減衰させた音声信号を合成することで、取得した音声信号から、角度A3に対応する方向の音源から到来した発話音についての音声信号を抽出する。
 マルチマイクデバイス50は、抽出した音声信号を、ステップS151において推定した当該音声信号に対応する音源の方向を示す情報(つまり、マルチマイクデバイス50に対する音源の方向の推定結果)とともに、コントローラ30へ送信する。
 ステップS152の後、コントローラ30は、音源の識別(S130)を実行する。
 具体的には、コントローラ30は、ステップ151において取得した音源の方向(以下、「対象方向」という)の推定結果に基づいて、マルチマイクデバイス50の周囲に存在する音源を識別する。
 一例として、コントローラ30は、対象方向に対応する音源が識別済みの音源と同一であるか否かを判定し、当該対象方向に対応する音源が識別済みの音源でない場合に、新たな音源ID(図5)を割り当てる。具体的には、コントローラ30は、対象方向を、識別済みの音源についての音源方向情報(図5)と比較する。そして、コントローラ30は、対象方向が識別済みの音源についての音源方向情報のいずれかと適合すると判定した場合に、当該対象方向に対応する音源を、適合した音源方向情報を持つ(識別済みの)音源として扱う。他方、コントローラ30は、対象方向が識別済みの音源についての音源方向情報のいずれとも適合しないと判定した場合に、当該対象方向に新たな音源が存在することを検出し、当該新たな音源に新規の音源IDを付与する。ここで、対象方向が音源方向情報に適合することとは、少なくとも対象方向が音源方向情報の示す方向に一致することを含み、さらに対象方向の音源方向情報の示す方向に対する差または比率が許容範囲内であることを含むことができる。
 ステップS130の後、コントローラ30は、音声認識処理(S131)を実行する。
 記憶装置31には、音声認識モデルが記憶されている。音声認識モデルには、音声信号と、音声信号に対するテキストとの相関関係を特定するための情報が記述されている。音声認識モデルは、例えば、機械学習により生成された学習済モデルである。なお、音声認識モデルは、記憶装置31の代わりに、コントローラ30がネットワーク(例えばインターネット)を介してアクセス可能な外部装置(例えばクラウドサーバ)に保存されていてもよい。
 コントローラ30は、音声認識モデルに、抽出した音声信号を入力することで、入力した音声信号に対応するテキストを決定する。コントローラ30は、音声信号に対応する音源の認識言語情報に基づいて音声認識エンジンを選択してもよい。
 図8に示される例では、コントローラ30は、角度A1~A3について抽出した音声信号を音声認識モデルにそれぞれ入力することで、入力された音声信号に対応するテキストを決定する。
 ステップS131の後、コントローラ30は、機械翻訳(S132)を実行する。
 具体的には、コントローラ30は、ステップS131において生成したテキストに対応する音声の音源に翻訳言語情報(図5)が設定されている場合に、当該テキストの機械翻訳を行う。これにより、コントローラ30は、翻訳言語情報によって指定された言語のテキストを得る。コントローラ30は、音声信号に対応する音源の翻訳言語情報に基づいて機械翻訳エンジンを選択してもよい。他方、コントローラ30は、ステップS131において生成したテキストに対応する音声の音源に翻訳言語情報(図5)が設定されていない場合(すなわち、音声を翻訳せずにテキストに変換する場合)に、本ステップを省略可能である。
 ステップS132の後、コントローラ30は、マップ画像の生成(S133)を実行する。
 具体的には、コントローラ30は、ステップS131における音声認識処理の結果、またはステップS132における機械翻訳処理の結果に基づくテキストを表すテキスト画像を生成する。コントローラ30は、識別済みの音源を表す音源アイコンを、当該音源のマルチマイクデバイス50に対する方向(つまり、ステップS151の推定結果)に基づいて、マイクアイコンの周囲(一例として、マイクアイコンを中心とする円周上)に配置する。コントローラ30は、前述のテキスト画像を、対応する音声の音源を表す音源アイコンに対して所定の位置に配置する。
 一例として、コントローラ30は、図9に示すマップ画像を生成する。図9のマップ画像では、マイクアイコンMI31の前方(x+方向)がマップ画像の上方向を向くように、マイク座標系がマップ座標系に変換されている。しかしながら、コントローラ30は、マイク座標系とマップ座標系との対応関係を変更可能である。一例として、コントローラ30は、ユーザ指示に応じて、特定の音源アイコンがマップ座標系の所定の方向(例えば、下方向)に位置するようにマイクアイコンMI31の表示位置を中心に各音源アイコンの表示位置を回転してもよい。例えば図4のマップ画像は、音源アイコンSI31がマップ画像の下方向に位置するように、図9のマップ画像においてマイクアイコンMI31の表示位置を中心に各音源アイコンSI31~SI34の表示位置を左回りに90度回転し、テキスト画像TI32,TI34を回転後の音源アイコンSI32,SI34に対して所定の位置(例えば「右下」)に移動させることで生成可能である。
 また、コントローラ30は、音源が音声を発している間、当該音源を表す音源アイコンまたは当該音声に関するテキストを強調するようにマップ画像を生成してもよい。コントローラ30は、例えば以下の少なくとも1つにより音源アイコンまたはテキストを強調してもよい。
・アニメーションの付加
・拡大表示
・色、テクスチャ、光学的効果、または形状の変更
 ステップS133の後、コントローラ30は、情報表示(S134)を実行する。
 具体的には、コントローラ30は、ステップS133において生成したマップ画像を、ディスプレイデバイス10のディスプレイ11に表示する。
(4-2)音源設定処理
 本実施形態の音源設定処理について説明する。図10は、本実施形態の音源設定処理のフローチャートである。図11は、本実施形態の音源設定処理において表示される画面例を示す図である。
 図10に示す音源設定処理は、図6に示す音声処理の開始後に、情報処理システム1のユーザによる指示に応じて開始する。ただし、図10に示す音源設定処理の開始タイミングはこれに限定されない。例えば、図10の処理は、図6に示す音声処理の開始前の初期設定処理として実行されてもよい。
 図10に示すように、コントローラ30は、音源の選択(S230)を実行する。
 具体的には、コントローラ30は、ユーザが音源情報を設定するための音源設定UIをディスプレイデバイス10のディスプレイ11に表示する。一例として、コントローラ30は、図11の画面をディスプレイデバイス10のディスプレイ11に表示する。図11の画面は、マップ画像MP40と、音源設定UI(画像)CU40とを含む。
 音源設定UI CU40は、表示オブジェクトA41,A42と、操作オブジェクトB43とを含む。
 表示オブジェクトA41は、登録済み参加者の情報(例えば、音源アイコンおよび登録された音源名称)を表示する。ここで、登録済み参加者とは、図6の音源の識別(S130)において識別された音源(話者)のうち、図10に示す音源設定処理によって音源名情報が登録された音源を意味する。
 表示オブジェクトA42は、未登録の参加者の情報(例えば、音源アイコンおよび初期音源名称)を表示する。ここで、未登録の参加者とは、図6の音源の識別(S130)において識別された音源(話者)のうち、音源名情報が登録されていない音源(つまり、コントローラ30によって決定された初期音源名称を使用する音源)を意味する。
 操作オブジェクトB43は、参加者を追加する操作を受け付ける。具体的には、情報処理システム1のユーザは、操作オブジェクトB43を選択し、さらに未登録の参加者のいずれかを指定する。コントローラ30は、未登録の参加者の指定を受け付けるために、入力フォーム(例えば、テキストフィールド、メニュー、ラジオボタン、チェックボックス、またはそれらの組み合わせ)をディスプレイデバイス10に提示してもよい。
 コントローラ30は、ユーザ指示に応じて、音源情報の設定対象となる音源(未登録の参加者)を選択する。
 ステップS230の後に、コントローラ30は、音源情報の取得(S231)を実行する。
 具体的には、コントローラ30は、ステップS230において選択した音源に設定する音源情報をユーザ指示に応じて取得する。一例として、コントローラ30は、選択した音源についての音源名情報を取得する。さらに、コントローラ30は、選択した音源についてのアイコン情報、認識言語情報、翻訳言語情報、またはそれらの組み合わせを取得してもよい。コントローラ30は、音源情報を取得するために、入力フォーム(例えば、テキストフィールド、メニュー、ラジオボタン、チェックボックス、またはそれらの組み合わせ)をディスプレイデバイス10のディスプレイ11に表示してもよい。コントローラ30は、会話の参加者情報を取得し、当該参加者情報に基づいて入力フォーム(メニュー、ラジオボタン、またはチェックボックス)の要素を生成してもよい。会話の参加者情報は、会話の開始前に手動で設定されてもよいし、情報処理システム1、または連携する会議システムにログインしているアカウント名から取得されてもよい。
 ステップS231の後に、コントローラ30は、音源情報の更新(S232)を実行する。
 具体的には、コントローラ30は、ステップS231において取得した音源情報を、ステップS230において選択した音源を識別する音源IDに関連付けて音源データベース(図5)に登録することで、音源情報を更新する。
 ステップS232を以て、コントローラ30は、図10に示す音源設定処理を終了してもよい。或いは、コントローラ30は、ユーザが音源設定処理の終了を指示するか、または未登録の参加者の全てに音源情報が設定されるまで、音源設定処理を繰り返し実行してもよい。
(5)小括
 以上説明したように、本実施形態のコントローラ30は、マルチマイクデバイス50に対する音源の方向を示す推定結果を取得し、当該音源から発せられ、マルチマイクデバイス50によって集音された音声の内容に関する情報を取得する。コントローラ30は、テキストを、マルチマイクデバイス50に対する当該テキストに対応する音源の方向に応じた位置に配置したマップ画像を生成し、当該マップ画像をディスプレイデバイス10のディスプレイ11に表示する。これにより、マップ画像の観者は、音源(例えば話者)と当該音源から発せられる音声(例えば発言)の内容との関連付けを直感的に認識することができる。
 コントローラ30は、音源の方向の推定結果に基づいて、マルチマイクデバイス50の周囲に存在する個々の音源を識別し、識別された音源に関する音源情報を例えばユーザ指示に応じて設定してもよい。これにより、マップ画像において表示されるテキストに対応する音源について音源情報を適切に設定することができる。コントローラ30は、識別された音源についての音源名情報、認識言語情報、または翻訳言語情報の少なくとも1つを設定してもよい。これにより、マップ画像において表示されるテキストが誰の発言によるものかを明確化したり、正確な、またはユーザにとって理解しやすいテキストを生成したりすることができる。
 コントローラ30は、マルチマイクデバイス50を表すマイクアイコンと、音源を表す音源アイコンとを含み、音源アイコンがマイクアイコンを中心とする円周上のうちマルチマイクデバイスに対する当該音源アイコンに対応する音源の方向に応じた位置に配置されるようにマップ画像を生成してもよい。これにより、マップ画像の観者は、マップ画像に表示されるテキストが、マルチマイクデバイス50に対してどの方向に位置する音源から発せられた音声に対応するかを直感的に認識することができる。また、マップ画像の観者は、マップ画像に表示される音源アイコンが、現実空間におけるどの音源に対応するかを直感的に認識することができる。また、コントローラ30は、音源が音声を発している間、当該音源を表す音源アイコンまたは当該音声の内容に関する情報を強調するようにマップ画像を表示してもよい。これにより、マップ画像に複数の音源アイコンおよび複数のテキストが表示されている場合であっても、観者は注目すべき音源およびテキスト(例えば、発言中の話者およびその発言内容)を容易に判別することができる。また、コントローラ30は、特定の音源アイコンがマップ画像上で特定の方向(例えば下方向)に位置するように、各音源アイコンおよび各テキストの表示位置をマイクアイコンの表示位置を中心に回転してもよい。これにより、特定の音源アイコンに対応する話者(例えば難聴者)は、他の話者(音源)と、マップ画像における音源アイコンとの対応を容易に把握することができる。
(6)変形例
 本実施形態の変形例について説明する。
(6-1)変形例1
 変形例1について説明する。変形例1は、マップ画像に加えて議事録を生成する例である。
(6-1-1)変形例1の一態様
 変形例1の一態様について説明する。図12は、変形例1の一態様を示す図である。
 コントローラ30は、複数の参加者による会話が行われている間、マップ画像および議事録を生成し、ディスプレイデバイス10のディスプレイ11に表示する。議事録は、マルチマイクデバイス50の周囲の音源(話者)による発言内容を時系列順に配置した発言履歴に相当する。コントローラ30は、参加者の発言に応じて、マップ画像および議事録を更新する。これにより、議事録は、これまでの会話の流れ(特に、誰が何を話してきたか)を視覚的にリアルタイムに把握するためのUIの役割を果たす。
 具体的には、図12に示すように、コントローラ30は、マップ画像MP50および議事録(画像)MN50を例えば一画面に並べてディスプレイデバイス10のディスプレイ11に表示する。議事録MN50は、表示オブジェクトA51を含む。なお、コントローラ30は、マップ画像MP50および議事録MN50を一画面に並べる代わりに、マップ画像MP50および議事録MN50のうちユーザによって選択された一方のみをディスプレイデバイス10のディスプレイ11に表示してもよい。
 表示オブジェクトA51は、話者の発言の情報(例えば、話者(音源)のアイコンもしくは名称、発言時間、発言内容、またはそれらの組み合わせ)を表示する。情報処理システム1のユーザ(例えば、発言者であるが、他のユーザであってもよい)は、議事録MN50に配置された発言内容に誤り(例えば、音声認識の誤り、または機械翻訳の誤り)を発見した場合に、当該発言内容を表示する表示オブジェクトA51を選択し、当該発言内容を編集することができる。コントローラ30は、編集後の発言内容を例えば入力フォームを介してユーザから取得し、当該発言内容に基づいて表示オブジェクトA51を更新する。さらに、コントローラ30は、編集後の発言内容に対応するテキストがマップ画像MP50に含まれる場合に、当該テキストを更新してもよい。また、コントローラ30は、図12に示す画面の代わりに、図18に示す画面をディスプレイ11に表示させてもよい。図18の例では、話者のアイコンに円弧上の印を表示することで、マルチマイクデバイス50に対する話者の方向を表している。これによりユーザは、マップ画像MP50を確認しなくても、議事録MN50を確認するだけで、各発言の発言者がマルチマイクデバイス50に対してどの方向に存在するかを把握することができる。
 このように、コントローラ30は、マルチマイクデバイス50の周囲に存在する話者による発言内容の履歴に相当する議事録を生成し、ディスプレイデバイス10のディスプレイ11に表示する。これにより、議事録の観者は、会話の流れを容易に振り返ることができる。
(6-1-2)データベース
 変形例1のデータベースについて説明する。以下のデータベースは、記憶装置31に記憶される。
(6-1-2-1)発言データベース
 変形例1の音源データベースについて説明する。図13は、変形例1の発言データベースのデータ構造を示す図である。
 発言データベースには、発言情報が格納される。発言情報は、マルチマイクデバイス50によって集音された音声(発言)に関する情報である。
 図13に示すように、発言データベースは、「発言ID」フィールドと、「音源IDフィールド」と、「発言日時」フィールドと、「発言内容」フィールドとを含む。
各フィールドは、互いに関連付けられている。
 「発言ID」フィールドには、発言IDが格納される。発言IDは、発言を識別する情報である。コントローラ30は、音声認識結果または機械翻訳結果から新たな発言を検出すると、新規の発言IDを発行し、当該発言IDを当該発言に割り当てる。コントローラ30は、発言を、話者の交代に応じて区切る。また、コントローラ30は、同一の話者による一連の発言であっても、音声上の境界(例えば無音区間)またはテキストの意味上の境界に応じて区切ることができる。
 「音源ID」フィールドには、音源IDが格納される。音源IDは、発言を行った話者(音源)を識別する情報である。音源IDは、図5の音源データベースを親テーブルとして参照するための外部キーに相当する。
 「発言日時」フィールドには、発言日時情報が格納される。発言日時情報は、発言が行われた日時に関する情報である。発言日時情報は、絶対的な日時を示す情報であってもよいし、会話の開始からの経過時間を示す情報であってもよい。
 「発言内容」フィールドには、発言内容情報が格納される。発言内容情報は、発言の内容に関する情報である。発言内容情報は、例えば、発言に対する音声認識結果、もしくは当該音声認識結果に対する機械翻訳結果、またはこれらに対するユーザによる編集結果である。
 なお、発言データベースは、本実施形態において、特定の時点におけるマップ画像を再生するために用いることもできる。
(6-1-3)情報処理
 変形例1の情報処理について説明する。
(6-1-3-1)音声処理
 変形例1の音声処理について説明する。図14は、変形例1の音声処理のフローチャートである。
 図14に示す音声処理は、ディスプレイデバイス10、コントローラ30、およびマルチマイクデバイス50の電源がONになり、かつ初期設定が完了した後に開始される。ただし、図14に示す処理の開始タイミングはこれに限定されない。図14に示す処理は、例えば所定の周期で繰り返し実行されてもよく、これにより情報処理システム1のユーザはリアルタイムに更新されるマップ画像および議事録を閲覧することができる。
 図14に示すように、マルチマイクデバイス50は図6と同様に、音声信号の取得(S150)、到来方向の推定(S151)、および音声信号の抽出(S152)を実行する。
 ステップS152の後、コントローラ30は図6と同様に、音源の識別(S130)、音声認識処理(S131)、機械翻訳(S132)、およびマップ画像の生成(S133)を実行する。なお、コントローラ30は、ステップS130~ステップS132の間に、発言情報を発言データベース(図13)に登録する。
 ステップS133の後、コントローラ30は、議事録生成(S334)を実行する。
 具体的には、コントローラ30は、発言データベース(図13)を参照し、議事録を生成する。一例として、コントローラ30は、ステップS130~ステップS132の間に発言データベースに登録した発言情報(つまり、新規の発言情報)に基づいて、前回のステップS334の実行時に生成した議事録(以下、「前回議事録」という)を更新してもよい。
 ステップS334の後、コントローラ30は、情報表示(S335)を実行する。
 具体的には、コントローラ30は、ステップS133において生成したマップ画像およびステップS334において生成した議事録を、ディスプレイデバイス10のディスプレイ11に表示する。
(6-1-4)小括
 以上説明したように、変形例1のコントローラ30は、マルチマイクデバイス50の周囲に存在する音源(話者)による発言に関するテキスト(つまり、音声認識結果、または機械翻訳結果)に基づいて議事録を生成し、当該議事録をマップ画像と並べてディスプレイデバイス10のディスプレイ11に表示する。これにより、マップ画像および議事録の観者は、マップ画像を閲覧することで話者と当該話者による発言の内容との関連付けを直感的に認識することができるとともに、議事録を閲覧することでそれまでの会話の流れを容易に振り返ることができる。また、コントローラ30は、発言に関するテキストを発言日時の時系列順に配置することで議事録を生成してもよい。これにより、議事録の観者は、それまでの会話の流れを直感的に認識することができる。また、コントローラ30は、議事録に配置されたテキストをユーザ指示に応じて編集してもよい。これにより、音声認識または機械翻訳の誤りによりユーザ(特に難聴者)が発言内容を誤解した場合であっても、発言した本人または周りのユーザが誤りを速やかに訂正できるので、円滑なコミュニケーションを促進することができる。また、会議終了後に会議中の発言内容を確認するための正確な議事録を残すことができる。
(6-2)変形例2
 変形例2について説明する。変形例2は、本実施形態とは異なるマップ画像を生成する例である。図15は、変形例2のマップ画像の一例を示す図である。図16は、変形例2のマップ画像の別の例を示す図である。
 コントローラ30は、複数の参加者による会話が行われている間、マップ画像を生成し、ディスプレイデバイス10のディスプレイ11に表示する。マップ画像は、マルチマイクデバイス50の周囲の音源(話者)環境を俯瞰した図に相当し、マルチマイクデバイス50に対する話者の方向に基づく位置に当該話者から発せられた音声に基づくテキストが配置される。コントローラ30は、参加者の発言に応じて、マップ画像を更新する。これにより、マップ画像は、直近の会話の内容(特に、誰が何を話しているか)を視覚的にリアルタイムに把握するためのUIの役割を果たす。
 具体的には、図15に示すマップ画像は、マイクアイコンMI61と、円周CI61と、表示オブジェクトA61,A62と、テキスト画像TI61a,TI61b,TI62とを含む。
 マイクアイコンMI61は、マイクアイコンMI31(図4)と同様に、マルチマイクデバイス50を表す。マイクアイコンMI61は、当該マイクアイコンMI61の向きを示す目印MR61を備える。
 円周CI61は、円周CI31(図4)と同様に、マイクアイコンMI61を中心とする円周に相当する。
 テキスト画像TI61aは、第1話者による発言であって、図15に表示されるテキスト画像TI61a,TI61b,TI62のうち発言日時が第二番目に新しい発言内容に対応する。テキスト画像TI61aは、マルチマイクデバイス50に対する第1話者の方向に応じた位置に配置される。具体的には、テキスト画像TI61aは、マイクアイコンMI61の表示位置(「マップ座標系の原点」の一例)から第1話者の(推定)方向へ延びる直線に沿って配置される。
 テキスト画像TI61bは、第1話者による発言であって、図15に表示されるテキスト画像TI61a,TI61b,TI62のうち発言日時が最も新しい発言内容に対応する。テキスト画像TI61bは、マルチマイクデバイス50に対する第1話者の方向に応じた位置に配置される。具体的には、テキスト画像TI61bは、マイクアイコンMI61の表示位置から第1話者の(推定)方向へ延びる直線に沿って配置される。ただし、テキスト画像TI61bは、より古い発言日時に対応するテキスト画像TI61aに比べてマイクアイコンMI61の表示位置に近い位置に配置される。
 表示オブジェクトA61は、マルチマイクデバイス50に対する第1話者(音源)の(推定)方向を表示する。表示オブジェクトA61は、マイクアイコンMI61の表示位置から第1話者の方向へ延びる直線を中心として所定の角度幅を有する扇形に相当する。コントローラ30は、表示オブジェクトA61に、他の話者の方向を表示するオブジェクトとは異なる特定の書式を設定してよい。コントローラ30は、表示オブジェクトA61を、テキスト画像TI61a,TI61bと少なくとも部分的に同一の書式に設定してよい。例えば、コントローラ30は、表示オブジェクトA61をテキスト画像TI61a,TI61bの背景または文字と同系色に揃えてよい。
 テキスト画像TI62は、第2話者による発言であって、図15に表示されるテキスト画像TI61a,TI61b,TI62のうち発言日時が最も古い発言内容に対応する。テキスト画像TI62は、マルチマイクデバイス50に対する第2話者の方向に応じた位置に配置される。具体的には、テキスト画像TI62は、マイクアイコンMI61の表示位置から第2話者の(推定)方向へ延びる直線に沿って配置される。
 表示オブジェクトA62は、マルチマイクデバイス50に対する第2話者(音源)の(推定)方向を表示する。表示オブジェクトA62は、マイクアイコンMI61の表示位置から第2話者の方向へ延びる直線を中心として所定の角度幅を有する扇形に相当する。コントローラ30は、表示オブジェクトA62に、他の話者の方向を表示するオブジェクトとは異なる特定の書式を設定してよい。コントローラ30は、表示オブジェクトA62を、テキスト画像TI62と少なくとも部分的に同一の書式に設定してよい。例えば、コントローラ30は、表示オブジェクトA62をテキスト画像TI62の背景または文字と同系色に揃えてよい。
 コントローラ30は、参加者による新たな発言に応じて、図15に示すマップ画像を図16に示すマップ画像へと更新する。
 具体的には、図16に示すマップ画像は、マイクアイコンMI61と、円周CI61と、表示オブジェクトA61と、テキスト画像TI61a,TI61b,TI61cとを含む。
 テキスト画像TI61aは、第1話者による発言であって、図16に表示されるテキスト画像TI61a,TI61b,TI61cのうち発言日時が最も古い発言内容に対応する。テキスト画像TI61aは図15と同様に、マイクアイコンMI61の表示位置から第1話者の(推定)方向へ延びる直線に沿って配置される。ただし、コントローラ30は、図15に示すマップ画像に比べて、テキスト画像TI61aの表示位置を、マイクアイコンM61の表示位置から遠ざかる方向に移動させる。
 テキスト画像TI61bは、第1話者による発言であって、図16に表示されるテキスト画像TI61a,TI61b,TI61cのうち発言日時が第二番目に新しい発言内容に対応する。テキスト画像TI61bは、図15と同様に、マイクアイコンMI61の表示位置から第1話者の(推定)方向へ延びる直線に沿って配置される。ただし、コントローラ30は、図15に示すマップ画像に比べて、テキスト画像TI61bの表示位置を、マイクアイコンM61の表示位置から遠ざかる方向に移動させる。これにより、テキスト画像TI61bは、より古い発言日時に対応するテキスト画像TI61aに比べてマイクアイコンMI61の表示位置に近い位置、かつより新しい発言日時に対応するテキスト画像TI61cに比べてマイクアイコンMI61の表示位置から遠い位置、に配置される。
 テキスト画像TI61cは、第1話者による発言であって、図16に表示されるテキスト画像TI61a,TI61b,TI61cのうち発言日時が最も新しい発言内容に対応する。テキスト画像TI61cは、マイクアイコンMI61の表示位置から第1話者の(推定)方向へ延びる直線に沿って配置される。ただし、テキスト画像TI61cは、より古い発言日時に対応するテキスト画像TI61a,TI61bに比べてマイクアイコンMI61の表示位置に近い位置に配置される。
 なお、図16の例では、コントローラ30は、テキスト画像TI61aに比べてより古い発言位置に対応するテキスト画像TI62をマップ画像上に配置せず、かつ表示オブジェクトA62をマップ画像上に配置しない。これにより、マップ画像の観者は、直近の発言の内容と話者に意識を向けやすくなる。
 このように、コントローラ30は、同一の話者から発せられた音声に対応するテキストを、対応する発生日時が古い順にマップ座標系の原点(例えばマイクアイコンMI61の表示位置)から遠ざかるように、マルチマイクデバイス50に対する話者の(推定)方向に沿って配置することでマップ画像を生成する。これにより、マップ画像の観者は、話者と発言内容との関連付けを直感的に認識することができるとともに、発言の時間的順序を、当該発言に対応するテキストの表示位置とマップ座標系の原点との間の距離を元に把握することができる。なお、図15及び図16の例では各テキスト画像が音源の方向に対応する向きに回転して表示されるものとしたが、これに限らず、各テキスト画像が音源の方向にかかわらず直立していてもよい。
(6-3)変形例3
 変形例3について説明する。変形例3は、異なる場所に設置された複数のマルチマイクデバイスのそれぞれについてマップ画像を生成する例である。図17は、変形例3のマップ画像の例を示す図である。
 コントローラ30は、異なる場所(例えば、異なる会議室、異なる事業所、または異なる会社)に存在する複数の参加者による会話が行われている間、それぞれの場所についてマップ画像を生成し、ディスプレイデバイス10のディスプレイ11に表示する。各マップ画像は、それぞれの場所に設置されたマルチマイクデバイス50の周囲の音源(話者)環境を俯瞰した図に相当し、各マルチマイクデバイス50に対する話者の方向に基づく位置に当該話者から発せられた音声に基づくテキストが配置される。コントローラ30は、参加者の発言に応じて、マップ画像を更新する。これにより、マップ画像は、それぞれの場所での直近の会話の内容(特に、どの場所で誰が何を話しているか)を視覚的にリアルタイムに把握するためのUIの役割を果たす。
 具体的には、図17に示すように、コントローラ30は、第1の場所のマップ画像MP71と、第2の場所のマップ画像MP72とを例えば一画面に並べてディスプレイデバイス10のディスプレイ11に表示する。なお、コントローラ30は、マップ画像MP71,MP72を一画面に並べる代わりに、マップ画像MP71,MP72のうちユーザによって選択された一方のみをディスプレイデバイス10のディスプレイ11に表示してもよい。
 このように、コントローラ30は、異なる場所に設置された複数のマルチマイクデバイス50のそれぞれについてマップ画像を生成する。これにより、例えば、異なる場所に居る複数の参加者がリモート会議を行う場合であっても、マップ画像の観者は、場所と話者と発言内容との関連付けを直感的に認識することができる。特に、第1の場所に居る参加者は、第2の場所に居る参加者に比べて当該第2の場所において誰が発言しているかを正確に把握しづらいが、第2の場所のマップ画像を閲覧することで、第2の場所における発言者を容易に特定できる。つまり、リモート会議による臨場感の低下を補うことができる。
(7)その他の変形例
 記憶装置31は、ネットワークを介して、コントローラ30と接続されてもよい。
 上記の情報処理の各ステップは、ディスプレイデバイス10、コントローラ30及びマルチマイクデバイス50の何れでも実行可能である。例えば、コントローラ30は、マルチマイクデバイス50によって生成されたマルチチャンネルの音声信号を取得し、到来方向の推定(S151)、および音声信号の抽出(S152)を行ってもよい。
 上記説明では、ディスプレイデバイス10およびコントローラ30が独立したデバイスである例を示した。しかしながら、ディスプレイデバイス10およびコントローラ30は一体化されてもよい。例えば、ディスプレイデバイス10およびコントローラ30が1台のタブレット端末またはパーソナルコンピュータとして実装可能である。また、マルチマイクデバイス50とディスプレイデバイス10またはコントローラ30とが一体化されてもよい。また例えば、コントローラ30がクラウドサーバ内に存在してもよい。
 上記説明では、ディスプレイデバイス10が、タブレット端末、パーソナルコンピュータ、スマートフォン、会議用ディスプレイ装置など複数のユーザと表示内容を共有しやすい電子機器である例を示した。しかしながら、ディスプレイデバイス10は、人間の頭部に装着可能であるように構成されてもよい。例えば、ディスプレイデバイス10は、グラス型ディスプレイデバイス、ヘッドマウンドディスプレイ、ウェアラブルデバイス、またはスマートグラスであってもよい。ディスプレイデバイス10は、光学シースルー型のグラス型ディスプレイデバイスであってもよいが、ディスプレイデバイス10の形式はこれに限定されない。例えば、ディスプレイデバイス10はビデオシースルー型のグラス型ディスプレイデバイスであってもよい。すなわち、ディスプレイデバイス10はカメラを備えてもよい。そしてディスプレイデバイス10は、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成することで得られた合成画像を、ディスプレイ11に表示してもよい。撮影画像は、ユーザの正面方向を撮影した画像であって、話者の画像を含んでいてもよい。また、ディスプレイデバイス10は、例えばスマートフォン、パーソナルコンピュータ又はタブレット端末において、音声認識に基づいて生成したテキスト画像とカメラで撮影された撮影画像とを合成してAR(Augmented Reality)表示を行ってもよい。
 また、1台のコントローラ30に複数のディスプレイデバイス10が接続されてよい。この場合に、例えば、マップ画像のレイアウト(例えば、マイク座標系とマップ座標系との対応関係)、および翻訳言語情報は、ディスプレイデバイス10毎に変更可能に構成されてよい。
 ディスプレイ11は、ユーザに画像を提示することができれば、その実現方法は問わない。ディスプレイ11は、例えば、以下の実現方法により実現可能である。
 ・光学素子(一例として、導光板)を用いたHOE(Holographic optical element)又はDOE(Diffractive optical element)
 ・液晶ディスプレイ
 ・網膜投影ディスプレイ
 ・LED(Light Emitting Diode)ディスプレイ
 ・有機EL(Electro Luminescence)ディスプレイ
 ・レーザディスプレイ
 ・光学素子(一例として、レンズ、ミラー、回折格子、液晶、MEMSミラー、HOE)を用いて、発光体から発光された光を導光するディスプレイ
 特に、網膜投影ディスプレイを用いる場合、弱視の人であっても像の観察が容易である。したがって、難聴及び弱視の両方を患う人に対して、発話音の到来方向をより容易に認知させることができる。
 ディスプレイ11には、前述のマップ画像の一部(例えば上半分)のみが表示されてもよい。これにより、ディスプレイ11の表示領域が小さい場合であっても、テキスト画像等の視認性を保つことができる。ディスプレイ11に表示されるマップ画像の一部は、ユーザ指示に応じてまたは自動的に切り替えられてよい。
 上述した実施形態では、コントローラ30の入力デバイスからユーザの指示が入力される例を説明したが、これに限らない。ディスプレイデバイス10の備える操作部からユーザの指示が入力されてもよい。
 マルチマイクデバイス50による音声抽出処理においては、特定の話者に対応する音声信号を抽出することができれば、その実現方法は問わない。マルチマイクデバイス50は、例えば、以下の方法により音声信号を抽出してもよい。
 ・Frostビームフォーマ
 ・適応フィルタビームフォーミング(一例として、一般化サイドローブキャンセラ)
 ・ビームフォーミング以外の音声抽出方法(一例として、周波数フィルタ、又は機械学習)
 本実施形態または各変形例において、複数の参加者による発言に関するテキスト(画像)をマップ画像上に配置する例を示した。コントローラ30は、会話と関連付けられるチャットにおいてチャット参加者によって投稿されたテキストを取得し、当該テキスト(画像)をマップ画像上に配置してもよい。また、コントローラ30は、音源アイコンと同様に、チャット参加者を表す投稿者アイコンをマップ画像上に配置してもよい。これにより、会話の参加者がチャット参加者による投稿内容を認識しやすくなる。この場合に、チャット参加者によって投稿されたテキスト(以下、「投稿テキスト」という)または投稿者アイコンの表示位置は、様々な技法により決定することができる。
 第1例として、コントローラ30は、投稿者アイコンまたは投稿テキストを、例えば円周CI31またはCI61の外側に表示することで、音源アイコンまたは発言に関するテキストと区別してもよい。第2例として、コントローラ30は、チャット参加者がいずれかの話者と同一人物であることを検出した場合に、当該話者による発言に関するテキストと同一のルールで当該話者による投稿テキストを表示することで、同一人物による発言内容および投稿内容を集約してもよい。第3例として、コントローラ30は、ユーザ指示に応じて、マルチマイクデバイス50に対するチャット参加者の方向を決定し、決定された方向に基づいて投稿者アイコンまたは投稿テキストを配置(例えば円周CI31上に配置)してもよい。つまり、コントローラ30は、ユーザ指示に応じて、マップ画像における投稿者アイコンまたは投稿テキストの表示位置を移動してもよい。これにより、チャット参加者が全く発言せずマルチマイクデバイス50に対するチャット参加者の方向を推定することができない場合であっても、投稿者アイコンまたは投稿テキストの表示位置を適正化(例えば、発言者の音源アイコン及びテキスト画像と同様に表示)することができる。
 変形例1では、議事録を生成し、当該議事録に配置された発言内容をユーザが編集可能に構成する例を説明した。ユーザは、発言内容そのものの修正に限らず、発言に関する補足説明を追加してもよい。これにより、議事録の観者に、発言の趣旨が伝わらなかったり、誤って伝わったりするのを防止することができる。
 変形例1では、複数の参加者による会話における発言内容を示すテキストを時系列順に配置した議事録を生成する例を示した。コントローラ30は、会話と関連付けられるチャットにおいてチャット参加者によって投稿されたテキストを取得し、当該テキストにさらに基づいて議事録を生成してもよい。この場合に、コントローラ30は、投稿日時または発言日時の時系列順に、投稿されたテキストまたは発言内容を示すテキストを配置することで議事録を生成する。例えば、投稿されたテキストと発言内容を示すテキストとを同じウインドウ内に時系列順に並べて配置してもよい。これにより、会話の参加者がチャット参加者による投稿内容を認識しやすくなるとともに、議論の流れを振り返る場合にチャット参加者の投稿内容の見落としを防ぐことができる。
 変形例2では、発生日時が新しい順に3つの発言内容に対応するテキスト画像をマップ画像上に配置する例を示した。しかしながら、マップ画像上に配置されるテキスト画像の数は2以下であってもよいし、4以上であってもよい。また、マップ画像上に配置されるテキスト画像の数は、固定であってもよいし、種々の条件(例えば、マップ画像のサイズ、発言内容に含まれる文字数)などに応じて可変であってもよい。また、マップ画像上に配置されるテキスト画像は、当該テキスト画像に対応する発言日時からの経過時間が閾値以内であるか否かによって決定されてもよい。
 本実施形態で説明したマップ画像と、変形例2で説明したマップ画像とは組み合わせることができる。一例として、変形例2で説明したマップ画像において、マルチマイクデバイス50に対する話者の(推定)方向を示す表示オブジェクトA61,A62の代わりに、またはこれらに加えて、本実施形態で説明した音源アイコンが表示されてもよい。
 変形例3では、2つの場所についてのマップ画像を生成する例を示した。しかしながら、コントローラ30は、3以上の場所についてのマップ画像を生成してもよい。また、変形例1,3を組み合わせることも可能である。一例として、コントローラ30は、複数の場所における参加者の発言内容を時系列順に並べて議事録を生成してもよい。この場合に、コントローラ30は、参加者がどの場所に居るかに関わらず各参加者の発言を同一の議事録に集約してもよい。
 以上、本発明の実施形態について詳細に説明したが、本発明の範囲は上記の実施形態に限定されない。また、上記の実施形態は、本発明の主旨を逸脱しない範囲において、種々の改良や変更が可能である。また、上記の実施形態及び変形例は、組合せ可能である。
1     :情報処理システム
10    :ディスプレイデバイス
11    :ディスプレイ
30    :コントローラ
31    :記憶装置
32    :プロセッサ
33    :入出力インタフェース
34    :通信インタフェース
50    :マルチマイクデバイス

Claims (16)

  1.  少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得する手段と、
     前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得する手段と、
     前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成する手段と、
     ディスプレイデバイスの表示部に前記マップ画像を表示する手段と
     を具備する、情報処理装置。
  2.  前記音源の方向を示す情報に基づいて、前記マルチマイクデバイスの周囲に存在する音源を識別する手段と、
     識別された前記音源に関する音源情報をユーザ指示に応じて設定する手段とをさらに具備する、
     請求項1に記載の情報処理装置。
  3.  前記設定する手段は、前記識別された音源の名称、当該音源の使用言語、または当該音源から発せられた音声の内容に関するテキストに適用される機械翻訳の目的言語の少なくとも1つを設定する、
     請求項2に記載の情報処理装置。
  4.  前記音声の内容に関する情報に基づいて議事録を生成する手段と、
     前記議事録を前記マップ画像とともに前記ディスプレイデバイスの表示部に表示する手段とをさらに具備する、
     請求項1乃至請求項3のいずれかに記載の情報処理装置。
  5.  前記議事録を生成する手段は、取得された前記音声の内容に関する情報を時系列順に配置することで前記議事録を生成する、
     請求項4に記載の情報処理装置。
  6.  前記議事録に配置されたテキストをユーザ指示に応じて編集する手段をさらに具備する、
     請求項4または請求項5に記載の情報処理装置。
  7.  チャット参加者によって投稿されたテキストを取得する手段をさらに具備し、
     前記議事録を生成する手段は、前記チャット参加者によって投稿されたテキストと前記音声の内容に関する情報とを配置することで前記議事録を生成する、
     請求項4乃至請求項6のいずれかに記載の情報処理装置。
  8.  前記マップ画像を生成する手段は、前記マルチマイクデバイスを表すマイクアイコンと、前記音源を表す音源アイコンとを含み、前記音源アイコンが、前記マイクアイコンを中心とする円周上のうち前記マルチマイクデバイスに対する当該音源アイコンに対応する音源の方向に応じた位置に配置されるように前記マップ画像を生成する、
     請求項1乃至請求項7のいずれかに記載の情報処理装置。
  9.  前記マップ画像を生成する手段は、前記音源が音声を発している間、当該音源を表すアイコンまたは当該音声の内容に関する情報を強調するように前記マップ画像を生成する、
     請求項8に記載の情報処理装置。
  10.  チャット参加者によって投稿されたテキストを取得する手段を具備し、
     前記マップ画像を生成する手段は、前記チャット参加者を表す投稿者アイコンと、当該チャット参加者によって投稿されたテキストを含むように前記マップ画像を生成する、
     請求項8または請求項9に記載の情報処理装置。
  11.  前記マップ画像における前記投稿者アイコンの表示位置をユーザ指示に応じて移動する手段をさらに具備する、
     請求項10に記載の情報処理装置。
  12.  前記マップ画像を生成する手段は、前記音源アイコンの1つが前記マップ画像上で所定の方向に位置するように、前記音源アイコンおよび前記音声の内容に関する情報の表示位置を前記マイクアイコンの表示位置を中心に回転する、
     請求項8乃至請求項11のいずれかに記載の情報処理装置。
  13.  前記マップ画像を生成する手段は、同一の音源から発せられた音声に関する複数のテキストを、対応する発言日時が古い順に前記マップ画像の座標系の中心から遠ざかるように前記マップ画像上に配置する、
     請求項1乃至請求項12のいずれかに記載の情報処理装置。
  14.  前記少なくとも1つのマルチマイクデバイスは、異なる場所に設置された第1マルチマイクデバイスおよび第2マルチマイクデバイスを含み、
     前記音源の方向を示す情報を取得する手段は、前記第1マルチマイクデバイスに対する音源の方向を示す情報と前記第2マルチマイクデバイスに対する音源の方向を示す情報とを取得し、
     前記音声の内容に関する情報を取得する手段は、前記第1マルチマイクデバイスによって集音された第1音声に関する第1テキストと、前記第2マルチマイクデバイスによって集音された第2音声に関する第2テキストとを取得し、
     前記マップ画像を生成する手段は、前記第1テキストを、当該第1テキストに対応する第1音声の音源の前記第1マルチマイクデバイスに対する方向に応じた位置に配置した第1マップ画像と、前記第2テキストを、当該第2テキストに対応する第2音声の音源の前記第2マルチマイクデバイスに対する方向に応じた位置に配置した第2マップ画像とを生成し、
     前記マップ画像を表示する手段は、前記ディスプレイデバイスの表示部に前記第1マップ画像および前記第2マップ画像を表示する、
     請求項1乃至請求項13のいずれかに記載の情報処理装置。
  15.  少なくとも1つのマルチマイクデバイスに対する音源の方向を示す情報を取得するステップと、
     前記音源から発せられ、前記マルチマイクデバイスによって集音された音声の内容に関する情報を取得するステップと、
     前記音声の内容に関する情報を、前記マルチマイクデバイスに対する当該音声の音源の方向に応じた位置に配置したマップ画像を生成するステップと、
     ディスプレイデバイスの表示部に前記マップ画像を表示するステップと
     を具備する、情報処理方法。
  16.  コンピュータに、請求項1~請求項14の何れかに記載の情報処理装置の各手段を実現させるためのプログラム。
PCT/JP2023/005887 2022-02-21 2023-02-20 情報処理装置、情報処理方法、及びプログラム WO2023157963A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023523217A JP7399413B1 (ja) 2022-02-21 2023-02-20 情報処理装置、情報処理方法、及びプログラム
JP2023199974A JP2024027122A (ja) 2022-02-21 2023-11-27 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-024504 2022-02-21
JP2022024504 2022-02-21

Publications (1)

Publication Number Publication Date
WO2023157963A1 true WO2023157963A1 (ja) 2023-08-24

Family

ID=87578686

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/005887 WO2023157963A1 (ja) 2022-02-21 2023-02-20 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
JP (2) JP7399413B1 (ja)
WO (1) WO2023157963A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011165056A (ja) * 2010-02-12 2011-08-25 Nec Casio Mobile Communications Ltd 情報処理装置及びプログラム
JP2012059121A (ja) * 2010-09-10 2012-03-22 Softbank Mobile Corp 眼鏡型表示装置
WO2014097748A1 (ja) * 2012-12-18 2014-06-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム
JP2016029466A (ja) * 2014-07-16 2016-03-03 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声認識テキスト化システムの制御方法および携帯端末の制御方法
JP2021067830A (ja) * 2019-10-24 2021-04-30 日本金銭機械株式会社 議事録作成システム
JP2021136606A (ja) * 2020-02-27 2021-09-13 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
WO2021230180A1 (ja) * 2020-05-11 2021-11-18 ピクシーダストテクノロジーズ株式会社 情報処理装置、ディスプレイデバイス、提示方法、及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011165056A (ja) * 2010-02-12 2011-08-25 Nec Casio Mobile Communications Ltd 情報処理装置及びプログラム
JP2012059121A (ja) * 2010-09-10 2012-03-22 Softbank Mobile Corp 眼鏡型表示装置
WO2014097748A1 (ja) * 2012-12-18 2014-06-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム
JP2016029466A (ja) * 2014-07-16 2016-03-03 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声認識テキスト化システムの制御方法および携帯端末の制御方法
JP2021067830A (ja) * 2019-10-24 2021-04-30 日本金銭機械株式会社 議事録作成システム
JP2021136606A (ja) * 2020-02-27 2021-09-13 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
WO2021230180A1 (ja) * 2020-05-11 2021-11-18 ピクシーダストテクノロジーズ株式会社 情報処理装置、ディスプレイデバイス、提示方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2023157963A1 (ja) 2023-08-24
JP2024027122A (ja) 2024-02-29
JP7399413B1 (ja) 2023-12-18

Similar Documents

Publication Publication Date Title
JP7483798B2 (ja) ワードフロー注釈
US9949056B2 (en) Method and apparatus for presenting to a user of a wearable apparatus additional information related to an audio scene
TWI681317B (zh) 人機互動方法及系統
CN106463114B (zh) 信息处理设备、控制方法及程序存储单元
CN104254818B (zh) 音频用户交互辨识和应用程序接口
US20170277257A1 (en) Gaze-based sound selection
US20230045237A1 (en) Wearable apparatus for active substitution
CN107168518B (zh) 一种用于头戴显示器的同步方法、装置及头戴显示器
JP2022538511A (ja) レガシーオーディオビジュアルメディアからの空間化された仮想音響シーンの決定
US10409324B2 (en) Glass-type terminal and method of controlling the same
KR20190121758A (ko) 정보 처리 장치, 정보 처리 방법, 및 프로그램
JP7048784B2 (ja) 表示制御システム、表示制御方法及びプログラム
KR20190053001A (ko) 이동이 가능한 전자 장치 및 그 동작 방법
KR20190134975A (ko) 인공지능 시스템의 앱들 또는 스킬들의 리스트를 표시하는 증강 현실 장치 및 동작 방법
WO2021230180A1 (ja) 情報処理装置、ディスプレイデバイス、提示方法、及びプログラム
JP2008299135A (ja) 音声合成装置、音声合成方法、および音声合成用プログラム
WO2023157963A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
US20230196943A1 (en) Narrative text and vocal computer game user interface
US20220277672A1 (en) Display device, display method, and program
US20240119684A1 (en) Display control apparatus, display control method, and program
JP2017199085A (ja) 情報処理装置、情報処理方法、およびプログラム
GB2598333A (en) A method and head-mounted unit for assisting a user
WO2020003820A1 (ja) 複数の処理を並列実行する情報処理装置
WO2023249073A1 (ja) 情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2023523217

Country of ref document: JP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23756487

Country of ref document: EP

Kind code of ref document: A1