WO2020240795A1 - 表示情報生成装置、表示情報生成方法及び表示情報生成プログラム - Google Patents

表示情報生成装置、表示情報生成方法及び表示情報生成プログラム Download PDF

Info

Publication number
WO2020240795A1
WO2020240795A1 PCT/JP2019/021621 JP2019021621W WO2020240795A1 WO 2020240795 A1 WO2020240795 A1 WO 2020240795A1 JP 2019021621 W JP2019021621 W JP 2019021621W WO 2020240795 A1 WO2020240795 A1 WO 2020240795A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
display
importance
conversation
voice
Prior art date
Application number
PCT/JP2019/021621
Other languages
English (en)
French (fr)
Inventor
卓矢 合田
真一郎 永徳
昭宏 千葉
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/021621 priority Critical patent/WO2020240795A1/ja
Priority to US17/595,177 priority patent/US11972172B2/en
Priority to JP2021521707A priority patent/JP7327475B2/ja
Publication of WO2020240795A1 publication Critical patent/WO2020240795A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Definitions

  • the present invention relates to a display information generator, a display information generation method, and a display information generation program.
  • Non-Patent Document 1 discloses a technique for displaying a corresponding annotation on a head-mounted display for a single object. Annotations are presented at the same level, eg, the same size, the same color, etc., even for objects of different nature.
  • Non-Patent Document 1 does not disclose that a plurality of corresponding annotations are presented for a plurality of objects.
  • the present invention has been made in view of the above circumstances, and can present to the user in an easy-to-understand manner which of the plurality of annotations is important, a display information generation device, a display information generation method, and display information.
  • the purpose is to provide a generator.
  • the first aspect of the present invention there is a plurality of second speakers relating to at least one first speaker object relating to at least one first speaker and a plurality of second speakers interacting with the at least one first speaker.
  • the plurality of second speaker objects are received.
  • the importance calculation unit calculates the importance of each of the plurality of second speakers with respect to the at least one first speaker, and the importance calculation unit calculates the importance based on at least one of the plurality of annotations.
  • a display information generation device including a display information generation unit is provided.
  • a plurality of second speakers relating to at least one first speaker object relating to at least one first speaker and a plurality of second speakers talking to said at least one first speaker.
  • the plurality of second speakers are subjected to the computer.
  • the importance of each of the plurality of second speakers to the at least one first speaker is calculated, and the calculated conversation is calculated by the computer.
  • Display information that determines the display form of each of the plurality of annotations generated for the plurality of second speaker objects based on the importance of, and generates display information of the plurality of annotations having each of the display forms.
  • a generation method is provided.
  • the computer of the display information generator is talked to at least one first speaker object relating to at least one first speaker and a plurality of first speakers talking to the at least one first speaker.
  • An importance calculation unit that calculates the importance of each of the plurality of second speakers to the at least one first speaker based on at least one of the plurality of second speaker objects and the plurality of annotations.
  • the display form of each of the plurality of annotations generated for the plurality of second speaker objects is determined, and the display information of the plurality of annotations having the display form is displayed.
  • a computer-readable display information generation program for functioning as a display information generation unit to be generated is provided.
  • the present invention it is possible to provide a display information generator, a display information generation method, and a display information generation program that can present to the user which of the plurality of annotations is important in an easy-to-understand manner.
  • FIG. 1 is a schematic view showing a usage mode of an information presentation system including a display information generator according to the first embodiment.
  • FIG. 2A is a front view of the display terminal.
  • FIG. 2B is a rear view of the display terminal.
  • FIG. 3 is a block configuration diagram of a display terminal.
  • FIG. 4 is a block configuration diagram of a user terminal.
  • FIG. 5 is a functional configuration diagram of the information presentation system.
  • FIG. 6 is a diagram showing an example of the contents of the face recognition DB.
  • FIG. 7A is a diagram showing a first part of a series of sequence diagrams showing the operation of the information presentation system when the first importance calculation method is implemented.
  • FIG. 7A is a diagram showing a first part of a series of sequence diagrams showing the operation of the information presentation system when the first importance calculation method is implemented.
  • FIG. 7A is a diagram showing a first part of a series of sequence diagrams showing the operation of the information presentation system when the first importance calculation method is implemented
  • FIG. 7B is a diagram showing a second part of a series of sequence diagrams showing the operation of the information presentation system when the first importance calculation method is implemented.
  • FIG. 8A is a diagram for explaining an example of the relationship between the camera data width and the person width.
  • FIG. 8B is a diagram for explaining another example of the relationship between the camera data width and the person width.
  • FIG. 9 is a diagram showing an example of the contents of the score table.
  • FIG. 10A is a diagram for explaining an example of the ratio of the display area based on the importance of conversation.
  • FIG. 10B is a diagram for explaining another example of the ratio of the display area based on the importance of conversation.
  • FIG. 11A is a diagram showing a display example of the rear display of the display terminal.
  • FIG. 11B is a diagram showing a display example of the front display of the display terminal.
  • FIG. 12 is a sequence diagram showing the operation of the information presentation system when the second importance calculation method is implemented.
  • FIG. 13 is a sequence diagram showing the operation of the information presentation system when the third importance calculation method is implemented.
  • FIG. 14A is a diagram showing a first part of a series of sequence diagrams showing the operation of the information presentation system when the fourth importance calculation method is implemented.
  • FIG. 14B is a diagram showing a second part of a series of sequence diagrams showing the operation of the information presentation system when the fourth importance calculation method is implemented.
  • FIG. 14C is a diagram showing a third part of a series of sequence diagrams showing the operation of the information presentation system when the fourth importance calculation method is implemented.
  • FIG. 14A is a diagram showing a first part of a series of sequence diagrams showing the operation of the information presentation system when the fourth importance calculation method is implemented.
  • FIG. 14B is a diagram showing a second part of a
  • FIG. 15 is a diagram showing an example of the contents of the score table when the fourth importance calculation method is carried out.
  • FIG. 16 is a diagram for explaining an example of the ratio of the display area based on the importance of the conversation corresponding to the example of FIG.
  • FIG. 17 is a schematic view showing a usage pattern of the information presentation system in the modified example of the first embodiment.
  • FIG. 18 is a block configuration diagram of a display terminal.
  • FIG. 19 is a schematic view showing a usage mode of the information presentation device including the display information generation device according to the second embodiment.
  • FIG. 20A is a front view of the information presenting device.
  • FIG. 20B is a rear view of the information presenting device.
  • FIG. 21 is a block configuration diagram of the information presentation device.
  • FIG. 22 is a functional configuration diagram of the information presentation device.
  • FIG. 23 is a schematic view showing a usage mode of the information presentation device including the display information generation device according to the third embodiment.
  • FIG. 24A is a front view of the information presenting device.
  • FIG. 24B is a rear view of the information presenting device.
  • FIG. 25 is a block configuration diagram of the information presentation device.
  • FIG. 26 is a functional configuration diagram of the information presentation device.
  • FIG. 1 is a schematic view showing a usage mode of an information presentation system including a display information generator according to the first embodiment. This is a situation in which one user U and two speakers S1 and S2 who are conversation partners of the user U are facing each other. This embodiment is an example of a one-to-many conversation. The number of speakers is not limited to two, and it goes without saying that there may be three or more speakers.
  • the information presentation system includes a user terminal 1 in which a display information generation device is incorporated, and a display terminal 2 that communicates with the user terminal 1 and displays information.
  • the user terminal 1 may be a portable information processing terminal such as a smartphone or a tablet terminal.
  • FIG. 2A is a front view of the display terminal 2.
  • a front display 201, a front stereo microphone 202, and a keyboard 203 are arranged on the front surface of the display terminal 2.
  • the front display 201 displays information to be presented to user U.
  • the front stereo microphone 202 acquires the sound on the front side of the display terminal 2, particularly the sound of the user U.
  • the keyboard 203 is a device in which a plurality of operation keys for the user U to operate the display terminal 2 are collectively arranged. The plurality of operation keys may be distributed on the front surface, the side surface, the upper surface, and the like of the display terminal 2 instead of being arranged collectively as the keyboard 203.
  • FIG. 2B is a rear view of the display terminal 2.
  • a rear display 204, a rear stereo microphone 205, and a rear camera 206 are arranged on the back surface of the display terminal 2.
  • the rear display 204 displays information to be presented to the speakers S1 and S2.
  • the rear stereo microphone 205 acquires the sound on the rear side of the display terminal 2, particularly the sounds of the speakers S1 and S2.
  • the rear camera 206 acquires images of the rear side of the display terminal 2, particularly the speakers S1 and S2.
  • the user U holds the display terminal 2 so that at least one of the speakers S1 and S2 has a face within the angle of view of the rear camera 206.
  • a front sub-display 207 may be further provided on the front surface of the display terminal 2.
  • the front sub-display 207 displays an image captured by the rear camera 206.
  • the user U can confirm whether or not the faces of the speakers S1 and S2 are included in the angle of view of the rear camera 206 by displaying the front sub-display 207.
  • the front sub-display 207 can be omitted if the image acquired by the rear camera 206 can be switched to the front display 201 for display or superimposed display as a picture-in-picture.
  • a front camera 208 may be further provided on the front surface of the display terminal 2.
  • the front camera 208 acquires an image of the front side of the display terminal 2.
  • the image captured by the front camera 208 may be switched and displayed on the front display 201 or the front sub-display 207 from the image captured by the rear camera 206 by operating the operation keys.
  • the front display 201 and the rear display 204 may be configured as one transmissive display.
  • the information presented to the speakers S1 and S2 is displayed on the transmissive display as an image in which the front and back sides are inverted so that the speakers S1 and S2 can read the information.
  • FIG. 3 is a block configuration diagram of the display terminal 2.
  • the display terminal 2 has a processor 209, a ROM (Read Only Memory) 210, a RAM (Random Access Memory) 211, a communication IF (Interface) 212, and the like.
  • the processor 209 is, for example, a CPU (Central Processing Unit).
  • the processor 209 realizes various processing functions by executing a control program stored in the ROM 210.
  • the ROM 210 stores a control program, control data, and the like that control the operation of the display terminal 2.
  • the control program includes a part of a display control application program (hereinafter, the application program is abbreviated as an application) described later.
  • the RAM 211 is a main memory that functions as a working memory.
  • the communication IF212 is an interface unit that employs a low-power wireless data communication standard such as Bluetooth (registered trademark), and performs data communication with the user terminal 1.
  • the audio acquired by the front stereo microphone 202 or the rear stereo microphone 205 is compressed by the processor 209 in an arbitrary audio compression format such as CELP (Code Excited Linear Prediction Coder), and transmitted as audio data to the user terminal 1 by the communication IF 212. ..
  • the images acquired by the front camera 208 or the rear camera 206 at regular intervals are compressed by the processor 209 in an arbitrary image compression format such as JPEG (Joint Photographic Experts Group) and transmitted as camera data to the user terminal 1 by the communication IF 212.
  • JPEG Joint Photographic Experts Group
  • the video data may be transmitted to the user terminal 1. Audio, image, and video compression formats are not limited to this. You may send it without compression.
  • the display result graphic data received from the user terminal 1 by the communication IF 212 is distributed to the front display 201 or the rear display 204 by the processor 209 and displayed there.
  • FIG. 4 is a block configuration diagram of the user terminal 1.
  • the user terminal 1 has a processor 101, a ROM 102, a RAM 103, an NVM (Nonvolatile Memory) 104, a display 105, a touch panel 106, a communication IF 107, a camera 108, and the like.
  • NVM Nonvolatile Memory
  • the processor 101 is, for example, a CPU.
  • the processor 101 realizes various processing functions by executing a control program stored in the ROM 102 or the NVM 104.
  • the ROM 102 stores a control program, control data, and the like that control the operation of the user terminal 1.
  • the RAM 103 is a main memory that functions as a working memory.
  • the NVM 104 is a rewritable non-volatile storage device such as a SRAM or a flash memory.
  • the NVM 104 stores applications, data, and the like for realizing various processing functions.
  • the application stored in the NVM 104 includes the processor 101, a display information generation program described later, a part of the display control program, and the like.
  • the display 105 is a display device such as a liquid crystal display.
  • the touch panel 106 is a touch input device arranged on the display surface of the display 105.
  • the user terminal 1 can have operation keys other than the touch panel 106.
  • the communication IF 107 is an interface unit that employs a low-power wireless data communication standard such as Bluetooth, and performs data communication with the display terminal 2.
  • the communication IF 107 can further include a wireless communication interface unit such as a mobile phone communication system such as 4G or 5G, a wireless LAN, and the like.
  • the camera 108 is for acquiring an image, and can be provided on both the front surface and the back surface of the user terminal 1.
  • the audio data and camera data (or video data) received from the display terminal 2 by the communication IF 107 are restored to the original audio and image by the processor 101 functioning as the display information generator and processed.
  • the display result graphic data generated by the processor 101 as a result of the processing is transmitted to the display terminal 2 by the communication IF 107.
  • FIG. 5 is a functional configuration diagram of the information presentation system.
  • the information presentation system functionally has a Bluetooth access point virtual infrastructure 3 between the user terminal 1 and the display terminal 2.
  • the Bluetooth access point virtual infrastructure 3 is composed of a communication IF 107 of the user terminal 1, a communication IF 212 of the display terminal 2, a processor 101 of the user terminal 1, and a processor 209 of the display terminal 2. That is, the processors 101 and 209 control the communication IFs 107 and 212 by executing the process according to the display control application 300, and transmit / receive data between the user terminal 1 and the display terminal 2.
  • the portion for the processor 101 is stored in the NVM 104 of the user terminal 1, and the portion for the processor 209 is stored in the ROM 210 of the display terminal 2.
  • the processors 101 and 209 can function as the voice and camera data transmission unit 301 and the graphic return unit 302.
  • the voice and camera data transmission unit 301 transmits at least the voice acquired by the rear stereo microphone 205 of the display terminal 2 and the camera data (image) acquired by the rear camera 206 to the user terminal 1 as a speaker object related to the speaker. To do.
  • the voice and camera data transmission unit 301 further transmits at least the former of the voice acquired by the front stereo microphone 202 of the display terminal 2 and the camera data acquired by the front camera 208 to the user terminal 1 as a user object related to the user. To do.
  • the graphic return unit 302 transmits at least display result graphic data, which is a display image to be displayed on the front display 201 of the display terminal 2 generated by the user terminal 1, from the user terminal 1 to the display terminal 2.
  • the graphic return unit 302 can also transmit the display result graphic data to be displayed on the rear display 204 of the display terminal 2 generated by the user terminal 1 from the user terminal 1 to the display terminal 2.
  • the display result graphic data generated by the user terminal 1 will be described later.
  • the user terminal 1 has a display information generation application 101A, a voice recognition engine 101B, a character translation engine 101C, a score table 103A, a face recognition DB (Database) 104A, and the like.
  • the display information generation application 101A is a display information generation program for causing the processor 101 to function as the display information generation device according to the embodiment, and is stored in the NVM 104.
  • the processor 101 can function as the importance calculation unit 111 and the graphic creation unit 112 by executing the display information generation application 101A.
  • the score table 103A is a table configured in the RAM 103 while the processor 101 is executing the display information generation application 101A.
  • the score table 103A stores data indicating the importance of conversation with the speakers S1 and S2 or score data of the speakers S1 and S2 while the processor 101 is executing the display information generation application 101A. be able to.
  • the face recognition DB 104A is a database that can be stored in the NVM 104 and stores the face images of the user U and the speakers S1 and S2 acquired in advance by the camera 108.
  • the voice recognition engine 101B performs voice recognition on the input voice and generates a character string corresponding to the input voice. That is, the voice recognition engine 101B generates a corresponding voice recognition result character string as an annotation for the input voice object.
  • the voice object of the user U and the voice objects of the plurality of speakers S1 and S2 transmitted from the display terminal 2 are input to the voice recognition engine 101B from the importance calculation unit 111.
  • the voice recognition engine 101B outputs the voice recognition result character string to the importance calculation unit 111.
  • the voice recognition engine 101B supports two or more languages, and can output a voice recognition result character string in each language.
  • Various voice recognition engines 101B are provided by various vendors, and one of them can be used.
  • the voice recognition engine 101B may be in a form in which the user terminal 1 is not provided and the voice recognition engine 101B is provided on the network by the communication IF 107.
  • the character translation engine 101C translates the input character string by a known translation engine and generates a translation result character string corresponding to the input character string.
  • the character translation engine 101C supports more than two languages, and bidirectional translation between each language is possible.
  • which language the user U's mother tongue is is registered in advance as known information, and it is possible to specify which language to translate with.
  • the character translation engine 101C generates the corresponding translation result character string as an annotation for the input character string object.
  • the voice recognition result character string output from the voice recognition engine 101B is input to the character translation engine 101C as a character string object from the importance calculation unit 111.
  • Various character translation engines 101C are provided by various vendors, and one of them can be used.
  • the character translation engine 101C may be in a form in which the user terminal 1 is not provided and the character translation engine 101C is provided on the network by the communication IF 107.
  • the importance calculation unit 111 calculates the importance of the conversation between the user U and the speakers S1 and S2, respectively.
  • the importance calculation unit 111 can calculate the importance of conversation based on the camera data (image) object from the display terminal 2, which is the speaker object related to the speakers S1 and S2.
  • the importance calculation unit 111 is based on the voice recognition result character string which is an annotation from the voice recognition engine 101B, or the voice recognition result character string and the translation result character string which is an annotation from the character translation engine 101C.
  • the importance of the conversation can be calculated based on.
  • the importance calculation unit 111 outputs the result character string, which is an annotation from the voice recognition engine 101B and the character translation engine 101C, and the importance of the conversation corresponding thereto to the graphic creation unit 112.
  • the importance calculation unit 111 determines which voice recognition result character string or translation result character string corresponds to the voice of which person based on the camera data object acquired from the display terminal 2. Can be done. For example, the importance calculation unit 111 determines which person's mouth in each face image in a series of camera data acquired by the rear camera 206 and the front camera 208 when the voice object is transmitted from the display terminal 2. It is possible to determine who is speaking by checking whether or not the camera is moving. Alternatively, the importance calculation unit 111 can determine a person based on the voice object acquired from the display terminal 2.
  • the importance calculation unit 111 determines that the character string corresponds to the voice of the user U. Can be done.
  • the voice object is the voice acquired by the rear stereo microphone 205
  • the speaker is S1 or S2.
  • the importance calculation unit 111 may detect a voiceprint, or may use the speaker's voiceprint based on the volume and phase of the input voice between the left microphone and the right microphone of the rear stereo microphone 205. By detecting the direction and distance, it is possible to determine the person who is speaking.
  • the conversation importance calculation method carried out by the importance calculation unit 111 for example, any one of the following three methods or a combination thereof can be adopted.
  • the importance calculation unit 111 may adopt other methods.
  • the importance calculation unit 111 only needs to be able to use at least one of the importance calculation methods, and it is not necessary to implement a plurality of calculation methods.
  • a plurality of importance calculation methods may be installed so that the user U can arbitrarily specify which one to adopt.
  • the importance of conversation is calculated based on the ratio of each speaker's image, for example, a face image, to the camera data obtained by capturing the plurality of speakers S1 and S2.
  • user U points the rear camera 206 at a person who appears to be important. Therefore, the importance calculation unit 111 acquires camera data from the rear camera 206 of the display terminal 2 as speaker objects related to a plurality of speakers. Then, the importance calculation unit 111 calculates a high value for the conversation with the speaker having a large proportion of the face image in the acquired camera data as the importance, and the speaker having a small proportion of the face image in the camera data. Conversations with and calculate low values.
  • the importance of conversation is calculated based on the connection of dialogue.
  • the connection of the dialogue can be determined by using the degree of failure of the dialogue.
  • the method of detecting the degree of dialogue failure for example, Michimasa Inaba et al., "Dialogue failure detection using Long Short-Term Memory Recurrent Neural Network", Japanese Society for Artificial Intelligence, SIG-SLUD-B502-13, pp.
  • the method disclosed in 57-60, 2015 may be adopted.
  • the importance calculation unit 111 is based on a voice recognition result character string corresponding to the voice object of the user U and a character string of the voice recognition result or the voice translation result corresponding to the voice objects of each of the plurality of speakers S1 and S2.
  • the importance calculation unit 111 calculates a high value for the conversation with the speaker with a small degree of failure of the detected dialogue and a low value for the conversation with the speaker with a large degree of failure of the dialogue as the importance. To do.
  • the importance of conversation is calculated based on the scores of a plurality of speakers S1 and S2 scored in advance using face recognition.
  • the face images of the user U and the speakers S1 and S2 are accumulated in the face recognition DB 104A, the user U scores the images of each person according to the importance, and the person scores are also registered in the face recognition DB 104A. I will do it.
  • FIG. 6 is a diagram showing an example of the contents of the face recognition DB.
  • the importance calculation unit 111 acquires camera data from the rear camera 206 of the display terminal 2 as speaker objects related to a plurality of speakers.
  • the importance calculation unit 111 refers to the face recognition DB 104A to authenticate the face of the person shown in the acquired camera data.
  • the importance calculation unit 111 calculates a high value for conversation with an authenticated person having a high person score registered in the face recognition DB 104A of the authenticated person, and a low value for conversation with an authenticated person with a low person score. Is calculated.
  • the graphic creation unit 112 determines the display form of the result character string based on the result character string (annotation) output by the importance calculation unit 111 and the importance of the corresponding conversation, and displays the annotation having the display form.
  • a display image (display result graphic data) including a character string image which is information is generated.
  • the display form may be the display position of the character string image in the display image, or may be some character modification such as character color, character size, character thickness, blinking, decoration, and the like.
  • the graphic creation unit 112 outputs the generated display result graphic data to the graphic return unit 302. As described above, the graphic return unit 302 transmits the display result graphic data to the display terminal 2 and displays it on the front display 201 or the rear display 204.
  • the display screen of the front display 201 has a voice recognition result character string or a translation result corresponding to the voice spoken by the speakers S1 and S2 in a display form according to the importance of the conversation with the speakers S1 and S2.
  • the character string will be displayed.
  • FIGS. 7A and 7B are a series of sequence diagrams showing the operation of the information presentation system when the first importance calculation method is implemented.
  • the voice and camera data transmission unit 301 together with the camera data (image) acquired by the rear camera 206.
  • the sound is transmitted from the display terminal 2 to the importance calculation unit 111 of the user terminal 1.
  • the importance calculation unit 111 outputs the received voice object to the voice recognition engine 101B.
  • the voice recognition engine 101B performs voice recognition on the input voice object (step ST11).
  • the voice recognition engine 101B outputs the recognized voice recognition result character string as an annotation to the importance calculation unit 111.
  • the importance calculation unit 111 stores the voice recognition result character string in the voice recognition result character string storage area for each person (not shown) reserved in the RAM 103 or the NVM 104 together with the current time.
  • the importance calculation unit 111 outputs the voice recognition result character string to the character translation engine 101C as a character string object to be translated.
  • the character translation engine 101C translates the input character string object into the native language of the user U or the designated language (step ST12).
  • the character translation engine 101C outputs the translated translation result character string as an annotation to the importance calculation unit 111.
  • the importance calculation unit 111 stores the translation result character string in the RAM 103 or the NVM 104 in the translation result character string storage area for each person (not shown) together with the current time.
  • the importance calculation unit 111 determines the importance of the conversation between the user U and each of the speakers S1 and S2 based on the ratio of the facial image of each speaker to the camera data obtained by capturing the images of the plurality of speakers S1 and S2. To calculate. That is, the importance calculation unit 111 first identifies the area occupied by the person by recognizing the person from the camera data acquired by the rear camera 206 of the display terminal 2 (step ST13). This person recognition is a common technique used in cameras to focus on a person's face. Next, the importance calculation unit 111 acquires the camera data width and the width of each person from the camera data (step ST14).
  • FIG. 8A is a diagram for explaining an example of the relationship between the camera data width and the person width in the camera data 206A.
  • the camera data width CW is the number of pixels in the horizontal direction of the camera data 206A
  • the person widths W1 and W2 are the number of pixels in the horizontal direction from the midpoint between adjacent people to the end of the camera data 206A.
  • FIG. 8B is a diagram for explaining another example of the relationship between the camera data width and the person width in the camera data 206A.
  • the person widths W1 and W2 are the maximum number of pixels in the horizontal direction of each person, and the camera data width CW can be the total value (W1 + W2) of the number of pixels of the person width.
  • the importance calculation unit 111 calculates the importance of the conversation based on the ratio of the person width to the camera data width, and stores the calculation result in the score table 103A (step ST15).
  • FIG. 9 is a diagram showing an example of the stored contents of the score table 103A, which is updated each time.
  • the importance of conversation is calculated by "person width (W1 or W2) / camera data width (CW) of the person concerned”. That is, “1.0 ⁇ conversation importance ⁇ 0.0”, and the closer the conversation is to “1.0”, the higher the importance.
  • the importance calculation unit 111 determines whether or not the calculated importance of the conversation is "0.5" (step ST16). When the importance of the conversation is "0.5", that is, when the importance of the conversation is the same for the two speakers S1 and S2, the importance calculation unit 111 is the translation result which is the acquired annotation. The character string and the calculated importance of the conversation are output to the graphic creation unit 112.
  • the importance calculation unit 111 exceeds the time threshold value t and is important. Determine if there is any utterance from a person with a low degree, that is, a person with an importance of less than "0.5". That is, the current time is set to t n , the previous utterance time of the person concerned is set to t n-1, and it is determined whether or not the difference time (t n ⁇ t n-1 ) is equal to or less than the time threshold value (step ST17).
  • the previous utterance time t n-1 can be acquired from the person-to-person translation result character string storage area of the person concerned stored in the RAM 103 or the NVM 104.
  • T n- t n-1 with an importance of less than "0.5" is less than or equal to the time threshold t, that is, the time after talking with a person with an importance of less than "0.5" exceeds the time threshold t. If not, the importance calculation unit 111 outputs the acquired annotation translation result character string and the calculated importance of the conversation to the graphic creation unit 112.
  • the importance calculation unit 111 attenuates the importance of the person with the lower importance from the importance stored in the score table 103A at regular intervals, and the highest person, here, the speaker is two. Since it is a person, the attenuation is added to the importance of the higher person (step ST18). Then, the importance calculation unit 111 outputs the acquired annotation translation result character string and the updated importance of the conversation to the graphic creation unit 112.
  • the graphic creation unit 112 determines the display form of the translation result character string by using the translation result character string output by the importance calculation unit 111 and the importance of the conversation, and is display information of the annotation having the display form.
  • a display image (display result graphic data) including a character string image is generated (step ST19). For example, when the display form is the display position of the character string image, the graphic creation unit 112 sets the position of the translation result character string in the display image displayed on the front display 201 or the rear display 204 of the display terminal 2 in conversation. Determined based on importance.
  • the graphic creation unit 112 has an area for displaying the translation result character string of the speaker S1 and an area for displaying the translation result character string of the speaker S2 in the display image displayed on the front display 201 of the display terminal 2.
  • the percentage of is determined based on the importance of the conversation.
  • FIG. 10A is a diagram for explaining an example of the ratio of the display area based on the importance of conversation corresponding to the stored contents of the score table 103A shown in FIG. As shown in FIG. 9, assuming that the importance of the conversation is 0.7 to 0.3, the graphic creation unit 112 sets the display area in the display image 201A to the person 1 (for example, utterance) as shown in FIG. 10A.
  • FIG. 10B is a diagram for explaining another example of the ratio of the display area based on the importance of conversation. This example shows a case where the graphic creation unit 112 decides to divide the display area of the display image 201A into 0.7 to 0.3 in the left-right direction. In this way, the display position of the translation result character string for each speaker is determined regardless of the positional relationship between the speakers in the camera data.
  • the graphic creation unit 112 generates display result graphic data which is a display image in which each translation result character string is arranged at the position determined in this way.
  • the characters in the translation result character string of each speaker may be subjected to some character modification such as character color, character size, character thickness, blinking, decoration, and the like.
  • the decoration includes adding a window frame surrounding the character string, an icon according to the importance, and the like.
  • the display form may be not the display position of the character string image but only the character modification. That is, the arrangement of the translation result character strings may be arranged in the utterance order so that the importance of the conversation can be identified by character modification.
  • the graphic creation unit 112 outputs the generated display result graphic data to the graphic return unit 302.
  • the graphic return unit 302 transmits this display result graphic data to the display terminal 2 and displays it on the front display 201.
  • the front display 201 displays the translation result character string corresponding to the voice spoken by the speakers S1 and S2 in a display form according to the importance of the conversation with the speakers S1 and S2.
  • the voice and camera data transmission unit 301 transmits the voice from the display terminal 2 to the importance calculation unit 111 of the user terminal 1.
  • the voice and camera data transmission unit 301 may also transmit the camera data (image) acquired by the front camera 208 from the display terminal 2 to the importance calculation unit 111 of the user terminal 1.
  • the importance calculation unit 111 outputs the received voice object to the voice recognition engine 101B, acquires the voice recognition result character string as an annotation from the voice recognition engine 101B, and secures the voice recognition result character string in the RAM 103 or the NVM 104 for each person. Store the current time in the column storage area.
  • the importance calculation unit 111 outputs this voice recognition result character string to the character translation engine 101C, acquires the translation result character string as an annotation from the character translation engine 101C, and secures the translation result character string in the RAM 103 or the NVM 104 for each person. Store the current time in the column storage area.
  • the importance calculation unit 111 skips the processing of steps ST14 to ST18, sets the importance of the conversation to "1.0", and sets the translation result character string and the conversation of "1.0". The importance is output to the graphic creation unit 112.
  • the graphic creation unit 112 determines the display form of the translation result character string by using the translation result character string output by the importance calculation unit 111 and the importance of the conversation, and is the display information of the annotation having the display form.
  • a display image (display result graphic data) including a character string image is generated (step ST19).
  • the graphic creation unit 112 uses the entire display area of the display image without dividing it. decide.
  • the graphic creation unit 112 generates display result graphic data which is a display image in which each translation result character string is arranged at the position determined in this way. At this time, some character modification such as character color, character size, character thickness, blinking, decoration, etc. may be applied to the character in the translation result character string of each speaker.
  • the graphic creation unit 112 outputs the generated display result graphic data to the graphic return unit 302.
  • the graphic return unit 302 transmits this display result graphic data to the display terminal 2 and displays it on the rear display 204.
  • the translation result character string corresponding to the voice spoken by the user U is displayed on the rear display 204.
  • FIG. 11A is a diagram showing a display example of the rear display 204 of the display terminal 2
  • FIG. 11B is a diagram showing a display example of the front display 201 of the display terminal 2.
  • the Japanese translation result character string is displayed on the front display 201 of the display terminal 2 in a display form according to the importance. That is, "Thank you. Where is the toilet?" Is displayed in large letters above the display screen of the front display 201, and "Oh, Mr. XX! Is displayed in small letters below.
  • the display areas are separated by broken lines in order to show the distinction in an easy-to-understand manner, but the broken lines may not actually be displayed.
  • the front display 201 may display the voice recognition result character string indicating the content uttered by the user U until the translation result character string corresponding to the utterance content of the speakers S1 and S2 is displayed.
  • steps ST17 and ST18 when the importance calculation unit 111 does not speak from a person of low importance while exceeding the time threshold value t, the person of lower importance is given at regular intervals. The importance of is attenuated, and the attenuation is added to the importance of the person with the higher importance.
  • the annotation related to the utterance of the speaker having low importance here the translation result character string, is not displayed on the screen of the front display 201.
  • the "less important person” may be the least important person or all persons other than the highest important person.
  • the percentage of annotations related to the utterance is displayed on the screen in order from the less important person among the three or more speakers, and finally it disappears.
  • the annotation of the least important person disappears in this way, the speaker with the next least importance becomes the least important person.
  • FIG. 12 is a sequence diagram showing the operation of the information presentation system when the second importance calculation method is implemented.
  • the importance calculation unit 111 of the user terminal 1 acquires the voice recognition result character string as an annotation from the voice recognition engine 101B, and obtains the voice recognition result character string from the character translation engine 101C. Get the translation result character string as an annotation.
  • the voice recognition result character strings and translation result character strings of the user U and the speakers S1 and S2 are stored in the voice recognition result character string storage area for each person and the translation result character string storage area for each person, respectively, which are secured in the RAM 103 or the NVM 104. It will be accumulated.
  • the importance calculation unit 111 detects the degree of conversation failure from the voice recognition result character string of the user U and the translation result character strings of each of the speakers S1 and S2 accumulated in this way (step ST21).
  • the importance calculation unit 111 calculates the importance of the conversation based on the detected failure degree of the conversation, and stores the calculation result in the score table 103A (step ST22).
  • the importance of conversation is calculated by "1-Dialogue failure”. “1.0 ⁇ Conversation importance ⁇ 0.0”, and the closer the conversation is to “1.0”, the higher the importance.
  • the importance calculation unit 111 outputs the acquired annotation translation result character string and the calculated importance of the conversation to the graphic creation unit 112.
  • the importance calculation unit 111 skips the processing of steps ST21 and ST22, sets the importance of the conversation to "1.0”, and sets the importance of the conversation to "1.0", and sets the translation result character string and the conversation of "1.0".
  • the importance is output to the graphic creation unit 112.
  • the graphic creation unit 112 generates a display image (display result graphic data) in the same manner as when the first importance calculation method is performed, and outputs the generated display result graphic data to the graphic return unit 302.
  • the graphic return unit 302 transmits the display result graphic data to the display terminal 2, displays the translation result character string corresponding to the voice spoken by the speakers S1 and S2 on the front display 201, and the voice spoken by the user U.
  • the translation result character string corresponding to is displayed on the rear display 204.
  • FIG. 13 is a sequence diagram showing the operation of the information presentation system when the third importance calculation method is implemented.
  • the importance calculation unit 111 of the user terminal 1 acquires the voice recognition result character string as an annotation from the voice recognition engine 101B, and obtains the voice recognition result character string from the character translation engine 101C. Get the translation result character string as an annotation.
  • the voice recognition result character strings and translation result character strings of the user U and the speakers S1 and S2 are stored in the voice recognition result character string storage area for each person and the translation result character string storage area for each person, respectively, which are secured in the RAM 103 or the NVM 104. It will be accumulated.
  • the importance calculation unit 111 searches the face recognition DB 104A for the camera data, performs face recognition, identifies each speaker in the camera data, and acquires the person score of those persons (step ST31).
  • the importance calculation unit 111 calculates the importance of the conversation based on the acquired person score, and stores the calculation result in the score table 103A (step ST32).
  • the importance calculation unit 111 outputs the acquired annotation translation result character string and the calculated importance of the conversation to the graphic creation unit 112.
  • the importance calculation unit 111 may skip the processing of steps ST31 and ST32 and set the importance of the conversation to the specified value "1.0".
  • the graphic creation unit 112 generates a display image (display result graphic data) in the same manner as when the first importance calculation method is performed, and outputs the generated display result graphic data to the graphic return unit 302.
  • the graphic return unit 302 transmits the display result graphic data to the display terminal 2, displays the translation result character string corresponding to the voice spoken by the speakers S1 and S2 on the front display 201, and the voice spoken by the user U.
  • the translation result character string corresponding to is displayed on the rear display 204.
  • the first, second, and third importance calculation methods described above may be used not only individually but also in combination. That is, the combination of the first importance calculation method and the second importance calculation method, the combination of the first importance calculation method and the third importance calculation method, the second importance calculation method and the third importance calculation method. And a combination of the first, second and third importance calculation methods can be used.
  • the fourth importance calculation method a method combining the first, second, and third importance calculation methods will be described.
  • 14A, 14B and 14C are a series of sequence diagrams showing the operation of the information presentation system when the fourth importance calculation method is implemented.
  • the importance calculation unit 111 of the user terminal 1 acquires the voice recognition result character string as an annotation from the voice recognition engine 101B, and obtains the voice recognition result character string from the character translation engine 101C. Get the translation result character string as an annotation.
  • the voice recognition result character strings and translation result character strings of the user U and the speakers S1 and S2 are stored in the voice recognition result character string storage area for each person and the translation result character string storage area for each person, respectively, which are secured in the RAM 103 or the NVM 104. It will be accumulated.
  • the importance calculation unit 111 identifies the area occupied by a person by person recognition from the camera data in the same manner as when the first importance calculation method is performed (step ST13), and the camera data width and the width of each person. (Step ST14). After that, the importance calculation unit 111 calculates the score 1 based on the ratio of the person width to the camera data width, and stores the calculation result in the score table 103A (step ST41).
  • the calculation of the score 1 is the same as the calculation of the importance of the conversation based on the ratio shown in the camera data when the first importance calculation method is used.
  • the process of step ST41 is a process of storing the importance of the conversation calculated in the first importance calculation method in the score table 103A as a score 1.
  • FIG. 15 is a diagram showing an example of stored contents of the score table 103A.
  • the score 1 is calculated by "person width (W1 or W2) / camera data width (CW) of the person concerned”. That is, "1.0 ⁇ score 1 ⁇ 0.0".
  • the importance calculation unit 111 executes the processing of steps ST16 to ST18 when the first importance calculation method is used, not for the importance of the conversation but for the score 1. That is, the importance calculation unit 111 determines whether or not the calculated score 1 is "0.5" (step ST42). If the score 1 is "0.5”, the importance calculation unit 111 proceeds to step ST21, which will be described later. If the score 1 is not "0.5”, the importance calculation unit 111 determines whether or not there is an utterance from a person whose score 1 exceeds the time threshold t and is less than "0.5".
  • the current time is set to t n
  • the previous utterance time of the person concerned is set to t n-1
  • it is determined whether or not the difference time (t n ⁇ t n-1 ) is equal to or less than the time threshold value t (step ST43). If the time after talking with a person whose score 1 is less than "0.5" does not exceed the time threshold value t, the importance calculation unit 111 proceeds to step ST21, which will be described later.
  • the importance calculation unit 111 scores from the score 1 stored in the score table 103A at regular intervals. The score of the person with the lower value of 1 is attenuated, and the amount of the attenuation is added to the score 1 of the person with the highest value (step ST44). After that, the importance calculation unit 111 advances the process to step ST21.
  • the importance calculation unit 111 includes the accumulated voice recognition result character string of the user U and the translation result character strings of the speakers S1 and S2, respectively, as in the case where the second importance calculation method is performed. From, the degree of failure of the conversation is detected. After that, the importance calculation unit 111 calculates the score 2 based on the detected degree of failure of the conversation, and stores the calculation result in the score table 103A as shown in FIG. 15 (step ST45). The calculation of the score 2 is the same as the calculation of the importance of the conversation by the connection of the dialogue using the failure degree of the dialogue when the second importance calculation method is used.
  • step ST45 is a process of storing the importance of the conversation calculated in the second importance calculation method in the score table 103A as the score 2.
  • the score 2 is calculated by "1-Dialogue failure degree”. “1.0 ⁇ score 2 ⁇ 0.0”.
  • the importance calculation unit 111 searches the face recognition DB 104A for the camera data, performs face recognition, and obtains each speaker reflected in the camera data, as in the case where the second importance calculation method is performed. Identify and obtain the person scores of those persons (step ST31). After that, the importance calculation unit 111 calculates the score 3 based on the acquired score, and stores the calculation result in the score table 103A as shown in FIG. 15 (step ST46).
  • the calculation of the score 3 is the same as the calculation of the importance of the conversation by the person score using the face recognition when the third importance calculation method is used.
  • the process of step ST46 is a process of storing the importance of the conversation calculated in the third importance calculation method as a score 3 in the score table 103A.
  • the score 3 is calculated by "the person score of the person in the camera data / the total person score of all the people in the camera data".
  • the importance calculation unit 111 calculates the importance of conversation based on the scores 1, score 2 and score 3 stored in the score table 103A (step ST47).
  • the importance calculation unit 111 outputs the acquired annotation translation result character string and the calculated importance of the conversation to the graphic creation unit 112. Regarding the utterance of the user U, the importance calculation unit 111 skips the processing of steps ST13 to ST47 and outputs the importance of the conversation as a specified value "1.0" to the graphic creation unit 112.
  • the graphic creation unit 112 generates a display image (display result graphic data) in the same manner as when the first importance calculation method is performed, and outputs the generated display result graphic data to the graphic return unit 302.
  • the graphic return unit 302 transmits the display result graphic data to the display terminal 2, displays the translation result character string corresponding to the voice spoken by the speakers S1 and S2 on the front display 201, and the voice spoken by the user U.
  • the translation result character string corresponding to is displayed on the rear display 204.
  • FIG. 16 is a diagram for explaining an example of the ratio of the display area based on the importance of the conversation corresponding to the example of FIG. By dividing the display screen according to the importance, it is possible to display the translation result character string of the person with high importance in a large size.
  • the importance calculation unit 111 includes a user object related to one user U and a plurality of speaker objects related to a plurality of speakers S1 and S2 talking with the one user U. , Receives multiple annotations corresponding to each object created for each of those objects. Then, the importance calculation unit 111 calculates the importance of the conversation with each of the plurality of speakers S1 and S2 with respect to the user U based on at least one of the plurality of speaker objects and the plurality of annotations. The graphic creation unit 112 determines the display form of each of the plurality of annotations generated for the plurality of speaker objects based on the importance of the conversation calculated by the importance calculation unit 111, and has each of the display forms. Generate display information for multiple annotations.
  • the display terminal 2 that displays the display information of the plurality of annotations generated by the graphic creation unit 112 can display the plurality of annotations in a display form according to the importance of the conversation. Therefore, the information presentation system including the display information generation device according to the first embodiment can present to the user in an easy-to-understand manner which of the plurality of annotations is important.
  • the display terminal 2 Since the user terminal 1 is configured to calculate the importance of conversation and generate display information of a plurality of annotations, the display terminal 2 does not need to perform complicated processing. Therefore, the display terminal 2 can be provided at low cost.
  • each of the plurality of speaker objects received by the importance calculation unit 111 includes a voice object related to the voice spoken by each speaker transmitted from the display terminal 2, and the plurality of annotations received by the importance calculation unit 111 are.
  • the character string of the voice recognition result from the voice object by the voice recognition engine 101B is included in the character string of the voice translation result translated by the character translation engine 101C.
  • the display information generated by the graphic creation unit 112 is a character string image displayed on the display screen of the display terminal 2, and the display form is the display position of the character string image on the display screen and the modification of the characters in the character string image. Includes at least one. Therefore, according to the information presentation system including the display information generation device according to the first embodiment, it is possible to provide a voice translation device that translates the utterance contents of the speakers S1 and S2 and presents them to the user U.
  • the user object received by the importance calculation unit 111 includes a voice object related to the voice spoken by the user U
  • the plurality of speaker objects received by the importance calculation unit 111 include a voice object related to the voice spoken by each speaker.
  • At least one of a voice object related to the voice spoken by each speaker and a camera data object in which a plurality of speakers S1 and S2 are imaged can be included.
  • the importance calculation unit 111 can calculate the importance of conversation by the first to third importance calculation methods or the fourth importance calculation method in which they are combined.
  • the first importance calculation method uses the ratio of the image of each speaker to the camera data object. In this method, since it is not necessary to determine the content of the conversation, the processor 101 of the user terminal 1 that functions as the importance calculation unit 111 is not so much as compared with the case where the first or third importance calculation method is used. An inexpensive user terminal 1 can be used without requiring a high-capacity one.
  • the second importance calculation method is based on the character string of the voice recognition result corresponding to the user object and at least one character string of the voice recognition result and the voice translation result corresponding to each of the plurality of speaker objects. Use the dialogue connection that utilizes the detected degree of dialogue failure. In this case, since the content of the conversation is determined and the importance is calculated, the importance can be calculated more accurately than when the first or third importance calculation method is used.
  • the third importance calculation method uses the scores of the speakers S1 and S2 scored in advance using face recognition. In this case, since the user U specifies an important person in advance, the importance of the conversation reflecting the intention of the user U can be calculated.
  • the fourth importance calculation method uses at least two of the first to third importance calculation methods in combination. As a result, the accuracy of calculation of importance can be improved.
  • the importance calculation unit 111 and the graphic creation unit 112 are realized by the processor 101 of the user terminal 1 executing the display information generation application 101A, it is possible to tune up and upgrade the importance calculation method. It is possible to appropriately improve the accuracy of the importance calculation. Furthermore, it is possible to add a new method for calculating the importance.
  • the degree of failure of the dialogue in the second importance calculation method may be detected by a server (not shown) provided on the network by the communication IF107. With such a configuration, even when the second importance calculation method is used, the processor 101 of the user terminal 1 that functions as the importance calculation unit 111 is not required to have such a high capacity. It becomes possible to use an inexpensive user terminal 1.
  • FIG. 17 is a schematic view showing a usage pattern of the information presentation system in the modified example of the first embodiment.
  • the display terminal 4 is provided in the form of an HMD (Head Mount Display) having a transmissive display 401 arranged in front of one eye of the user.
  • the left and right microphones constituting the stereo microphone 405 for acquiring the voices of a plurality of speakers S1 and S2 and the images of the speakers S1 and S2 are acquired at positions around the transmissive display 401 that do not obstruct the view of the user U.
  • the camera 406 and the camera 406 are arranged.
  • FIG. 18 is a block configuration diagram of the display terminal 4.
  • the display terminal 4 has a processor 409, a ROM 410, a RAM 411, a communication IF 412, and the like in addition to the above configurations.
  • the information presentation system in this modification is a system in which the voice recognition result character string of the conversation pronounced by the speakers S1 and S2 is presented to the user having a hearing problem by the transmissive display 401 of the display terminal 4. Therefore, the display terminal 4 omits the configuration of acquiring the voice and the image of the user U and the configuration of presenting the utterance content of the user U to the speakers S1 and S2 from the configuration of the display terminal 2 described above.
  • the configuration of the user terminal 1 is as shown in FIG. Functionally, the character translation engine 101C may be omitted from the configuration shown in FIG.
  • the importance calculation unit 111 calculates and calculates the importance of the conversation by using the first importance calculation method, the third importance calculation method, or a combination thereof.
  • the importance of the conversation and the voice recognition result character string as annotations are output to the graphic creation unit 112. Therefore, the voice recognition result character strings of the utterance contents of the speakers S1 and S2 can be displayed on the transmissive display 401 in a display form according to the importance of the conversation.
  • each of the plurality of speaker objects received by the importance calculation unit 111 includes a voice object related to the voice spoken by each speaker transmitted from the display terminal 2, and is important.
  • the plurality of annotations received by the degree calculation unit 111 include a character string of the voice recognition result from the voice object by the voice recognition engine 101B. Therefore, according to the information presentation system in the modified example, it is possible to provide an auditory assisting device that presents the utterance contents of the speakers S1 and S2 to the user U as a character string.
  • FIG. 19 is a schematic view showing a usage mode of the information presentation device 5 including the display information generation device according to the second embodiment.
  • 20A is a front view of the information presenting device 5
  • FIG. 20B is a rear view of the information presenting device 5.
  • This information presenting device 5 corresponds to a modified example of the first embodiment.
  • a display 501 and a keyboard 502 are arranged on the front surface of the information presenting device 5.
  • a stereo microphone 503 and a camera 504 are arranged on the back surface of the information presenting device 5.
  • FIG. 21 is a block configuration diagram of the information presentation device 5.
  • the information presenting device 5 includes a processor 505, a ROM 506, a RAM 507, an NVM 508, and the like, in addition to the above configurations. Since the information presenting device 5 is an integrated type, it is not necessary to have a communication IF.
  • FIG. 22 is a functional configuration diagram of the information presentation device 5.
  • the display information generation application 505A corresponds to the display information generation application 101A of the first embodiment, and provides the same functions of the importance calculation unit 111 and the graphic creation unit 112.
  • the audio object from the stereo microphone 503 and the camera data object from the camera 504 are directly output to the importance calculation unit 111.
  • the graphic creation unit 112 outputs the generated display result graphic data to the display 501 and displays it.
  • the voice recognition engine 505B, the score table 507A and the face recognition DB 508A are the same as the voice recognition engine 101B, the score table 103A and the face recognition DB 104A of the first embodiment.
  • the information presentation device 5 Since the information presentation device 5 is an integrated type, it does not have a communication IF, but it may have one. Having a communication IF makes it possible to use an external voice recognition engine.
  • the importance calculation unit 111 uses the first importance calculation method, the second importance calculation method, the third importance calculation method, or a combination thereof.
  • the importance of the conversation is calculated, and the calculated importance of the conversation and the voice recognition result character string as annotations are output to the graphic creation unit 112. Therefore, the voice recognition result character strings of the utterance contents of the speakers S1 and S2 can be displayed on the display 501 in a display form according to the importance of the conversation.
  • the information presenting device 5 corresponding to the modified example of the first embodiment has been described, but the integrated information presenting device corresponding to the first embodiment presenting information to the user U and the speakers S1 and S2. Of course, it can be configured in the same way.
  • the information presentation device 5 including the display information generation device according to the second embodiment, it is possible to know which of the plurality of annotations is important for the user U who does not have the user terminal 1. It can be easily presented.
  • the first embodiment, a modified example thereof, and the second embodiment have described a display information generation device corresponding to a case where one person to a plurality of people have a conversation, but the display information generation device has a conversation between a plurality of people and a plurality of people. It is also possible to handle it.
  • FIG. 23 is a schematic view showing a usage mode of the information presentation device 6 including the display information generation device according to the third embodiment. This is a situation in which two users U1 and U2 and two speakers S1 and S2 who are conversation partners of the users U1 and U2 are facing each other.
  • the information presenting device 6 is arranged between the users U1 and U2 and the speakers S1 and S2.
  • the number of users and speakers is not limited to two, and it goes without saying that there may be three or more.
  • FIG. 24A is a front view of the information presenting device 6, and FIG. 24B is a rear view of the information presenting device 6.
  • the information presenting device 6 has the same configuration as the display terminal 2 described in the first embodiment in appearance. That is, a front display 601, a front stereo microphone 602, a keyboard 603, a front sub-display 607, and a front camera are arranged on the front surface of the information presenting device 6. However, the front camera is formed as a direction-adjustable front camera 608 whose imaging direction can be adjusted in the vertical and horizontal directions.
  • a rear display 204, a rear stereo microphone 205, and a rear camera are arranged on the back surface of the information presentation device 6, and the rear camera is formed as a direction-adjustable rear camera 606 whose imaging direction can be adjusted in the vertical and horizontal directions. ing.
  • the user U1 or U2 can adjust the direction so that at least one face of the users U1 and U2 is within the angle of view of the direction-adjustable front camera 608. Is adjusted, and the imaging direction of the direction-adjustable rear camera 606 is adjusted so that at least one face of the speakers S1 and S2 is within the angle of view of the direction-adjustable rear camera 606.
  • FIG. 25 is a block configuration diagram of the information presentation device 6.
  • the information presenting device 6 has a processor 609, a ROM 610, a RAM 611, an NVM 612, and the like, in addition to the above configuration. Since the information presenting device 6 is an integrated type, it is not necessary to have a communication IF.
  • FIG. 26 is a functional configuration diagram of the information presentation device.
  • the display information generation application 609A corresponds to the display information generation application 101A of the first embodiment, and provides the same functions of the importance calculation unit 111 and the graphic creation unit 112.
  • the audio objects from the front stereo microphone 602 and the rear stereo microphone 605, and the camera data objects from the direction-adjustable front camera 608 and the direction-adjustable rear camera 606 are directly output to the importance calculation unit 111.
  • the graphic creation unit 112 outputs the generated display result graphic data to the front display 601 and the rear display 604 for display.
  • the voice recognition engine 609B, the character translation engine 609C, the score table 611A and the face recognition DB 612A are the same as the voice recognition engine 101B, the character translation engine 101C, the score table 103A and the face recognition DB 104A of the first embodiment.
  • the information presentation device 6 Since the information presentation device 6 is an integrated type, it does not have a communication IF, but it may have one. Having a communication IF makes it possible to use an external voice recognition engine and a character translation engine.
  • the importance calculation unit 111 uses the first importance calculation method, the second importance calculation method, the third importance calculation method, or a combination thereof.
  • the importance of the conversation is calculated, and the calculated importance of the conversation and the translation result character string as annotations are output to the graphic creation unit 112.
  • the importance calculation unit 111 does not uniformly set the importance of the conversation about the user to "1.0" as in the first embodiment, but for each of the users U1 and U2, the speaker S1 and S1 Similar to S2, the importance of conversation is calculated by using the first importance calculation method, the second importance calculation method, the third importance calculation method, or a combination thereof.
  • the translation result character strings of the utterance contents of the speakers S1 and S2 are displayed on the front display 601 in a display form according to the importance of the conversation, and the translation result character strings of the utterance contents of the users U1 and U2 are the conversation. It can be displayed on the rear display 604 in a display form according to the importance.
  • the information presenting device 6 having a translation function corresponding to the first embodiment has been described, but the voice recognition result character string of the utterance content having no translation function is presented to the users U1 and U2 and the speakers S1 and S2. It goes without saying that the information presenting device to be used can be similarly configured.
  • the importance calculation unit 111 includes a plurality of user objects related to the plurality of users U1 and U2 and the plurality of users U1 and U2. It receives a plurality of speaker objects related to a plurality of speakers S1 and S2 to talk with, and a plurality of annotations corresponding to each object generated for each object. Then, the importance calculation unit 111 determines the importance of the conversation with each of the plurality of speakers S1 and S2 for the plurality of users U1 and U2, and the plurality of, based on at least one of the plurality of speaker objects and the plurality of annotations.
  • the graphic creation unit 112 determines the display form of each of the plurality of annotations generated for each of the plurality of user objects and the plurality of speaker objects based on the importance of each conversation calculated by the importance calculation unit 111. , Generates display information of a plurality of annotations having each display form. As a result, the display terminal 2 that displays the display information of the plurality of annotations generated by the graphic creation unit 112 can display the plurality of annotations in a display form according to the importance of the conversation.
  • the information presenting device 6 including the display information generating device according to the third embodiment presents to the users U1 and U2 in an easy-to-understand manner which of the plurality of annotations relating to the plurality of speakers S1 and S2 is important.
  • the invention of the present application is not limited to the above embodiment, and can be variously modified at the implementation stage without departing from the gist thereof.
  • each embodiment may be carried out in combination as appropriate as possible, in which case the combined effect can be obtained.
  • the above-described embodiment includes inventions at various stages, and various inventions can be extracted by an appropriate combination in a plurality of disclosed constituent requirements.
  • Importance calculation unit 112 Graphic creation unit 201, 601 ... Front display 201A ... Display image 202, 602 ... Front stereo microphone 203, 502, 603 ... Keyboard 204, 604 ... Rear display 205, 605 ... Rear stereo microphone 206 ... Rear camera 206A ... Camera data 207, 607 ... Front sub-display 208 ... Front camera 300 ... Display control app 301 ... Camera data transmission unit 302 ... Graphic return unit 401 ... Transmissive display 405, 503 ... Stereo Microphone 606 ... Adjustable rear camera 608 ... Adjustable front camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

表示情報生成装置は、重要度算出部(111)と、表示情報生成部(112)とを備える。重要度算出部は、少なくとも一人のユーザ(U)に関する少なくとも一つユーザオブジェクト及び前記一人のユーザと会話する複数の発話者(S1,S2)に関する複数の発話者オブジェクトと、少なくとも一つのユーザオブジェクト及び複数の発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、複数の発話者オブジェクトと複数アノテーションとの少なくとも一方に基づいて、少なくとも一人のユーザに対する複数の発話者それぞれの会話の重要度を算出する。表示情報生成部は、会話の重要度に基づいて、複数の発話者オブジェクトに対して生成された複数アノテーションそれぞれの表示形態を決定し、その表示形態をそれぞれ有する複数アノテーションの表示情報を生成する。

Description

表示情報生成装置、表示情報生成方法及び表示情報生成プログラム
 本発明は、表示情報生成装置、表示情報生成方法及び表示情報生成プログラムに関する。
 非特許文献1は、単一のオブジェクトに対して、対応するアノテーションをヘッドマウントディスプレイ上に表示する技術を開示している。アノテーションは、異なる性質のオブジェクトであっても、同じレベル、例えば、同じ大きさや同じ色など、で提示される。
岸下直弘ら,「広視野シースルーHMDを用いた情報提示における周辺視野の影響の調査」,日本バーチャルリアリティ学会論文誌,Vol. 19,No. 2,pp. 121-130,2014
 非特許文献1では、複数のオブジェクトに対して、対応する複数のアノテーションを提示することを開示していない。
 アノテーションが複数提示された場合、ユーザは、どのアノテーションが重要であるのか分かりにくい。
 本発明は、上記実情に鑑みてなされたものであり、複数のアノテーションの内の何れが重要であるのかをユーザに分かり易く提示することができる、表示情報生成装置、表示情報生成方法及び表示情報生成プログラムを提供することを目的とする。
 本発明の第1の態様によれば、少なくとも一人の第1発話者に関する少なくとも一つの第1発話者オブジェクト及び前記少なくとも一人の第1発話者と会話する複数の第2発話者に関する複数の第2発話者オブジェクトと、前記少なくとも一つの第1発話者オブジェクト及び前記複数の第2発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、前記複数の第2発話者オブジェクトと前記複数アノテーションとの少なくとも一方に基づいて、前記少なくとも一人の第1発話者に対する前記複数の第2発話者それぞれの会話の重要度を算出する重要度算出部と、前記重要度算出部が算出した前記会話の重要度に基づいて、前記複数の第2発話者オブジェクトに対して生成された前記複数アノテーションそれぞれの表示形態を決定し、前記表示形態をそれぞれ有する前記複数アノテーションの表示情報を生成する表示情報生成部と、を具備する表示情報生成装置が提供される。
 本発明の第2の態様によれば、少なくとも一人の第1発話者に関する少なくとも一つの第1発話者オブジェクト及び前記少なくとも一人の第1発話者と会話する複数の第2発話者に関する複数の第2発話者オブジェクトと、前記少なくとも一つの第1発話者オブジェクト及び前記複数の第2発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、コンピュータにより、前記複数の第2発話者オブジェクトと前記複数アノテーションとの少なくとも一方に基づいて、前記少なくとも一人の第1発話者に対する前記複数の第2発話者それぞれの会話の重要度を算出し、前記コンピュータにより、前記算出した前記会話の重要度に基づいて、前記複数の第2発話者オブジェクトに対して生成された前記複数アノテーションそれぞれの表示形態を決定し、前記表示形態をそれぞれ有する前記複数アノテーションの表示情報を生成する、表示情報生成方法が提供される。
 本発明の第3の態様によれば、表示情報生成装置のコンピュータを、少なくとも一人の第1発話者に関する少なくとも一つの第1発話者オブジェクト及び前記少なくとも一人の第1発話者と会話する複数の第2発話者に関する複数の第2発話者オブジェクトと、前記少なくとも一つの第1発話者オブジェクト及び前記複数の第2発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、前記複数の第2発話者オブジェクトと前記複数アノテーションとの少なくとも一方に基づいて、前記少なくとも一人の第1発話者に対する前記複数の第2発話者それぞれの会話の重要度を算出する重要度算出部、前記算出した前記会話の重要度に基づいて、前記複数の第2発話者オブジェクトに対して生成された前記複数アノテーションそれぞれの表示形態を決定し、前記表示形態をそれぞれ有する前記複数アノテーションの表示情報を生成する表示情報生成部、として機能させるためのコンピュータ読み取り可能な表示情報生成プログラムが提供される。
 本発明によれば、複数のアノテーションの内の何れが重要であるのかをユーザに分かり易く提示することができる、表示情報生成装置、表示情報生成方法及び表示情報生成プログラムを提供することができる。
図1は、第1実施形態に係る表示情報生成装置を含む情報提示システムの使用形態を示す概略図である。 図2Aは、表示端末の正面図である。 図2Bは、表示端末の背面図である。 図3は、表示端末のブロック構成図である。 図4は、ユーザ端末のブロック構成図である。 図5は、情報提示システムの機能構成図である。 図6は、顔認識DBの内容例を示す図である。 図7Aは、第1の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図の第1の部分を示す図である。 図7Bは、第1の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図の第2の部分を示す図である。 図8Aは、カメラデータ幅と人物幅の関係の一例を説明するための図である。 図8Bは、カメラデータ幅と人物幅の関係の別の例を説明するための図である。 図9は、スコアテーブルの内容例を示す図である。 図10Aは、会話の重要度に基づく表示エリアの割合の一例を説明するための図である。 図10Bは、会話の重要度に基づく表示エリアの割合の別の例を説明するための図である。 図11Aは、表示端末の背面ディスプレイの表示例を示す図である。 図11Bは、表示端末の前面ディスプレイの表示例を示す図である。 図12は、第2の重要度算出手法を実施する場合の情報提示システムの動作を示すシーケンス図である。 図13は、第3の重要度算出手法を実施する場合の情報提示システムの動作を示すシーケンス図である。 図14Aは、第4の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図の第1の部分を示す図である。 図14Bは、第4の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図の第2の部分を示す図である。 図14Cは、第4の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図の第3の部分を示す図である。 図15は、第4の重要度算出手法を実施する場合のスコアテーブルの内容例を示す図である。 図16は、図15の例に対応する会話の重要度に基づく表示エリアの割合の例を説明するための図である。 図17は、第1実施形態の変形例における情報提示システムの使用形態を示す概略図である。 図18は、表示端末のブロック構成図である。 図19は、第2実施形態に係る表示情報生成装置を含む情報提示装置の使用形態を示す概略図である。 図20Aは、情報提示装置の正面図である。 図20Bは、情報提示装置の背面図である。 図21は、情報提示装置のブロック構成図である。 図22は、情報提示装置の機能構成図である。 図23は、第3実施形態に係る表示情報生成装置を含む情報提示装置の使用形態を示す概略図である。 図24Aは、情報提示装置の正面図である。 図24Bは、情報提示装置の背面図である。 図25は、情報提示装置のブロック構成図である。 図26は、情報提示装置の機能構成図である。
 以下、図面を参照してこの発明に係わる実施形態を説明する。 
 [第1実施形態]
 図1は、第1実施形態に係る表示情報生成装置を含む情報提示システムの使用形態を示す概略図である。これは、一人のユーザUと、該ユーザUの会話相手である二人の発話者S1,S2とが、向かい合っている状況である。本実施形態は、一人対複数人で会話を行う際の例である。発話者は二人に限定するものではなく、三人以上で有っても良いことは勿論である。
 情報提示システムは、表示情報生成装置が組み込まれたユーザ端末1と、該ユーザ端末1と通信して、情報を表示する表示端末2と、を含む。ユーザ端末1は、スマートフォンやタブレット端末などの携帯型の情報処理端末であって良い。
 図2Aは、表示端末2の正面図である。表示端末2の正面である前面には、前面ディスプレイ201、前面ステレオマイク202及びキーボード203が配置されている。前面ディスプレイ201は、ユーザUに対して提示されるべき情報を表示する。前面ステレオマイク202は、表示端末2の前面側の音、特には、ユーザUの音声を取得する。キーボード203は、ユーザUが当該表示端末2を操作するための複数の操作キーが纏めて配置されたものである。複数の操作キーは、キーボード203として纏めて配置される代わりに、表示端末2の前面、側面、上面などに分散配置されても良い。
 図2Bは、表示端末2の背面図である。表示端末2の背面には、背面ディスプレイ204、背面ステレオマイク205及び背面カメラ206が配置されている。背面ディスプレイ204は、発話者S1,S2に対して提示されるべき情報を表示する。背面ステレオマイク205は、表示端末2の背面側の音、特には、発話者S1,S2の音声を取得する。背面カメラ206は、表示端末2の背面側、特には、発話者S1,S2の画像を取得する。表示端末2の使用に当たっては、ユーザUは、背面カメラ206の画角内に少なくとも発話者S1,S2の内の一人の顔が入るように、表示端末2を構える。
 図2Aに示すように、表示端末2の前面には、更に、前面サブディスプレイ207が設けられて良い。前面サブディスプレイ207は、背面カメラ206が撮像している画像を表示する。ユーザUは、この前面サブディスプレイ207の表示により、背面カメラ206の画角内に発話者S1,S2の顔が入っているか否か確認できる。背面カメラ206で取得した画像を、前面ディスプレイ201に切り替え表示、または、ピクチャ・イン・ピクチャとして重畳表示できるようにすれば、前面サブディスプレイ207を省略することも可能である。
 表示端末2の前面には、更に、前面カメラ208が設けられて良い。前面カメラ208は、表示端末2の正面側の画像を取得する。前面カメラ208が撮像している画像は、操作キーの操作により、前面ディスプレイ201または前面サブディスプレイ207に、背面カメラ206が撮像している画像から切り替え表示されるようにしても良い。
 前面ディスプレイ201と背面ディスプレイ204は、一つの透過型ディスプレイとして構成されても良い。この場合、発話者S1,S2に対して提示する情報は、発話者S1,S2が判読可能となるように、表裏が反転された画像として、透過型ディスプレイに表示される。
 図3は、表示端末2のブロック構成図である。表示端末2は、上記の構成加えて、プロセッサ209、ROM(Read Only Memory)210、RAM(Random Access Memory)211及び通信IF(Interface)212などを有する。プロセッサ209は、例えば、CPU(Central Processing Unit)である。プロセッサ209は、ROM210に記憶されている制御プログラムを実行することにより様々な処理機能を実現する。ROM210は、表示端末2の動作を司る制御プログラム及び制御データなどを記憶する。制御プログラムは、後述する表示制御アプリケーションプログラム(以下、アプリケーションプログラムをアプリと略記する。)の一部を含む。RAM211は、ワーキングメモリとして機能するメインメモリである。通信IF212は、Bluetooth(登録商標)などの小電力無線データ通信規格を採用したインターフェースユニットであり、ユーザ端末1とのデータ通信を行う。
 前面ステレオマイク202または背面ステレオマイク205で取得した音声は、プロセッサ209によりCELP(Code Excited Linear Prediction Coder)など任意の音声圧縮フォーマットで圧縮されて、音声データとして通信IF212によりユーザ端末1に送信される。前面カメラ208または背面カメラ206で一定時間おきに取得した画像は、プロセッサ209によりJPEG(Joint Photographic Experts Group)など任意の画像圧縮フォーマットで圧縮されて、カメラデータとして通信IF212によりユーザ端末1に送信される。音声と画像とをMPEG(Moving Picture Experts Group)など任意の動画圧縮フォーマットで圧縮することで、ビデオデータとしてユーザ端末1に送信するようにしても良い。音声、画像、動画の圧縮フォーマットは、これに限定するものではない。圧縮せずに送信しても良い。
 通信IF212によりユーザ端末1から受信した表示結果グラフィックデータは、プロセッサ209により、前面ディスプレイ201または背面ディスプレイ204に振り分けられて、そこに表示される。
 図4は、ユーザ端末1のブロック構成図である。ユーザ端末1は、プロセッサ101、ROM102、RAM103、NVM(Nonvolatile Memory)104、ディスプレイ105、タッチパネル106、通信IF107、カメラ108、などを有する。
 プロセッサ101は、例えば、CPUである。プロセッサ101は、ROM102またはNVM104に記憶されている制御プログラムを実行することにより様々な処理機能を実現する。ROM102は、ユーザ端末1の動作を司る制御プログラム及び制御データなどを記憶する。RAM103は、ワーキングメモリとして機能するメインメモリである。NVM104は、SRAMやフラッシュメモリなどの、書換え可能な不揮発性の記憶装置である。NVM104は、各種の処理機能を実現するためのアプリ及びデータなどを記憶する。NVM104に記憶されるアプリは、プロセッサ101を、後述する表示情報生成プログラム、表示制御プログラムの一部、などを含む。ディスプレイ105は、液晶ディスプレイなどの表示装置である。タッチパネル106は、ディスプレイ105の表示面に配置されたタッチ入力装置である。ユーザ端末1は、タッチパネル106以外の操作キーを有することができる。通信IF107は、Bluetoothなどの小電力無線データ通信規格を採用したインターフェースユニットであり、表示端末2とのデータ通信を行う。通信IF107は、更に、4Gまたは5Gなどの携帯電話通信システム、無線LAN、などの、無線通信インタフェースユニットを含むことができる。カメラ108は、画像を取得するためのものであり、ユーザ端末1の前面及び背面の両面にそれぞれ設けられることができる。
 通信IF107により表示端末2から受信した音声データ及びカメラデータ(またはビデオデータ)は、表示情報生成装置として機能するプロセッサ101により、元の音声及び画像に復元されて処理される。その処理の結果としてプロセッサ101によって生成される表示結果グラフィックデータは、通信IF107により表示端末2に送信される。
 図5は、情報提示システムの機能構成図である。情報提示システムは、機能的には、ユーザ端末1と表示端末2との間に、Bluetoothアクセスポイント仮想基盤3を有する。このBluetoothアクセスポイント仮想基盤3は、ユーザ端末1の通信IF107及び表示端末2の通信IF212と、ユーザ端末1のプロセッサ101と表示端末2のプロセッサ209とにより、構成される。すなわち、プロセッサ101及び209は、表示制御アプリ300に従った処理を実行することで、通信IF107及び212を制御して、ユーザ端末1と表示端末2との間でデータを送受信する。表示制御アプリ300の内、プロセッサ101用の部分がユーザ端末1のNVM104に記憶され、プロセッサ209用の部分が表示端末2のROM210に記憶される。プロセッサ101及び209が表示制御アプリ300を実行することで、プロセッサ101及び209は、音声及びカメラデータ送信部301及びグラフィック返却部302として機能することができる。
 音声及びカメラデータ送信部301は、少なくとも、表示端末2の背面ステレオマイク205で取得した音声と背面カメラ206で取得したカメラデータ(画像)とを、発話者に関する発話者オブジェクトとしてユーザ端末1に送信する。音声及びカメラデータ送信部301は、更に、表示端末2の前面ステレオマイク202で取得した音声と前面カメラ208で取得したカメラデータとの内の少なくとも前者をユーザに関するユーザオブジェクトとして、ユーザ端末1に送信する。
 グラフィック返却部302は、少なくとも、ユーザ端末1で生成した表示端末2の前面ディスプレイ201で表示するべき表示画像である表示結果グラフィックデータを、ユーザ端末1から表示端末2に送信する。グラフィック返却部302は、更に、ユーザ端末1で生成した表示端末2の背面ディスプレイ204で表示するべき表示結果グラフィックデータを、ユーザ端末1から表示端末2に送信することもできる。ユーザ端末1で生成する表示結果グラフィックデータについては、後述する。
 ユーザ端末1は、機能的には、表示情報生成アプリ101A、音声認識エンジン101B、文字翻訳エンジン101C、スコアテーブル103A、顔認識DB(Database)104A、などを有する。表示情報生成アプリ101Aは、プロセッサ101を実施形態に係る表示情報生成装置として機能させるための表示情報生成プログラムであり、NVM104に記憶されている。プロセッサ101は、この表示情報生成アプリ101Aを実行することで、重要度算出部111及びグラフィック作成部112として機能することができる。スコアテーブル103Aは、プロセッサ101が表示情報生成アプリ101Aを実行中にRAM103に構成するテーブルである。スコアテーブル103Aは、後述するように、プロセッサ101が表示情報生成アプリ101Aを実行中に、発話者S1,S2との会話の重要度を示すデータ、あるいは発話者S1,S2のスコアデータを記憶することができる。顔認識DB104Aは、NVM104に記憶されることができる、カメラ108によって事前に取得したユーザU及び発話者S1,S2の顔画像を蓄積するデータベースである。
 音声認識エンジン101Bは、入力された音声について音声認識を実施して、入力音声に対応する文字列を生成する。すなわち、音声認識エンジン101Bは、入力された音声オブジェクトに対し、対応する音声認識結果文字列を、アノテーションとして生成する。本実施形態では、表示端末2から送信されてきたユーザUの音声オブジェクト及び複数の発話者S1,S2の音声オブジェクトが、重要度算出部111から音声認識エンジン101Bに入力される。音声認識エンジン101Bは、音声認識結果文字列を重要度算出部111に出力する。音声認識エンジン101Bは、二カ国語以上に対応しており、各言語での音声認識結果文字列を出力することができる。音声認識エンジン101Bは、各種ベンダーから様々なものが提供されており、その一つを利用することができる。音声認識エンジン101Bは、ユーザ端末1が有さず、通信IF107によりネットワーク上に提供されたものを利用する形態としても良い。
 文字翻訳エンジン101Cは、入力された文字列について既知の翻訳エンジンにより翻訳を実施して、入力文字列に対応する翻訳結果文字列を生成する。文字翻訳エンジン101Cは、二カ国語以上に対応しており、各言語間での双方向翻訳が可能となっている。文字翻訳エンジン101Cは、ユーザUの母国語が何れの言語であるのかが既知情報として事前に登録されおり、何れの言語との間で翻訳を行うかが指定可能となっている。文字翻訳エンジン101Cは、入力された文字列オブジェクトに対し、対応する翻訳結果文字列を、アノテーションとして生成する。本実施形態では、音声認識エンジン101Bから出力された音声認識結果文字列が、重要度算出部111から文字列オブジェクトとして、文字翻訳エンジン101Cに入力される。文字翻訳エンジン101Cは、各種ベンダーから様々なものが提供されており、その一つを利用することができる。文字翻訳エンジン101Cは、ユーザ端末1が有さず、通信IF107によりネットワーク上に提供されたものを利用する形態としても良い。
 重要度算出部111は、ユーザUと発話者S1,S2それぞれとの間の会話の重要度を算出する。例えば、重要度算出部111は、発話者S1,S2に関する発話者オブジェクトである、表示端末2からのカメラデータ(画像)オブジェクトに基づいて、会話の重要度を算出することができる。例えば、重要度算出部111は、音声認識エンジン101Bからのアノテーションである音声認識結果文字列に基づいて、または、その音声認識結果文字列と文字翻訳エンジン101Cからのアノテーションである翻訳結果文字列とに基づいて、会話の重要度を算出することができる。重要度算出部111は、音声認識エンジン101B及び文字翻訳エンジン101Cからのアノテーションである結果文字列とそれに対応する会話の重要度とをグラフィック作成部112に出力する。
 なお、重要度算出部111は、会話において、どの音声認識結果文字列がまたは翻訳結果文字列がどの人物の音声に対応するかは、表示端末2から取得したカメラデータオブジェクトに基づいて判別することができる。例えば、重要度算出部111は、表示端末2から音声オブジェクトが送信されてきているとき、背面カメラ206及び前面カメラ208で取得している一連のカメラデータ中の各顔画像において、どの人物の口が動いているかにより、発話中の人物が誰であるのか判別することができる。あるいは、重要度算出部111は、表示端末2から取得した音声オブジェクトに基づいて人物を判別することも可能である。すなわち、重要度算出部111は、当該文字列の元となった音声オブジェクトが前面ステレオマイク202で取得した音声であれば、当該文字列はユーザUの音声に対応するものであると判定することができる。これに対して、音声オブジェクトが背面ステレオマイク205で取得した音声である場合には、発話者はS1またはS2である。このような場合には、重要度算出部111は、例えば、声紋を検出したり、背面ステレオマイク205の左マイクと右マイクとの間での入力音声の音量や位相などに基づいて発話者の方向及び距離を検出したりすることで、発話している人物を判別することができる。
 重要度算出部111が実施する会話の重要度算出手法としては、例えば、以下の3つの手法の何れか、あるいはその組み合わせを採用することができる。もちろん、重要度算出部111は、その他の手法を採用しても良いことは言うまでもない。重要度算出部111は、重要度算出手法の少なくとも一つを利用可能であれば良く、複数の算出手法を実装する必要は無い。複数の重要度算出手法を搭載し、何れを採用するかをユーザUが任意に指定できるようにしても良い。
  (第1の重要度算出手法)
 第1の重要度算出手法においては、会話の重要度は、複数の発話者S1,S2を撮像したカメラデータに占める各発話者の画像、例えば顔画像の割合に基づいて算出される。多くの場合、ユーザUが重要と思われる人物に背面カメラ206を向ける。よって、重要度算出部111は、複数の発話者に関する発話者オブジェクトとして、表示端末2の背面カメラ206からのカメラデータを取得する。そして、重要度算出部111は、重要度として、この取得したカメラデータに占める顔画像の割合が多い発話者との会話は高い値を算出し、カメラデータに占める顔画像の割合が少ない発話者との会話は低い値を算出する。
  (第2の重要度算出手法)
 第2の重要度算出手法においては、会話の重要度は、対話のつながりに基づいて算出される。対話のつながりは、対話の破綻度合いを利用して判定することができる。対話の破綻度合いの検出方法は、例えば、稲葉通将ら,「Long Short-Term Memory Recurrent Neural Networkを用いた対話破綻検出」,人工知能学会研究会資料,SIG-SLUD-B502-13,pp. 57-60, 2015に開示されているような方法を採用すれば良い。重要度算出部111は、ユーザUの音声オブジェクトに対応する音声認識結果文字列と、複数の発話者S1,S2それぞれの音声オブジェクトに対応する音声認識結果または音声翻訳結果との文字列とから、対話の破綻度合いを検出する。そして、重要度算出部111は、重要度として、この検出した対話の破綻度合いが小さい発話者との会話は高い値を算出し、対話の破綻度合いが大きい発話者との会話は低い値を算出する。
  (第3の重要度算出手法)
 第3の重要度算出手法においては、会話の重要度は、顔認識を用いて事前にスコア付けした複数の発話者S1,S2のスコアに基づいて算出される。顔認識DB104Aに、ユーザU及び発話者S1,S2の顔画像を蓄積させた際に、ユーザUは、各人物の画像を重要度に応じてスコア付けし、その人物スコアも顔認識DB104Aに登録しておく。図6は、顔認識DBの内容例を示す図である。重要度算出部111は、複数の発話者に関する発話者オブジェクトとして、表示端末2の背面カメラ206からのカメラデータを取得する。重要度算出部111は、顔認識DB104Aを参照して、この取得したカメラデータに写っている人物の顔認証を行う。重要度算出部111は、重要度として、認証した人物の顔認識DB104Aに登録された人物スコアが高い認証人物との会話は高い値を算出し、人物スコアが低い認証人物との会話は低い値を算出する。
 グラフィック作成部112は、重要度算出部111が出力した結果文字列(アノテーション)とそれに対応する会話の重要度に基づいて、結果文字列の表示形態を決定し、その表示形態を有するアノテーションの表示情報である文字列画像を含む表示画像(表示結果グラフィックデータ)を生成する。表示形態は、表示画像における文字列画像の表示位置であって良いし、文字の色、文字のサイズ、文字の太さ、点滅、装飾、などの何らかの文字修飾であっても良い。グラフィック作成部112は、生成した表示結果グラフィックデータをグラフィック返却部302に出力する。上述したように、グラフィック返却部302は、この表示結果グラフィックデータを表示端末2に送信して、前面ディスプレイ201または背面ディスプレイ204に表示させる。これにより、前面ディスプレイ201の表示画面には、発話者S1,S2との会話の重要度に応じた表示形態で、発話者S1,S2が発話した音声に対応する音声認識結果文字列または翻訳結果文字列が表示されることとなる。
 以下、上記のような構成の情報提示システムの動作を詳細に説明する。ここでは、表示端末2が翻訳結果文字列をユーザUに提示する場合を例にとって説明する。
  (第1の重要度算出手法による動作)
 図7A及び図7Bは、第1の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図である。
 例えば、表示端末2の背面ステレオマイク205で発話者S1,S2の内の少なくとも一人の音声が取得されると、音声及びカメラデータ送信部301は、背面カメラ206で取得したカメラデータ(画像)と共に、その音声を表示端末2からユーザ端末1の重要度算出部111に送信する。
 重要度算出部111は、受信した音声オブジェクトを音声認識エンジン101Bに出力する。音声認識エンジン101Bは、入力された音声オブジェクトに対して音声認識を実施する(ステップST11)。音声認識エンジン101Bは、認識した音声認識結果文字列を、アノテーションとして重要度算出部111に出力する。重要度算出部111は、この音声認識結果文字列を、RAM103またはNVM104に確保した、図示しない人物毎音声認識結果文字列記憶エリアに、現在時刻と共に記憶させる。
 重要度算出部111は、音声認識結果文字列を、翻訳対象の文字列オブジェクトとして、文字翻訳エンジン101Cに出力する。文字翻訳エンジン101Cは、入力された文字列オブジェクトに対し、ユーザUの母国語または指定されている言語への翻訳を実施する(ステップST12)。文字翻訳エンジン101Cは、翻訳した翻訳結果文字列を、アノテーションとして重要度算出部111に出力する。重要度算出部111は、この翻訳結果文字列を、RAM103またはNVM104に確保した、図示しない人物毎翻訳結果文字列記憶エリアに、現在時刻と共に記憶させる。
 重要度算出部111は、ユーザUと発話者S1,S2それぞれとの間の会話の重要度を、複数の発話者S1,S2を撮像したカメラデータに占める各発話者の顔画像の割合に基づいて算出する。すなわち、重要度算出部111は、まず、表示端末2の背面カメラ206で取得したカメラデータから人物認識することで、人物が占めるエリアを特定する(ステップST13)。この人物認識は、カメラにおいて人物の顔にピント合わせするために利用されている一般的な技術である。次に、重要度算出部111は、上記カメラデータから、カメラデータ幅と各人物の幅を取得する(ステップST14)。図8Aは、カメラデータ206Aにおけるカメラデータ幅と人物幅の関係の一例を説明するための図である。この例では、カメラデータ幅CWは、カメラデータ206Aの横方向の画素数であり、人物幅W1,W2は、隣接する人物間の中点からカメラデータ206Aの端部までの横方向の画素数である。図8Bは、カメラデータ206Aにおけるカメラデータ幅と人物幅の関係の別の例を説明するための図である。この例では、人物幅W1,W2は、各人物の横方向の最大画素数であり、カメラデータ幅CWは、人物幅の画素数の合計値(W1+W2)とすることができる。重要度算出部111は、カメラデータ幅に対する人物幅割合に基づいて、会話の重要度を計算し、その計算結果をスコアテーブル103Aに記憶する(ステップST15)。図9は、スコアテーブル103Aの記憶内容例を示す図であり、都度更新されるものとなっている。会話の重要度は、「当該人物の人物幅(W1またはW2)/カメラデータ幅(CW)」により計算される。すなわち、「1.0≧会話の重要度≧0.0」であり、会話の重要度は「1.0」に近いほど重要度が高い。
 重要度算出部111は、計算した会話の重要度が「0.5」であるか否か判断する(ステップST16)。会話の重要度が「0.5」である、つまり、会話の重要度が二人の発話者S1,S2で同じである場合には、重要度算出部111は、取得したアノテーションである翻訳結果文字列と計算した会話の重要度とをグラフィック作成部112に出力する。
 これに対して、会話の重要度が「0.5」でない、つまり、どちらかの発話者との会話の重要度が高い場合には、重要度算出部111は、時間閾値tを超えて重要度が低いつまり重要度「0.5」未満の人物からの発話が無いかを判断する。すなわち、現在時刻をt、前回の当該人物の発話時刻をtn-1とし、その差分の時間(t-tn-1)が時間閾値t以下か否か判断する(ステップST17)。前回の発話時刻tn-1は、RAM103またはNVM104に記憶されている当該人物の人物毎翻訳結果文字列記憶エリアより取得することができる。重要度「0.5」未満のt-tn-1が時間閾値t以下である、つまり、重要度「0.5」未満の人物と会話してからの時間が時間閾値tを超えていない場合には、重要度算出部111は、取得したアノテーションである翻訳結果文字列と計算した会話の重要度とをグラフィック作成部112に出力する。
 一方、重要度「0.5」未満のt-tn-1が時間閾値t以下でない、つまり、重要度「0.5」未満の人物との会話が時間閾値tを超えている場合には、重要度算出部111は、当該人物との会話の重要度は低いものであると判断する。そこで、重要度算出部111は、スコアテーブル103Aに記憶されている重要度から、一定時間毎に重要度の低い方の人物の重要度を減衰させ、一番高い人物、ここでは発話者が二人であるので高い方の人物、の重要度に、その減衰分を足し込む(ステップST18)。そして、重要度算出部111は、取得したアノテーションである翻訳結果文字列と更新した会話の重要度とをグラフィック作成部112に出力する。
 グラフィック作成部112は、重要度算出部111が出力した翻訳結果文字列と会話の重要度を利用して、翻訳結果文字列の表示形態を決定し、その表示形態を有するアノテーションの表示情報である文字列画像を含む表示画像(表示結果グラフィックデータ)を生成する(ステップST19)。例えば、表示形態が文字列画像の表示位置とした場合、グラフィック作成部112は、表示端末2の前面ディスプレイ201または背面ディスプレイ204に表示される表示画像における翻訳結果文字列の配置位置を、会話の重要度に基づいて決定する。すなわち、グラフィック作成部112は、表示端末2の前面ディスプレイ201に表示される表示画像において、発話者S1の翻訳結果文字列を表示するエリアと、発話者S2の翻訳結果文字列を表示するエリアとの割合を、会話の重要度に基づいて決定する。図10Aは、図9に示したスコアテーブル103Aの記憶内容に対応する、会話の重要度に基づく表示エリアの割合の一例を説明するための図である。図9に示すように、会話の重要度が0.7対0.3であったとすると、グラフィック作成部112は、図10Aに示すように、表示画像201Aにおける表示エリアを、人物1(例えば発話者S1)用と人物2(例えば発話者S2)用に、上下方向に0.7対0.3に分割使用すると決定する。図10Bは、会話の重要度に基づく表示エリアの割合の別の例を説明するための図である。この例は、グラフィック作成部112が、表示画像201Aの表示エリアを左右方向に0.7対0.3に分割使用すると決定した場合を示している。このように、各発話者に関する翻訳結果文字列の表示位置は、カメラデータにおける発話者間の位置関係とは無関係に決定される。
 グラフィック作成部112は、こうして決定した位置に各翻訳結果文字列を配置した表示画像である表示結果グラフィックデータを生成する。この際、各発話者の翻訳結果文字列における文字に対し、文字の色、文字のサイズ、文字の太さ、点滅、装飾、などの何らかの文字修飾を施したものとしても良い。装飾は、文字列を囲む窓枠、重要度に応じたアイコン、などを付加することを含む。
 また、表示形態は、文字列画像の表示位置でなく、文字修飾のみとしても良い。すなわち、翻訳結果文字列の配置は発話順として、文字修飾により会話の重要度を識別可能にしても良い。
 グラフィック作成部112は、生成した表示結果グラフィックデータをグラフィック返却部302に出力する。
 グラフィック返却部302は、この表示結果グラフィックデータを表示端末2に送信して、前面ディスプレイ201に表示させる。これにより、前面ディスプレイ201には、発話者S1,S2との会話の重要度に応じた表示形態で、発話者S1,S2が発話した音声に対応する翻訳結果文字列が表示される。
 また、表示端末2の前面ステレオマイク202でユーザUの音声が取得されると、音声及びカメラデータ送信部301は、その音声を表示端末2からユーザ端末1の重要度算出部111に送信する。このとき、音声及びカメラデータ送信部301は、前面カメラ208で取得したカメラデータ(画像)も、表示端末2からユーザ端末1の重要度算出部111に送信しても良い。
 重要度算出部111は、受信した音声オブジェクトを音声認識エンジン101Bに出力し、音声認識エンジン101Bからアノテーションとして音声認識結果文字列を取得し、それをRAM103またはNVM104に確保した人物毎音声認識結果文字列記憶エリアに現在時刻と共に記憶させる。
 重要度算出部111は、この音声認識結果文字列を文字翻訳エンジン101Cに出力し、文字翻訳エンジン101Cからアノテーションとして翻訳結果文字列を取得し、それをRAM103またはNVM104に確保した人物毎翻訳結果文字列記憶エリアに現在時刻と共に記憶させる。
 ユーザUの発話に関しては、重要度算出部111は、ステップST14乃至ステップST18の処理をスキップし、会話の重要度を「1.0」として、翻訳結果文字列と「1.0」の会話の重要度とをグラフィック作成部112に出力する。
 グラフィック作成部112は、重要度算出部111が出力した翻訳結果文字列と会話の重要度を利用して、翻訳結果文字列の表示形態を決定し、その表示形態を有するアノテーションの表示情報である文字列画像を含む表示画像(表示結果グラフィックデータ)を生成する(ステップST19)。重要度が「1.0」の場合、つまり翻訳結果文字列がユーザUに対応するものであった場合には、グラフィック作成部112は、表示画像の全ての表示エリアを分割することなく使用すると決定する。グラフィック作成部112は、こうして決定した位置に各翻訳結果文字列を配置した表示画像である表示結果グラフィックデータを生成する。この際、各発話者の翻訳結果文字列におけるも文字に対し、文字の色、文字のサイズ、文字の太さ、点滅、装飾、などの何らかの文字修飾を施したものとしても良い。グラフィック作成部112は、生成した表示結果グラフィックデータをグラフィック返却部302に出力する。
 グラフィック返却部302は、この表示結果グラフィックデータを表示端末2に送信して、背面ディスプレイ204に表示させる。これにより、背面ディスプレイ204には、ユーザUが発話した音声に対応する翻訳結果文字列が表示される。
 図11Aは、表示端末2の背面ディスプレイ204の表示例を示す図であり、図11Bは、表示端末2の前面ディスプレイ201の表示例を示す図である。ユーザUが表示端末2を図1に示すように二人の発話者S1,S2に向けて、日本語で「何かお困りですか」と発話すると、表示端末2の背面ディスプレイ204には、図11Aに示すように、その英語翻訳結果である「May I help you with something?」が表示される。これに対して、カメラデータに占める幅が多く会話の優先度が高いと判定される発話者S1が「Thank you. Where is the restroom?」と発話し、優先度が低いと判定される発話者S2がたまたま知り合いだったらしく「Oh, Mr.xx!」と大きな声で叫んだとする。このような場合でも、図11Bに示すように、表示端末2の前面ディスプレイ201には、重要度に応じた表示形態で、その日本語の翻訳結果文字列が表示される。すなわち、前面ディスプレイ201の表示画面の上方に大きな文字で「ありがとうございます。トイレはどこですか?」と表示され、下方に小さな文字で「あれ、○○さん!」と表示される。なお、図11Bでは、表示エリアの区別を分かり易く示すために、破線で区切っているが、実際には破線は表示されなくても良い。前面ディスプレイ201には、発話者S1,S2の発話内容に対応する翻訳結果文字列が表示されるまでの間、ユーザUが発話した内容を示す音声認識結果文字列を表示しても良い。
 上記ステップST17及びステップST18で説明したように、重要度算出部111は、時間閾値tを超える間、重要度が低い人物からの発話が無い場合に、一定時間毎に重要度の低い方の人物の重要度を減衰させ、その減衰分を重要度の高い方の人物の重要度に足し込むようにしている。これにより、複数の相手と対話している際に、重要度が低い発話者の発話に関するアノテーション、ここでは翻訳結果文字列は、前面ディスプレイ201の画面上に表示されなくなっていく。
 発話者が三名以上いる場合、「重要度が低い方の人物」は、最も重要度が低い人物としても良いし、最も高い人物以外の全人物としても良い。前者の場合は、三名以上の発話者の内の重要度の低い人物から順に、その発話に関するアノテーションが画面上に表示される割合が減っていき、最終的には表示されなくなる。こうして最も重要度が低い人物のアノテーションが表示されなくなると、次に重要度が低かった発話者が最も重要度の低い人物となる。
  (第2の重要度算出手法による動作)
 図12は、第2の重要度算出手法を実施する場合の情報提示システムの動作を示すシーケンス図である。
 第1の重要度算出手法を実施した場合と同様にして、ユーザ端末1の重要度算出部111は、音声認識エンジン101Bからのアノテーションとして音声認識結果文字列を取得し、文字翻訳エンジン101Cからのアノテーションとして翻訳結果文字列を取得する。ユーザU及び発話者S1,S2のそれぞれの音声認識結果文字列及び翻訳結果文字列が、RAM103またはNVM104にそれぞれ確保した、人物毎音声認識結果文字列記憶エリア及び人物毎翻訳結果文字列記憶エリアに蓄積されていく。
 重要度算出部111は、こうして蓄積されたユーザUの音声認識結果文字列と発話者S1,S2それぞれの翻訳結果文字列とから、会話の破綻度を検出する(ステップST21)。重要度算出部111は、この検出した会話の破綻度に基づいて、会話の重要度を計算し、その計算結果をスコアテーブル103Aに記憶する(ステップST22)。会話の重要度は、「1-対話の破綻度」により計算される。「1.0≧会話の重要度≧0.0」であり、会話の重要度は「1.0」に近いほど重要度が高い。重要度算出部111は、取得したアノテーションである翻訳結果文字列と計算した会話の重要度とをグラフィック作成部112に出力する。ユーザUの発話に関しては、重要度算出部111は、ステップST21及びステップST22の処理をスキップし、会話の重要度を「1.0」として、翻訳結果文字列と「1.0」の会話の重要度とをグラフィック作成部112に出力する。
 グラフィック作成部112は、第1の重要度算出手法を実施した場合と同様にして、表示画像(表示結果グラフィックデータ)を生成し、生成した表示結果グラフィックデータをグラフィック返却部302に出力する。グラフィック返却部302は、この表示結果グラフィックデータを表示端末2に送信して、発話者S1,S2が発話した音声に対応する翻訳結果文字列を前面ディスプレイ201に表示させ、ユーザUが発話した音声に対応する翻訳結果文字列を背面ディスプレイ204に表示させる。
  (第3の重要度算出手法による動作)
 図13は、第3の重要度算出手法を実施する場合の情報提示システムの動作を示すシーケンス図である。
 第1の重要度算出手法を実施した場合と同様にして、ユーザ端末1の重要度算出部111は、音声認識エンジン101Bからのアノテーションとして音声認識結果文字列を取得し、文字翻訳エンジン101Cからのアノテーションとして翻訳結果文字列を取得する。ユーザU及び発話者S1,S2のそれぞれの音声認識結果文字列及び翻訳結果文字列が、RAM103またはNVM104にそれぞれ確保した、人物毎音声認識結果文字列記憶エリア及び人物毎翻訳結果文字列記憶エリアに蓄積されていく。
 重要度算出部111は、カメラデータについて顔認識DB104Aを検索して顔認証を行い、カメラデータに写っている各発話者を特定し、それらの人物の人物スコアを取得する(ステップST31)。重要度算出部111は、この取得した人物スコアに基づいて、会話の重要度を計算し、その計算結果をスコアテーブル103Aに記憶する(ステップST32)。会話の重要度は、「カメラデータに写っている当該人物の人物スコア/カメラデータに写っている全員の人物スコアのトータル」により計算される。例えば、図6に示した例において、人物Aと人物Bがカメラデータに写っている場合、人物Aの重要度は、「30/(30+50)=0.375」と計算される。「1.0≧会話の重要度≧0.0」であり、会話の重要度は「1.0」に近いほど重要度が高い。重要度算出部111は、取得したアノテーションである翻訳結果文字列と計算した会話の重要度とをグラフィック作成部112に出力する。ユーザUの発話に関しては、ユーザUの顔画像に対し人物スコア「100」を登録しておくことで、「100/100=1.0」となる。あるいは、ユーザUの発話に関しては、重要度算出部111は、ステップST31及びステップST32の処理をスキップし、会話の重要度を規定値「1.0」とするものとしても良い。
 グラフィック作成部112は、第1の重要度算出手法を実施した場合と同様にして、表示画像(表示結果グラフィックデータ)を生成し、生成した表示結果グラフィックデータをグラフィック返却部302に出力する。グラフィック返却部302は、この表示結果グラフィックデータを表示端末2に送信して、発話者S1,S2が発話した音声に対応する翻訳結果文字列を前面ディスプレイ201に表示させ、ユーザUが発話した音声に対応する翻訳結果文字列を背面ディスプレイ204に表示させる。
  (第4の重要度算出手法による動作)
 上述した第1、第2及び第3の重要度算出手法は、単独で利用するだけでなく、組み合わせて利用しても良い。すなわち、第1の重要度算出手法と第2重要度算出手法の組み合わせ、第1の重要度算出手法と第3重要度算出手法の組み合わせ、第2の重要度算出手法と第3重要度算出手法の組み合わせ、及び、第1、第2及び第3の重要度算出手法の組み合わせ、を利用することができる。ここでは、代表して、第4の重要度算出手法として、第1、第2及び第3の重要度算出手法を組み合わせた手法を説明する。
 図14A、図14B及び図14Cは、第4の重要度算出手法を実施する場合の情報提示システムの動作を示す一連のシーケンス図である。
 第1の重要度算出手法を実施した場合と同様にして、ユーザ端末1の重要度算出部111は、音声認識エンジン101Bからのアノテーションとして音声認識結果文字列を取得し、文字翻訳エンジン101Cからのアノテーションとして翻訳結果文字列を取得する。ユーザU及び発話者S1,S2のそれぞれの音声認識結果文字列及び翻訳結果文字列が、RAM103またはNVM104にそれぞれ確保した、人物毎音声認識結果文字列記憶エリア及び人物毎翻訳結果文字列記憶エリアに蓄積されていく。
 重要度算出部111は、第1の重要度算出手法を実施した場合と同様にして、カメラデータから、人物認識により人物が占めるエリアを特定し(ステップST13)、カメラデータ幅と各人物の幅を取得する(ステップST14)。その後、重要度算出部111は、カメラデータ幅に対する人物幅割合に基づいて、スコア1を計算し、その計算結果をスコアテーブル103Aに記憶する(ステップST41)。このスコア1の計算は、第1の重要度算出手法を利用した場合における、カメラデータに写っている割合に基づく会話の重要度の計算と同様である。換言すれば、ステップST41の処理は、第1の重要度算出手法において計算した会話の重要度を、スコア1としてスコアテーブル103Aに記憶する処理である。図15は、スコアテーブル103Aの記憶内容例を示す図である。スコア1は、「当該人物の人物幅(W1またはW2)/カメラデータ幅(CW)」により計算される。すなわち、「1.0≧スコア1≧0.0」である。
 その後、重要度算出部111は、第1の重要度算出手法を利用した場合におけるステップST16乃至ステップST18の処理を、会話の重要度ではなくスコア1を対象として実施する。すなわち、重要度算出部111は、計算したスコア1が「0.5」であるか否か判断する(ステップST42)。スコア1が「0.5」であれば、重要度算出部111は、処理を後述するステップST21に進める。スコア1が「0.5」でない場合には、重要度算出部111は、時間閾値tを超えてスコア1が「0.5」未満の人物からの発話が無いかを判断する。すなわち、現在時刻をt、前回の当該人物の発話時刻をtn-1とし、その差分の時間(t-tn-1)が時間閾値t以下か否か判断する(ステップST43)。スコア1が「0.5」未満の人物と会話してからの時間が時間閾値tを超えていない場合には、重要度算出部111は、処理を後述するステップST21に進める。スコア1が「0.5」未満の人物との会話が時間閾値tを超えている場合には、重要度算出部111は、スコアテーブル103Aに記憶されているスコア1から、一定時間毎にスコア1の低い方の人物のスコアを減衰させ、一番高い人物のスコア1に、その減衰分を足し込む(ステップST44)。その後、重要度算出部111は、処理をステップST21に進める。
 ステップST21において、重要度算出部111は、第2の重要度算出手法を実施した場合と同様に、蓄積されたユーザUの音声認識結果文字列と発話者S1,S2それぞれの翻訳結果文字列とから、会話の破綻度を検出する。その後、重要度算出部111は、この検出した会話の破綻度に基づいて、スコア2を計算し、その計算結果を、図15に示すように、スコアテーブル103Aに記憶する(ステップST45)。このスコア2の計算は、第2の重要度算出手法を利用した場合における、対話の破綻度を利用した対話のつながりによる会話の重要度の計算と同様である。換言すれば、ステップST45の処理は、第2の重要度算出手法において計算した会話の重要度を、スコア2としてスコアテーブル103Aに記憶する処理である。スコア2は、「1-対話の破綻度」により計算される。「1.0≧スコア2≧0.0」である。
 次に、重要度算出部111は、第2の重要度算出手法を実施した場合と同様に、カメラデータについて顔認識DB104Aを検索して顔認証を行い、カメラデータに写っている各発話者を特定し、それらの人物の人物スコアを取得する(ステップST31)。その後、重要度算出部111は、この取得したスコアに基づいて、スコア3を計算し、その計算結果を、図15に示すように、スコアテーブル103Aに記憶する(ステップST46)。このスコア3の計算は、第3の重要度算出手法を利用した場合における、顔認証を用いた人物スコアによる会話の重要度の計算と同様である。換言すれば、ステップST46の処理は、第3の重要度算出手法において計算した会話の重要度を、スコア3としてスコアテーブル103Aに記憶する処理である。スコア3は、「カメラデータに写っている当該人物の人物スコア/カメラデータに写っている全員の人物スコアのトータル」により計算される。
 重要度算出部111は、スコアテーブル103Aに記憶されたスコア1、スコア2及びスコア3に基づいて、会話の重要度を計算する(ステップST47)。会話の重要度は、「各人物のスコアのトータル/全人物のスコアのトータル」により計算される。例えば、図15に示すようなスコアがスコアテーブル103Aに記憶されている場合、人物1のスコアのトータルは「0.8+0.7+0.375=1.875」、人物2のスコアのトータルは「0.2+0.3+0.625=1.125」であるので、人物1の会話の重要度は「1.875/(1.875+1.125)=0.625」と計算される。人物2の会話の重要度は「1.125/(1.875+1.125)=0.375」と計算される。
 重要度算出部111は、取得したアノテーションである翻訳結果文字列と計算した会話の重要度とをグラフィック作成部112に出力する。ユーザUの発話に関しては、重要度算出部111は、ステップST13乃至ステップST47の処理をスキップし、会話の重要度を規定値「1.0」としてグラフィック作成部112に出力する。
 グラフィック作成部112は、第1の重要度算出手法を実施した場合と同様にして、表示画像(表示結果グラフィックデータ)を生成し、生成した表示結果グラフィックデータをグラフィック返却部302に出力する。グラフィック返却部302は、この表示結果グラフィックデータを表示端末2に送信して、発話者S1,S2が発話した音声に対応する翻訳結果文字列を前面ディスプレイ201に表示させ、ユーザUが発話した音声に対応する翻訳結果文字列を背面ディスプレイ204に表示させる。図16は、図15の例に対応する会話の重要度に基づく表示エリアの割合の例を説明するための図である。重要度を割合として表示画面を分割することで、重要度が高い人物の翻訳結果文字列を大きく表示することかできる。
 以上説明したような第1実施形態によれば、重要度算出部111は、一人のユーザUに関するユーザオブジェクト及び当該一人のユーザUと会話する複数の発話者S1,S2に関する複数の発話者オブジェクトと、それらオブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受ける。そして、重要度算出部111は、複数の発話者オブジェクトと複数アノテーションとの少なくとも一方に基づいて、ユーザUに対する複数の発話者S1,S2それぞれとの会話の重要度を算出する。グラフィック作成部112は、この重要度算出部111が算出した会話の重要度に基づいて、複数の発話者オブジェクトに対して生成された複数アノテーションそれぞれの表示形態を決定し、その表示形態をそれぞれ有する複数アノテーションの表示情報を生成する。これにより、グラフィック作成部112が生成した複数アノテーションの表示情報を表示する表示端末2は、複数アノテーションを会話の重要度に応じた表示形態で表示することができる。よって、第1実施形態に係る表示情報生成装置を含む情報提示システムは、複数のアノテーションの内の何れが重要であるのかを、ユーザに分かり易く提示することができる。
 会話の重要度の算出及び複数アノテーションの表示情報の生成をユーザ端末1で行う構成であるため、表示端末2は複雑な処理を行う必要がない。よって、表示端末2を安価に提供することができる。
 ここで、重要度算出部111が受ける複数の発話者オブジェクトのそれぞれは、表示端末2から送信される各発話者が発話した音声に関する音声オブジェクトを含み、重要度算出部111が受ける複数アノテーションは、音声認識エンジン101Bによる音声オブジェクトからの音声認識結果の文字列を文字翻訳エンジン101Cにより翻訳した音声翻訳結果の文字列を含む。グラフィック作成部112が生成する表示情報は、表示端末2の表示画面に表示される文字列画像であり、表示形態は、表示画面における文字列画像の表示位置と文字列画像における文字の修飾との少なくとも一方を含む。よって、第1実施形態に係る表示情報生成装置を含む情報提示システムによれば、発話者S1,S2の発話内容を翻訳してユーザUに提示する音声翻訳装置を提供することができる。
 また、重要度算出部111が受けるユーザオブジェクトは、ユーザUが発話した音声に関する音声オブジェクトを含み、重要度算出部111が受ける複数の発話者オブジェクトは、各発話者が発話した音声に関する音声オブジェクトと、各発話者が発話した音声に関する音声オブジェクト及び複数の発話者S1,S2を撮像したカメラデータオブジェクトと、の少なくとも一方を含むことができる。重要度算出部111は、第1乃至第3の重要度算出手法、または、それらを組み合わせた第4の重要度算出手法により、会話の重要度を算出することができる。
 第1の重要度算出手法は、カメラデータオブジェクトに占める各発話者の画像の割合を利用する。この手法では、会話の内容を判別する必要が無いため、第1または第3の重要度算出手法を利用する場合に比べて、重要度算出部111として機能するユーザ端末1のプロセッサ101として、それ程能力が高いものを要求せず、安価なユーザ端末1を利用することができる。
 第2の重要度算出手法は、ユーザオブジェクトに対応する前記音声認識結果の文字列と、複数の発話者オブジェクトそれぞれに対応する前記音声認識結果と前記音声翻訳結果との少なくとも一方の文字列とから検出される、対話の破綻度合いを利用した対話のつながりを利用する。この場合は、会話の内容を判別して重要度を算出するため、第1または第3の重要度算出手法を利用する場合に比べて、より正確に重要度を算出することができる。
 第3の重要度算出手法は、顔認識を用いて事前にスコア付けした発話者S1,S2のスコアを利用する。この場合は、ユーザUが事前に重要人物を指定するので、ユーザUの意図を反映した会話の重要度を算出することができる。
 第4の重要度算出手法は、第1乃至第3の重要度算出手法の少なくとも二つを組み合わせて利用する。これにより、重要度の算出の正確性を向上することができる。
 また、重要度算出部111及びグラフィック作成部112は、ユーザ端末1のプロセッサ101が表示情報生成アプリ101Aを実行することにより実現されるため、重要度算出手法のチューンナップ、バージョンアップが可能であり、重要度算出の正確性を適宜向上させることが可能となる。更に、新たな重要度の算出手法を追加することも可能である。
 第2の重要度算出手法における対話の破綻度合いは、通信IF107によりネットワーク上に提供された図示しないサーバによって検出するようにしても良い。そのような構成とすれば、第2の重要度算出手法を利用した場合であっても、重要度算出部111として機能するユーザ端末1のプロセッサ101として、それ程能力が高いものを要求せず、安価なユーザ端末1を利用することが可能となる。
 [変形例]
 図17は、第1実施形態の変形例における情報提示システムの使用形態を示す概略図である。表示端末4は、ユーザの片目前面に配置される透過型ディスプレイ401を有するHMD(Head Mount Display)の形態で提供される。透過型ディスプレイ401の周囲のユーザUの視界を妨げない位置に、複数の発話者S1,S2の音声を取得するためのステレオマイク405を構成する左右マイクと、発話者S1,S2の画像を取得するためのカメラ406とが配置される。
 図18は、表示端末4のブロック構成図である。表示端末4は、上記の構成加えて、プロセッサ409、ROM410、RAM411及び通信IF412などを有する。本変形例における情報提示システムは、聴覚に問題を有するユーザに、発話者S1,S2が発音した会話の音声認識結果文字列を、表示端末4の透過型ディスプレイ401によって提示するシステムである。そのため、表示端末4は、上述した表示端末2の構成から、ユーザUの音声や画像を取得する構成、並びに、発話者S1,S2にユーザUの発話内容を提示する構成を省略している。
 ユーザ端末1の構成は、図4に示した通りである。機能的には、図5に示した構成から、文字翻訳エンジン101Cを省略して良い。
 この変形例における情報提示システムでは、重要度算出部111は、第1の重要度算出手法、第3の重要度算出手法、あるいはそれらの組み合わせを利用して会話の重要度を算出し、算出した会話の重要度とアノテーションとしての音声認識結果文字列をグラフィック作成部112に出力する。したがって、発話者S1,S2の発話内容の音声認識結果文字列が、会話の重要度に応じた表示形態で透過型ディスプレイ401に表示されることができる。
 なお、ユーザ端末1が通常備える図示しないマイクを利用してユーザUの音声を取得することで、対話の破綻度を利用する第2の重要度算出手法を実施することも可能である。
 このような変形例における情報提示システムによれば、重要度算出部111が受ける複数の発話者オブジェクトのそれぞれは、表示端末2から送信される各発話者が発話した音声に関する音声オブジェクトを含み、重要度算出部111が受ける複数アノテーションは、音声認識エンジン101Bによる音声オブジェクトからの音声認識結果の文字列を含む。よって、変形例における情報提示システムによれば、発話者S1,S2の発話内容を文字列としてユーザUに提示する聴覚補助装置を提供することができる。
 [第2実施形態]
 第1実施形態及び変形例は、ユーザ端末1と表示端末2とを含む情報提示システムとして説明したが、それらの機能を一つの筐体に収めた情報提示装置として構成することができる。
 図19は、第2実施形態に係る表示情報生成装置を含む情報提示装置5の使用形態を示す概略図である。図20Aは、情報提示装置5の正面図であり、図20Bは、情報提示装置5の背面図である。この情報提示装置5は、第1実施形態の変形例に対応するものである。情報提示装置5の正面である前面には、ディスプレイ501及びキーボード502が配置されている。情報提示装置5の背面には、ステレオマイク503及びカメラ504が配置されている。
 図21は、情報提示装置5のブロック構成図である。情報提示装置5は、上記の構成加えて、プロセッサ505、ROM506、RAM507、NVM508、などを有する。情報提示装置5は、一体型であるため、通信IFを有さなくて良い。
 図22は、情報提示装置5の機能構成図である。表示情報生成アプリ505Aは第1実施形態の表示情報生成アプリ101Aに対応し、それと同様の重要度算出部111及びグラフィック作成部112の機能を提供する。ステレオマイク503からの音声オブジェクト及びカメラ504からのカメラデータオブジェクトは、直接、重要度算出部111に出力される。グラフィック作成部112は、生成した表示結果グラフィックデータをディスプレイ501に出力して表示させる。音声認識エンジン505B、スコアテーブル507A及び顔認識DB508Aは、第1実施形態の音声認識エンジン101B、スコアテーブル103A及び顔認識DB104Aと同様のものである。
 情報提示装置5は、一体型であるため、通信IFを有していないが、それを有しても良い。通信IFを有することで、外部の音声認識エンジンを利用することが可能になる。
 このような構成の情報提示装置5では、重要度算出部111は、第1の重要度算出手法、第2の重要度算出手法、第3の重要度算出手法、あるいはそれらの組み合わせを利用して会話の重要度を算出し、算出した会話の重要度とアノテーションとしての音声認識結果文字列をグラフィック作成部112に出力する。したがって、発話者S1,S2の発話内容の音声認識結果文字列が、会話の重要度に応じた表示形態でディスプレイ501に表示されることができる。
 ここでは、第1実施形態の変形例に対応する情報提示装置5を説明したが、ユーザUと発話者S1,S2に対して情報を提示する第1実施形態に対応する一体型の情報提示装置も、同様に構成可能なことは勿論である。
 このような第2実施形態に係る表示情報生成装置を含む情報提示装置5によれば、ユーザ端末1を有さないユーザUに対して、複数のアノテーションの内の何れが重要であるのかを分かり易く提示することができる。
 [第3実施形態]
 第1実施形態とその変形例及び第2実施形態は、一人対複数人で会話を行う場合に対応する表示情報生成装置を説明したが、表示情報生成装置は、複数人対複数人で会話を行う場合にも対応可能である。
 図23は、第3実施形態に係る表示情報生成装置を含む情報提示装置6の使用形態を示す概略図である。これは、二人のユーザU1,U2と、該ユーザU1,U2の会話相手である二人の発話者S1,S2とが、向かい合っている状況である。情報提示装置6は、ユーザU1,U2と発話者S1,S2との間に配置される。ユーザ及び発話者はそれぞれ二人に限定するものではなく、三人以上で有って良いことは勿論である。
 図24Aは、情報提示装置6正面図であり、図24Bは、情報提示装置6の背面図である。情報提示装置6は、外観的には、第1実施形態で説明した表示端末2と同様の構成を有している。すなわち、情報提示装置6の正面である前面には、前面ディスプレイ601、前面ステレオマイク602、キーボード603、前面サブディスプレイ607及び前面カメラが配置されている。但し、前面カメラは、その撮像方向が上下左右方向に調整可能な方向調整可能前面カメラ608として形成されている。情報提示装置6の背面についても同様に、背面ディスプレイ204、背面ステレオマイク205及び背面カメラが配置され、背面カメラは、その撮像方向が上下左右方向に調整可能な方向調整可能背面カメラ606として形成されている。情報提示装置6の使用に当たっては、ユーザU1またはU2は、方向調整可能前面カメラ608の画角内にユーザU1,U2の内の少なくとも一人の顔が入るように方向調整可能前面カメラ608の撮像方向を調整し、方向調整可能背面カメラ606の画角内に発話者S1,S2の内の少なくとも一人の顔が入るように、方向調整可能背面カメラ606の撮像方向を調整する。
 図25は、情報提示装置6のブロック構成図である。情報提示装置6は、上記の構成に加えて、プロセッサ609、ROM610、RAM611、NVM612、などを有する。情報提示装置6は、一体型であるため、通信IFを有さなくて良い。
 図26は、情報提示装置の機能構成図である。表示情報生成アプリ609Aは第1実施形態の表示情報生成アプリ101Aに対応し、それと同様の重要度算出部111及びグラフィック作成部112の機能を提供する。前面ステレオマイク602及び背面ステレオマイク605からの音声オブジェクト、及び、方向調整可能前面カメラ608及び方向調整可能背面カメラ606からのカメラデータオブジェクトは、直接、重要度算出部111に出力される。グラフィック作成部112は、生成した表示結果グラフィックデータを前面ディスプレイ601及び背面ディスプレイ604に出力して表示させる。音声認識エンジン609B、文字翻訳エンジン609C、スコアテーブル611A及び顔認識DB612Aは、第1実施形態の音声認識エンジン101B、文字翻訳エンジン101C、スコアテーブル103A及び顔認識DB104Aと同様のものである。
 情報提示装置6は、一体型であるため、通信IFを有していないが、それを有しても良い。通信IFを有することで、外部の音声認識エンジン及び文字翻訳エンジンを利用することが可能になる。
 このような構成の情報提示装置6では、重要度算出部111は、第1の重要度算出手法、第2の重要度算出手法、第3の重要度算出手法、あるいはそれらの組み合わせを利用して会話の重要度を算出し、算出した会話の重要度とアノテーションとしての翻訳結果文字列をグラフィック作成部112に出力する。本実施形態では、重要度算出部111は、ユーザに関する会話の重要度を第1実施形態のように一律に「1.0」にするのではなく、ユーザU1,U2それぞれについて、発話者S1,S2に対してと同様に、第1の重要度算出手法、第2の重要度算出手法、第3の重要度算出手法、あるいはそれらの組み合わせを利用して会話の重要度を算出する。したがって、発話者S1,S2の発話内容の翻訳結果文字列が、会話の重要度に応じた表示形態で前面ディスプレイ601に表示され、ユーザU1,U2の発話内容の翻訳結果文字列が、会話の重要度に応じた表示形態で背面ディスプレイ604に表示されることができる。
 ここでは、第1実施形態に対応する翻訳機能を有する情報提示装置6を説明したが、翻訳機能を持たない、発話内容の音声認識結果文字列をユーザU1,U2及び発話者S1,S2に提示する情報提示装置も、同様に構成可能なことは勿論である。
 このような第3実施形態に係る表示情報生成装置を含む情報提示装置6によれば、重要度算出部111は、複数のユーザU1,U2に関する複数のユーザオブジェクト及び当該複数のユーザU1,U2と会話する複数の発話者S1,S2に関する複数の発話者オブジェクトと、それらオブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受ける。そして、重要度算出部111は、複数の発話者オブジェクトと複数アノテーションとの少なくとも一方に基づいて、複数のユーザU1,U2に対する複数の発話者S1,S2それぞれとの会話の重要度、及び、複数の発話者S1,S2に対する複数のユーザU1,U2それぞれとの会話の重要度をそれぞれ算出する。グラフィック作成部112は、この重要度算出部111が算出した各会話の重要度に基づいて、複数のユーザオブジェクト及び複数の発話者オブジェクトそれぞれに対して生成された複数アノテーションそれぞれの表示形態を決定し、その表示形態をそれぞれ有する複数アノテーションの表示情報を生成する。これにより、グラフィック作成部112が生成した複数アノテーションの表示情報を表示する表示端末2は、複数アノテーションを会話の重要度に応じた表示形態で表示することができる。よって、第3実施形態に係る表示情報生成装置を含む情報提示装置6は、複数の発話者S1,S2に関する複数のアノテーションの内の何れが重要であるのかを、ユーザU1,U2に分かり易く提示することができ、また、複数のユーザU1,U2に関する複数のアノテーションの内の何れが重要であるのかを、発話者S1,S2に分かり易く提示することができる。
 なお、本願発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は可能な限り適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適当な組み合わせにより種々の発明が抽出され得る。
   1…ユーザ端末
   2、4…表示端末
   3…アクセスポイント仮想基盤
   5、6…情報提示装置
 101、209、409、505、609…プロセッサ
 101A、505A、609A…表示情報生成アプリ
 101B、505B、609B…音声認識エンジン
 101C、609C…文字翻訳エンジン
 102、210、410、506、610…ROM
 103、211、411、507、611…RAM
 103A、507A、611A…スコアテーブル
 104A、508A、612A…顔認識DB
 105、501…ディスプレイ
 106…タッチパネル
 107、212、412…通信IF
 108、406、504…カメラ
 111…重要度算出部
 112…グラフィック作成部
 201、601…前面ディスプレイ
 201A…表示画像
 202、602…前面ステレオマイク
 203、502、603…キーボード
 204、604…背面ディスプレイ
 205、605…背面ステレオマイク
 206…背面カメラ
 206A…カメラデータ
 207、607…前面サブディスプレイ
 208…前面カメラ
 300…表示制御アプリ
 301…カメラデータ送信部
 302…グラフィック返却部
 401…透過型ディスプレイ
 405、503…ステレオマイク
 606…方向調整可能背面カメラ
 608…方向調整可能前面カメラ

Claims (5)

  1.  少なくとも一人の第1発話者に関する少なくとも一つの第1発話者オブジェクト及び前記少なくとも一人の第1発話者と会話する複数の第2発話者に関する複数の第2発話者オブジェクトと、前記少なくとも一つの第1発話者オブジェクト及び前記複数の第2発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、前記複数の第2発話者オブジェクトと前記複数アノテーションとの少なくとも一方に基づいて、前記少なくとも一人の第1発話者に対する前記複数の第2発話者それぞれの会話の重要度を算出する重要度算出部と、
     前記重要度算出部が算出した前記会話の重要度に基づいて、前記複数の第2発話者オブジェクトに対して生成された前記複数アノテーションそれぞれの表示形態を決定し、前記表示形態をそれぞれ有する前記複数アノテーションの表示情報を生成する表示情報生成部と、
     を具備する表示情報生成装置。
  2.  前記複数の第2発話者オブジェクトのそれぞれは、各第2発話者が発話した音声に関する音声オブジェクトを含み、
     前記複数アノテーションは、前記音声オブジェクトからの音声認識結果と前記音声認識結果を翻訳した音声翻訳結果との少なくとも一方の文字列を含み、
     前記表示情報は表示画面に表示される文字列画像であり、
     前記表示形態は、前記表示画面における前記文字列画像の表示位置と前記文字列画像における文字の修飾との少なくとも一方を含む、
    請求項1に記載の表示情報生成装置。
  3.  前記少なくとも一つの第1発話者オブジェクトは、前記少なくとも一人の第1発話者が発話した音声に関する音声オブジェクトを含み、
     前記複数の第2発話者オブジェクトは、各第2発話者が発話した音声に関する音声オブジェクトと、前記各第2発話者が発話した音声に関する音声オブジェクト及び前記複数の第2発話者を撮像したカメラデータオブジェクトと、の少なくとも一方を含み、
     前記複数アノテーションはそれぞれ、前記音声オブジェクトからの音声認識結果と前記音声認識結果を翻訳した音声翻訳結果との少なくとも一方の文字列を含み、
     前記重要度算出部は、前記会話の重要度を、
      前記カメラデータオブジェクトに占める各第2発話者の画像の割合、
      前記少なくとも一つの第1発話者オブジェクトに対応する前記音声認識結果の文字列と、前記複数の第2発話者オブジェクトそれぞれに対応する前記音声認識結果と前記音声翻訳結果との少なくとも一方の文字列とから検出される、対話の破綻度合いを利用した対話のつながり、及び
      顔認識を用いて事前にスコア付けした前記第2発話者のスコア、
    の少なくとも一つに基づいて算出する、
    請求項1に記載の表示情報生成装置。
  4.  少なくとも一人の第1発話者に関する少なくとも一つの第1発話者オブジェクト及び前記少なくとも一人の第1発話者と会話する複数の第2発話者に関する複数の第2発話者オブジェクトと、前記少なくとも一つの第1発話者オブジェクト及び前記複数の第2発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、コンピュータにより、前記複数の第2発話者オブジェクトと前記複数アノテーションとの少なくとも一方に基づいて、前記少なくとも一人の第1発話者に対する前記複数の第2発話者それぞれの会話の重要度を算出し、
     前記コンピュータにより、前記算出した前記会話の重要度に基づいて、前記複数の第2発話者オブジェクトに対して生成された前記複数アノテーションそれぞれの表示形態を決定し、前記表示形態をそれぞれ有する前記複数アノテーションの表示情報を生成する、
     表示情報生成方法。
  5.  表示情報生成装置のコンピュータを、
      少なくとも一人の第1発話者に関する少なくとも一つの第1発話者オブジェクト及び前記少なくとも一人の第1発話者と会話する複数の第2発話者に関する複数の第2発話者オブジェクトと、前記少なくとも一つの第1発話者オブジェクト及び前記複数の第2発話者オブジェクトに対してそれぞれ生成された各オブジェクトに対応する複数アノテーションとを受けて、前記複数の第2発話者オブジェクトと前記複数アノテーションとの少なくとも一方に基づいて、前記少なくとも一人の第1発話者に対する前記複数の第2発話者それぞれの会話の重要度を算出する重要度算出部、
     前記算出した前記会話の重要度に基づいて、前記複数の第2発話者オブジェクトに対して生成された前記複数アノテーションそれぞれの表示形態を決定し、前記表示形態をそれぞれ有する前記複数アノテーションの表示情報を生成する表示情報生成部、
     として機能させるためのコンピュータ読み取り可能な表示情報生成プログラム。
PCT/JP2019/021621 2019-05-30 2019-05-30 表示情報生成装置、表示情報生成方法及び表示情報生成プログラム WO2020240795A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/021621 WO2020240795A1 (ja) 2019-05-30 2019-05-30 表示情報生成装置、表示情報生成方法及び表示情報生成プログラム
US17/595,177 US11972172B2 (en) 2019-05-30 2019-05-30 Display information generation apparatus, display information generation method, and display information generation program
JP2021521707A JP7327475B2 (ja) 2019-05-30 2019-05-30 表示情報生成装置、表示情報生成方法及び表示情報生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/021621 WO2020240795A1 (ja) 2019-05-30 2019-05-30 表示情報生成装置、表示情報生成方法及び表示情報生成プログラム

Publications (1)

Publication Number Publication Date
WO2020240795A1 true WO2020240795A1 (ja) 2020-12-03

Family

ID=73552769

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/021621 WO2020240795A1 (ja) 2019-05-30 2019-05-30 表示情報生成装置、表示情報生成方法及び表示情報生成プログラム

Country Status (3)

Country Link
US (1) US11972172B2 (ja)
JP (1) JP7327475B2 (ja)
WO (1) WO2020240795A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05236131A (ja) * 1992-02-19 1993-09-10 Mitsubishi Electric Corp 電子会議支援方式
JP2005107595A (ja) * 2003-09-26 2005-04-21 Nec Corp 自動翻訳装置
JP2012119927A (ja) * 2010-11-30 2012-06-21 Brother Ind Ltd 端末装置、情報提示方法、及び情報提示プログラム
JP2019040106A (ja) * 2017-08-25 2019-03-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理方法、情報処理装置およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011033598A1 (ja) * 2009-09-19 2011-03-24 株式会社 東芝 会議支援装置
US8612211B1 (en) * 2012-09-10 2013-12-17 Google Inc. Speech recognition and summarization
US20140181630A1 (en) * 2012-12-21 2014-06-26 Vidinoti Sa Method and apparatus for adding annotations to an image
US10025771B2 (en) * 2015-05-07 2018-07-17 Here Global B.V. Method and apparatus for providing shared annotations and recall of geospatial information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05236131A (ja) * 1992-02-19 1993-09-10 Mitsubishi Electric Corp 電子会議支援方式
JP2005107595A (ja) * 2003-09-26 2005-04-21 Nec Corp 自動翻訳装置
JP2012119927A (ja) * 2010-11-30 2012-06-21 Brother Ind Ltd 端末装置、情報提示方法、及び情報提示プログラム
JP2019040106A (ja) * 2017-08-25 2019-03-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理方法、情報処理装置およびプログラム

Also Published As

Publication number Publication date
JPWO2020240795A1 (ja) 2020-12-03
US11972172B2 (en) 2024-04-30
JP7327475B2 (ja) 2023-08-16
US20220222038A1 (en) 2022-07-14

Similar Documents

Publication Publication Date Title
CN110444196B (zh) 基于同声传译的数据处理方法、装置、系统和存储介质
US8515728B2 (en) Language translation of visual and audio input
US9484017B2 (en) Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
JP2023022150A (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
US20080243476A1 (en) Voice Prompts for Use in Speech-to-Speech Translation System
US11527242B2 (en) Lip-language identification method and apparatus, and augmented reality (AR) device and storage medium which identifies an object based on an azimuth angle associated with the AR field of view
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
Mirzaei et al. Combining augmented reality and speech technologies to help deaf and hard of hearing people
JP7100824B2 (ja) データ処理装置、データ処理方法及びプログラム
KR20100026701A (ko) 수화 번역기 및 그 방법
JP7279494B2 (ja) 会議支援装置、および会議支援システム
US20060190260A1 (en) Selecting an order of elements for a speech synthesis
JP2019208138A (ja) 発話認識装置、及びコンピュータプログラム
CN116129931B (zh) 一种视听结合的语音分离模型搭建方法及语音分离方法
JP2003037826A (ja) 代理画像表示装置およびテレビ電話装置
CN113851029A (zh) 一种无障碍通信方法和装置
WO2018020828A1 (ja) 翻訳装置および翻訳システム
WO2020240795A1 (ja) 表示情報生成装置、表示情報生成方法及び表示情報生成プログラム
WO2019181218A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR20140093459A (ko) 자동 통역 방법
CN112764549B (zh) 翻译方法、装置、介质和近眼显示设备
JP6980150B1 (ja) 3次元仮想現実空間提供サーバ、3次元仮想現実空間提供方法、3次元仮想現実空間提供プログラム、3次元仮想現実空間表示制御装置、3次元仮想現実空間表示制御方法、3次元仮想現実空間表示制御プログラムおよび3次元仮想現実空間提供システム
JP2010128766A (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
KR20220007490A (ko) 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19930439

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021521707

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19930439

Country of ref document: EP

Kind code of ref document: A1