WO2022186298A1 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
WO2022186298A1
WO2022186298A1 PCT/JP2022/008968 JP2022008968W WO2022186298A1 WO 2022186298 A1 WO2022186298 A1 WO 2022186298A1 JP 2022008968 W JP2022008968 W JP 2022008968W WO 2022186298 A1 WO2022186298 A1 WO 2022186298A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
listener
speaker
unit
information processing
Prior art date
Application number
PCT/JP2022/008968
Other languages
English (en)
French (fr)
Inventor
アシック カーン
洋一 船曵
大介 古川
武信 山根
和夫 加藤
Original Assignee
ソフトバンク株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソフトバンク株式会社 filed Critical ソフトバンク株式会社
Publication of WO2022186298A1 publication Critical patent/WO2022186298A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Definitions

  • the present invention relates to an information processing device, an information processing method, and an information processing program.
  • the present application has been made in view of the above, and proposes an information processing device, an information processing method, and an information processing program capable of improving usability in an online conference service.
  • An information processing apparatus includes an acquisition unit that acquires text information generated from voice information of a speaker who is a participant in a conference detected by a sound sensor, and context information of a listener who is a participant in the conference. a generation unit for generating recognizable information according to the listener's context based on the character information and the listener's context information; and outputting the information generated by the generation unit to the listener's terminal device. and an output control unit that controls
  • FIG. 1 is a diagram for explaining an overview of information processing according to an embodiment.
  • FIG. 2 is a diagram illustrating a configuration example of an information processing apparatus according to the embodiment; 3 is a diagram illustrating an example of a participant information storage unit according to the embodiment;
  • FIG. 4 is a diagram illustrating an example of a minutes information storage unit according to the embodiment;
  • FIG. 5 is a diagram illustrating a configuration example of a terminal device according to the embodiment;
  • FIG. 6 is a diagram showing an information processing procedure according to the embodiment.
  • FIG. 7 is a hardware configuration diagram showing an example of a computer that implements the functions of the information processing apparatus.
  • FIG. 1 is a diagram for explaining an overview of information processing according to an embodiment.
  • the information processing shown in FIG. 1 is implemented by an information processing system 1 .
  • the information processing system 1 includes a terminal device 10 used by users of the online conference service, and an information processing device 100 that provides the online conference service.
  • the terminal device 10 and the information processing device 100 are communicably connected by wire or wirelessly via a predetermined network N (not shown).
  • the information processing system 1 shown in FIG. 1 may include any number of terminal devices 10 and any number of information processing apparatuses 100 .
  • the terminal device 10 is an information processing device used by users of the online conference service (hereinafter also referred to as participants in the online conference).
  • the terminal device 10 is realized by, for example, a smart phone, a tablet terminal, a notebook PC (Personal Computer), a desktop PC, a mobile phone, a PDA (Personal Digital Assistant), or the like.
  • an application for using the online conference service is installed on the terminal device 10.
  • the terminal device 10 is installed with an application for using a web conference system, which is a type of online conference service (hereinafter also referred to as a web conference application).
  • participant identified by the participant ID "U1” may be referred to as “participant U1".
  • participant U* (* is an arbitrary number)
  • the participant is identified by the participant ID "U*”.
  • participant ID "U2" the participant specified by the participant ID "U2”.
  • the terminal devices 10 will be described as terminal devices 10-1 and 10-2 according to the participants using the terminal devices 10.
  • the terminal device 10-1 is the terminal device 10 used by the participant U1.
  • the terminal device 10-2 is the terminal device 10 used by the participant U2.
  • the terminal devices 10-1 and 10-2 are referred to as the terminal device 10 when they are described without distinction.
  • the information processing device 100 is a server device that provides an online conference service.
  • the information processing device 100 provides a web conference system.
  • the information processing device 100 receives voice data of a speaker among the plurality of participants participating in the online conference from the terminal device 10 .
  • the information processing device 100 transmits the received voice data to the terminal devices 10 of other participants (also called listeners) other than the speaker.
  • the information processing device 100 also receives the image data of the speaker from the terminal device 10 .
  • the information processing device 100 transmits the received image data to the terminal devices 10 of other participants (also called listeners) other than the speaker.
  • the information processing device 100 also receives image data of the listener from the terminal device 10 .
  • the information processing device 100 transmits the received image data to the terminal device 10 of the speaker.
  • participant U1 to U6 are having an online conference using an online conference service.
  • a participant who speaks in the conference may be referred to as a "speaker”.
  • a participant who is listening to the speech of the speaker may be referred to as a "listener”.
  • an online conference may be simply referred to as a conference.
  • FIG. 1 At the beginning of the online conference, participant U1, who speaks Japanese, says "Today's weather is nice" in Japanese.
  • the terminal device 10-1 of the participant U1 acquires voice information of the participant U1 (speaker) by a sound sensor (for example, a microphone) mounted on the terminal device 10-1.
  • a sound sensor for example, a microphone mounted on the terminal device 10-1.
  • the terminal device 10-1 transmits the acquired voice information to the information processing device 100.
  • the information processing device 100 acquires voice information of the participant U1 (speaker) from the terminal device 10-1 (step S1).
  • the information processing device 100 acquires the voice information of the participant U1 (speaker), it converts the acquired voice information into character information using a known voice recognition technology.
  • the information processing apparatus 100 converts the acquired voice information into text information to generate text information from the voice information of the participant U1 (speaker) (step S2).
  • the information processing apparatus 100 generates Japanese character information "Today is a nice weather" from the voice information of the participant U1 (speaker).
  • the information processing apparatus 100 recognizes that the voice information of the participant U1 (speaker) is in Japanese.
  • the information processing apparatus 100 acquires the voice information of the participant U1 (speaker), based on the comparison between the acquired voice information and the feature information of the voice of the participant U1 (speaker) registered in advance, The speaker of the voice information is identified as the participant U1.
  • the information processing device 100 records the information in which the participant ID "U1" of the participant U1 and the Japanese character information "Today is nice weather" are associated with the speech time. Minutes information is generated (step S3).
  • the information processing apparatus 100 also thereafter generates minutes information each time voice information is acquired. Specifically, the information processing apparatus 100 converts the voice information into character information each time it acquires the voice information. Moreover, the information processing apparatus 100 identifies the speaker of the voice information each time the voice information is acquired. Then, the information processing apparatus 100 generates minutes information in which information in which the specified speaker's participant ID and character information are associated with each other is recorded in association with the speech time. In this way, the information processing apparatus 100 generates minutes information in which the character information indicating the content of the speech is associated with the speaker and recorded for all speeches during the conference.
  • the information processing device 100 acquires information about the languages used by the participants U2 to U6 (listeners) other than the participant U1 (step S4). . Subsequently, when the information processing apparatus 100 acquires the information about the language used by the listener, the information processing apparatus 100 generates the translated character information by translating the Japanese character information "Today is a nice weather" by the speaker into the language used by the listener (step S5). After generating the translated character information, the information processing apparatus 100 transmits the generated translated character information together with the voice information of the speaker to the terminal device 10 of the listener (step S6). When receiving the speech information of the speaker and the translated text information from the information processing device 100, the terminal device 10 of the listener outputs the speech information of the speaker from the speaker and displays the received translated text information on the screen.
  • the information processing device 100 acquires information that the language used by the participant U2 is German.
  • the information processing apparatus 100 converts the text information in Japanese by the speaker saying "It's nice weather today” into German, which is the language used by the participant U2.
  • Generate the translated text information "Das Wetter Concentr ist schoen”.
  • the information processing device 100 transmits the generated translated character information to the terminal device 10-2 of the participant U2 together with the voice information of the speaker.
  • the terminal device 10-2 When the terminal device 10-2 receives the speech information of the speaker and the translated text information from the information processing device 100, the terminal device 10-2 outputs the speech information of the speaker from the speaker and outputs the received translated text information "Das Wetter Care ist schoen". display on the screen.
  • the information processing device 100 also acquires information that the language used by the participant U3 is French.
  • the information processing apparatus 100 When the information processing apparatus 100 acquires the information that the language used by the participant U3 is French, the information processing apparatus 100 translates the Japanese character information of the speaker saying "It's a nice weather today" into French, which is the language used by the participant U3. Generate the translated character information "Il fait beauré'hui”. Subsequently, when the translated character information is generated, the information processing device 100 transmits the generated translated character information to the terminal device 10-3 of the participant U3 together with the voice information of the speaker.
  • the terminal device 10-3 When the terminal device 10-3 receives the speech information of the speaker and the translated character information from the information processing device 100, the terminal device 10-3 outputs the speech information of the speaker from the speaker and also outputs the received translated character information "Il fait beaut'hui". on the screen.
  • the information processing device 100 also acquires information that the language used by the participant U4 is Japanese.
  • the information processing apparatus 100 acquires the information that the language used by the participant U4 is Japanese, the language used by the participant U4 is the same language as the language recognized from the voice information of the speaker, so the information processing apparatus 100 needs to translate the character information. determine that there is no Subsequently, when the information processing apparatus 100 determines that the character information does not need to be translated, it transmits the generated character information together with the voice information of the speaker to the terminal apparatus 10-4 of the participant U4.
  • the terminal device 10-4 When the terminal device 10-4 receives the character information together with the speech information of the speaker from the information processing device 100, the terminal device 10-4 outputs the speech information of the speaker from the speaker and displays the received character information "It's a nice weather today" on the screen. indicate.
  • the information processing device 100 also acquires information that the participant U5 does not wish to display subtitles (character information).
  • the information processing apparatus 100 determines that it is not necessary to transmit the character information. Subsequently, when the information processing device 100 determines that there is no need to transmit text information, it transmits only the voice information of the speaker to the terminal device 10-5 of the participant U5.
  • the terminal device 10-5 receives the voice information of the speaker from the information processing device 100, the terminal device 10-5 outputs the voice information of the speaker from the speaker.
  • the information processing device 100 also acquires information that the language used by the participant U6 is English.
  • the information processing device 100 translates the Japanese character information of the speaker saying "Today is a fine weather" into English, which is the language used by the participant U6. Generate translated text information "The Weather is good today”.
  • the information processing device 100 transmits the generated translated character information to the terminal device 10-6 of the participant U6 together with the voice information of the speaker.
  • the terminal device 10-6 receives the voice information of the speaker and the translated text information from the information processing device 100, the terminal device 10-6 outputs the voice information of the speaker from the speaker, and outputs the received translated text information "The Weather is good today". display on the screen.
  • the information processing apparatus 100 generates character information (in the example of FIG. 1, "It's nice weather today") generated from the voice information of the speaker who is a participant in the conference detected by the sound sensor. , to acquire context information (in the example of FIG. 1, information about the language used by the listener) of the listener who is a participant in the conference. Based on the text information and the listener's context information, the information processing apparatus 100 displays visible display information (in the example of FIG. 1, translated text information obtained by translating the text information into the language used by the listener) according to the listener's context. to generate The information processing device 100 controls to output the generated display information to the terminal device 10 of the listener.
  • character information in the example of FIG. 1, "It's nice weather today
  • the information processing apparatus 100 can display visible display information based on the character information generated from the speaker's voice information.
  • the display information corresponding to the listener's context on the listener's terminal device 10 it is possible to appropriately transmit the speech content of the speaker to the listener. For example, in an international online conference in which a plurality of participants speak different languages, the language spoken by the speaker may be unfamiliar to listeners, making it difficult to hear voice information.
  • the information processing apparatus 100 displays on the terminal device 10 of the listener the translated character information obtained by translating the character information generated from the speech information of the speaker into the language used by the listener, so that the listener can It is possible to assist in perceiving utterances visually rather than audibly.
  • the information processing apparatus 100 can support appropriate transmission of the speech content of the speaker in the online conference to the listener. Therefore, the information processing apparatus 100 can improve usability in the online conference service.
  • As text information in addition to sentences such as "It's nice weather today", even if it is a display such as an icon displayed on the screen of a mobile terminal or a URL indicating a website (including a link destination display) good.
  • FIG. 2 is a diagram illustrating a configuration example of the information processing apparatus 100 according to the embodiment.
  • the information processing apparatus 100 has a communication section 110, a storage section 120, and a control section .
  • the communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like. Also, the communication unit 110 is connected to a network N (not shown) by wire or wirelessly.
  • the storage unit 120 is realized by, for example, a semiconductor memory device such as a RAM (Random Access Memory) or flash memory, or a storage device such as a hard disk or an optical disk. As shown in FIG. 2 , storage unit 120 has participant information storage unit 121 and minutes information storage unit 122 .
  • the participant information storage unit 121 stores various types of information regarding participants of the online conference.
  • the participant information storage unit 121 stores various information such as attributes of participants.
  • FIG. 3 is a diagram showing an example of the participant information storage unit 121. As shown in FIG. In the example shown in FIG. 3, the participant information storage unit 121 stores "participant ID”, "terminal ID”, "audio information”, “image information”, “used language”, “presence or absence of hearing impairment", " location”.
  • Participant ID indicates identification information for identifying a participant.
  • Terminal ID indicates identification information for identifying the terminal device 10 .
  • terminal ID indicates identification information for identifying the terminal device 10 used by the participant in the online conference.
  • Voice information indicates the voice information of the participant identified by the participant ID.
  • the "speech information” may be speech feature information for identifying the participant who made the speech.
  • each participant's voice information is conceptually indicated by a symbol "VP1" or the like, but as "voice information", a file path name indicating the storage location thereof may be stored. .
  • Image information indicates the image information of the participant identified by the participant ID.
  • the “image information” may be images or moving images for identifying participants or displaying on the screen of the online conference.
  • the image information of each participant is conceptually indicated by the symbol "IM1" or the like, but as the "image information", a file path name or the like indicating the storage location thereof may be stored. .
  • “Used language” indicates the language used by the participant identified by the participant ID. For example, a participant's working language indicates the participant's native language. “Presence or absence of hearing impairment” indicates the presence or absence of hearing impairment of the participant identified by the participant ID. For example, presence or absence of hearing impairment “None” indicates that the participant does not have hearing impairment. Further, for example, the presence/absence of hearing impairment “yes” indicates that the participant has hearing impairment. “Location” indicates the location of the participant identified by the participant ID. For example, "location” indicates the location of the participant at the start time of the online conference. In the example of FIG. 3, the location of each participant is indicated by a combination of country name and city name such as "Japan, Tokyo” or "Germany, Berlin". Specific position information such as may be stored.
  • the participant information storage unit 121 may store various types of information, not limited to the above, depending on the purpose.
  • the participant information storage unit 121 may store various information regarding the terminal devices 10 of the participants.
  • the participant information storage unit 121 stores demographics (demographic attributes), psychographics (psychological attributes), geographics (geographical attributes), behavioral attributes (behavioral attributes), etc. of the participants. Information about attributes may be stored.
  • the participant information storage unit 121 stores name, family structure, hometown (local), occupation, position, income, qualification, residence type (detached house, condominium, etc.), presence or absence of a car, commuting time, commuting time, commuting time, Memorize information such as commuting routes, commuter pass sections (stations, lines, etc.), frequently used stations (other than the nearest station to home or work), lessons (places, time zones, etc.), hobbies, interests, lifestyle, etc. You may
  • the minutes information storage unit 122 stores various kinds of information (minutes information) regarding the minutes of the online conference.
  • the minutes information storage unit 122 stores minutes information including statements of participants in each online conference and the date and time of the speech.
  • FIG. 4 is a diagram illustrating an example of a minutes information storage unit according to the embodiment;
  • the minutes information storage unit 122 shown in FIG. 4 has items such as "meeting ID”, “speech ID”, “date and time”, “speaker”, and "speech information”.
  • “Meeting ID” indicates identification information for identifying the online meeting for which minutes are to be generated.
  • “Speech ID” indicates identification information for identifying a participant's speech (utterance).
  • “Date and time” indicates the date and time when the corresponding statement was made. In the example of FIG. 4, the information stored in the "date and time” is illustrated with a code such as "DT11-1”. It is assumed that specific dates and times are stored.
  • “Speaker” indicates a participant who made a corresponding remark (utterance).
  • “Statement information” indicates the specific content of the statement identified by the corresponding statement ID. For example, "utterance information” stores character information corresponding to the utterance. In the “utterance information”, character information obtained by converting the voice information of the utterance is stored.
  • control unit 130 is a controller.
  • Various programs (corresponding to an example of an information processing program) stored in the internal storage device are executed by using a storage area such as a RAM as a work area.
  • the control unit 130 has an acquisition unit 131 , a determination unit 132 , a generation unit 133 and an output control unit 134 .
  • the acquisition unit 131 acquires various types of information regarding participants in the online conference. Specifically, the acquiring unit 131 acquires from the terminal device 10 the image information of the participants of the conference detected by the image sensor. The acquisition unit 131 also acquires, from the terminal device 10, voice information of a speaker who is a participant in the conference detected by the sound sensor. After acquiring the voice information of the speaker, the acquiring unit 131 acquires feature information of the voice of the speaker from the acquired voice information.
  • the acquisition unit 131 converts the acquired voice information into character information using a known voice recognition technology.
  • the acquisition unit 131 converts the acquired voice information into text information, thereby generating text information from the speaker's voice information.
  • the acquiring unit 131 recognizes the type of language of the speaker's voice information when converting the acquired voice information into character information.
  • the acquisition unit 131 acquires the context information of the conference participants. For example, the acquisition unit 131 acquires the attribute information of the participant from the terminal device 10 as an example of the context information of the participant. For example, the acquisition unit 131 acquires information about the language used by the participant as an example of the attribute information of the participant. In addition, the acquisition unit 131 may acquire, as an example of the attribute information of the participant, information regarding whether or not the participant wishes to display a subtitle (character information). In addition to the language used by the participant, the attribute information is the language that the participant wants to use. may be In this case, the attribute information indicating that the language used is English can be set to the acquisition unit 131 using a switch (not shown) or the like.
  • the acquiring unit 131 transmits the acquired image information, the audio information, the audio feature information, and the context information of the participant to the participant. It is stored in the participant information storage unit 121 in association with the ID.
  • the determination unit 132 When the voice information is acquired by the acquisition unit 131, the determination unit 132 refers to the participant information storage unit 121 and acquires voice feature information of each participant. Subsequently, the determination unit 132 identifies the speaker of the voice information based on the comparison between the voice feature information of each participant and the voice information acquired by the acquisition unit 131 .
  • the determination unit 132 refers to the participant information storage unit 121 to acquire information regarding whether or not the participant wishes to display subtitles. Subsequently, the determination unit 132 determines whether or not there is a participant who does not wish to display subtitles, based on the information regarding whether or not the participants wish to display subtitles. If it is determined that there is a participant who does not wish to display the subtitle, the determination unit 132 identifies the participant who does not wish to display the subtitle, and determines that it is not necessary to transmit text information to the identified participant. do.
  • the generation unit 133 When the speaker of the voice information is specified by the determination unit 132, the generation unit 133 associates the character information generated by the acquisition unit 131 with the participant ID of the specified speaker with the speech time. Generates minutes information recorded with After generating the minutes information, the generation unit 133 stores the generated minutes information in the minutes information storage unit 122 .
  • the generation unit 133 generates minutes information each time the acquisition unit 131 acquires voice information. Specifically, the acquiring unit 131 converts the voice information into text information each time the voice information is acquired. Also, the determination unit 132 identifies the speaker of the voice information each time the voice information is acquired by the acquisition unit 131 . Then, the generation unit 133 generates minutes information in which the information obtained by associating the character information generated by the acquisition unit 131 with the participant ID of the speaker identified by the determination unit 132 is recorded in association with the utterance time. do. In this way, the generation unit 133 generates minutes information in which the character information indicating the content of the speech is associated with the speaker and recorded for all speeches during the conference.
  • the generation unit 133 acquires context information of participants (listeners) other than the speaker.
  • the generating unit 133 acquires attribute information of participants (listeners) other than the speaker as an example of context information.
  • the generation unit 133 acquires, as an example of attribute information, information about the languages used by participants (listeners) other than the speaker.
  • the generation unit 133 refers to the participant information storage unit 121 and acquires information about the languages used by participants other than the participant identified as the speaker.
  • the generation unit 133 when acquiring the context information of the other participants (listeners) other than the speaker, the generation unit 133 generates the context information of the listener based on the text information acquired by the acquisition unit 131 and the context information of the listener. Generate visible display information. For example, when acquiring information about the language used by the listener, the generation unit 133 determines whether the language used by the listener is the same as the language recognized from the voice information of the speaker. When determining that the language used by the listener is not the same as the language recognized from the voice information of the speaker, the generation unit 133 translates the character information acquired by the acquisition unit 131 as an example of the display information into the language used by the listener. Generate translated character information.
  • the generation unit 133 determines that the language used by the listener is the same as the language recognized from the speech information of the speaker, it determines that the character information does not need to be translated. Based on the text information and the listener's context information acquired by the acquisition unit 131, the generating unit 133 generates the visually recognizable display information according to the listener's context. (information recognizable by sound) may also be generated, and both visible information and audible information may be generated. In the following description, an example in which the generation unit 133 generates visible display information according to the listener's context will be described, but the present invention is not limited to this.
  • the output control unit 134 controls to output the display information generated by the generation unit 133 to the terminal device 10 of the listener. Specifically, when the display information is generated by the generation unit 133, the output control unit 134 transmits the generated display information to the terminal device 10 of the listener together with the voice information of the speaker. For example, when the generation unit 133 generates the translated character information, the output control unit 134 transmits the generated translated character information to the terminal device 10 of the corresponding listener together with the voice information of the speaker.
  • the output control unit 134 transmits the character information generated by the acquisition unit 131 together with the voice information of the speaker to the corresponding terminal device 10 of the listener.
  • the output control unit 134 transmits only the voice information of the speaker to the terminal device 10 of the corresponding listener.
  • FIG. 5 is a diagram illustrating a configuration example of a terminal device according to the embodiment;
  • the terminal device 10 includes a communication unit 11, an audio input unit 12, an imaging unit 13, a storage unit 14, an audio output unit 15, a display unit 16, and a control unit 17.
  • the terminal device 10 may have an input unit (for example, a keyboard, a mouse, etc.) that receives various operations from the user of the terminal device 10 or the like.
  • the communication unit 11 is realized by, for example, a NIC (Network Interface Card) or the like.
  • the communication unit 11 is connected to a network N (not shown) by wire or wirelessly, and transmits and receives information to and from the information processing apparatus 100, for example.
  • the voice input unit 12 is implemented by a sound collecting device such as a microphone, which is a sound sensor.
  • the voice input unit 12 collects the voices of the participants and outputs the collected voice information to the control unit 17 . Also, in the following description, the voice input unit 12 may be referred to as a microphone.
  • the imaging unit 13 is realized by an imaging device such as a camera, which is an image sensor.
  • the image capturing unit 13 captures images of participants and the like, and outputs captured image information to the control unit 17 . Also, in the following description, the imaging unit 13 may be referred to as a camera.
  • the storage unit 14 is realized by, for example, a semiconductor memory device such as a RAM or flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 14 stores various programs (corresponding to an example of an information processing program).
  • the storage unit 14 stores a web conference application program.
  • the storage unit 14 stores various data.
  • the storage unit 14 stores voice information of the participants input to the voice input unit 12 .
  • the storage unit 14 stores image information of the participants captured by the imaging unit 13 .
  • the storage unit 14 may be referred to as a memory.
  • the audio output unit 15 is implemented by an audio output device such as a speaker.
  • the voice output unit 15 outputs voice information of other participants (speakers) received from the information processing device 100 .
  • the audio output unit 15 receives audio information of other participants from the receiving unit 172 . Subsequently, the voice output unit 15 outputs the received voice information of other participants.
  • the audio output unit 15 may be referred to as a speaker.
  • the display unit 16 is implemented by an image output device such as a display.
  • the display unit 16 displays various information under the control of the display control unit 173 . Note that when a touch panel is adopted for the terminal device 10, the input section and the display section 16 are integrated. Also, in the following description, the display unit 16 may be referred to as a screen.
  • the display unit 16 displays image data of other participants received from the information processing device 100 .
  • the display unit 16 receives image data of other participants from the receiving unit 172 . Subsequently, the display unit 16 displays the received image data of the other participants under the control of the display control unit 173 .
  • the display unit 16 displays the display information received from the information processing device 100 .
  • the display unit 16 receives display information from the reception unit 172 . Subsequently, the display unit 16 displays the received display information under the control of the display control unit 173 .
  • control unit 17 is a controller, and various programs (corresponding to an example of an information processing program) stored in a storage device inside the terminal device 10 are stored in the RAM by the CPU, MPU, etc., for example. is executed as a work area. Also, the control unit 17 is a controller, and is realized by an integrated circuit such as ASIC or FPGA, for example.
  • control unit 17 When the control unit 17 receives a participant's operation via the input unit, it activates the web conference application. Further, when the web conference application is activated, the control unit 17 activates the camera and the microphone.
  • control unit 17 has a transmission unit 171, a reception unit 172, and a display control unit 173, and implements or executes the information processing operation described below.
  • the internal configuration of the control unit 17 is not limited to the configuration shown in FIG. 5, and may be another configuration as long as it performs information processing described later.
  • the transmission unit 171 transmits voice information of the participant detected by the sound sensor to the information processing device 100 . Specifically, when receiving the voice information of the participant from the voice input unit 12 , the transmission unit 171 transmits the received voice information of the participant to the information processing device 100 .
  • the transmission unit 171 transmits image information of the participant detected by the image sensor to the information processing device 100 . Specifically, when receiving the image information of the participant from the imaging unit 13 , the transmission unit 171 transmits the received image information of the participant to the information processing device 100 .
  • the receiving unit 172 receives voice information of other participants from the information processing device 100 . Subsequently, when receiving the voice information of the other participants, the reception unit 172 outputs the received voice information of the other participants to the voice output unit 15 .
  • the receiving unit 172 also receives image information of other participants from the information processing device 100 . Subsequently, when receiving the image information of the other participants, the reception unit 172 outputs the received image information of the other participants to the display unit 16 .
  • the receiving unit 172 also receives display information from the information processing device 100 . Subsequently, when receiving the display information, the reception unit 172 outputs the received display information to the display unit 16 .
  • Display control unit 173 The display control unit 173 controls display of various images (for example, toolbars, icons, etc.) for operating the web conference application on the screen. In addition, the display control unit 173 controls to display image information of other participants on the screen. Further, the display control unit 173 controls to display the display information on the screen.
  • FIG. 6 is a diagram illustrating an outline of an information processing procedure according to the embodiment.
  • the acquisition unit 131 of the information processing apparatus 100 acquires text information generated from voice information of a speaker who is a participant in the conference detected by the sound sensor, and a listener who is a participant in the conference. Context information is acquired (step S101).
  • the generation unit 133 of the information processing device 100 generates visible display information according to the listener's context based on the text information and the listener's context information acquired by the acquisition unit 131 (step S102). For example, based on the character information acquired by the acquisition unit 131 and information about the language used by the listener, the generation unit 133 generates translated character information by translating the character information into the language used by the listener as an example of display information. .
  • the output control unit 134 of the information processing device 100 controls to output the display information generated by the generation unit 133 to the terminal device 10 of the listener (step S103). For example, the output control unit 134 transmits the translated character information generated by the generation unit 133 to the terminal device 10 of the listener.
  • the receiving unit 172 of the terminal device 10 receives the translated character information from the information processing device 100 .
  • the display unit 16 of the terminal device 10 receives the display information from the reception unit 172 . Subsequently, the display unit 16 of the terminal device 10 displays the received translated character information under the control of the display control unit 173 .
  • the information processing system 1 may be implemented in various different forms other than the above-described embodiments. Therefore, other embodiments of the information processing system 1 will be described below.
  • symbol is attached
  • the acquiring unit 131 acquires information regarding the presence or absence of hearing impairment of the listener as an example of the attribute information of the listener.
  • the determination unit 132 determines whether or not the listener has hearing impairment based on the information regarding the presence or absence of hearing impairment of the listener.
  • the generation unit 133 generates, as an example of the display information, a moving image of a sign language avatar that expresses movement by translating the character information into sign language.
  • the output control unit 134 controls to output the moving image of the sign language avatar generated by the generation unit 133 to the terminal device 10 of the listener.
  • the acquisition unit 131 acquires information about the occurrence of voice troubles in the conference as an example of the listener's context information. For example, the acquisition unit 131 acquires image information or audio information acquired from the terminal device 10 of the listener as an example of information regarding the occurrence of audio trouble in the conference.
  • the judging unit 132 judges whether or not the terminal device 10 of the listener is experiencing a voice trouble, based on the information regarding the state of occurrence of the voice trouble in the conference. For example, based on the image information acquired from the listener's terminal device 10, the determination unit 132 determines that the image information contains information related to gestures indicating that the listener is having trouble with voice trouble.
  • the determination unit 132 determines that the voice information includes the listener's utterance such as "I can't hear the sound" based on the voice information acquired from the listener's terminal device 10
  • the determination unit 132 determines that the voice information includes the listener's terminal device It is determined that the device 10 has an audio trouble.
  • the generating unit 133 generates, as an example of display information, translated character information by translating the character information into the language used by the listener.
  • the output control unit 134 controls to output the translated character information generated by the generation unit 133 to the terminal device 10 of the listener.
  • the acquisition unit 131 acquires, as an example of the listener's context information, information about the participation start time at which the listener started to participate in the conference. For example, the acquisition unit 131 acquires information about the participation start time at which the listener started to participate in the conference, based on the image information acquired from the terminal device 10 of the listener.
  • the determination unit 132 determines whether or not the listener joined the conference late, based on the information about the participation start time. For example, the determination unit 132 determines whether or not the participation start time has passed a predetermined time or more from the conference start time. Then, when the participation start time has passed from the start time of the conference to a predetermined time or longer, the determination unit 132 determines that the listener joined the conference late.
  • the generation unit 133 When the determination unit 132 determines that the listener joined the conference late (that is, when the determination unit 132 determines that the participation start time has passed a predetermined time or more from the start time of the conference), the generation unit 133 ), and as an example of the display information, minute information from the meeting start time to the participation start time is generated.
  • the output control unit 134 controls to output the minutes information generated by the generation unit 133 from the conference start time to the listener's participation start time to the terminal device 10 of the listener who joined the conference late.
  • the generation unit 133 selects the new language as an example of the display information.
  • Translated character information is generated by translating character information generated from voice information of a speaker who has made a statement into a language used by a listener. For example, when the acquisition unit 131 recognizes voice information of a new utterance in French during a conference being held in Japanese, the generation unit 133 generates the utterance in French as an example of the display information.
  • Translated character information is generated by translating the character information generated from the voice information of the listener into the language used by the listener (for example, Japanese).
  • the output control unit 134 controls to output the translated character information generated by the generation unit 133 to the terminal device 10 of the listener.
  • the acquisition unit 131 acquires search results related to keywords included in character information generated from voice information of the speaker. For example, when character information is generated from voice information of a speaker, the acquisition unit 131 extracts keywords from the generated character information. After extracting the keyword, the obtaining unit 131 searches for the extracted keyword. For example, the acquisition unit 131 searches for information on the Internet using the extracted keyword as a search query.
  • the acquisition unit 131 obtains two Acquire a 2D or 3D image.
  • the generation unit 133 generates visible display information according to the listener's context based on the search result and the listener's context information. For example, the generation unit 133 generates a two-dimensional image or a three-dimensional image obtained by correcting a two-dimensional image or a three-dimensional image acquired as a search result to a color and size that are easy to see on the listener's screen, as an example of display information. .
  • the output control unit 134 controls to output the display information generated by the generation unit 133 to the terminal device 10 of the listener.
  • the acquisition unit 131 acquires data composed only of numbers as a search result for the extracted keyword.
  • the generation unit 133 generates visible display information according to the listener's context based on the search result and the listener's context information. For example, the generation unit 133 generates, as an example of the display information, a graph or table that is easy to see on the listener's screen, based on data composed only of numbers acquired as a search result.
  • the output control unit 134 controls to output the display information generated by the generation unit 133 to the terminal device 10 of the listener.
  • keywords for example, “minutes” or “specifications”
  • the acquisition unit 131 searches for the keyword indicating the extracted document data. For example, the acquisition unit 131 searches a database storing corresponding document data using a keyword indicating the extracted document data as a search query. Acquisition unit 131 acquires document data indicated by a keyword as a search result.
  • the acquisition unit 131 extracts a keyword indicating the range of the document data (for example, "about page 5") from the generated character information. After extracting the keyword indicating the range of the document data, the obtaining unit 131 searches the extracted range of the document data. The acquisition unit 131 acquires document data with a specified range (for example, data of “page 5 of the specifications of XX”) as a search result.
  • a keyword indicating the range of the document data for example, "about page 5"
  • the obtaining unit 131 searches the extracted range of the document data.
  • the acquisition unit 131 acquires document data with a specified range (for example, data of “page 5 of the specifications of XX”) as a search result.
  • the generating unit 133 generates translated document data by replacing character information included in the document data with translated character information translated into the language used by the listener.
  • the output control unit 134 controls output of the translation document data generated by the generation unit 133 to the terminal device 10 of the listener.
  • the acquisition unit 131 extracts keywords indicating weather (for example, “weather” and “rain”) from the generated character information. After extracting the weather keyword, the acquiring unit 131 searches the Internet for weather information in each area where the conference participants are located as a search result related to the weather keyword included in the text information. The acquisition unit 131 acquires weather information in each area where the participants of the conference are located as a search result.
  • keywords indicating weather for example, “weather” and “rain”
  • the acquiring unit 131 searches the Internet for weather information in each area where the conference participants are located as a search result related to the weather keyword included in the text information.
  • the acquisition unit 131 acquires weather information in each area where the participants of the conference are located as a search result.
  • the generation unit 133 generates an icon image indicating weather information at least at the location of the listener among the participants of the conference.
  • the output control unit 134 controls to output the icon image indicating weather information at the location of the listener generated by the generation unit 133 to the terminal device 10 of the listener.
  • the generation unit 133 may generate an icon image showing weather information at the location of all participants in the conference.
  • the output control unit 134 may perform control so that icon images indicating weather information at the locations of all conference participants are associated with the images of the participants and output to the terminal device 10 of the listener.
  • the acquisition unit 131 acquires character information and speaker context information.
  • the generating unit 133 generates visible display information corresponding to the speaker's context based on the character information and the speaker's context information.
  • the output control unit 134 controls to output the display information generated by the generation unit 133 to the terminal device 10 of the speaker.
  • the acquiring unit 131 acquires the voice information acquired from the terminal device 10 of the speaker as an example of context information of the speaker.
  • the acquisition unit 131 extracts keywords indicating document data (for example, “minutes” or “specifications”) from the generated character information.
  • the obtaining unit 131 searches for the keyword indicating the extracted document data. For example, the acquisition unit 131 searches a database storing corresponding document data using a keyword indicating the extracted document data as a search query. Acquisition unit 131 acquires address information indicating a storage location of document data indicated by a keyword as a search result.
  • the generating unit 133 generates, as an example of display information, link information that allows access to the storage location indicated by the address information.
  • the output control unit 134 controls to output the link information generated by the generation unit 133 to the terminal device 10 of the speaker.
  • the output control unit 134 controls to output the link information generated by the generation unit 133 to the terminal device 10 of the speaker.
  • the acquisition unit 131 acquires voice information acquired from the terminal device 10 of the speaker as an example of context information of the speaker.
  • the acquisition unit 131 extracts keywords indicating document data (for example, “minutes” or “specifications”) from the generated character information.
  • the obtaining unit 131 searches for the keyword indicating the extracted document data. For example, the acquisition unit 131 acquires document data indicated by a keyword as a search result.
  • the acquisition unit 131 extracts a keyword indicating the range of the document data (for example, "about page 5") from the generated character information. After extracting the keyword indicating the range of the document data, the obtaining unit 131 searches the extracted range of the document data. The acquisition unit 131 acquires document data with a specified range (for example, data of “page 5 of the specifications of XX”) as a search result.
  • a keyword indicating the range of the document data for example, "about page 5"
  • the obtaining unit 131 searches the extracted range of the document data.
  • the acquisition unit 131 acquires document data with a specified range (for example, data of “page 5 of the specifications of XX”) as a search result.
  • the generating unit 133 generates translated document data by replacing character information included in the document data with translated character information translated into the language used by the speaker.
  • the output control unit 134 controls output of the translation document data generated by the generation unit 133 to the terminal device 10 of the speaker.
  • the acquisition unit 131 acquires voice information acquired from the terminal device 10 of the speaker as an example of context information of the speaker.
  • the acquisition unit 131 acquires weather information in each area where the participants of the conference are located as a search result related to the keyword indicating the weather included in the text information.
  • the generation unit 133 generates, as display information, an icon image indicating weather information at the locations of the participants of the conference other than the speaker.
  • the output control unit 134 controls to output the icon image indicating weather information at the location of the other participant generated by the generation unit 133 to the terminal device 10 of the speaker.
  • the generation unit 133 may generate an icon image showing weather information at the location of all the participants of the conference including the speaker.
  • the output control unit 134 may perform control so that icon images indicating weather information at the locations of all conference participants are associated with the images of the participants and output to the terminal device 10 of the speaker.
  • the determination unit 132 makes a statement (for example, "the minutes What is the content of?”).
  • the acquiring unit 131 acquires a search result related to the keyword included in the character information when the determining unit 132 determines that there is an utterance indicating a question by another speaker.
  • the information processing apparatus 100 can launch each function such as a speech-to-text conversion function, a translation function, and a minutes creation function on the cloud on demand in response to a request from a conference participant.
  • the information processing apparatus 100 may allocate resources related to functions such as a speech-to-text conversion function, a translation function, and a minutes creation function, according to the number of participants in the conference.
  • the information processing apparatus 100 deletes the virtual machine or container that provides the display information display function, and releases the resource.
  • the information processing apparatus 100 may perform control so that audio is output only between specific participants among the plurality of participants.
  • the information processing device 100 controls to output audio only between the terminal devices 10 of a specific participant among the terminal devices 10 of a plurality of participants.
  • the information processing apparatus 100 performs control so that other participants than the specific participant cannot hear voice exchanges between the specific participants.
  • the information processing apparatus includes the acquisition unit 131, the generation unit 133, and the output control unit .
  • the acquisition unit 131 acquires text information generated from voice information of a speaker who is a participant in the conference detected by the sound sensor, and context information of a listener who is a participant in the conference.
  • the generation unit 133 generates recognizable information according to the listener's context based on the character information and the listener's context information.
  • the output control unit 134 controls to output the information generated by the generation unit 133 to the terminal device 10 of the listener.
  • the information processing apparatus 100 can display visible display information based on character information generated from the speaker's voice information, for example. By displaying display information corresponding to the context of the listener on the terminal device 10 of the listener, it is possible to assist the listener in perceiving the speech content of the speaker visually rather than aurally. As a result, the information processing apparatus 100 can support appropriate transmission of the speech content of the speaker in the online conference to the listener. Therefore, the information processing apparatus 100 can improve usability in the online conference service.
  • the acquisition unit 131 acquires the listener's attribute information as the listener's context information.
  • the generation unit 133 generates recognizable information according to the attributes of the listener.
  • the information processing apparatus 100 can generate recognizable information according to the listener's attribute from the speaker's voice information. By outputting the information generated based on the character information thus generated to the terminal device 10 of the listener, it is possible to assist the listener in perceiving the speech content of the speaker visually rather than aurally.
  • the acquisition unit 131 acquires information about the language used by the listener as the attribute information of the listener.
  • the generating unit 133 generates, as information, translated character information obtained by translating the character information into the language used by the listener.
  • the information processing apparatus 100 displays on the terminal device 10 of the listener the translated character information obtained by translating the character information generated from the speech information of the speaker into the language used by the listener, so that the listener can It is possible to assist in perceiving utterances visually rather than audibly.
  • the acquisition unit 131 acquires information regarding the presence or absence of hearing impairment of the listener as the attribute information of the listener.
  • the generation unit 133 generates, as information, a moving image of a sign language avatar representing movement translated from character information into sign language.
  • the information processing apparatus 100 can display the moving image of the sign language avatar representing the movement of the character information generated from the voice information of the speaker translated into sign language.
  • the information processing apparatus 100 can display the moving image of the sign language avatar representing the movement of the character information generated from the voice information of the speaker translated into sign language.
  • the acquisition unit 131 acquires information on the occurrence of voice troubles in the conference as the listener's context information.
  • the generating unit 133 generates translated character information obtained by translating the character information into the language used by the listener as information.
  • the information processing apparatus 100 can transfer the translated character information obtained by translating the character information generated from the voice information of the speaker into the language used by the listener to the terminal of the listener.
  • the information processing apparatus 100 can transfer the translated character information obtained by translating the character information generated from the voice information of the speaker into the language used by the listener to the terminal of the listener.
  • the generating unit 133 generates, as information, minutes information in which information that associates information that can identify a speaker and text information is recorded in chronological order.
  • the information processing apparatus 100 automatically generates minutes information that is convenient when reviewing the content of an online conference without manual intervention. Therefore, the information processing apparatus 100 can improve usability in the online conference service.
  • the acquisition unit 131 acquires, as the listener's context information, information about the participation start time at which the listener started participating in the conference.
  • the generation unit 133 generates minutes information from the conference start time to the participation start time as information.
  • the information processing apparatus 100 can assist participants who have joined the conference late to understand the content of the conference from the start time of the conference to the start time of participation from the minutes information.
  • the information processing apparatus 100 can assist a participant who joins the conference late to join the conference smoothly even from the middle of the conference. Therefore, the information processing apparatus 100 can improve usability in the online conference service.
  • the acquisition unit 131 acquires search results related to keywords included in the character information.
  • the generation unit 133 generates recognizable information according to the listener's context based on the search result and the listener's context information.
  • the information processing device 100 makes it possible, for example, to visually and promptly share the search results related to the keyword included in the speaker's utterance with the listener. Therefore, the information processing apparatus 100 can improve usability in the online conference service.
  • the acquisition unit 131 acquires document data indicated by the keyword as a search result for the keyword indicating the document data included in the character information.
  • the generating unit 133 generates, as information, translated document data in which character information included in the document data is replaced with translated character information translated into the language used by the listener.
  • the information processing apparatus 100 makes it possible to visually and quickly share the content of the document data indicated by the keyword included in the speaker's utterance with the listener.
  • the acquisition unit 131 acquires information on the weather in each area where the participants of the conference are located as a search result related to the keyword indicating the weather included in the text information.
  • the generation unit 133 generates, as information, an icon image indicating weather information at least at the location of the listener among the participants of the conference.
  • the information processing apparatus 100 can, for example, prompt the listener to respond to the speaker's statement regarding the weather at the beginning of the conference regarding the weather at the listener's location. Therefore, the information processing apparatus 100 can encourage communication between the participants of the online conference, and thus can support the smooth progress of the online conference.
  • the information processing device 100 further includes a determination unit 132 .
  • the determining unit 132 determines whether or not there is a statement indicating a question by the other speaker regarding the keyword included in the text information, based on the voice information of the other speaker who is a participant in the conference detected by the sound sensor.
  • the acquiring unit 131 acquires a search result related to the keyword included in the character information when the determining unit 132 determines that there is an utterance indicating a question by another speaker.
  • the information processing apparatus 100 can appropriately display only the search results related to the keywords for which the listeners have asked questions, instead of simply displaying the search results related to the keywords included in the speaker's utterances.
  • the acquisition unit 131 acquires character information and context information of the speaker.
  • the generation unit 133 generates recognizable information according to the speaker's context based on the character information and the speaker's context information.
  • the output control unit 134 controls to output the information generated by the generation unit 133 to the terminal device 10 of the speaker.
  • the information processing device 100 can improve the usability of the speaker in the online conference service by outputting information according to the speaker's context to the speaker's terminal device 10.
  • the acquisition unit 131 acquires search results related to keywords included in the character information.
  • the generating unit 133 generates recognizable information according to the speaker's context based on the search result and the speaker's context information.
  • the information processing apparatus 100 saves the speaker the trouble of searching for information related to keywords related to the content of the conference, thereby allowing the conference to proceed smoothly. Therefore, the information processing apparatus 100 can improve usability in the online conference service.
  • the acquisition unit 131 also acquires address information indicating the storage location of the document data indicated by the keyword as a search result for the keyword indicating the document data included in the character information.
  • the generating unit 133 generates, as information, link information that allows access to the storage location indicated by the address information.
  • the output control unit 134 controls to output the link information generated by the generation unit 133 to the terminal device 10 of the speaker.
  • the information processing apparatus 100 saves the speaker the trouble of searching for document data related to the content of the conference, thereby allowing the conference to proceed smoothly.
  • the acquisition unit 131 acquires document data indicated by the keyword as a search result for the keyword indicating the document data included in the character information.
  • the generation unit 133 generates, as information, translated document data in which character information included in the document data is replaced with translated character information translated into the language used by the speaker.
  • the information processing apparatus 100 enables the speaker to visually and quickly confirm the contents of the document data related to the contents of the conference.
  • the acquisition unit 131 acquires information on the weather in each area where the participants of the conference are located as a search result related to the keyword indicating the weather included in the text information.
  • the generating unit 133 generates, as information, an icon image indicating weather information at the locations of the participants other than the speaker among the participants of the conference.
  • the information processing apparatus 100 can encourage communication between the participants of the online conference, thereby supporting the smooth progress of the online conference.
  • FIG. 7 is a hardware configuration diagram showing an example of a computer that implements the functions of the information processing device 100 or the terminal device 10.
  • Computer 1000 includes CPU 1100 , RAM 1200 , ROM 1300 , HDD 1400 , communication interface (I/F) 1500 , input/output interface (I/F) 1600 and media interface (I/F) 1700 .
  • the CPU 1100 operates based on programs stored in the ROM 1300 or HDD 1400 and controls each section.
  • the ROM 1300 stores a boot program executed by the CPU 1100 when the computer 1000 is started up, a program depending on the hardware of the computer 1000, and the like.
  • the HDD 1400 stores programs executed by the CPU 1100 and data used by these programs.
  • Communication interface 1500 receives data from another device via a predetermined communication network, sends the data to CPU 1100, and transmits data generated by CPU 1100 to another device via a predetermined communication network.
  • the CPU 1100 controls output devices such as displays and printers, and input devices such as keyboards and mice, via an input/output interface 1600 .
  • CPU 1100 acquires data from an input device via input/output interface 1600 .
  • CPU 1100 also outputs the generated data to an output device via input/output interface 1600 .
  • the media interface 1700 reads programs or data stored in the recording medium 1800 and provides them to the CPU 1100 via the RAM 1200 .
  • CPU 1100 loads such a program from recording medium 1800 onto RAM 1200 via media interface 1700, and executes the loaded program.
  • the recording medium 1800 is, for example, an optical recording medium such as a DVD (Digital Versatile Disc) or a PD (Phase change rewritable disk), a magneto-optical recording medium such as an MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory. etc.
  • the CPU 1100 of the computer 1000 executes the program loaded on the RAM 1200 to perform the functions of the control unit 130 or the control unit 17.
  • Realize CPU 1100 of computer 1000 reads these programs from recording medium 1800 and executes them, but as another example, these programs may be obtained from another device via a predetermined communication network.
  • each component of each device illustrated is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • the information processing system 1 is a central processing (also called centralized) computing system, but the configuration of the information processing system is not limited to this.
  • the information processing system may be a distributed computing system composed of a plurality of terminal devices 10 .
  • a plurality of terminal devices 10 are connected to each other via a network.
  • the functions of the information processing device 100 described with reference to FIG. 2 are implemented in each terminal device 10 .
  • the information processing apparatus 100 described above may be implemented by a plurality of server computers, and depending on the function, may be implemented by calling an external platform or the like using an API (Application Programming Interface), network computing, or the like. can be changed flexibly.
  • API Application Programming Interface
  • the above “section, module, unit” can be read as “means” or “circuit”.
  • the generating unit can be read as generating means or a generating circuit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

情報処理装置(100)は、音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、会議の参加者である聞き手のコンテキスト情報を取得する取得部(131)と、文字情報と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた認識可能な情報を生成する生成部(133)と、生成部(133)によって生成された情報を聞き手の端末装置(10)に出力するよう制御する出力制御部(134)と、を備える。

Description

情報処理装置、情報処理方法及び情報処理プログラム
 本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
 従来、PC(Personal Computer)やタブレット型端末などの情報処理装置に、カメラ、マイク、スピーカーなどの機能を有するデバイスを接続し、それぞれのデバイスから入力された映像や音声を複数の拠点間で送受信するオンライン会議サービスに関する様々な技術が知られている。
 例えば、複数の拠点間でのオンラインでのビデオ会議を可能とするビデオ会議装置により取得された各出席者の音声データを取得する。続いて、音声データと、予め登録された各出席者の音声の特徴情報との比較に基づいて、音声データにおける各発言の発言者を特定する。続いて、各出席者の音声データを発言の時系列でタイムラインとして出力する技術が知られている。
特開2019-61594号公報
 しかしながら、上記の従来技術では、オンライン会議サービスにおけるユーザビリティを向上させることができるとは限らない。例えば、上記の従来技術では、タイムラインとして、各出席者の発言内容のテキストが時系列で表示されるにすぎない。このため、オンライン会議サービスにおけるユーザビリティが高いとはいえない。
 本願は、上記に鑑みてなされたものであって、オンライン会議サービスにおけるユーザビリティを向上させることができる情報処理装置、情報処理方法及び情報処理プログラムを提案する。
 本願に係る情報処理装置は、音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、前記会議の参加者である聞き手のコンテキスト情報を取得する取得部と、前記文字情報と前記聞き手のコンテキスト情報とに基づいて、前記聞き手のコンテキストに応じた認識可能な情報を生成する生成部と、前記生成部によって生成された情報を前記聞き手の端末装置に出力するよう制御する出力制御部と、を備える。
 実施形態の一態様によれば、オンライン会議サービスにおけるユーザビリティを向上させることができるといった効果を奏する。
図1は、実施形態に係る情報処理の概要を説明するための図である。 図2は、実施形態に係る情報処理装置の構成例を示す図である。 図3は、実施形態に係る参加者情報記憶部の一例を示す図である。 図4は、実施形態に係る議事録情報記憶部の一例を示す図である。 図5は、実施形態に係る端末装置の構成例を示す図である。 図6は、実施形態に係る情報処理手順を示す図である。 図7は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
(実施形態)
〔1.情報処理の概要〕
 まず、図1を用いて、実施形態に係る情報処理の概要について説明する。図1は、実施形態に係る情報処理の概要を説明するための図である。図1に示す情報処理は、情報処理システム1によって実現される。情報処理システム1は、オンライン会議サービスの利用者によって利用される端末装置10と、オンライン会議サービスを提供する情報処理装置100とを備える。端末装置10と情報処理装置100とは所定のネットワークN(図示略)を介して、有線または無線により通信可能に接続される。なお、図1に示す情報処理システム1には、任意の数の端末装置10と任意の数の情報処理装置100とが含まれてもよい。
 端末装置10は、オンライン会議サービスの利用者(以下、オンライン会議の参加者ともいう)によって利用される情報処理装置である。端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。
 また、端末装置10には、オンライン会議サービスを利用するためのアプリケーションがインストールされている。図1に示す例では、端末装置10には、オンライン会議サービスの一種であるWeb会議システムを利用するためのアプリケーション(以下、Web会議アプリともいう)がインストールされている。
 以下では、参加者ID「U1」により特定される参加者を「参加者U1」とする場合がある。このように、以下では、「参加者U*(*は任意の数値)」と記載した場合、その参加者は参加者ID「U*」により特定される参加者であることを示す。例えば、「参加者U2」と記載した場合、その参加者は参加者ID「U2」により特定される参加者である。
 また、以下では、端末装置10を利用する参加者に応じて、端末装置10を端末装置10-1、10-2として説明する。例えば、端末装置10-1は、参加者U1により使用される端末装置10である。また、例えば、端末装置10-2は、参加者U2により使用される端末装置10である。また、以下では、端末装置10-1、10-2について、特に区別なく説明する場合には、端末装置10と記載する。
 情報処理装置100は、オンライン会議サービスを提供するサーバ装置である。例えば、情報処理装置100は、Web会議システムを提供する。具体的には、情報処理装置100は、オンライン会議に参加する複数の参加者のうち発言者の音声データを端末装置10から受信する。続いて、情報処理装置100は、受信した音声データを発言者以外の他の参加者(聞き手ともいう)の端末装置10に送信する。また、情報処理装置100は、発言者の画像データを端末装置10から受信する。続いて、情報処理装置100は、受信した画像データを発言者以外の他の参加者(聞き手ともいう)の端末装置10に送信する。また、情報処理装置100は、聞き手の画像データを端末装置10から受信する。続いて、情報処理装置100は、受信した画像データを発言者の端末装置10に送信する。
 図1に示す例では、6人の参加者U1~参加者U6が、オンライン会議サービスを利用してオンライン会議をしている。また、以下では、会議の参加者のうち、会議で発言した参加者のことを「発言者」と記載する場合がある。また、以下では、会議の参加者のうち、発言者の発言を聞いている参加者のことを「聞き手」と記載する場合がある。また、以下では、オンライン会議のことを単に会議と記載する場合がある。
 図1では、オンライン会議の冒頭で日本語を使用する参加者U1が「今日はいい天気です」と日本語で発言する。参加者U1の端末装置10-1は、端末装置10-1に搭載された音センサ(例えば、マイク)によって参加者U1(発言者)の音声情報を取得する。端末装置10-1は、参加者U1(発言者)の音声情報を取得すると、取得した音声情報を情報処理装置100に送信する。情報処理装置100は、端末装置10-1から参加者U1(発言者)の音声情報を取得する(ステップS1)。
 続いて、情報処理装置100は、参加者U1(発言者)の音声情報を取得すると、公知の音声認識技術を用いて、取得した音声情報を文字情報に変換する。情報処理装置100は、取得した音声情報を文字情報に変換することで、参加者U1(発言者)の音声情報から文字情報を生成する(ステップS2)。図1では、情報処理装置100は、参加者U1(発言者)の音声情報から「今日はいい天気です」という日本語の文字情報を生成する。また、情報処理装置100は、取得した音声情報を文字情報に変換する際に、参加者U1(発言者)の音声情報が日本語であると認識する。
 また、情報処理装置100は、参加者U1(発言者)の音声情報を取得すると、取得した音声情報とあらかじめ登録された参加者U1(発言者)の音声の特徴情報との比較に基づいて、音声情報の発言者が参加者U1であると特定する。情報処理装置100は、発言者を特定すると、参加者U1の参加者ID「U1」と「今日はいい天気です」という日本語の文字情報とを対応付けた情報を発言時刻と対応付けて記録した議事録情報を生成する(ステップS3)。
 なお、情報処理装置100は、以降も、音声情報を取得するたびに、議事録情報を生成する。具体的には、情報処理装置100は、音声情報を取得するたびに、音声情報を文字情報に変換する。また、情報処理装置100は、音声情報を取得するたびに、音声情報の発言者を特定する。そして、情報処理装置100は、特定した発言者の参加者IDと文字情報とを対応付けた情報を発言時刻と対応付けて記録した議事録情報を生成する。こうして、情報処理装置100は、会議中の全ての発言について、発言者と発言内容を示す文字情報とを対応付けて記録した議事録情報を生成する。
 図1の説明に戻る。情報処理装置100は、音声情報の発言者が参加者U1であると特定されると、参加者U1以外の他の参加者U2~U6(聞き手)の使用言語に関する情報を取得する(ステップS4)。続いて、情報処理装置100は、聞き手の使用言語に関する情報を取得すると、発言者による「今日はいい天気です」という日本語の文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する(ステップS5)。続いて、情報処理装置100は、翻訳文字情報を生成すると、発言者の音声情報とともに生成した翻訳文字情報を聞き手の端末装置10に送信する(ステップS6)。聞き手の端末装置10は、発言者の音声情報とともに翻訳文字情報を情報処理装置100から受信すると、発言者の音声情報をスピーカーから出力するとともに、受信した翻訳文字情報を画面に表示する。
 例えば、情報処理装置100は、参加者U2の使用言語がドイツ語であるという情報を取得する。情報処理装置100は、参加者U2の使用言語がドイツ語であるという情報を取得すると、発言者による「今日はいい天気です」という日本語の文字情報を参加者U2の使用言語であるドイツ語に翻訳した翻訳文字情報「Das Wetter heute ist schoen」を生成する。続いて、情報処理装置100は、翻訳文字情報を生成すると、発言者の音声情報とともに、生成した翻訳文字情報を参加者U2の端末装置10-2に送信する。端末装置10-2は、発言者の音声情報とともに翻訳文字情報を情報処理装置100から受信すると、発言者の音声情報をスピーカーから出力するとともに、受信した翻訳文字情報「Das Wetter heute ist schoen」を画面に表示する。
 また、情報処理装置100は、参加者U3の使用言語がフランス語であるという情報を取得する。情報処理装置100は、参加者U3の使用言語がフランス語であるという情報を取得すると、発言者による「今日はいい天気です」という日本語の文字情報を参加者U3の使用言語であるフランス語に翻訳した翻訳文字情報「Il fait beau aujourd'hui」を生成する。続いて、情報処理装置100は、翻訳文字情報を生成すると、発言者の音声情報とともに、生成した翻訳文字情報を参加者U3の端末装置10-3に送信する。端末装置10-3は、発言者の音声情報とともに翻訳文字情報を情報処理装置100から受信すると、発言者の音声情報をスピーカーから出力するとともに、受信した翻訳文字情報「Il fait beau aujourd'hui」を画面に表示する。
 また、情報処理装置100は、参加者U4の使用言語が日本語であるという情報を取得する。情報処理装置100は、参加者U4の使用言語が日本語であるという情報を取得すると、参加者U4の使用言語が発言者の音声情報から認識した言語と同じ言語なので、文字情報を翻訳する必要がないと判定する。続いて、情報処理装置100は、文字情報を翻訳する必要がないと判定すると、発言者の音声情報とともに、生成した文字情報を参加者U4の端末装置10-4に送信する。端末装置10-4は、発言者の音声情報とともに文字情報を情報処理装置100から受信すると、発言者の音声情報をスピーカーから出力するとともに、受信した文字情報「今日はいい天気です」を画面に表示する。
 また、情報処理装置100は、参加者U5がサブタイトル(文字情報)の表示を希望していないという情報を取得する。情報処理装置100は、参加者U5がサブタイトルの表示を希望していないという情報を取得すると、文字情報を送信する必要がないと判定する。続いて、情報処理装置100は、文字情報を送信する必要がないと判定すると、発言者の音声情報のみを参加者U5の端末装置10-5に送信する。端末装置10-5は、発言者の音声情報を情報処理装置100から受信すると、発言者の音声情報をスピーカーから出力する。
 また、情報処理装置100は、参加者U6の使用言語が英語であるという情報を取得する。情報処理装置100は、参加者U6の使用言語が英語であるという情報を取得すると、発言者による「今日はいい天気です」という日本語の文字情報を参加者U6の使用言語である英語に翻訳した翻訳文字情報「The Weather is good today」を生成する。続いて、情報処理装置100は、翻訳文字情報を生成すると、発言者の音声情報とともに、生成した翻訳文字情報を参加者U6の端末装置10-6に送信する。端末装置10-6は、発言者の音声情報とともに翻訳文字情報を情報処理装置100から受信すると、発言者の音声情報をスピーカーから出力するとともに、受信した翻訳文字情報「The Weather is good today」を画面に表示する。
 上述したように、情報処理装置100は、音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報(図1の例では、「今日はいい天気です」)と、会議の参加者である聞き手のコンテキスト情報(図1の例では、聞き手の使用言語に関する情報)を取得する。情報処理装置100は、文字情報と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた視認可能な表示情報(図1の例では、文字情報を聞き手の使用言語に翻訳した翻訳文字情報)を生成する。情報処理装置100は、生成した表示情報を聞き手の端末装置10に出力するよう制御する。
 これにより、情報処理装置100は、何らかの事情により、聞き手にとって発言者の音声情報が聞き取りづらい場合であっても、発言者の音声情報から生成された文字情報に基づく視認可能な表示情報であって、聞き手のコンテキストに応じた表示情報を聞き手の端末装置10に表示することで、聞き手に対して発言者の発言内容を適切に伝達可能とすることができる。例えば、使用言語の異なる複数の参加者が参加する国際的なオンライン会議では、発言者によって発言された言語が聞き手にとって聞き慣れない言語であり、音声情報を聞き取りづらい場合がある。このような場合、情報処理装置100は、発言者の音声情報から生成された文字情報を聞き手の使用言語に翻訳した翻訳文字情報を聞き手の端末装置10に表示することで、聞き手が発言者の発言内容を聴覚でなく視覚によって知覚することを支援することができる。これにより、情報処理装置100は、オンライン会議における発言者の発言内容を聞き手に対して適切に伝達することを支援することができる。したがって、情報処理装置100は、オンライン会議サービスにおけるユーザビリティを向上させることができる。なお、文字情報としては、「今日はいい天気です」などの文章の他に、携帯端末に画面に表示されるアイコンやウェブサイトを示すURLなどの表示(リンク先表示を含む)であってもよい。
〔2.情報処理装置の構成例〕
 次に、図2を用いて、実施形態に係る情報処理装置100の構成について説明する。図2は、実施形態に係る情報処理装置100の構成例を示す図である。図2に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。
(通信部110)
 通信部110は、例えば、NIC(Network Interface Card)等によって実現される。また、通信部110は、ネットワークN(図示略)と有線又は無線で接続される。
(記憶部120)
 記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置によって実現される。図2に示すように、記憶部120は、参加者情報記憶部121と、議事録情報記憶部122とを有する。
(参加者情報記憶部121)
 参加者情報記憶部121は、オンライン会議の参加者に関する各種情報を記憶する。例えば、参加者情報記憶部121は、参加者の属性等の種々の情報を記憶する。図3は、参加者情報記憶部121の一例を示す図である。図3に示した例では、参加者情報記憶部121は、「参加者ID」、「端末ID」、「音声情報」、「画像情報」、「使用言語」、「聴覚障害の有無」、「所在地」といった項目を有する。
 「参加者ID」は、参加者を識別するための識別情報を示す。また、「端末ID」は、端末装置10を識別するための識別情報を示す。例えば、「端末ID」は、参加者がオンライン会議に利用する端末装置10を識別するための識別情報を示す。
 「音声情報」は、参加者IDにより識別される参加者の音声情報を示す。「音声情報」は、発話を行った参加者を識別するための音声の特徴情報であってもよい。なお、図3の例では、各参加者の音声情報を概念的に記号「VP1」等で示すが、「音声情報」としては、これらの格納場所を示すファイルパス名などが格納されてもよい。
 「画像情報」は、参加者IDにより識別される参加者の画像情報を示す。「画像情報」は、参加者を識別したり、オンライン会議の画面に表示したりするための画像や動画であってもよい。なお、図3の例では、各参加者の画像情報を概念的に記号「IM1」等で示すが、「画像情報」としては、これらの格納場所を示すファイルパス名などが格納されてもよい。
 「使用言語」は、参加者IDにより識別される参加者の使用言語を示す。例えば、参加者の使用言語は、参加者の母国語を示す。「聴覚障害の有無」は、参加者IDにより識別される参加者の聴覚障害の有無を示す。例えば、聴覚障害の有無「無」は、参加者が聴覚障害を有していないことを示す。また、例えば、聴覚障害の有無「有」は、参加者が聴覚障害を有していることを示す。「所在地」は、参加者IDにより識別される参加者の所在地を示す。例えば、「所在地」は、オンライン会議の開始時刻における参加者の所在地を示す。図3の例では、各参加者の所在地を「日本、東京」や「ドイツ、ベルリン」等の国名と都市名の組み合わせで示すが、「所在地」としては、参加者の所在地を示す緯度や経度などの具体的な位置情報が格納されてもよい。
 なお、参加者情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、参加者情報記憶部121は、参加者の端末装置10に関する各種情報を記憶してもよい。また、参加者情報記憶部121は、参加者のデモグラフィック(人口統計学的属性)、サイコグラフィック(心理学的属性)、ジオグラフィック(地理学的属性)、ベヘイビオラル(行動学的属性)等の属性に関する情報を記憶してもよい。例えば、参加者情報記憶部121は、氏名、家族構成、出身地(地元)、職業、職位、収入、資格、居住形態(戸建、マンション等)、車の有無、通学・通勤時間、通学・通勤経路、定期券区間(駅、路線等)、利用頻度の高い駅(自宅・勤務地の最寄駅以外)、習い事(場所、時間帯等)、趣味、興味、ライフスタイル等の情報を記憶してもよい。
(議事録情報記憶部122)
 議事録情報記憶部122は、オンライン会議の議事録に関する各種情報(議事録情報)を記憶する。例えば、議事録情報記憶部122は、各オンライン会議の参加者の発言やその日時を含む議事録情報を記憶する。図4は、実施形態に係る議事録情報記憶部の一例を示す図である。図4に示す議事録情報記憶部122は、「会議ID」、「発言ID」、「日時」、「発言者」、「発言情報」といった項目を有する。
 「会議ID」は、議事録の生成対象となるオンライン会議を識別するための識別情報を示す。「発言ID」は、参加者の発言(発話)を識別するための識別情報を示す。「日時」は、対応する発言が行われた日時を示す。なお、図4の例では、「日時」に記憶される情報を「DT11-1」等の符号で図示するが、「日時」には、「2021年2月14日14時06分02秒」等の具体的な日時が記憶されるものとする。「発言者」は、対応する発言(発話)を行った参加者を示す。
 「発言情報」は、対応する発言IDにより識別される発言の具体的な内容を示す。例えば、「発言情報」には、発言に対応する文字情報が記憶される。「発言情報」には、発言の音声情報が変換された文字情報が記憶される。
(制御部130)
 図2に戻り、説明を続ける。制御部130は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等によって、情報処理装置100の内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAM等の記憶領域を作業領域として実行されることにより実現される。図2に示す例では、制御部130は、取得部131と、判定部132と、生成部133と、出力制御部134とを有する。
(取得部131)
 取得部131は、オンライン会議の参加者に関する各種情報を取得する。具体的には、取得部131は、画像センサにより検知された会議の参加者の画像情報を端末装置10から取得する。また、取得部131は、音センサにより検知された会議の参加者である発言者の音声情報を端末装置10から取得する。取得部131は、発言者の音声情報を取得すると、取得した音声情報から発言者の音声の特徴情報を取得する。
 また、取得部131は、発言者の音声情報を取得すると、公知の音声認識技術を用いて、取得した音声情報を文字情報に変換する。取得部131は、取得した音声情報を文字情報に変換することで、発言者の音声情報から文字情報を生成する。また、取得部131は、取得した音声情報を文字情報に変換する際に、発言者の音声情報の言語の種類を認識する。
 また、取得部131は、会議の参加者のコンテキスト情報を取得する。例えば、取得部131は、参加者のコンテキスト情報の一例として、参加者の属性情報を端末装置10から取得する。例えば、取得部131は、参加者の属性情報の一例として、参加者の使用言語に関する情報を取得する。また、取得部131は、参加者の属性情報の一例として、参加者によるサブタイトル(文字情報)の表示の希望の有無に関する情報を取得してよい。なお、属性情報は参加者の使用言語の他に参加者が使用したい言語、例えば、参加者が日本出身であっても英語の方が得意な場合は、その参加者の属性情報は英語に関する情報としてもよい。この場合、取得部131に対し使用言語が英語である属性情報を図示しないスイッチなどを用いて設定できるようにしてよい。
 また、取得部131は、参加者の画像情報、音声情報、音声の特徴情報、およびコンテキスト情報を取得すると、取得した参加者の画像情報、音声情報、音声の特徴情報、およびコンテキスト情報を参加者IDと対応付けて参加者情報記憶部121に格納する。
(判定部132)
 判定部132は、取得部131によって音声情報が取得されると、参加者情報記憶部121を参照して、参加者それぞれの音声の特徴情報を取得する。続いて、判定部132は、参加者それぞれの音声の特徴情報と取得部131によって取得された音声情報との比較に基づいて、音声情報の発言者を特定する。
 また、判定部132は、取得部131によって音声情報が取得されると、参加者情報記憶部121を参照して、参加者によるサブタイトルの表示の希望の有無に関する情報を取得する。続いて、判定部132は、参加者によるサブタイトルの表示の希望の有無に関する情報に基づいて、サブタイトルの表示を希望しない参加者がいるか否かを判定する。判定部132は、サブタイトルの表示を希望しない参加者がいると判定した場合、サブタイトルの表示を希望しない参加者を特定し、特定した参加者に対しては文字情報を送信する必要がないと判定する。
(生成部133)
 生成部133は、判定部132によって音声情報の発言者が特定されると、取得部131によって生成された文字情報と特定された発言者の参加者IDとを対応付けた情報を発言時刻と対応付けて記録した議事録情報を生成する。生成部133は、議事録情報を生成すると、生成した議事録情報を議事録情報記憶部122に格納する。
 なお、生成部133は、取得部131によって音声情報が取得されるたびに、議事録情報を生成する。具体的には、取得部131は、音声情報を取得するたびに、音声情報を文字情報に変換する。また、判定部132は、取得部131によって音声情報が取得されるたびに、音声情報の発言者を特定する。そして、生成部133は、取得部131によって生成された文字情報と判定部132によって特定された発言者の参加者IDとを対応付けた情報を発言時刻と対応付けて記録した議事録情報を生成する。このようにして、生成部133は、会議中の全ての発言について、発言者と発言内容を示す文字情報とを対応付けて記録した議事録情報を生成する。
 また、生成部133は、判定部132によって音声情報の発言者が特定されると、発言者以外の他の参加者(聞き手)のコンテキスト情報を取得する。例えば、生成部133は、コンテキスト情報の一例として、発言者以外の他の参加者(聞き手)の属性情報を取得する。例えば、生成部133は、属性情報の一例として、発言者以外の他の参加者(聞き手)の使用言語に関する情報を取得する。例えば、生成部133は、参加者情報記憶部121を参照して、発言者として特定された参加者以外の他の参加者の使用言語に関する情報を取得する。
 続いて、生成部133は、発言者以外の他の参加者(聞き手)のコンテキスト情報を取得すると、取得部131によって取得された文字情報と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた視認可能な表示情報を生成する。例えば、生成部133は、聞き手の使用言語に関する情報を取得すると、聞き手の使用言語が発言者の音声情報から認識した言語と同じ言語であるか否かを判定する。生成部133は、聞き手の使用言語が発言者の音声情報から認識した言語と同じ言語でないと判定した場合、表示情報の一例として、取得部131によって取得された文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する。
 一方、生成部133は、聞き手の使用言語が発言者の音声情報から認識した言語と同じ言語であると判定した場合、文字情報を翻訳する必要がないと判定する。なお、生成部133は、取得部131によって取得された文字情報と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた視認可能な表示情報を生成することの他に聴音確認可能な聴音情報(音により認識できる情報)も生成してよく、視認可能な情報と聴音可能な情報の両方を生成してもよい。以下の説明では、生成部133は、聞き手のコンテキストに応じた視認可能な表示情報を生成することを例にして説明するが本発明はこれに限定されるものではない。
(出力制御部134)
 出力制御部134は、生成部133によって生成された表示情報を聞き手の端末装置10に出力するよう制御する。具体的には、出力制御部134は、生成部133によって表示情報が生成されると、発言者の音声情報とともに、生成された表示情報を聞き手の端末装置10に送信する。例えば、出力制御部134は、生成部133によって翻訳文字情報が生成されると、発言者の音声情報とともに、生成された翻訳文字情報を対応する聞き手の端末装置10に送信する。
 一方、出力制御部134は、生成部133によって翻訳文字情報が生成されなかった場合、発言者の音声情報とともに、取得部131によって生成された文字情報を対応する聞き手の端末装置10に送信する。
 また、出力制御部134は、判定部132によってサブタイトルの表示を希望しない参加者が特定された場合、発言者の音声情報のみを対応する聞き手の端末装置10に送信する。
〔3.端末装置の構成例〕
 次に、図5を用いて、実施形態に係る端末装置の構成について説明する。図5は、実施形態に係る端末装置の構成例を示す図である。図5に示すように、端末装置10は、通信部11と、音声入力部12と、撮像部13と、記憶部14と、音声出力部15と、表示部16と、制御部17とを有する。なお、端末装置10は、端末装置10の利用者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)を有してもよい。
(通信部11)
 通信部11は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部11は、ネットワークN(図示略)と有線または無線で接続され、例えば、情報処理装置100との間で情報の送受信を行う。
(音声入力部12)
 音声入力部12は、音センサであるマイク等の集音デバイスによって実現される。音声入力部12は、参加者の音声などを集音し、集音した音声情報を制御部17に出力する。また、以下の説明では、音声入力部12をマイクと記載する場合がある。
(撮像部13)
 撮像部13は、画像センサであるカメラ等の撮像デバイスによって実現される。撮像部13は、参加者などの画像を撮影し、撮影した画像情報を制御部17に出力する。また、以下の説明では、撮像部13をカメラと記載する場合がある。
(記憶部14)
 記憶部14は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部14は、各種プログラム(情報処理プログラムの一例に相当)を記憶する。例えば、記憶部14は、Web会議アプリのプログラムを記憶する。また、記憶部14は、各種データを記憶する。例えば、記憶部14は、音声入力部12に入力された参加者の音声情報を記憶する。また、記憶部14は、撮像部13によって撮影された参加者の画像情報を記憶する。また、以下の説明では、記憶部14をメモリと記載する場合がある。
(音声出力部15)
 音声出力部15は、スピーカー等の音声出力デバイスによって実現される。音声出力部15は、情報処理装置100から受信した他の参加者(発言者)の音声情報を出力する。具体的には、音声出力部15は、受信部172から他の参加者の音声情報を受信する。続いて、音声出力部15は、受信した他の参加者の音声情報を出力する。また、以下の説明では、音声出力部15をスピーカーと記載する場合がある。
(表示部16)
 表示部16は、ディスプレイ等の画像出力デバイスによって実現される。表示部16は、表示制御部173の制御に従って、各種情報を表示する。なお、端末装置10にタッチパネルが採用される場合には、入力部と表示部16とは一体化される。また、以下の説明では、表示部16を画面と記載する場合がある。
 具体的には、表示部16は、情報処理装置100から受信した他の参加者の画像データを表示する。例えば、表示部16は、受信部172から他の参加者の画像データを受信する。続いて、表示部16は、表示制御部173の制御に従って、受信した他の参加者の画像データを表示する。
 また、表示部16は、情報処理装置100から受信した表示情報を表示する。例えば、表示部16は、受信部172から表示情報を受信する。続いて、表示部16は、表示制御部173の制御に従って、受信した表示情報を表示する。
(制御部17)
 図5の説明に戻って、制御部17は、コントローラであり、例えば、CPUやMPU等によって、端末装置10内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部17は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現される。
 制御部17は、入力部を介して参加者の操作を受け付けると、Web会議アプリを起動する。また、制御部17は、Web会議アプリを起動すると、カメラおよびマイクを起動する。
 図5に示すように、制御部17は、送信部171と、受信部172と、表示制御部173とを有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部17の内部構成は、図5に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
(送信部171)
 送信部171は、音センサにより検知された参加者の音声情報を情報処理装置100へ送信する。具体的には、送信部171は、音声入力部12から参加者の音声情報を受信すると、受信した参加者の音声情報を情報処理装置100に送信する。
 また、送信部171は、画像センサにより検知された参加者の画像情報を情報処理装置100へ送信する。具体的には、送信部171は、撮像部13から参加者の画像情報を受信すると、受信した参加者の画像情報を情報処理装置100に送信する。
(受信部172)
 受信部172は、情報処理装置100から他の参加者の音声情報を受信する。続いて、受信部172は、他の参加者の音声情報を受信すると、受信した他の参加者の音声情報を音声出力部15に出力する。
 また、受信部172は、情報処理装置100から他の参加者の画像情報を受信する。続いて、受信部172は、他の参加者の画像情報を受信すると、受信した他の参加者の画像情報を表示部16に出力する。
 また、受信部172は、情報処理装置100から表示情報を受信する。続いて、受信部172は、表示情報を受信すると、受信した表示情報を表示部16に出力する。
(表示制御部173)
 表示制御部173は、Web会議アプリに対する操作を行うための各種画像(例えば、ツールバーやアイコン等)を画面に表示するよう制御する。また、表示制御部173は、他の参加者の画像情報を画面に表示するよう制御する。また、表示制御部173は、表示情報を画面に表示するよう制御する。
〔4.情報処理手順〕
 次に、図6を用いて、実施形態に係る情報処理手順の概要について説明する。図6は、実施形態に係る情報処理手順の概要を示す図である。図6に示すように、情報処理装置100の取得部131は、音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、会議の参加者である聞き手のコンテキスト情報を取得する(ステップS101)。
 情報処理装置100の生成部133は、取得部131によって取得された文字情報と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた視認可能な表示情報を生成する(ステップS102)。例えば、生成部133は、取得部131によって取得された文字情報と聞き手の使用言語に関する情報とに基づいて、表示情報の一例として、文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する。
 情報処理装置100の出力制御部134は、生成部133によって生成された表示情報を聞き手の端末装置10に出力するよう制御する(ステップS103)。例えば、出力制御部134は、生成部133によって生成された翻訳文字情報を聞き手の端末装置10に送信する。端末装置10の受信部172は、情報処理装置100から翻訳文字情報を受信する。端末装置10の表示部16は、受信部172から表示情報を受信する。続いて、端末装置10の表示部16は、表示制御部173の制御に従って、受信した翻訳文字情報を表示する。
〔5.変形例〕
 上述した実施形態に係る情報処理システム1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、情報処理システム1の他の実施形態について説明する。なお、実施形態と同一部分には、同一符号を付して説明を省略する。
〔5-1.聴覚障害を有する聞き手に対する手話アバターの表示〕
 具体的には、取得部131は、聞き手の属性情報の一例として、聞き手の聴覚障害の有無に関する情報を取得する。判定部132は、聞き手の聴覚障害の有無に関する情報に基づいて、聞き手が聴覚障害を有するか否かを判定する。生成部133は、判定部132によって聞き手が聴覚障害を有すると判定された場合、表示情報の一例として、文字情報を手話に翻訳した動きを表現する手話アバターの動画像を生成する。出力制御部134は、生成部133によって生成された手話アバターの動画像を聞き手の端末装置10に出力するよう制御する。
〔5-2.音声トラブルを有する聞き手に対する文字情報の表示〕
 また、取得部131は、聞き手のコンテキスト情報の一例として、会議の音声トラブルの発生状況に関する情報を取得する。例えば、取得部131は、会議の音声トラブルの発生状況に関する情報の一例として、聞き手の端末装置10から取得した画像情報または音声情報を取得する。判定部132は、会議の音声トラブルの発生状況に関する情報に基づいて、聞き手の端末装置10に音声トラブルが発生しているか否かを判定する。例えば、判定部132は、聞き手の端末装置10から取得した画像情報に基づいて、聞き手が音声トラブルで困っているといった身振り手振りに関する情報が画像情報に含まれていると判定した場合、聞き手の端末装置10に音声トラブルが発生していると判定する。また、例えば、判定部132は、聞き手の端末装置10から取得した音声情報に基づいて、聞き手による「音が聞こえないです」といった発言が音声情報に含まれていると判定した場合、聞き手の端末装置10に音声トラブルが発生していると判定する。生成部133は、判定部132によって音声トラブルが発生していると判定された場合、表示情報の一例として、文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する。出力制御部134は、生成部133によって生成された翻訳文字情報を聞き手の端末装置10に出力するよう制御する。
〔5-3.会議に遅れて参加した聞き手に対する議事録情報の表示〕
 また、取得部131は、聞き手のコンテキスト情報の一例として、聞き手が会議に参加し始めた参加開始時刻に関する情報を取得する。例えば、取得部131は、聞き手の端末装置10から取得した画像情報に基づいて、聞き手が会議に参加し始めた参加開始時刻に関する情報を取得する。判定部132は、参加開始時刻に関する情報に基づいて、聞き手が会議に遅れて参加したか否かを判定する。例えば、判定部132は、参加開始時刻が会議の開始時刻から所定時間以上経過しているか否かを判定する。そして、判定部132は、参加開始時刻が会議の開始時刻から所定時間以上経過している場合には、聞き手が会議に遅れて参加したと判定する。
 生成部133は、判定部132によって聞き手が会議に遅れて参加したと判定された場合(すなわち、判定部132によって参加開始時刻が会議の開始時刻から所定時間以上経過していると判定された場合)、表示情報の一例として、会議の開始時刻から参加開始時刻までの議事録情報を生成する。出力制御部134は、生成部133によって生成された会議の開始時刻から聞き手の参加開始時刻までの議事録情報を会議に遅れて参加した聞き手の端末装置10に出力するよう制御する。
 また、生成部133は、取得部131によって会議の最中にこれまで会議で使用されなかった新たな言語による発言の音声情報が認識された場合には、表示情報の一例として、新たな言語を発言した発言者の音声情報から生成された文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する。例えば、生成部133は、取得部131によって日本語で進められていた会議の最中に新たにフランス語による発言の音声情報が認識された場合には、表示情報の一例として、フランス語を発言した発言者の音声情報から生成された文字情報を聞き手の使用言語(例えば、日本語)に翻訳した翻訳文字情報を生成する。出力制御部134は、生成部133によって生成された翻訳文字情報を聞き手の端末装置10に出力するよう制御する。
〔5-4.発言に含まれるキーワードに関する検索結果の表示〕
 また、取得部131は、発言者の音声情報から生成された文字情報に含まれるキーワードに関する検索結果を取得する。例えば、取得部131は、発言者の音声情報から文字情報を生成すると、生成した文字情報の中からキーワードを抽出する。取得部131は、キーワードを抽出すると、抽出したキーワードに関する検索を行う。例えば、取得部131は、抽出したキーワードを検索クエリとして、インターネット上の情報を検索する。
 例えば、取得部131は、抽出したキーワードによって示される対象が2次元または3次元の構造を有する場合(例えば、4Gのネットワーク構造など)、抽出したキーワードに関する検索結果として、キーワードによって示される対象の2次元画像または3次元画像を取得する。生成部133は、検索結果と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた視認可能な表示情報を生成する。例えば、生成部133は、表示情報の一例として、検索結果として取得した2次元画像または3次元画像を、聞き手の画面上で見やすい色や大きさに修正した2次元画像または3次元画像を生成する。出力制御部134は、生成部133によって生成された表示情報を聞き手の端末装置10に出力するよう制御する。
 また、取得部131は、抽出したキーワードによって示される対象が数字のみで構成されるデータである場合、抽出したキーワードに関する検索結果として、数字のみで構成されるデータを取得する。生成部133は、検索結果と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた視認可能な表示情報を生成する。例えば、生成部133は、表示情報の一例として、検索結果として取得した数字のみで構成されるデータに基づいて、聞き手の画面上で見やすいグラフや表を生成する。出力制御部134は、生成部133によって生成された表示情報を聞き手の端末装置10に出力するよう制御する。
〔5-4-1.翻訳文書データ(議事録、仕様書)〕
 例えば、取得部131は、発言者の音声情報から文字情報を生成すると、生成した文字情報の中から文書データを示すキーワード(例えば、「議事録」や「仕様書」など)を抽出する。取得部131は、文書データを示すキーワードを抽出すると、抽出した文書データを示すキーワードに関する検索を行う。例えば、取得部131は、抽出した文書データを示すキーワードを検索クエリとして、該当する文書データが格納されたデータベースを検索する。取得部131は、検索結果として、キーワードによって示される文書データを取得する。
 また、取得部131は、生成した文字情報の中から文書データの範囲を示すキーワード(例えば、「5ページ辺り…」など)を抽出する。取得部131は、文書データの範囲を示すキーワードを抽出すると、抽出した文書データの範囲を検索する。取得部131は、検索結果として、範囲を指定した文書データ(例えば、「〇〇の仕様書の5ページ」のデータなど)を取得する。
 生成部133は、表示情報の一例として、文書データに含まれる文字情報を聞き手の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する。出力制御部134は、生成部133によって生成された翻訳文書データを聞き手の端末装置10に出力するよう制御する。
〔5-4-2.天気を示すアイコン画像〕
 また、取得部131は、発言者の音声情報から文字情報を生成すると、生成した文字情報の中から天気を示すキーワード(例えば、「天気」や「雨」など)を抽出する。取得部131は、天気を示すキーワードを抽出すると、文字情報に含まれる天気を示すキーワードに関する検索結果として、会議の参加者が所在する各地域における天気の情報をインターネット上で検索する。取得部131は、検索結果として、会議の参加者が所在する各地域における天気の情報を取得する。
 生成部133は、表示情報の一例として、会議の参加者のうち少なくとも聞き手の所在地における天気の情報を示すアイコン画像を生成する。出力制御部134は、生成部133によって生成された聞き手の所在地における天気の情報を示すアイコン画像を聞き手の端末装置10に出力するよう制御する。
 なお、生成部133は、会議の参加者全員の所在地における天気の情報を示すアイコン画像を生成してよい。出力制御部134は、会議の参加者全員の所在地における天気の情報を示すアイコン画像を参加者の画像と対応付けて聞き手の端末装置10に出力するよう制御してよい。
〔5-5.発言者に対する表示情報の表示〕
 また、取得部131は、文字情報と、発言者のコンテキスト情報を取得する。生成部133は、文字情報と発言者のコンテキスト情報とに基づいて、発言者のコンテキストに応じた視認可能な表示情報を生成する。出力制御部134は、生成部133によって生成された表示情報を発言者の端末装置10に出力するよう制御する。
〔5-5-1.文書データ(議事録、仕様書)のアドレス情報〕
 具体的には、取得部131は、発言者のコンテキスト情報の一例として、発言者の端末装置10から取得された音声情報を取得する。また、取得部131は、発言者の音声情報から文字情報を生成すると、生成した文字情報の中から文書データを示すキーワード(例えば、「議事録」や「仕様書」など)を抽出する。取得部131は、文書データを示すキーワードを抽出すると、抽出した文書データを示すキーワードに関する検索を行う。例えば、取得部131は、抽出した文書データを示すキーワードを検索クエリとして、該当する文書データが格納されたデータベースを検索する。取得部131は、検索結果として、キーワードによって示される文書データの保存場所を示すアドレス情報を取得する。
 生成部133は、表示情報の一例として、アドレス情報によって示される保存場所にアクセス可能なリンク情報を生成する。出力制御部134は、生成部133によって生成されたリンク情報を発言者の端末装置10に出力するよう制御する。出力制御部134は、生成部133によって生成されたリンク情報を発言者の端末装置10に出力するよう制御する。
〔5-5-2.翻訳文書データ(議事録、仕様書)〕
 また、取得部131は、発言者のコンテキスト情報の一例として、発言者の端末装置10から取得された音声情報を取得する。また、取得部131は、発言者の音声情報から文字情報を生成すると、生成した文字情報の中から文書データを示すキーワード(例えば、「議事録」や「仕様書」など)を抽出する。取得部131は、文書データを示すキーワードを抽出すると、抽出した文書データを示すキーワードに関する検索を行う。例えば、取得部131は、検索結果として、キーワードによって示される文書データを取得する。
 また、取得部131は、生成した文字情報の中から文書データの範囲を示すキーワード(例えば、「5ページ辺り…」など)を抽出する。取得部131は、文書データの範囲を示すキーワードを抽出すると、抽出した文書データの範囲を検索する。取得部131は、検索結果として、範囲を指定した文書データ(例えば、「〇〇の仕様書の5ページ」のデータなど)を取得する。
 生成部133は、表示情報の一例として、文書データに含まれる文字情報を発言者の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する。出力制御部134は、生成部133によって生成された翻訳文書データを発言者の端末装置10に出力するよう制御する。
〔5-5-3.天気を示すアイコン画像〕
 また、取得部131は、発言者のコンテキスト情報の一例として、発言者の端末装置10から取得された音声情報を取得する。また、取得部131は、文字情報に含まれる天気を示すキーワードに関する検索結果として、会議の参加者が所在する各地域における天気の情報を取得する。生成部133は、表示情報として、会議の参加者のうち発言者を除く他の参加者の所在地における天気の情報を示すアイコン画像を生成する。出力制御部134は、生成部133によって生成された他の参加者の所在地における天気の情報を示すアイコン画像を発言者の端末装置10に出力するよう制御する。
 なお、生成部133は、発言者を含む会議の参加者全員の所在地における天気の情報を示すアイコン画像を生成してよい。出力制御部134は、会議の参加者全員の所在地における天気の情報を示すアイコン画像を参加者の画像と対応付けて発言者の端末装置10に出力するよう制御してよい。
〔5-6.聞き手の質問があった場合に検索結果を表示〕
 また、判定部132は、他の発言者の音声情報に基づいて、発言者の音声情報から生成された文字情報に含まれるキーワードに関する他の発言者による質問を示す発言(例えば、「その議事録はどのような内容ですか?」といった発言)の有無を判定する。取得部131は、判定部132によって他の発言者による質問を示す発言があると判定された場合に、文字情報に含まれるキーワードに関する検索結果を取得する。
〔5-7.参加者の人数に応じたリソースの割り振り〕
 情報処理装置100は、会議の参加者からの要望に応じて、音声を文字化する機能、翻訳機能、議事録作成機能といった各機能をクラウド上にオンデマンドで立ち上げ可能である。情報処理装置100は、会議の参加者の人数に応じて、音声を文字化する機能、翻訳機能、議事録作成機能といった各機能に関するリソースを割り振ってよい。情報処理装置100は、会議が終わったら上記の表示情報の表示機能を提供する仮想マシン又はコンテナを削除し、リソースを開放する。
〔5-8.特定の参加者間のみで音声出力〕
 情報処理装置100は、複数の参加者のうち、特定の参加者の間のみで音声を出力するよう制御してよい。例えば、情報処理装置100は、複数の参加者の端末装置10うち、特定の参加者の端末装置10の間のみで音声を出力するよう制御する。この際、情報処理装置100は、特定の参加者以外の他の参加者には、特定の参加者の間での音声のやり取りは聞こえないように制御する。
〔6.効果〕
 上述してきたように、実施形態に係る情報処理装置(実施形態では情報処理装置100)は、取得部131と生成部133と出力制御部134を備える。取得部131は、音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、会議の参加者である聞き手のコンテキスト情報を取得する。生成部133は、文字情報と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた認識可能な情報を生成する。出力制御部134は、生成部133によって生成された情報を聞き手の端末装置10に出力するよう制御する。
 これにより、情報処理装置100は、何らかの事情により、聞き手にとって発言者の音声情報が聞き取りづらい場合であっても、例えば、発言者の音声情報から生成された文字情報に基づく視認可能な表示情報であって、聞き手のコンテキストに応じた表示情報を聞き手の端末装置10に表示することで、聞き手が発言者の発言内容を聴覚でなく視覚によって知覚することを支援することができる。これにより、情報処理装置100は、オンライン会議における発言者の発言内容を聞き手に対して適切に伝達することを支援することができる。したがって、情報処理装置100は、オンライン会議サービスにおけるユーザビリティを向上させることができる。
 また、取得部131は、聞き手のコンテキスト情報として、聞き手の属性情報を取得する。生成部133は、聞き手の属性に応じた認識可能な情報を生成する。
 これにより、情報処理装置100は、何らかの事情により、聞き手にとって発言者の音声情報が聞き取りづらい場合であっても、聞き手の属性に応じた認識可能な情報であって、発言者の音声情報から生成された文字情報に基づいて生成された情報を聞き手の端末装置10に出力することで、聞き手が発言者の発言内容を聴覚でなく視覚によって知覚することを支援することができる。
 また、取得部131は、聞き手の属性情報として、聞き手の使用言語に関する情報を取得する。生成部133は、情報として、文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する。
 例えば、使用言語の異なる複数の参加者が参加する国際的なオンライン会議では、発言者によって発言された言語が聞き手にとって聞き慣れない言語であり、音声情報を聞き取りづらい場合がある。このような場合、情報処理装置100は、発言者の音声情報から生成された文字情報を聞き手の使用言語に翻訳した翻訳文字情報を聞き手の端末装置10に表示することで、聞き手が発言者の発言内容を聴覚でなく視覚によって知覚することを支援することができる。
 また、取得部131は、聞き手の属性情報として、聞き手の聴覚障害の有無に関する情報を取得する。生成部133は、聞き手が聴覚障害を有する場合、情報として、文字情報を手話に翻訳した動きを表現する手話アバターの動画像を生成する。
 これにより、情報処理装置100は、聞き手が聴覚障害を有する場合であっても、発言者の音声情報から生成された文字情報を手話に翻訳した動きを表現する手話アバターの動画像を聞き手の端末装置10に表示することで、聞き手が発言者の発言内容を聴覚でなく視覚によって知覚することを支援することができる。
 また、取得部131は、聞き手のコンテキスト情報として、会議の音声トラブルの発生状況に関する情報を取得する。生成部133は、音声トラブルが発生している場合、情報として、文字情報を聞き手の使用言語に翻訳した翻訳文字情報を生成する。
 これにより、情報処理装置100は、聞き手に音声トラブルが発生している場合であっても、発言者の音声情報から生成された文字情報を聞き手の使用言語に翻訳した翻訳文字情報を聞き手の端末装置10に表示することで、聞き手が発言者の発言内容を聴覚でなく視覚によって知覚することを支援することができる。
 また、生成部133は、情報として、発言者を識別可能な情報と文字情報とを対応付けた情報を時系列に沿って記録した議事録情報を生成する。
 このように、情報処理装置100は、オンライン会議の会議内容を振り返る際に便利な議事録情報を人手によらず自動的に生成する。したがって、情報処理装置100は、オンライン会議サービスにおけるユーザビリティを向上させることができる。
 また、取得部131は、聞き手のコンテキスト情報として、聞き手が会議に参加し始めた参加開始時刻に関する情報を取得する。生成部133は、参加開始時刻が会議の開始時刻から所定時間以上経過している場合、情報として、会議の開始時刻から参加開始時刻までの議事録情報を生成する。
 これにより、情報処理装置100は、会議に遅れて参加した参加者が会議の開始時刻から参加開始時刻までの間の会議の内容を議事録情報によって把握することを支援することができる。すなわち、情報処理装置100は、会議に遅れて参加する参加者が途中からでもスムーズに会議に参加することを支援することができる。したがって、情報処理装置100は、オンライン会議サービスにおけるユーザビリティを向上させることができる。
 また、取得部131は、文字情報に含まれるキーワードに関する検索結果を取得する。生成部133は、検索結果と聞き手のコンテキスト情報とに基づいて、聞き手のコンテキストに応じた認識可能な情報を生成する。
 これにより、情報処理装置100は、例えば、発言者の発言に含まれるキーワードに関する検索結果を聞き手に対して視覚的に速やかに共有することを可能にする。したがって、情報処理装置100は、オンライン会議サービスにおけるユーザビリティを向上させることができる。
 また、取得部131は、文字情報に含まれる文書データを示すキーワードに関する検索結果として、キーワードによって示される文書データを取得する。生成部133は、情報として、文書データに含まれる文字情報を聞き手の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する。
 これにより、情報処理装置100は、発言者の発言に含まれるキーワードによって示される文書データの内容を聞き手に対して視覚的に速やかに共有することを可能にする。
 また、取得部131は、文字情報に含まれる天気を示すキーワードに関する検索結果として、会議の参加者が所在する各地域における天気の情報を取得する。生成部133は、情報として、会議の参加者のうち少なくとも聞き手の所在地における天気の情報を示すアイコン画像を生成する。
 これにより、情報処理装置100は、例えば、会議の冒頭における発言者の天気に関する発言に対して、聞き手の所在地における天気に関する応答を聞き手に促すことができる。したがって、情報処理装置100は、オンライン会議の参加者同士のコミュニケーションを促すことができるので、オンライン会議を円滑に進めるよう支援することができる。
 また、情報処理装置100は、判定部132をさらに備える。判定部132は、音センサにより検知された会議の参加者である他の発言者の音声情報に基づいて、文字情報に含まれるキーワードに関する他の発言者による質問を示す発言の有無を判定する。取得部131は、判定部132によって他の発言者による質問を示す発言があると判定された場合に、文字情報に含まれるキーワードに関する検索結果を取得する。
 これにより、情報処理装置100は、発言者の発言に含まれるキーワードに関する検索結果を単に表示するのではなく、聞き手から質問があったキーワードに関する検索結果のみを適切に表示することができる。
 また、取得部131は、文字情報と、発言者のコンテキスト情報を取得する。生成部133は、文字情報と発言者のコンテキスト情報とに基づいて、発言者のコンテキストに応じた認識可能な情報を生成する。出力制御部134は、生成部133によって生成された情報を発言者の端末装置10に出力するよう制御する。
 これにより、情報処理装置100は、発言者のコンテキストに応じた情報を発言者の端末装置10に出力することで、オンライン会議サービスにおける発言者のユーザビリティを向上させることができる。
 また、取得部131は、文字情報に含まれるキーワードに関する検索結果を取得する。生成部133は、検索結果と発言者のコンテキスト情報とに基づいて、発言者のコンテキストに応じた認識可能な情報を生成する。
 これにより、情報処理装置100は、発言者が会議の内容に関するキーワードに関する情報を検索する手間を省くことができるので、会議をスムーズに進めることを可能にする。したがって、情報処理装置100は、オンライン会議サービスにおけるユーザビリティを向上させることができる。
 また、取得部131は、文字情報に含まれる文書データを示すキーワードに関する検索結果として、キーワードによって示される文書データの保存場所を示すアドレス情報を取得する。生成部133は、情報として、アドレス情報によって示される保存場所にアクセス可能なリンク情報を生成する。出力制御部134は、生成部133によって生成されたリンク情報を発言者の端末装置10に出力するよう制御する。
 これにより、情報処理装置100は、発言者が会議の内容に関する文書データを探す手間を省くことができるので、会議をスムーズに進めることを可能にする。
 また、取得部131は、文字情報に含まれる文書データを示すキーワードに関する検索結果として、キーワードによって示される文書データを取得する。生成部133は、情報として、文書データに含まれる文字情報を発言者の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する。
 これにより、情報処理装置100は、発言者が会議の内容に関する文書データの内容を視覚的に速やかに確認することを可能にする。
 また、取得部131は、文字情報に含まれる天気を示すキーワードに関する検索結果として、会議の参加者が所在する各地域における天気の情報を取得する。生成部133は、情報として、会議の参加者のうち発言者を除く他の参加者の所在地における天気の情報を示すアイコン画像を生成する。
 これにより、情報処理装置100は、オンライン会議の参加者同士のコミュニケーションを促すことができるので、オンライン会議を円滑に進めるよう支援することができる。
〔7.ハードウェア構成〕
 また、上述してきた実施形態に係る情報処理装置100や端末装置10は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、情報処理装置100または端末装置10の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
 CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
 CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
 メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が実施形態に係る情報処理装置100または端末装置10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130または制御部17の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
 以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
〔8.その他〕
 また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 例えば、上述した実施形態では、情報処理システム1が中央処理型(集中型ともいう)のコンピューティングシステムである例について説明したが、情報処理システムの構成はこれに限られない。例えば、情報処理システムは、複数台の端末装置10で構成される分散型コンピューティングシステムであってよい。この場合、情報処理システムは、複数台の端末装置10がネットワークを介して互いに接続される。また、この場合、情報処理システムでは、それぞれの端末装置10に図2で説明した情報処理装置100の機能が実装される。
 また、上述した情報処理装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。
 また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
 また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。
    1 情報処理システム
   10 端末装置
   11 通信部
   12 音声入力部
   13 撮像部
   14 記憶部
   15 音声出力部
   16 表示部
   17 制御部
  171 送信部
  172 受信部
  173 表示制御部
  100 情報処理装置
  110 通信部
  120 記憶部
  121 参加者情報記憶部
  122 議事録情報記憶部
  130 制御部
  131 取得部
  132 判定部
  133 生成部
  134 出力制御部

Claims (18)

  1.  音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、前記会議の参加者である聞き手のコンテキスト情報を取得する取得部と、
     前記文字情報と前記聞き手のコンテキスト情報とに基づいて、前記聞き手のコンテキストに応じた認識可能な情報を生成する生成部と、
     前記生成部によって生成された情報を前記聞き手の端末装置に出力するよう制御する出力制御部と、
     を備える情報処理装置。
  2.  前記取得部は、
     前記聞き手のコンテキスト情報として、前記聞き手の属性情報を取得し、
     前記生成部は、
     前記聞き手の属性に応じた認識可能な情報を生成する、
     請求項1に記載の情報処理装置。
  3.  前記取得部は、
     前記聞き手の属性情報として、前記聞き手の使用言語に関する情報を取得し、
     前記生成部は、
     前記情報として、前記文字情報を前記聞き手の使用言語に翻訳した翻訳文字情報を生成する、
     請求項2に記載の情報処理装置。
  4.  前記取得部は、
     前記聞き手の属性情報として、前記聞き手の聴覚障害の有無に関する情報を取得し、
     前記生成部は、
     前記聞き手が聴覚障害を有する場合、前記情報として、前記文字情報を手話に翻訳した動きを表現する手話アバターの動画像を生成する、
     請求項2または3に記載の情報処理装置。
  5.  前記取得部は、
     前記聞き手のコンテキスト情報として、前記会議の音声トラブルの発生状況に関する情報を取得し、
     前記生成部は、
     前記音声トラブルが発生している場合、前記情報として、前記文字情報を前記聞き手の使用言語に翻訳した翻訳文字情報を生成する、
     請求項1~4のいずれか1つに記載の情報処理装置。
  6.  前記生成部は、
     前記情報として、前記発言者を識別可能な情報と前記文字情報とを対応付けた情報を時系列に沿って記録した議事録情報を生成する、
     請求項1~5のいずれか1つに記載の情報処理装置。
  7.  前記取得部は、
     前記聞き手のコンテキスト情報として、前記聞き手が前記会議に参加し始めた参加開始時刻に関する情報を取得し、
     前記生成部は、
     前記参加開始時刻が前記会議の開始時刻から所定時間以上経過している場合、前記情報として、前記会議の開始時刻から前記参加開始時刻までの前記議事録情報を生成する、
     請求項6に記載の情報処理装置。
  8.  前記取得部は、
     前記文字情報に含まれるキーワードに関する検索結果を取得し、
     前記生成部は、
     前記検索結果と前記聞き手のコンテキスト情報とに基づいて、前記聞き手のコンテキストに応じた認識可能な情報を生成する、
     請求項1~7のいずれか1つに記載の情報処理装置。
  9.  前記取得部は、
     前記文字情報に含まれる文書データを示すキーワードに関する検索結果として、前記キーワードによって示される文書データを取得し、
     前記生成部は、
     前記情報として、前記文書データに含まれる文字情報を前記聞き手の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する、
     請求項8に記載の情報処理装置。
  10.  前記取得部は、
     前記文字情報に含まれる天気を示すキーワードに関する検索結果として、前記会議の参加者が所在する各地域における天気の情報を取得し、
     前記生成部は、
     前記情報として、前記会議の参加者のうち少なくとも前記聞き手の所在地における天気の情報を示すアイコン画像を生成する、
     請求項8または9に記載の情報処理装置。
  11.  前記音センサにより検知された前記会議の参加者である他の発言者の音声情報に基づいて、前記文字情報に含まれるキーワードに関する前記他の発言者による質問を示す発言の有無を判定する判定部をさらに備え、
     前記取得部は、
     前記判定部によって前記他の発言者による質問を示す発言があると判定された場合に、前記文字情報に含まれるキーワードに関する検索結果を取得する、
     請求項8~10のいずれか1つに記載の情報処理装置。
  12.  前記取得部は、
     前記文字情報と、前記発言者のコンテキスト情報を取得し、
     前記生成部は、
     前記文字情報と前記発言者のコンテキスト情報とに基づいて、前記発言者のコンテキストに応じた視認可能な情報を生成し、
     前記出力制御部は、
     前記生成部によって生成された情報を前記発言者の端末装置に出力するよう制御する、
     請求項1~11のいずれか1つに記載の情報処理装置。
  13.  前記取得部は、
     前記文字情報に含まれるキーワードに関する検索結果を取得し、
     前記生成部は、
     前記検索結果と前記発言者のコンテキスト情報とに基づいて、前記発言者のコンテキストに応じた認識可能な情報を生成する、
     請求項12に記載の情報処理装置。
  14.  前記取得部は、
     前記文字情報に含まれる文書データを示すキーワードに関する検索結果として、前記キーワードによって示される文書データの保存場所を示すアドレス情報を取得し、
     前記生成部は、
     前記情報として、前記アドレス情報によって示される保存場所にアクセス可能なリンク情報を生成し、
     前記出力制御部は、
     前記生成部によって生成されたリンク情報を前記発言者の端末装置に出力するよう制御する、
     請求項13に記載の情報処理装置。
  15.  前記取得部は、
     前記文字情報に含まれる文書データを示すキーワードに関する検索結果として、前記キーワードによって示される文書データを取得し、
     前記生成部は、
     前記情報として、前記文書データに含まれる文字情報を前記発言者の使用言語に翻訳した翻訳文字情報に置き換えた翻訳文書データを生成する、
     請求項13または14に記載の情報処理装置。
  16.  前記取得部は、
     前記文字情報に含まれる天気を示すキーワードに関する検索結果として、前記会議の参加者が所在する各地域における天気の情報を取得し、
     前記生成部は、
     前記情報として、前記会議の参加者のうち前記発言者を除く他の参加者の所在地における天気の情報を示すアイコン画像を生成する、
     請求項13~15のいずれか1つに記載の情報処理装置。
  17.  音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、前記会議の参加者である聞き手のコンテキスト情報を取得する取得工程と、
     前記文字情報と前記聞き手のコンテキスト情報とに基づいて、前記聞き手のコンテキストに応じた認識可能な情報を生成する生成工程と、
     前記生成工程によって生成された情報を前記聞き手の端末装置に出力するよう制御する出力制御工程と、
     を含む情報処理方法。
  18.  音センサにより検知された会議の参加者である発言者の音声情報から生成された文字情報と、前記会議の参加者である聞き手のコンテキスト情報を取得する取得手順と、
     前記文字情報と前記聞き手のコンテキスト情報とに基づいて、前記聞き手のコンテキストに応じた認識可能な情報を生成する生成手順と、
     前記生成手順によって生成された情報を前記聞き手の端末装置に出力するよう制御する出力制御手順と、
     をコンピュータに実行させる情報処理プログラム。
PCT/JP2022/008968 2021-03-03 2022-03-02 情報処理装置、情報処理方法及び情報処理プログラム WO2022186298A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021033180A JP7284204B2 (ja) 2021-03-03 2021-03-03 情報処理装置、情報処理方法及び情報処理プログラム
JP2021-033180 2021-03-03

Publications (1)

Publication Number Publication Date
WO2022186298A1 true WO2022186298A1 (ja) 2022-09-09

Family

ID=83154631

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/008968 WO2022186298A1 (ja) 2021-03-03 2022-03-02 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (2)

Country Link
JP (1) JP7284204B2 (ja)
WO (1) WO2022186298A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002165193A (ja) * 2000-11-24 2002-06-07 Sharp Corp テレビ電話システム
JP2003339033A (ja) * 2002-05-17 2003-11-28 Pioneer Electronic Corp ネットワーク会議システム、ネットワーク会議方法およびネットワーク会議プログラム
JP2012160793A (ja) * 2011-01-28 2012-08-23 Konica Minolta Business Technologies Inc テレビ会議システム及びテレビ会議用装置並びにプログラム
JP2012208630A (ja) * 2011-03-29 2012-10-25 Mizuho Information & Research Institute Inc 発言管理システム、発言管理方法及び発言管理プログラム
JP2019061594A (ja) * 2017-09-28 2019-04-18 株式会社野村総合研究所 会議支援システムおよび会議支援プログラム
US20200036546A1 (en) * 2017-08-09 2020-01-30 Adobe Inc. Synchronized Accessibility for Client Devices in an Online Conference Collaboration

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246172A1 (en) 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
JP6795668B1 (ja) 2019-10-24 2020-12-02 日本金銭機械株式会社 議事録作成システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002165193A (ja) * 2000-11-24 2002-06-07 Sharp Corp テレビ電話システム
JP2003339033A (ja) * 2002-05-17 2003-11-28 Pioneer Electronic Corp ネットワーク会議システム、ネットワーク会議方法およびネットワーク会議プログラム
JP2012160793A (ja) * 2011-01-28 2012-08-23 Konica Minolta Business Technologies Inc テレビ会議システム及びテレビ会議用装置並びにプログラム
JP2012208630A (ja) * 2011-03-29 2012-10-25 Mizuho Information & Research Institute Inc 発言管理システム、発言管理方法及び発言管理プログラム
US20200036546A1 (en) * 2017-08-09 2020-01-30 Adobe Inc. Synchronized Accessibility for Client Devices in an Online Conference Collaboration
JP2019061594A (ja) * 2017-09-28 2019-04-18 株式会社野村総合研究所 会議支援システムおよび会議支援プログラム

Also Published As

Publication number Publication date
JP2022134202A (ja) 2022-09-15
JP7284204B2 (ja) 2023-05-30

Similar Documents

Publication Publication Date Title
CN108028042B (zh) 口头通信的转录
CN108615527B (zh) 基于同声传译的数据处理方法、装置和存储介质
US10019989B2 (en) Text transcript generation from a communication session
US11024286B2 (en) Spoken dialog system, spoken dialog device, user terminal, and spoken dialog method, retrieving past dialog for new participant
JP2023539820A (ja) インタラクティブ情報処理方法、装置、機器、及び媒体
CN112653902B (zh) 说话人识别方法、装置及电子设备
US20050209859A1 (en) Method for aiding and enhancing verbal communication
CN112136102B (zh) 信息处理装置、信息处理方法以及信息处理系统
JP6795668B1 (ja) 議事録作成システム
CN109474843A (zh) 语音操控终端的方法、客户端、服务器
KR102208822B1 (ko) 음성 인식 장치, 방법 그리고 이를 위한 사용자 인터페이스 표시 방법
KR20140078258A (ko) 대화 인식을 통한 이동 단말 제어 장치 및 방법, 회의 중 대화 인식을 통한 정보 제공 장치
KR20200043894A (ko) 온라인 커뮤니케이션의 리뷰 시스템, 방법 및 컴퓨터 프로그램
JP6091690B1 (ja) 議会運営支援システム及び議会運営支援方法
CN116368785A (zh) 智能查询缓冲机制
JP7417272B2 (ja) 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム
JP7284204B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP6457353B2 (ja) 音声認識結果編集装置、音声認識結果編集方法、プログラム
CN111757187A (zh) 多语言字幕显示方法、装置、终端设备及存储介质
KR101994044B1 (ko) 스마트 회의 통합 시스템
CN113014854A (zh) 互动记录的生成方法、装置、设备及介质
JP2008011272A (ja) 会議システム及び制御方法、並びにプログラム及び記憶媒体
JP2011086123A (ja) 情報処理装置、会議システム、情報処理方法及びコンピュータプログラム
KR20210029383A (ko) 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법
JP7438479B1 (ja) 音声自動応答装置、音声自動応答方法、音声自動応答プログラム及び音声自動応答システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22763351

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22763351

Country of ref document: EP

Kind code of ref document: A1