WO2017183127A1 - 表示装置、出力装置、および情報表示方法 - Google Patents

表示装置、出力装置、および情報表示方法 Download PDF

Info

Publication number
WO2017183127A1
WO2017183127A1 PCT/JP2016/062473 JP2016062473W WO2017183127A1 WO 2017183127 A1 WO2017183127 A1 WO 2017183127A1 JP 2016062473 W JP2016062473 W JP 2016062473W WO 2017183127 A1 WO2017183127 A1 WO 2017183127A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
translated
voice
speech
unit
Prior art date
Application number
PCT/JP2016/062473
Other languages
English (en)
French (fr)
Inventor
甲 展明
慶華 孫
孝志 松原
Original Assignee
日立マクセル株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日立マクセル株式会社 filed Critical 日立マクセル株式会社
Priority to JP2018512699A priority Critical patent/JP6802264B2/ja
Priority to PCT/JP2016/062473 priority patent/WO2017183127A1/ja
Publication of WO2017183127A1 publication Critical patent/WO2017183127A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/74Projection arrangements for image reproduction, e.g. using eidophor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Definitions

  • the present invention relates to a display device, an output device, and an information display method, and more particularly to a technique effective for switching slides in a presentation that requires translation.
  • the speaker in a presentation in Japanese and English, after the speaker explains the slide in Japanese, the speaker translates the description into English. When the voice in English is finished, the speaker instructs the slide feed and the next slide is displayed. In the case of headphones, translated English speech is played from the headphones while the speaker explains the Japanese.
  • An object of the present invention is to provide a technique capable of performing a smooth presentation by performing an accurate slide feed in a presentation accompanied by translation.
  • a typical display device has a video output unit, an audio input unit, and a control unit.
  • the video output unit outputs a video to be displayed.
  • An audio signal is input to the audio input unit.
  • the control unit extracts and outputs speech from the speech signal input to the speech input unit, and reproduces the translated speech signal obtained by translating the speech as translated speech. Then, the control unit suspends switching of the video displayed by the video output unit during the period during which the translated speech is being reproduced.
  • control unit extracts voice from the voice signal input to the voice input unit based on the recognition signal.
  • the recognition signal is a signal that is input from the outside and indicates that the description before translation for the video has been completed.
  • control unit displays the video output from the video output unit with a display symbol indicating that the translated audio is being reproduced.
  • FIG. 3 is an explanatory diagram illustrating an example of a configuration in a video display system according to Embodiment 1.
  • FIG. It is a block diagram which shows an example of the structure in the projection apparatus and translation server which the video display system of FIG. 1 has. It is explanatory drawing which shows an example of operation
  • movement and speaker operation by the video display system of FIG. It is explanatory drawing which shows an example of a structure in the video display system by embodiment.
  • FIG. 5 is an explanatory diagram illustrating an example of operations and speaker operations performed by the video display system of FIG. 4.
  • FIG. 7 is an explanatory diagram showing an example of operations and speaker operations in the video display system of FIG. 6 according to Embodiment 4.
  • FIG. 10 is an explanatory diagram illustrating an example of a slide screen display according to a fifth embodiment. It is explanatory drawing which shows an example of the video display system which has a function which changes according to the word order which translated the pointer position of FIG.
  • FIG. 20 is an explanatory diagram illustrating an example of a configuration in a video display system according to a sixth embodiment. It is explanatory drawing which shows an example of a structure in the portable apparatus which the video display system of FIG. 11 has.
  • FIG. 20 is an explanatory diagram illustrating an example of a configuration in a video display system according to a seventh embodiment.
  • the constituent elements are not necessarily indispensable unless otherwise specified and apparently essential in principle. Needless to say.
  • FIG. 1 is an explanatory diagram showing an example of the configuration of the video display system according to the first embodiment.
  • the video display system is a translation presentation system that makes presentations in two languages.
  • the video display system translates and reproduces the speaker's voice into different languages.
  • the video display system includes a video source 12, a projection device 13, an operation device 16, a microphone 17, a speaker 18, and a translation server 20.
  • the video source 12 is, for example, a personal computer and outputs a video signal for presentation.
  • the microphone 17 collects the voice of the speaker and transmits it to the projection device 13.
  • the microphone 17 and the projection device 13 may be either wireless connection or wired connection.
  • the projection device 13 projects and displays the video signal output from the video source 12 on the screen 15 and reproduces the voice of the speaker transmitted from the microphone 17 through the speaker 18.
  • the projection device 13 is connected to a network 19 such as the Internet or a communication line, extracts the voice element of the speaker transmitted from the microphone 17 and transmits it to the translation server 20 via the network 19.
  • the translation server 20 translates the voice transmitted via the network 19 into a language designated in advance.
  • the translation data translated by the translation server 20 is transmitted to the projection device 13 via the network 19.
  • the projection device 13 reproduces the translation data received from the translation server 20 by converting it into an audio signal and outputting it to the speaker 18.
  • the controller 16 instructs a speaker voice period indicating a period explained by the speaker.
  • the speaker voice period is instructed by, for example, operating a button or the like provided on the operation device 16. By operating this button, a recognition signal is generated.
  • the timing for transmitting the extracted speech element to the translation server 20 can be determined from the recognition signal.
  • the generation of the recognition signal may be voice recognition or gesture input. Moreover, you may combine them.
  • the operation device 16 and the projection device 13 may be either wireless connection or wired connection.
  • the target speech is translated from the time when the speaker voice is first detected after the rough timing is determined by the button operation or gesture until the last time the speaker voice is detected before the button operation or gesture input. Period. Thereby, it is possible to shorten the time for reproducing the translated language.
  • the operating device 16 may be provided with a mute input. By this mute input, it is possible to instruct a voice portion not to be translated from the speaker's voice. Thus, by alternately flowing the original language and the translated language, it is possible to reduce the presentation time which takes nearly twice as long as that of one language.
  • the operating device 16 may have a function of a laser pointer that points to an explanation location of the image projected on the screen 15.
  • the operation device 16 may have a function of sending the pointer position to the video source 12 or the projection device 13 as an electronic pointer and superimposing the pointer on the video.
  • FIG. 2 is a block diagram illustrating an example of a configuration of the projection device 13 and the translation server 20 included in the video display system of FIG.
  • the projection device 13 includes a communication unit 231, 234, 238, a video input unit 232, a display unit 241, a sound recognition period instruction unit 235, a voice input unit 236, a voice element extraction unit 237, a translated voice playback unit 239, and a voice switching unit. 240.
  • the video signal output from the video source 12 is input to the video input unit 232.
  • the display unit 241 serving as a video output unit projects and displays the video signal input from the video input unit 232 on the screen 15 in FIG.
  • the voice input unit 236 receives the speaker voice collected by the microphone 17.
  • the voice switching unit 240 outputs the speaker voice received by the voice input unit 236 or the translated voice played back by the translated voice playback unit 239 based on a translation playback timing signal, which will be described later, so that the speaker 18 plays back the voice. To do.
  • the voice element extraction unit 237 constituting the control unit extracts the voice element of the speaker voice input to the voice input unit 236.
  • the communication unit 238 communicates with the translation server 20 via the network 19.
  • the voice element extracted by the voice element extraction unit 237 is transmitted from the communication unit 238 to the translation server 20 via the network 19 for voice recognition.
  • the communication unit 231 communicates with the operation device 16.
  • the instruction of the speaker voice period by the operation device 16 is transmitted to the sound recognition period instruction unit 235 via the communication unit 231.
  • the sound recognition period instruction unit 235 generates a voice recognition timing signal, a translation reproduction timing signal, a slide feed timing signal, and the like.
  • a speech recognition timing signal that is a recognition signal is generated based on the above-described recognition signal.
  • the voice recognition timing signal is a signal output when the voice element extraction unit 237 extracts the voice element of the speaker voice.
  • the translation playback timing signal is a signal output when the voice switching unit 240 plays back the translated voice.
  • the slide feed timing signal is a signal for causing the video source 12 to display the next slide.
  • the slide feed timing signal is output to the video source 12 via the communication unit 231.
  • the translation server 20 includes a communication unit 201, a phonetic characterizing unit 202, and a translated voice unit 203.
  • the communication unit 201 communicates with the communication unit 238 of the projection device 13. As described above, the voice element transmitted from the projection device 13 is received by the communication unit 201 via the network 19.
  • the voice characterizing unit 202 converts the voice element received by the communication unit 201 into characters.
  • the translated speech unit 203 translates the characters converted by the speech characterizing unit 202 to generate translation data.
  • the translation data generated by the translated voice unit 203 is transmitted from the communication unit 201 to the projection device 13.
  • the translation data received by the communication unit 238 is output to the translated voice reproduction unit 239.
  • the translated speech reproduction unit 239 constituting the control unit reproduces the translation data as an audio signal.
  • the reproduced translated speech signal is switched by the voice switching unit 240 after explanation of Japanese speech, and is reproduced by the speaker 18.
  • the switching timing is switched based on the translation reproduction timing signal described above.
  • FIG. 3 is an explanatory diagram showing an example of operations and speaker operations by the video display system of FIG.
  • Display shown on the left side of FIG. 3 shows video # 1 and video # 2 corresponding to the explanation slide in time series.
  • “Speech” on the right side of “Display” indicates the speaker's voice and translated English voice in chronological order. # 1 Japanese and # 2 Japanese are voices of speakers. Also, # 1 English and # 2 English are translated English sounds.
  • “Speaker operation and device operation” shown on the right side of “speech” indicates speaker operation and device operation.
  • (U *) indicates an operation by the speaker.
  • (A *) shows the operation by the video display system.
  • the translation start timing is started by inputting the timing when the speaker starts speaking into the operation device 16 (u1).
  • the video signal output from the video source 12 is output to the projection device 13, the video # 1 is displayed on the screen 15.
  • the speaker 11 starts explaining the video # 1 in Japanese (u2).
  • the Japanese voice explained by the speaker is collected by the microphone 17.
  • the sound switching unit 240 is switched so that the sound collected by the microphone 17 is output from the speaker 18. Therefore, the collected sound is amplified by the speaker 18 connected to the projection device 13.
  • the speaker 11 inputs the explanation end timing to the operation device 16 (u3). If the presentation is in Japanese only, the projection device 13 instructs the video source 12 to provide the next video # 2 at the end of the talk timing.
  • the projection device 13 issues a slide feed instruction for requesting the video # 2 to the video source 12 until the reproduction of the translated voice is finished. Does not output a certain slide feed timing signal.
  • the speech elements in Japanese explained by the speaker 11 are sequentially extracted by the speech element extraction unit 237 of the projection device 13 and transmitted to the translation server 20 via the network 19.
  • the translation server 20 translates Japanese into English based on the transmitted speech element.
  • the translation data translated into English is transmitted to the projection device 13 via the network 19.
  • the translation data is temporarily stored in, for example, a storage unit (not shown) included in the translated voice reproduction unit 239, for example.
  • a storage unit included in the translated voice reproduction unit 239, for example.
  • translated speech playback section 239 plays back the translation data.
  • the English voice reproduced by the translated voice playback unit 239 is output from the voice switching unit 240 and is amplified by the speaker 18 (a1).
  • the sound recognition period instruction unit 235 generates a translation reproduction timing signal based on an instruction of the speaker sound period by the operation device 16.
  • the translated voice playback unit 239 transmits the generated translation playback timing signal to the voice switching unit 240.
  • the voice switching unit 240 performs switching so that the voice reproduced by the translated voice reproduction unit 239 is output based on the translation reproduction timing signal, and outputs a voice reproduction start signal to the translated voice reproduction unit 239.
  • the translated voice reproduction unit 239 receives the voice reproduction start signal, the translated voice reproduction unit 239 reproduces the translation data temporarily stored in the storage unit described above.
  • the sound recognition period instruction unit 235 of the projection device 13 instructs the video source 12 to output the video # 2 as the next slide ( a3).
  • the projection device 13 displays the video # 2 output by the video source 12 on the screen 15.
  • the speaker who has confirmed that the display video has been switched from the video # 1 to the video # 2 understands that the English translated speech has ended, and starts explaining the video # 2 in Japanese.
  • the audience listening to the speaker's voice and the audience listening to the translated voice are listening while watching the same video.
  • the video may be written in English, the speaker voice in Japanese, and the translated voice in English or Chinese.
  • the speaker can visually confirm the switching of the slide after the end of the translated speech, and thus can easily grasp the timing for starting the next slide explanation. Thereby, smooth translation presentation can be realized.
  • (Embodiment 2) ⁇ Overview>
  • the speaker voice and the translated voice are alternately flown from the speaker 18, but in the second embodiment, the speaker voice is output from the speaker and the translated voice is transmitted from the headphones. The technique of flowing will be described. This avoids turbidity between the speaker's voice and the translated voice, and shortens the presentation time.
  • FIG. 4 is an explanatory diagram showing an example of the configuration of the video display system according to the second embodiment.
  • the video display system of FIG. 4 is different from the video display system shown in FIG. 1 of the first embodiment in that a translated audio reproduction device 21, an audio distribution device 22, and headphones 30 are newly added. .
  • the translation sound is reproduced by the projection device 13, but in the video display system of FIG. 4, it is reproduced by the translated sound reproduction device 21 connected to the network 19.
  • Translation data is received from the translation server 20 via the network 19.
  • the translated voice signal reproduced by the translated voice reproduction device 21 is output to the voice distribution device 22.
  • the audio distribution device 22 distributes the translated audio signal to the headphones 30 used by the audience by radio or the like.
  • the distribution of the translated voice message by the voice distribution device 22 is not limited to wireless communication, but may be wired communication.
  • FIG. 5 is an explanatory diagram showing an example of operations and speaker operations by the video display system of FIG.
  • Display shown on the left side of FIG. 5 shows video # 1 and video # 2 corresponding to the explanation slide in time series.
  • the “speaker voice” shown on the right side of “display” is the time series of the speaker's voice, and the “translated voice” shown on the right side of the “speaker voice” is the translated voice being played back. Is shown in time series.
  • “Speaker operation and device operation” shown on the right side of “Translated speech” indicates speaker operation and device operation.
  • (U *) indicates an operation by the speaker.
  • (A *) shows the operation by the video display system.
  • the reproduction start (a1) of the translated speech is after the end of the speaker explanation (u3).
  • the start of the speaker's explanation (u2) as soon as the translated voice data is prepared, that is, the playback starts slightly later than the voice of the speaker.
  • the translated voice is played by the headphones 30, so that it cannot be heard by an audience who does not need the translated voice. Therefore, it is reproduced without interrupting the speaker's voice.
  • the translated voice can be played through the headphones while outputting the speaker's explanatory voice through the speaker, the presentation time can be shortened while avoiding the turbidity between the speaker voice and the translated voice.
  • FIG. 6 is a block diagram showing an example of the configuration of the projection device 13 and the translation server 20 included in the video display system according to the third embodiment.
  • FIG. 6 differs from the projection apparatus 13 shown in FIG. 2 in that a character superimposing unit 233 is newly provided.
  • Other connection configurations are the same as those of the projection device 13 of FIG.
  • the translation server 20 of FIG. 6 is the same as the translation server 20 of FIG.
  • the character superimposing unit 233 constituting the control unit superimposes a character, a symbol, or the like indicating that translation reproduction is being performed on the video signal input from the video source 12 to the video input unit 232.
  • the character superimposing unit 233 superimposes characters, symbols, and the like indicating that translation reproduction is being performed on the video based on the translation reproduction timing signal generated by the sound recognition period instruction unit 235.
  • FIG. 7 is an explanatory diagram showing an example of operations and speaker operations by the video display system of FIG.
  • Display shown on the left side of FIG. 7 shows video # 1 and video # 2 corresponding to the explanation slide in time series.
  • “Voice” shown on the right side of “Display” shows the voice of the speaker and the translated English voice in time series. # 1 Japanese and # 2 Japanese are voices of speakers. Also, # 1 English and # 2 English are translated English sounds.
  • “Speaker operation and device operation” shown on the right side of “speech” indicates speaker operation and device operation.
  • (U *) indicates an operation by the speaker.
  • (A *) shows the operation by the video display system.
  • FIG. 7 the main difference from FIG. 3 of the first embodiment is that characters indicating that translation is being reproduced during reproduction of the translated speech, for example, ⁇ translation> is indicated, and at the end of the speech description. The point is that the instruction is input along with whether or not slide feeding is possible.
  • Speaker operations (u1) and (u2) and display device operation (a1) are the same as those in FIG.
  • the projection device 13 superimposes and displays (b1) the characters and marks of “being translated” on the video # 1.
  • the speaker When the speaker confirms the deletion of the character or mark “bending” (b2), the speaker starts explanation # 1a following the video # 1 (u14).
  • the speaker gives a slide feed instruction (u15) from the operation unit 16 together with an instruction to end the explanation of the video # 1, the projection device 13 superimposes a character or mark of “being translated” on the video # 1. Display (b3).
  • an explanation pause button without slide feed and an explanation end button with slide feed may be attached.
  • the slide feed and explanation end buttons may be made independent, and the end of explanation with slide feed may be indicated when both buttons are input.
  • the slide feed during playback of the translated voice is stopped by temporarily holding off the sending of the slide feed command, and the corresponding video display is displayed to the translated voice audience. Can continue.
  • the slide feed timing signal is output to the video source 12 to display the next slide, so that the timing when the speaker resumes the explanation can be grasped.
  • the timing of the speaker restarting the explanation can be grasped by seeing that the text or mark being played back in the translated speech is erased without switching to the next slide. Can do.
  • the speaker can enter the continuation explanation of the slide by stopping the video and deleting the text or mark in the translated voice output.
  • smooth translation presentation can be realized by stopping the slide feed and synchronizing the translated speech with the slide to be explained. Furthermore, there is an advantage that the speaker can grasp the timing to start the next slide explanation by looking at the slide change after the translated speech is finished.
  • FIG. 8 is an explanatory diagram showing an example of operations and speaker operations in the video display system of FIG. 6 according to the fourth embodiment. Note that the configuration of the video display system is the same as that of FIG.
  • the “display” shown on the left shows video # 1 and video # 2 corresponding to the explanation slide in time series.
  • “Voice” shown on the right side of “Display” shows the voice of the speaker and the translated English voice in time series. # 1 Japanese and # 2 Japanese are voices of speakers. Also, # 1 English and # 2 English are translated English sounds.
  • “Speaker operation and device operation” shown on the right side of “speech” indicates speaker operation and device operation.
  • (U *) indicates an operation by the speaker.
  • (A *) shows the operation by the video display system.
  • the projection device 13 extracts characters in the video input from the video source 12 and transmits them to the translation server 20 via the network 19.
  • the process of extracting characters in the video is performed by, for example, the character superimposing unit 233 in FIG. Or it is good also as a structure which newly provides the character extraction part 434 shown in FIG. 10 mentioned later in the projection apparatus 13 of FIG.
  • the character extraction unit 434 executes processing for extracting characters in the video.
  • the translation server 20 starts translating characters in the received video (c1).
  • the projection device 13 overwrites the character extracted by the translation server 20 on the character extraction area and projects it onto the screen 15. (C2).
  • the character superimposing unit 233 in FIG. Or it is good also as a structure which newly provides the translated character overwrite part 431 shown in FIG. 10 mentioned later in the projection apparatus 13 of FIG.
  • the translated character overwriting unit 431 overwrites the characters extracted by the translation server 20 in the character extraction area.
  • the video overwritten with the translated characters can be displayed during the playback of the translated speech.
  • the projection device 13 After the end of the translated voice (a2), the projection device 13 outputs a slide feed timing signal to the video source 12 and sends it (a3) to display the next slide video as in FIG.
  • the characters of the displayed video are translated, and the characters are overwritten on the translated characters.
  • the word order of the speaker voice may be different.
  • FIG. 9 is an explanatory diagram showing an example of a slide screen display according to the fifth embodiment.
  • the display screens 31 and 32 shown on the left side of FIG. 9 show examples of display screens when explaining the speaker. Moreover, the display screens 33 and 34 shown on the right side of FIG. 9 show an example of the display screen displayed during the reproduction of the translated speech.
  • a pencil 311 is displayed on the left side, and “pencil” is displayed as an explanatory text below the pencil 311.
  • a box 312 is displayed on the right side of the pencil 311, and “box” is displayed as an explanatory text below the box 312.
  • FIG. 10 is an explanatory diagram showing an example of a video display system having a function of changing the pointer position of FIG. 9 according to the translated word order.
  • a camera 440 is newly provided.
  • a character extraction unit 434 is newly provided in the projection device 13 .
  • a translated character overwrite unit 431 is newly provided in the projection device 13 .
  • a failure diagnosis unit 435 is newly provided in the projection device 13 .
  • a microphone array 436 is newly provided in the projection device 13 .
  • a speaker analysis unit 437 is newly provided in the audio signal.
  • a pointer position determination unit 439 is newly provided in the translation server 20 .
  • the microphone array 436 is composed of a plurality of microphones and collects the voice of the speaker.
  • directivity is given to the microphone array 436 in consideration of the case where the projection device 13 is away from the speaker.
  • Speaker analysis unit 437 analyzes the position of the speaker based on the sound collection result of microphone array 436.
  • the speaker voice extraction unit 438 extracts speaker voice. This is in order to separate the noise from the projection device 13 and the surrounding noise from the speaker voice.
  • the speaker voice is extracted by a noise removal filter or a separation technique using the characteristics of each frequency characteristic.
  • the speaker voice extracted by the speaker voice extraction unit 438 is extracted by the voice element extraction unit 237 and transmitted to the translation server 20.
  • the speaker voice that has been converted to a character by the voice characterizing unit 202 is translated by the translated voice unit 203.
  • the translation data that is the translation result is transmitted to the projection device 13.
  • the translation data includes data including the word order of the speaker voice and the translated voice.
  • the translated voice reproduction unit 239 reproduces the received translation data into a translated voice signal, and the translated voice is reproduced by the speaker 18 through the voice switching unit.
  • the video of the video source 12 received by the video input unit 232 is input to the character extraction unit 434 and the translated character overwrite unit 431, respectively.
  • the character extraction unit 434 extracts characters in the video and transmits them to the translation server 20 together with the position information of the corresponding characters. Then, it is sent back to the projection device 13 translated by the character translation unit 401.
  • the translated character overwriting unit 431 receives the translated character
  • the translated character overwriting unit 431 overwrites the translated character on the corresponding character region based on the extracted character region information obtained from the character extracting unit 434. Overwriting with translated characters is as described in the fourth embodiment.
  • the camera 440 photographs the pointer insertion positions 313 and 323 in FIG. 9 indicated by the speaker.
  • the pointer position determination unit 439 determines the position, size, time, and the like of the pointer insertion positions 313 and 323 based on the photographing result captured by the camera 440, and a memory (not shown) provided in the pointer position determination unit 439 Remember it.
  • the pointer synchronization synthesizer 432 generates pointer insertion positions 333 and 343 during the reproduction of the translated speech according to the determination result stored in the pointer position determination unit 439. Then, based on the word order information included in the translation data, it is superimposed on the video in accordance with the word order of the translated speech and output from the display unit 241.
  • the pointer can be displayed on the display screen according to the word order of the translated speech. This can further enhance the audience's understanding.
  • the voice of the speaker converted into the character by the voice characterizing unit 202 may be recorded, for example, by the minutes preparing unit 402 and recorded as the minutes.
  • the speaker analysis unit 437 analyzes the questioner's voice, extracts the questioner's voice by the speaker's voice extraction unit 438, and the translation server 20 outputs the questioner's voice. It may be recorded.
  • the translation server 20 may perform the reverse translation of the speaker voice translation and reproduce the questioner's voice. In this case, since the speaker and the questioner can perform a question and answer session through interactive translation, convenience can be improved.
  • the slide feed command to the video source 12 is temporarily stopped and the video during translation audio playback is held.
  • the video for translated speech may be stored in a storage device (not shown), and the stored video may be displayed.
  • Coordination control can be simplified, for example, when an operating device for operating slide feed and an indicator for instructing the speaker voice input timing for translation are configured independently.
  • the video display systems in the first to fifth embodiments are configured using, for example, a personal computer as a video source.
  • a technique for substituting a video source with a portable device will be described.
  • FIG. 11 is an explanatory diagram showing an example of the configuration of the video display system according to the sixth embodiment.
  • the portable device 56 that is an output device includes, for example, a smartphone or a tablet terminal, and can be connected to the network 19.
  • FIG. 12 is an explanatory diagram showing an example of the configuration of the portable device 56 included in the video display system of FIG.
  • the portable device 56 has an audio input unit 57, a control unit 58, and a video signal output unit 59 as shown in FIG.
  • the voice input unit 57 serving as the second voice input unit receives the voice of the microphone 17 using, for example, Bluetooth.
  • the video signal output unit 59 outputs the video signal displayed by the projection device 13 to the projection device 13.
  • the video signal is transmitted by wireless such as a wireless LAN, Bluetooth (registered trademark), or Miracast (registered trademark).
  • the portable device 56 and the projection device 13 may be connected by wire.
  • the control unit 58 functioning as a voice extraction output unit and a translation voice conversion unit extracts a voice element from the voice received by the voice input unit 57 and transmits it to the translation server 20. Further, the control unit 58 receives the translation data translated by the translation server 20, converts the received translation data into an audio signal, and transfers it to the projection device 13.
  • Projection device 13 receives and reproduces the transferred audio signal, and outputs the translated audio from speaker 18.
  • the voice signal of the speaker collected by the microphone 17 may also be transferred from the control unit 58 of the portable device 56 to the projection device 13 to alternately output the speaker voice and the translated voice.
  • control unit 58 has the function of the operation unit 16 shown in FIG. Specifically, this is a function for instructing a speaker voice period that is a period explained by the speaker.
  • the instruction of the speaker voice period is performed by operating a button or the like provided on the portable device 56, for example. By operating the button, a recognition signal is generated.
  • the portable device 56 can recognize the translation target period of the speaker voice based on the recognition signal. Thereby, it can be recognized that the explanation before translation is completed. Moreover, the timing which transmits the audio
  • control unit 58 may be realized by an application installed in the portable device 56, for example.
  • a CPU Central Processing Unit
  • the portable device 56 has a program format stored in a program storage memory (not shown) provided in the portable device 56. Processing is executed based on software.
  • the portable device 56 outputs a video signal displayed by the projection device 13 to the projection device 13.
  • the video signal is transmitted by wireless such as a wireless LAN, Bluetooth (registered trademark), or Miracast (registered trademark).
  • the portable device 56 and the projection device 13 may be connected by wire.
  • the portable device 56 has a function of receiving the voice of the microphone 17 using Bluetooth or the like, extracting a voice element, and transmitting the voice element to the translation server 20. Then, the portable device 56 receives the translation data translated by the translation server 20. The received translation data is converted into an audio signal by the portable device 56 and transferred to the projection device 13.
  • Projection device 13 receives and reproduces the transferred audio signal, and outputs the translated audio from speaker 18.
  • the voice signal of the speaker collected by the microphone 17 may also be transferred from the portable device 56 to the projection device 13 to alternately output the speaker voice and the translated voice.
  • the portable device 56 has the function of the operation device 16 shown in FIG. Specifically, this is a function for instructing a speaker voice period that is a period explained by the speaker.
  • the instruction of the speaker voice period is performed by operating a button or the like provided on the portable device 56, for example. By operating the button, a recognition signal is generated.
  • the portable device 56 can recognize the translation target period of the speaker voice based on the recognition signal. Thereby, it can be recognized that the explanation before translation is completed. Moreover, the timing which transmits the audio
  • the operation and various functions in these portable devices 56 are realized by applications installed in the portable device 56, for example.
  • a CPU Central Processing Unit
  • a program storage memory not shown
  • the configuration of the video display system can be simplified.
  • the projection apparatus 13 can be reduced in size by the portable device 56 performing extraction of an audio element or the like.
  • the video source 12, the operation device 16, and the like can be eliminated, so that the cost of the video display system can be reduced.
  • FIG. 13 is an explanatory diagram showing an example of the configuration of the video display system according to the seventh embodiment.
  • the video display system shown in FIG. 13 is provided with two projectors 13 and 13a.
  • the projection device 13 is a projection device used for explanation of a speaker
  • the projection device 13a is a projection device used for reproduction of translated speech.
  • screens 15 and 15a and speakers 18 and 18a are provided, respectively.
  • the screen 15 displays an image projected by the projection device 13.
  • the screen 15a displays an image projected by the projection device 13a.
  • the speaker 18 amplifies the speaker's explanation voice output from the projection device 13, and the speaker 18a amplifies the translated speech output from the projection device 13a.
  • the projection device 13 receives the video signal output from the video source 12 and displays a video for explaining the speaker on the screen 15.
  • the projection device 13a receives the video signal from the projection device 13 and displays a video for explaining the translated speech on the screen 15a for the translated speech viewer.
  • the display image of the projection device 13a may be the one overwritten with the character extracted from the video signal of the video source 12 and translated. Character extraction and translation may be performed by either the projection device 13 or the projection device 13a.
  • the display image of the projection device 13a is displayed in a superimposed manner by delaying the pointer pointed on the screen 15 by the translation delay time or in the order of the translated speech words. You may do.
  • the superimposed display of the pointer may be performed by either of the projection devices 13 and 13a.
  • the display image of the projection device 13 is not shifted to the next slide during the reproduction of the translated speech.
  • the slide feed command is suspended, (2) the video is stored in the projection device 13 and the video output to the projection device 13a is continued, (3) the projection device 13a is video. It can be realized by a technique such as storing and holding the video output.
  • the translated voice is sent from the projection device 13a to the audience who hears the translation through the speaker 18a.
  • Translated speech can be realized by providing the projection device 13a with the function of the translated speech reproduction device 21 shown in FIG. 4 of the second embodiment.
  • the projection device 13 may have the translated voice reproduction unit 239 according to the third embodiment, and may be realized by transmitting the translated voice together with the video signal to the projection device 13a.
  • the video display corresponding to the translated speech is continued at least for the audience listening to the translated speech.
  • the translated audio and video can be synchronized and a presentation that is easy for the audience to understand can be realized.
  • the first to seventh embodiments have been described by taking the still image presentation as an example, but the same effect can be obtained even with an animation or a moving image.
  • the start of the video playback may be instructed by returning to the beginning of the slide video when starting the playback of the translated voice.
  • the video may be sent and displayed for the translation delay time to realize synchronization between the video and the translated audio.
  • the projection apparatus which is a projection-type image display apparatus that projects an image on the screen 15, has been described as an example.
  • the apparatus for displaying an image is not limited to the projection apparatus, but a liquid crystal or an OLED (Organic). It may be a general display device including a direct-view display such as Light (Emitting) Diode).
  • a part of the configuration of one embodiment can be replaced with the configuration of another embodiment, and the configuration of another embodiment can be added to the configuration of one embodiment. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Transforming Electric Information Into Light Information (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

翻訳が伴うプレゼンテーションにおいて、的確なスライド送りを行うことにより、円滑なプレゼンテーションを行う。映像を表示する表示装置は、表示部234、音声入力部236、および制御部を有する。制御部は、音声要素抽出部237、音声要素抽出部237、および翻訳音声生成部239よりなる。表示部234は、表示する映像を出力する。音声入力部236は、音声信号が入力される。制御部は、音声入力部236に入力された音声信号から音声を抽出して出力し、その音声を翻訳した翻訳音声信号を翻訳音声として再生する。また、制御部は、該翻訳音声を再生している期間、表示部234が表示する映像の切り換えを保留する。

Description

表示装置、出力装置、および情報表示方法
 本発明は、表示装置、出力装置、および情報表示方法に関し、特に、翻訳が必要なプレゼンテーションにおけるスライドの切り換えに有効な技術に関する。
 会議や発表会などのプレゼンテーションにおいては、話者が表示装置などによってスライドを表示しながら説明を行うことが広く行われている。2カ国語などによるプレゼンテーションを行う場合には、第1の言語による説明の後、該第1の言語を翻訳した第2の言語をスピーカまたはヘッドホンなどによって流すことが行われている。
 例えば日本語と英語とによるプレゼンテーションでは、話者が日本語によってスライドの説明を行った後に、その説明を英語に翻訳した音声がスピーカから流される。そして、英語による音声が終了すると、話者はスライド送りを指示して、次のスライドが表示される。また、ヘッドホンの場合には、話者による日本語の説明中に、翻訳された英語の音声がヘッドホンから流される。
 この種のプレゼンテーション技術については、例えばプレゼンテーションにおける音声データとポインタ軌跡とを記録し、再生時の音声データとポインタ軌跡との同期ずれを低減するものがある(例えば特許文献1)。
特開2009-157677号公報
 しかしながら、上述した2カ国語のプレゼンテーション技術では、話者が翻訳音声を理解できない場合に翻訳音声終了のタイミングがわからなくなってしまうことがある。そのため、翻訳音声終了前にスライド送り指示が出される、あるいは翻訳音声終了後に間をおいてスライド送り指示が出されるといった事態が発生してしまい、円滑なスライド送り、言い換えれば円滑なプレゼンテーションができないと言った問題がある。
 また、話者がスライド説明中にヘッドホンで翻訳を流す場合でも、話者は翻訳音声の終了タイミングがわからず、上記と同様に円滑なスライド送りができないという課題がある。
 本発明の目的は、翻訳が伴うプレゼンテーションにおいて、的確なスライド送りを行うことにより、円滑なプレゼンテーションを行うことのできる技術を提供することにある。
 本発明の前記ならびにその他の目的と新規な特徴については、本明細書の記述および添付図面から明らかになるであろう。
 本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、次のとおりである。
 すなわち、代表的な表示装置は、映像出力部、音声入力部、および制御部を有する。映像出力部は、表示する映像を出力する。音声入力部は、音声信号が入力される。制御部は、音声入力部に入力された音声信号から音声を抽出して出力し、音声を翻訳した翻訳音声信号を翻訳音声として再生する。そして、制御部は、該翻訳音声を再生している期間、映像出力部が表示する映像の切り換えを保留する。
 また、制御部は、認識信号に基づいて、音声入力部に入力された音声信号から音声を抽出する。認識信号は、外部から入力され、映像に対する翻訳前の説明が終了したことを示す信号である。
 特に、制御部は、翻訳音声を再生している期間、映像出力部から出力される映像に翻訳音声が再生されていることを示す表示記号を付加して表示する。
 本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
 円滑なプレゼンテーションを実現することができる。
実施の形態1による映像表示システムにおける構成の一例を示す説明図である。 図1の映像表示システムが有する投射装置および翻訳サーバにおける構成の一例を示すブロック図である。 図1の映像表示システムによる動作および話者操作の一例を示す説明図である。 実施の形態による映像表示システムにおける構成の一例を示す説明図である。 図4の映像表示システムによる動作および話者操作の一例を示す説明図である。 実施の形態3による映像表示システムが有する投射装置および翻訳サーバにおける構成の一例を示すブロック図である。 図6の映像表示システムによる動作および話者操作の一例を示す説明図である。 実施の形態4による図6の映像表示システムにおける動作および話者操作の一例を示す説明図である。 実施の形態5によるスライド画面の表示の一例を示す説明図である。 図9のポインタ位置を翻訳した語順に合わせて変更する機能を有する映像表示システムの一例を示す説明図である。 実施の形態6による映像表示システムにおける構成の一例を示す説明図である。 図11の映像表示システムが有する携帯機器における構成の一例を示す説明図である。 実施の形態7による映像表示システムにおける構成の一例を示す説明図である。
 以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。
 また、以下の実施の形態において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。
 さらに、以下の実施の形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。
 同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは特に明示した場合および原理的に明らかにそうではないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。
 また、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。なお、図面をわかりやすくするために平面図であってもハッチングを付す場合がある。
 〈表示システムの構成例〉
 以下、実施の形態を詳細に説明する。
 図1は、本実施の形態1による映像表示システムにおける構成の一例を示す説明図である。
 映像表示システムは、2カ国語などによるプレゼンテーションを行う翻訳プレゼンテーションをシステムである。映像表示システムは、話者の音声を異なる言語に翻訳して再生する。
 翻訳音声の再生中は、画像のスライド送りを保留させ、翻訳音声の再生終了後には、スライド送りを行う。そして、話者に翻訳音声終了を知らせて、次のスライド説明を開始する。
 この映像表示システムは、図1に示すように、映像源12、投射装置13、操作器16、マイク17、スピーカ18、および翻訳サーバ20を有する。
 映像源12は、例えばパーソナルコンピュータなどであり、プレゼンテーション用などの映像信号を出力する。マイク17は、話者の音声を集音して投射装置13に送信する。マイク17と投射装置13とは、無線接続あるいは有線接続のいずれであってもよい。
 投射装置13は、映像源12から出力される映像信号をスクリーン15に投射表示するとともに、マイク17から送信された話者の音声をスピーカ18にて再生する。
 また、投射装置13は、インターネットや通信回線などのネットワーク19に接続されており、マイク17から送信された話者の音声要素を抽出して該ネットワーク19を経由して翻訳サーバ20に送信する。翻訳サーバ20は、ネットワーク19を経由して送信された音声を予め指定された言語に翻訳する。
 翻訳サーバ20によって翻訳された翻訳データは、ネットワーク19を経由して投射装置13に送信される。投射装置13は、翻訳サーバ20から受け取った翻訳データを音声信号に変換してスピーカ18に出力することによって再生させる。
 操作器16は、話者によって説明がされている期間を示す話者音声期間を指示する。話者音声期間の指示は、例えば操作器16に設けられたボタンなどを操作することによって行われる。このボタンを操作することによって、認識信号が生成される。
 この認識信号に基づいて、話者音声の翻訳対象期間を認識することができる。認識信号に基づいた翻訳対象期間の認識は、図2の音認期間指示部235により行われる。これにより、翻訳前の説明が終了したことを認識することができる。
 また、認識信号によって、抽出した音声要素を翻訳サーバ20に送信するタイミングを判定することができる。認識信号の生成は、音声認識やジェスチャー入力などであってもよい。また、それらを組み合わせてもよい。操作器16と投射装置13とは、無線接続あるいは有線接続のいずれであってもよい。
 例えば、ボタン操作やジェスチャーにて概略タイミングを決めた後、話者音声を最初に検出した時から、ボタン操作やジェスチャー入力前に話者音声を最後に検出した時までを話者音声の翻訳対象期間とする。これにより、翻訳言語再生時間の時間を短縮することができる。
 操作器16は、ミュート入力を設けてもよい。このミュート入力によって、話者の音声の中から翻訳対象としない音声部分を指示することができる。これによって、原語と翻訳言語とを交互に流すことで1言語に比べて2倍近い時間がかかるプレゼンテーション時間を短縮することができる。
 さらに 操作器16は、スクリーン15に投射された映像の説明場所を指し示すレーザポインタの機能を合わせ持ってもよい。操作器16は、電子ポインタとして、ポインタ位置を映像源12や投射装置13へ送り、ポインタを映像に重畳表示させる機能をもたせてもよい。
 〈投射装置および翻訳サーバの構成例〉
 図2は、図1の映像表示システムが有する投射装置13および翻訳サーバ20における構成の一例を示すブロック図である。
 投射装置13は、通信部231,234,238、映像入力部232、表示部241、音認期間指示部235、音声入力部236、音声要素抽出部237、翻訳音声再生部239、および音声切り換え部240を有する。
 映像入力部232には、映像源12から出力される映像信号が入力される。映像出力部である表示部241は、映像入力部232から入力される映像信号を図1のスクリーン15に投射表示する。
 音声入力部236は、マイク17が集めた話者音声を受信する。音声切り換え部240は、後述する翻訳再生タイミング信号に基づいて、音声入力部236が受信した話者音声または翻訳音声再生部239が再生する翻訳音声のいずれかをスピーカ18にて再生するように出力する。
 制御部を構成する音声要素抽出部237は、音声入力部236に入力された話者音声の音声要素を抽出する。通信部238は、ネットワーク19を介して翻訳サーバ20との通信を行う。音声要素抽出部237が抽出した音声要素は、音声認識のために通信部238からネットワーク19を経由して翻訳サーバ20に送信される。
 通信部231は、操作器16との通信を行う。操作器16による話者音声期間の指示は、通信部231を経由して音認期間指示部235に伝えられる。音認期間指示部235は、音声認識タイミング信号や翻訳再生タイミング信号、スライド送りタイミング信号などを生成する。認識信号である音声認識タイミング信号は、前述した認識信号に基づいて生成される。
 音声認識タイミング信号は、音声要素抽出部237が話者音声の音声要素を抽出する際に出力される信号である。翻訳再生タイミング信号は、音声切り換え部240が翻訳音声の再生する際に出力される信号である。
 スライド送りタイミング信号は、映像源12に次のスライドを表示させる信号である。スライド送りタイミング信号は、通信部231を経由して映像源12に出力される。
 翻訳サーバ20は、通信部201、音声文字化部202、および翻訳音声部203を有する。通信部201は、投射装置13の通信部238との通信を行う。前述したように、投射装置13から送信された音声要素は、ネットワーク19を経由して通信部201が受信する。
 音声文字化部202は、通信部201が受信した音声要素を文字に変換する。翻訳音声部203は、音声文字化部202が変換した文字を翻訳して翻訳データを生成する。翻訳音声部203が生成した翻訳データは、通信部201から投射装置13に送信される。
 通信部238が受信した翻訳データは、翻訳音声再生部239に出力される。制御部を構成する翻訳音声再生部239は、その翻訳データを音声信号として再生する。
 再生された翻訳音声信号は、日本語音声説明後に音声切り換え部240にて切り換えて、スピーカ18により音声再生する。切り換えタイミングについては、上述した翻訳再生タイミング信号に基づいて、切り換えが行われる。
 以下、話者操作と機器動作の流れについて説明する。
 〈映像表示システムの動作例〉
 図3は、図1の映像表示システムによる動作および話者操作の一例を示す説明図である。
 図3の左に示す「表示」は、説明スライドに相当する映像#1と映像#2を時系列に示したものである。
 「表示」の右側に示す「音声」は、話者の音声および翻訳された英語の音声を時系列にて示したものである。#1日本語および#2日本語は、話者の音声である。また、#1英語および#2英語は、翻訳された英語の音声である。
 「音声」の右側に示す「話者操作と機器動作」は、話者操作と機器動作を示したものである。(u*)は、話者による操作を示している。(a*)は、映像表示システムによる動作を示している。
 まず、話者が話始めのタイミングを操作器16に入力して翻訳プレゼン開始する(u1)。映像源12から出力される映像信号が投射装置13に出力されると、スクリーン15に映像#1が表示される。これにより、話者11は、その映像#1の説明を日本語で開始する(u2)。
 話者の説明する日本語音声はマイク17にて集音される。この時、音声切り換え部240は、マイク17にて集音される音声がスピーカ18から出力されるように、切り替えが行われている。よって、集音された音声は、投射装置13に接続されたスピーカ18によって拡声される。
 そして、話者11は、映像#1の日本語による説明が終わる際に、説明の終わりタイミングを操作器16に入力する(u3)。日本語のみのプレゼンテーションであれば、この終話タイミングにて投射装置13が映像源12に次の映像#2を提供するように指示を出す。
 しかし、ここでのプレゼンテーションでは、日本語の説明の後に、翻訳音声があるので、投射装置13は、翻訳音声の再生が終了するまで映像源12に対して映像#2を要求するスライド送り指示であるスライド送りタイミング信号を出力しない。
 話者11が説明した日本語の音声要素は、順次投射装置13の音声要素抽出部237が抽出してネットワーク19を経由して翻訳サーバ20に送信される。翻訳サーバ20は、送信された音声要素に基づいて日本語を英語に翻訳する。英語に翻訳した翻訳データは、ネットワーク19を経由して投射装置13に送信される。
 その翻訳データは、例えば翻訳音声再生部239が有する図示しない記憶部などに一時的に格納される。映像#1に対する日本語の説明終了(u3)を受けて、翻訳音声再生部239は、翻訳データを再生する。翻訳音声再生部239が再生する英語の音声は、音声切り換え部240から出力され、スピーカ18によって拡声される(a1)。
 音認期間指示部235は、操作器16による話者音声期間の指示に基づいて、翻訳再生タイミング信号を生成する。翻訳音声再生部239は、生成した翻訳再生タイミング信号を音声切り換え部240に送信する。
 音声切り換え部240は、翻訳再生タイミング信号に基づいて、翻訳音声再生部239が再生する音声が出力されるように切り換えるとともに、音声再生開始信号を翻訳音声再生部239に出力する。翻訳音声再生部239は、音声再生開始信号を受け取ると、上記した記憶部などに一時的に格納されている翻訳データを再生する。
 映像#1に対する翻訳した英語音声の再生が終わると(a2)、投射装置13の音認期間指示部235は、映像源12に次のスライドである映像#2を出力するように指示を出す(a3)。
 映像源12が映像#1の映像信号を出力すると、投射装置13は、スクリーン15に該映像源12が出力した映像#2を表示する。表示映像が映像#1から映像#2に切り替わったことを確認した話者は、英語の翻訳音声が終了したことを理解して、映像#2の説明を日本語で始める。
 以下、(u5)(a4)(a5)(a6)は、先に説明した(u3)(a1)(a2)(a3)と同様であるので、説明は省略する。
 なお、話者の音声を聞く聴衆と翻訳音声を聞く聴衆とが同じ映像を見ながら聞くことになる。映像は、英語表記、話者音声は日本語、翻訳音声は英語又は中国語などとしてもよい。
 音声に比べると映像は、文字以外の図形要素が多いので映像中のテキストが理解できなくても音声で補うことができる。また、映像には、話者の音声と翻訳音声との両方の言語を併記してもよい。両言語を表記すれば、それぞれの視聴者が理解しやすくなる利点がある。
 このように、翻訳音声の再生中においては、スライド送りを停止させ、翻訳音声の再生が終了すると次スライドを再生させるように、翻訳音声と説明対象のスライドとの同期をとることができる。
 以上により、話者は、翻訳音声終了後のスライドの切り換えを目視にて確認することができるので、次のスライド説明を開始するタイミングを容易につかむことができる。それにより、円滑な翻訳プレゼンテーションを実現することができる。
 (実施の形態2)
 〈概要〉
 前記実施の形態1では、話者音声と翻訳音声とを交互にスピーカ18から流す構成としたが、本実施の形態2においては、話者音声をスピーカにて出力し、翻訳音声はヘッドホンにて流す技術について説明する。これによって、話者音声と翻訳音声との混濁を避けるとともに、プレゼンテーションの時間を短縮することができる。
 〈映像表示システムの構成例〉
 図4は、本実施の形態2による映像表示システムにおける構成の一例を示す説明図である。
 図4の映像表示システムが、前記実施の形態1の図1に示す映像表示システムと異なるところは、翻訳音声再生装置21、音声配信装置22、およびヘッドホン30が新たに追加されている点である。
 図1の映像表示システムでは、翻訳音声の再生を投射装置13にて行っていたが、図4の映像表示システムにおいては、ネットワーク19に接続された翻訳音声再生装置21によって再生される。
 翻訳データは、翻訳サーバ20からネットワーク19を経由して受信する。翻訳音声再生装置21によって再生された翻訳音声信号は、音声配信装置22に出力される。音声配信装置22は、聴衆が使用するヘッドホン30に翻訳音声信を無線などによって配信する。音声配信装置22による翻訳音声信の配信は、無線通信に限定されるものではなく、有線通信であってもよい。
 なお、その他の構成については、前記実施の形態1の図1および図2と同様であるので説明は省略する。また、図4の翻訳音声再生装置21および音声配信装置22の各機能は、図4の映像表示システムが有する投射装置13に設けるようにしてもよい。その場合、翻訳音声再生装置21の機能は、図2の翻訳音声再生部239によって行うことができる。
 〈映像表示システムの動作例〉
 図5は、図4の映像表示システムによる動作および話者操作の一例を示す説明図である。
 図5の左に示す「表示」は、説明スライドに相当する映像#1と映像#2を時系列に示したものである。「表示」の右側に示す「話者音声」は、話者の音声を時系列にて示したものであり、 「話者音声」の右側に示す「翻訳音声」は、再生されている翻訳音声を時系列にて示したものである。
 「翻訳音声」の右側に示す「話者操作と機器動作」は、話者操作と機器動作を示したものである。(u*)は、話者による操作を示している。(a*)は、映像表示システムによる動作を示している。
 前記実施の形態1の図3では、翻訳音声の再生開始(a1)が話者説明終了(u3)後であった。一方、図5では、話者の説明開始(u2)後に、翻訳音声データが準備でき次第、すなわち話者の音声よりやや遅れて再生が開始される。
 翻訳の音声は、ヘッドホン30によって流されるので、翻訳の音声を必要としない聴衆には聞こえない。よって、話者の音声をさえぎることなく再生される。
 また、図5においては、話者が説明終了(u3)を指示しても、翻訳音声が終了(a2)するまではスライド送りが行われない。翻訳音声が終了(a2)すると、投射装置13の音認期間指示部235は、スライド送りタイミング信号を映像源12に送る(a3)。
 これによって、映像#2のスライドが表示される。話者は、表示された映像#2のスライドが表示されたことを確認すると、次の説明を開始する(u4)。
 このように、円滑な翻訳プレゼンテーションを実現することができる。また、話者の説明音声をスピーカにて出力しながら、翻訳音声をヘッドホンにて流すことができるので、話者音声と翻訳音声との混濁を避けながら、プレゼンテーションの時間を短縮することができる。
 (実施の形態3)
 〈概要〉
 前記実施の形態1,2では、スライドの切り換えによって翻訳音声の終了を話者に伝えていたが、本実施の形態3においては、翻訳音声を再生している間、翻訳音声を再生していることを示す文字やマークなどを映像の中に重畳表示する技術について説明する。
 翻訳音声の再生中は、それを示す文字や記号を画面上に重畳して表示させる。これにより、スライド間の差異が小さい場合でも、話者は明確に示すことができる。また、翻訳音声を再生中であることを明確に話者や聴衆に伝えることができる。翻訳音声を再生中であることを明示することにより、1つのスライド説明を細かく分割して説明できるという利点も生じる。
 〈投射装置および翻訳サーバの構成例〉
 図6は、本実施の形態3による映像表示システムが有する投射装置13および翻訳サーバ20における構成の一例を示すブロック図である。
 なお、映像表示システムの構成については、前記実施の形態1の図1と同様であるので、説明は省略する。
 図6に示す投射装置13が、図2の投射装置13と異なる点は、文字重畳部233が新たに設けられたところである。その他の接続構成については、図2の投射装置13と同様であるので、説明は省略する。また、図6の翻訳サーバ20についても、図2の翻訳サーバ20と同様であるので、説明は省略する。
 制御部を構成する文字重畳部233は、映像源12から映像入力部232に入力された映像信号に、翻訳再生中であることを示す文字や記号などを重畳させる。文字重畳部233は、音認期間指示部235が生成する翻訳再生タイミング信号に基づいて、翻訳再生中であることを示す文字や記号などを映像に重畳する。
 〈映像表示システムの動作例〉
 図7は、図6の映像表示システムによる動作および話者操作の一例を示す説明図である。
 図7の左に示す「表示」は、説明スライドに相当する映像#1と映像#2を時系列に示したものである。「表示」の右側に示す「音声」は、話者の音声および翻訳された英語の音声を時系列にて示したものである。#1日本語および#2日本語は、話者の音声である。また、#1英語および#2英語は、翻訳された英語の音声である。
 「音声」の右側に示す「話者操作と機器動作」は、話者操作と機器動作を示したものである。(u*)は、話者による操作を示している。(a*)は、映像表示システムによる動作を示している。
 この図7において、前記実施の形態1の図3と大きく異なる点は翻訳音声の再生中に翻訳再生中であることを示す文字、例えば<翻訳中>を表記すること、および音声説明の終了時にスライド送り可否を合わせて指示入力している点である。
 話者操作(u1)、(u2)と表示装置動作(a1)は、図3と同様である。話者が映像#1に対する説明一時停止を指示すると(u13)、投射装置13は、「翻訳中」の文字やマークを映像#1に重畳して表示(b1)する。
 そして、映像#1への翻訳音声の終了(a2)後に、「翻訳中」の文字またはマークの映像重畳を中止(b2)する。この時、映像#1に対する説明の一時停止の操作である説明一時停止操作(u13)には、スライド送り指示が含まれていない。よって、スライド送りタイミング信号を映像源12に出力しない点が図3と異なっている。
 話者は、「翻訳中」の文字またはマークの消去(b2)を確認すると、映像#1の続きの説明#1aを開始する(u14)。話者が、映像#1の説明終了の指示と共に、操作器16からスライド送りの指示(u15)を行うと、投射装置13は、「翻訳中」の文字あるいはマークを映像#1に重畳して表示(b3)する。
 そして、翻訳音声の終了(a5)後に「翻訳中」の文字またはマークの映像重畳を中止(b4)する。同時に、図3と同様にスライド送りタイミング信号を映像源12へ出力する(a6)。
 このように、1つのスライドを使って複数回の説明を行う場合には、説明終了の指示入力にスライド送り有無を示すとよい。上述のようにスライド送りのない説明一時停止ボタンとスライド送り付説明終了ボタンをつけてもよい。また、スライド送りと説明終了のボタンを独立させ、両方のボタン入力時にスライド送り付説明終了を示すようにしてもよい。
 以上述べてきたように、話者がスライド送り付説明終了を指示後、スライド送り命令の送出を一時保留することによって翻訳音声再生中のスライド送りを止めて、翻訳音声聴衆者に該当映像表示を継続することができる。
 翻訳音声再生終了後にスライド送りタイミング信号を映像源12へ出力して 次のスライドを表示させることによって、話者が説明を再開するタイミングをつかむことができる。
 また、次のスライドが前のスライドと同じような映像の場合は、タイミングがつかみにくいが、翻訳音声再生中のテキストやマークが消去されるのを確認することができるので、話者が説明を再開するタイミングを確実に伝えることができる利点がある。
 さらに、スライド送りなしの説明終了入力の場合は、次のスライドに切り替わらなくても、翻訳音声再生中のテキストやマークが消去されるのを見て、話者が説明を再開するタイミングをつかむことができる。話者は、映像を停止することによって翻訳音声出力中のテキストやマークが消えることでスライドの続き説明に入ることができる。
 翻訳音声を再生中は、スライド送りを停止させて、翻訳音声と説明対象のスライドの同期をとることで円滑な翻訳プレゼンを実現できる。さらに、話者は、翻訳音声終了後のスライドの切り替わりを見て、次のスライド説明を開始するタイミングをつかむことができる利点がある。
 (実施の形態4)
 〈概要〉
 前記実施の形態1においては、話者の説明中と翻訳音声の再生中の表示が共通であった。本実施の形態4では、翻訳音声の再生中は、表示映像の中にある文字を翻訳文字に置き換える技術について説明する。これにより、翻訳音声を聞く聴衆の理解をよりしやすくするものである。
 〈映像表示システムの動作例〉
 図8は、本実施の形態4による図6の映像表示システムにおける動作および話者操作の一例を示す説明図である。なお、映像表示システムの構成については、前記実施の形態3の図6と同様であるので、説明は省略する。
 この図8においても、左に示す「表示」は、説明スライドに相当する映像#1と映像#2を時系列に示したものである。「表示」の右側に示す「音声」は、話者の音声および翻訳された英語の音声を時系列にて示したものである。#1日本語および#2日本語は、話者の音声である。また、#1英語および#2英語は、翻訳された英語の音声である。
 「音声」の右側に示す「話者操作と機器動作」は、話者操作と機器動作を示したものである。(u*)は、話者による操作を示している。(a*)は、映像表示システムによる動作を示している。
 まず、翻訳のプレゼンテーションの開始(u1)が指示されると、投射装置13は映像源12から入力される映像中の文字を抽出して翻訳サーバ20にネットワーク19を経由して送信する。映像中の文字を抽出する処理は、例えば図6の文字重畳部233などが行う。あるいは、図6の投射装置13に、後述する図10に示す文字抽出部434を新たに設ける構成としてもよい。文字抽出部434は、映像中の文字を抽出する処理を実行する。
 そして、翻訳サーバ20は、受信した映像中の文字の翻訳を開始する(c1)。話者の説明が終了し、説明終了の指示が操作器16から出力される(u3)と、投射装置13は、文字抽出領域に翻訳サーバ20が翻訳した文字を上書きしてスクリーン15に投射する(c2)。
 この処理においても、例えば図6の文字重畳部233などが行うものとする。あるいは、図6の投射装置13に後述する図10に示す翻訳文字上書き部431を新たに設ける構成としてもよい。翻訳文字上書き部431は、文字抽出領域に翻訳サーバ20が翻訳した文字を上書きする。
 以上によって、翻訳音声の再生中は、翻訳文字で上書きした映像を表示することができる。翻訳音声の終了(a2)の後、投射装置13は、図3と同様にスライド送りタイミング信号を映像源12に出力して送り(a3)次のスライド映像を表示させる。
 これによって、翻訳音声と同じ言語の翻訳文字で表示された画面と共に翻訳音声を聞くことができる。その結果、聴衆の理解をより高めることができる。
 (実施の形態5)
 〈概要〉
 プレゼンテーションなどにおいては、話者の説明にてポインタを併用する場合が多々ある。本実施の形態5では、翻訳音声の再生中に、話者が差したポインタの位置を翻訳語順に合わせて移動させる技術について説明する。
 前記実施の形態4は、翻訳音声の再生中に、表示された映像の文字を翻訳して、該文字を翻訳文字に上書きするものであった。しかし、翻訳音声の語順によっては、話者音声の語順と異なる場合がある。
 〈スライド表示例〉
 図9は、本実施の形態5によるスライド画面の表示の一例を示す説明図である。
 図9の左側に示す表示画面31,32は、話者の説明時における表示画面例を示している。また、図9の右側に示す表示画面33,34は、翻訳音声の再生中の表示される表示画面の一例を示したものである。
 表示画面31,32において、左側には鉛筆311がそれぞれ表示されており、該鉛筆311の下方には、説明文として「鉛筆」が表示されている。鉛筆311の右側には、箱312が表示されており、該箱312の下方には、説明文として「箱」が表示されている。
 一方、図9の右側に示す翻訳再生中の表示画面33,34では、鉛筆311の下方の説明文である「鉛筆」が「pencil」に翻訳されて置き換えられている、同様に、箱312の下方の説明文である「箱」が「Box」に翻訳されて置き換えられている。
 ここで、話者の日本語の説明音声が、図9の左側上方に示すように、例えば「箱の上に鉛筆を置く。」であるとすると、その翻訳文章は、図9の右側上方に示すように、「Put a pencil on the box.」となる。この場合、日本語の文章では、“箱”と“鉛筆”の語順が“箱”、“鉛筆”となる。
 一方、上記の日本語を翻訳した英語文章の場合には、並び順が“pencil”“Box”と日本語とは逆の語順になる。このため、話者が表示画面31,32を用いて説明する際には、ポインタの指し場所は、図9左側の一点鎖線にて示すようにポインタ差し位置313からポインタ差し位置323に移動することになる。
 これに対して、翻訳音声の再生中において、表示画面33,34を用いる場合には、図9右側の一点鎖線に示すように、翻訳音声、すなわち翻訳の語順に合わせて、ポインタの指し場所がポインタ位置333からポインタ位置343に移動させるとわかりやすいことになる。
 〈映像表示システムの構成例〉
 図10は、図9のポインタ位置を翻訳した語順に合わせて変更する機能を有する映像表示システムの一例を示す説明図である。
 図10の映像表示システムが図6の映像表示システムと異なるところは、カメラ440が新たに設けられた点である。また、投射装置13においては、文字抽出部434、翻訳文字上書き部431、故障診断部435、マイクアレイ436、話者解析部437、およびポインタ位置判別部439を新たに設けられている。翻訳サーバ20においては、議事録作成部402および文字翻訳部401が新たに設けられている。
 マイクアレイ436は、複数のマイクから構成されており、話者の声を集音する。ここでは、投射装置13が話者から離れている場合を考慮して、マイクアレイ436には、指向性が与えられている。
 話者解析部437は、マイクアレイ436の集音結果に基づいて、話者がどの位置にいるかを解析する。話者音声抽出部438は、話者音声を抽出する。これは、投射装置13や周辺の雑音と話者音声とを分離するためであり、例えば雑音除去フィルタやそれぞれの周波数特性の特徴を使った分離技術により、話者音声を抽出する。
 話者音声抽出部438が抽出した話者音声は、音声要素抽出部237によって音声要素が抽出されて翻訳サーバ20に送信される。
 翻訳サーバ20において、音声文字化部202によって文字化された話者音声は、翻訳音声部203にて翻訳される。その翻訳結果である翻訳データは、投射装置13に送信される。翻訳データは、話者音声および翻訳音声の語順を含むデータからなる。
 翻訳音声再生部239は、受け取った翻訳データを翻訳音声信号に再生して、音声切り換え部を経てスピーカ18にて翻訳音声が再生される。
 映像入力部232が受信した映像源12の映像は、文字抽出部434と翻訳文字上書き部431にそれぞれ入力される。
 文字抽出部434は、映像中の文字を抽出して該当文字の位置情報と共に翻訳サーバ20に送信する。そして、文字翻訳部401にて翻訳された投射装置13に送り返される。
翻訳文字上書き部431は、翻訳された文字を受信すると、文字抽出部434から得られる抽出文字領域情報に基づいて、該当文字領域上に翻訳文字を上書きする。翻訳文字で上書きすることは、前記実施の形態4にて述べたとおりである。
 カメラ440は、話者が指し示す図9のポインタ差し位置313,323を撮影する。ポインタ位置判別部439は、カメラ440が撮影した撮影結果に基づいて、ポインタ差し位置313,323の位置、大きさ、および時間などを判別して、該ポインタ位置判別部439に設けられる図示しないメモリなどに記憶しておく。
 ポインタ同期合成部432は、ポインタ位置判別部439に記憶された判別結果に従って、翻訳音声の再生中にポインタ差し位置333,343を生成する。そして、翻訳データに含まれる語順情報に基づいて、翻訳音声の語順に合わせて映像へ重畳し、表示部241から出力する。
 以上述べてきたように、翻訳音声の語順に合わせてポインタを表示画面上に表示することができる。これによって、聴衆の理解をより高めることができる。
 なお、上記した説明では、ポインタ位置をカメラ440にて検出する例を示したが、話者が操作器を操作して電子ポインタとして映像上に重畳する場合は、操作器からの位置情報を用いて電子ポインタの位置を検出するようにしてもよい。
 さらに、音声文字化部202にて文字化された話者の音声は、例えば議事録作成部402が記録して議事録として記録するようにしてもよい。また、話者の説明後の質疑応答において、話者解析部437が質問者の声を解析して話者音声抽出部438によって質問者音声を抽出し、翻訳サーバ20にて質問者の音声を記録するようにしてもよい。
 質問者が話者音声の翻訳先の言語である場合は、翻訳サーバ20が話者音声翻訳と逆の翻訳を行い、質問者の音声を再生するようにしてもよい。この場合、話者と質問者とは、対話翻訳を通じた質疑応答ができるので、利便性を向上することができる。
 さらに、前記実施の形態1~5では、映像源12へのスライド送り命令を一時的に止めて、翻訳音声再生中の映像を保持する例を説明してきたが、スライド送り命令の一時停止に代えて、翻訳音声用の映像を図示しない記憶装置に記憶させ、記憶させた映像を表示させるようにしてもよい。スライド送りを操作する操作器と翻訳用の話者音声入力タイミングを指示する指示器とを独立に構成する場合などに連携制御を簡単にすることができる。
 (実施の形態6)
 〈概要〉
 前記実施の形態1~5における映像表示システムは、例えばパーソナルコンピュータなどを映像源として用いた構成とした。本実施の形態6では、映像源を携帯機器によって代用する技術について説明する。
 〈映像表示システムの構成例および動作例〉
 図11は、本実施の形態6による映像表示システムにおける構成の一例を示す説明図である。
 図11の映像表示システムが、図1の映像表示システムと異なる点は、図1の映像源12および操作器16の機能を有する携帯機器56に替わっているところである。出力装置である携帯機器56は、例えばスマートフォンやタブレット端末などからなり、ネットワーク19に接続することができる。
 〈携帯機器の構成例〉
 図12は、図11の映像表示システムが有する携帯機器56における構成の一例を示す説明図である。
 携帯機器56は、図12に示すように、音声入力部57、制御部58、および映像信号出力部59を有する。第2の音声入力部となる音声入力部57は、マイク17の音声を例えばBluetoothなどを使用して受信する。
 映像信号出力部59は、投射装置13が表示する映像信号を該投射装置13に出力する。映像信号は、例えば無線LAN、Bluetooth(登録商標)、あるいはMiracast(登録商標)などの無線によって送信される。あるいは携帯機器56と投射装置13とを有線接続するようにしてもよい。
 音声抽出出力部および翻訳音声変換部として機能する制御部58は、音声入力部57が受信した音声から音声要素を抽出して翻訳サーバ20に送信する。また、制御部58は、翻訳サーバ20が翻訳した翻訳データを受信して、受信した翻訳データを音声信号に変換して投射装置13に転送する。
 投射装置13は、転送された音声信号を受信して再生し、スピーカ18から翻訳音声を出力する。もちろん、マイク17が集音した話者の音声信号も携帯機器56の制御部58から投射装置13に転送して、話者音声と翻訳音声を交互に出力してもよい。
 さらに、制御部58は、前述した図1の操作器16の機能を有する。具体的には、話者によって説明がされている期間である話者音声期間を指示する機能である。話者音声期間の指示は、例えば携帯機器56に設けられたボタンなどを操作することによって行われる。該ボタンを操作することによって、認識信号が生成される。
 携帯機器56は、認識信号に基づいて、話者音声の翻訳対象期間を認識することができる。これにより、翻訳前の説明が終了したことを認識することができる。また、認識信号によって抽出した音声要素を翻訳サーバ20に送信するタイミングを判定することができる。加えて、携帯機器56には、電子ポインタなどの機能も備えていてもよい。
 これらの制御部58における動作および各種の機能は、例えば携帯機器56にインストールされたアプリケーションによって実現するようにしてもよい。アプリケーションによって実現する際には、制御部58あるいは携帯機器56が有する図示しないCPU(Central Prosessing Unit)などが、同じく携帯機器56に設けられた図示しないプログラム格納メモリなどに記憶されているプログラム形式のソフトウェアに基づいて、処理を実行する。
 携帯機器56は、投射装置13が表示する映像信号を該投射装置13に出力する。映像信号は、例えば無線LAN、Bluetooth(登録商標)、あるいはMiracast(登録商標)などの無線によって送信される。あるいは携帯機器56と投射装置13とを有線接続するようにしてもよい。
 また、携帯機器56は、マイク17の音声をBluetoothなどを使用して受信して、音声要素を抽出して翻訳サーバ20に送信する機能を有する。そして、携帯機器56は、翻訳サーバ20が翻訳した翻訳データを受信する。受信した翻訳データは、携帯機器56によって音声信号に変換されて投射装置13に転送される。
 投射装置13は、転送された音声信号を受信して再生し、スピーカ18から翻訳音声を出力する。もちろん、マイク17が集音した話者の音声信号も携帯機器56から投射装置13に転送して、話者音声と翻訳音声を交互に出力してもよい。
 携帯機器56は、前述した図1の操作器16の機能を有する。具体的には、話者によって説明がされている期間である話者音声期間を指示する機能である。話者音声期間の指示は、例えば携帯機器56に設けられたボタンなどを操作することによって行われる。該ボタンを操作することによって、認識信号が生成される。
 携帯機器56は、認識信号に基づいて、話者音声の翻訳対象期間を認識することができる。これにより、翻訳前の説明が終了したことを認識することができる。また、認識信号によって抽出した音声要素を翻訳サーバ20に送信するタイミングを判定することができる。加えて、携帯機器56には、電子ポインタなどの機能も備えていてもよい。
 これらの携帯機器56における動作および各種の機能は、例えば携帯機器56にインストールされたアプリケーションによって実現する。アプリケーションによって実現する際には、携帯機器56が有する図示しないCPU(Central Prosessing Unit)などが、同じく携帯機器56に設けられた図示しないプログラム格納メモリなどに記憶されているプログラム形式のソフトウェアに基づいて、各機能の処理を実行する。あるいは上記した機能を有するハードウェアによって構成するようにしてもよい。
 以上により、映像源12や操作器16などを不要とすることができるので、映像表示システムの構成を簡易にすることができる。また、携帯機器56が音声要素の抽出などを行うことにより、投射装置13を小型化することができる。
 さらに、上記した携帯機器56における各種の機能をアプリケーションによって実現することによって、映像源12、および操作器16などを不要とすることができるので映像表示システムのコストを低減することができる。
 (実施の形態7)
 〈映像表示システムの構成例および動作例〉
 図13は、本実施の形態7による映像表示システムにおける構成の一例を示す説明図である。
 図13に示す映像表示システムは、2台の投射装置13、13aが設けられている。投射装置13は、話者の説明に用いられる投射装置であり、投射装置13aは、翻訳音声の再生に用いられる投射装置である。
 それに合わせて、スクリーン15,15aおよびスピーカ18,18aがそれぞれ設けられている。スクリーン15は、投射装置13が投射する映像を表示する。スクリーン15aは、投射装置13aが投射する映像を表示する。スピーカ18は、投射装置13から出力される話者の説明音声を拡声し、スピーカ18aは、投射装置13aから出力される翻訳音声を拡声する。
 図13に示す映像表示システムは、話者説明と翻訳音声の再生をほぼ同時進行させるものであるが、翻訳処理のために翻訳音声再生は話者説明よりも遅れてしまうことが多い。このため、翻訳音声再生中はスライド送りを抑制することが有用である。
 投射装置13が映像源12から出力される映像信号を受けて、話者説明用の映像をスクリーン15に表示する。投射装置13aは、投射装置13から映像信号を受けて、翻訳音声視聴者用にスクリーン15aに翻訳音声説明用の映像表示を行う。
 投射装置13aの表示映像は、前記実施の形態4にて示したように、映像源12の映像信号から文字を抽出して翻訳した文字を上書きしたものであってもよい。文字の抽出や翻訳は、投射装置13または投射装置13aのいずれで行ってもよい。
 投射装置13aの表示映像は、前記実施の形態5にて示したように、話者がスクリーン15上に指したポインタを、翻訳遅延時間分遅らせて重畳表示、または翻訳音声語順に合わせて重畳表示するものであってもよい。ポインタの重畳表示は、投射装置13,13aのどちらで行ってもよい。
 話者からスライド送り指示があっても、翻訳音声の再生中は投射装置13の表示映像が次のスライドに移行しないように構成する。例えば、翻訳音声の再生中は、(1)スライド送り命令を保留する、(2)投射装置13に映像を記憶させて投射装置13aへの映像出力を継続する、(3)投射装置13aが映像記憶して映像出力を保持するなどの技術によって実現することができる。
 翻訳音声は、投射装置13aからスピーカ18aにて翻訳を聞く聴衆へ流される。翻訳音声は、前記実施の形態2の図4に示した翻訳音声再生装置21の機能を投射装置13aが備えることによって実現することができる。
 あるいは、投射装置13が前記実施の形態3の翻訳音声再生部239を持ち、翻訳音声を映像信号と共に投射装置13aに送信することによって実現することもできる。
 このように、2台の投射装置13,13aを用いて。話者説明と翻訳音声の再生をほぼ同時進行させるものであっても、翻訳音声の再生中は、少なくとも翻訳音声を聞いている聴衆向けに、該翻訳音声に該当する映像表示を継続することによって、翻訳音声と映像の同期がとれ、聴衆が理解しやすいプレゼンテーションを実現することができる。
 以上、実施の形態1~7は、静止画プレゼンを例にとって説明してきたが、アニメーション付や動画であっても同様な効果を有することができる。話者説明と翻訳音声の交互切り換えの場合は、映像切り換えの保留に代えて、翻訳音声の再生開始時に該スライド映像の最初に戻って映像再生開始を指示してもよい。
 本実施の形態7では、翻訳遅延時間分だけ、映像を送らせて表示させて、映像と翻訳音声の同期を実現してもよい。
 以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
 前記実施の形態1~7では、スクリーン15に映像を投射する投影型映像表示装置である投射装置を例にとって説明したが、映像を表示する機器は、投射装置に限らず、液晶やOLED(Organic Light Emitting Diode)などの直視型ディスプレイなどを含め、一般的な表示装置であってもよい。
 なお、本発明は上記した実施の形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
 また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、他の構成の追加、削除、置換をすることが可能である。
12 映像源
13 投射装置
13a 投射装置
15 スクリーン
15a スクリーン
16 操作器
17 マイク
18 スピーカ
18a スピーカ
19 ネットワーク
20 翻訳サーバ
21 翻訳音声再生装置
22 音声配信装置
30 ヘッドホン
56 携帯機器
58 音声入力部
58 制御部
59 映像信号出力部
201 通信部
202 音声文字化部
203 翻訳音声部
231 通信部
232 映像入力部
233 文字重畳部
241 表示部
235 音認期間指示部
236 音声入力部
237 音声要素抽出部
238 通信部
239 翻訳音声再生部
240 音声切り換え部
401 文字翻訳部
402 議事録作成部
431 翻訳文字上書き部
432 ポインタ同期合成部
434 文字抽出部
435 故障診断部
436 マイクアレイ
437 話者解析部
438 話者音声抽出部
439 ポインタ位置判別部
440 カメラ

Claims (13)

  1.  映像を表示する表示装置であって、
     表示する映像を出力する映像出力部と、
     音声信号が入力される音声入力部と、
     前記音声入力部に入力された音声信号から音声を抽出して出力し、前記音声を翻訳した翻訳音声信号を翻訳音声として再生する制御部と、
     を有し、
     前記制御部は、前記翻訳音声を再生している期間、前記映像出力部が表示する映像の切り換えを保留する、表示装置。
  2.  請求項1記載の表示装置において、
     前記制御部は、認識信号に基づいて、前記音声入力部に入力された音声信号から音声を抽出し、
     前記認識信号は、外部から入力され、前記映像に対する翻訳前の説明が終了したことを示す信号である、表示装置。
  3.  請求項1記載の表示装置において、
     前記制御部は、前記翻訳音声を再生している期間、前記映像出力部から出力される前記映像に前記翻訳音声が再生されていることを示す表示記号を付加して表示する、表示装置。
  4.  請求項1記載の表示装置において、
     前記制御部は、前記翻訳音声を再生する際に、前記映像出力部が表示する映像中の文字を翻訳した翻訳文字に置換し、
     前記映像出力部は、前記制御部が置換した前記翻訳文字を前記映像に表示する、表示装置。
  5.  請求項4記載の表示装置において、
     前記制御部は、前記映像出力部が表示する映像に指し示されるポインタの位置を判定し、前記翻訳音声を再生する際に、前記ポインタの差し位置が翻訳音声信号の語順に合致するように並び替えて前記映像に表示する、表示装置。
  6.  映像を表示する表示装置および音声を翻訳した音声信号である翻訳音声信号に変換する翻訳装置にそれぞれ接続される出力装置であって、
     前記出力装置は、
     前記表示装置に映像信号を出力する映像信号出力部と、
     前記音声信号が入力される第2の音声入力部と、
     前記第2の音声入力部に入力された音声信号から前記音声を抽出して前記翻訳装置に出力する音声抽出出力部と、
     前記翻訳装置が翻訳した前記翻訳音声信号を受け取り、受け取った前記翻訳音声信号を音声に変換して前記表示装置に出力する翻訳音声変換部と、
     を有し、
     前記映像信号出力部は、前記表示装置から前記翻訳音声信号の再生が終了したことを示す終了信号を受け取った際に、次に表示する映像信号を前記表示装置に出力する、出力装置。
  7.  請求項6記載の出力装置において、
     認識信号に基づいて、翻訳前の説明が終了したことを認識する認識部を有し、
     前記音声抽出出力部は、前記認識部が翻訳前の説明が終了したことを認識した際に、前記翻訳前の説明が終了した際に抽出した前記音声を出力する、出力装置。
  8.  請求項6記載の出力装置において、
     前記表示装置が表示する映像を指し示すポインタ機能を有する、出力装置。
  9.  映像を表示する表示装置、音声を翻訳した音声信号である翻訳音声信号に変換する翻訳装置、および前記表示装置に映像信号を出力する出力装置による情報表示方法であって、
     前記表示装置が、映像を表示するステップと、
     前記表示装置が、表示された前記映像を説明する音声を抽出するステップと、
     前記翻訳装置が、前記表示装置が抽出した前記音声を翻訳した翻訳音声に変換して、前記表示装置に出力するステップと、
     前記表示装置が、前記翻訳装置から受け取った前記翻訳音声を再生するステップと、
     を有し、
     前記翻訳音声信号を再生するステップは、前記翻訳音声が再生されている期間、前記表示装置が映像の切り換えを保留する、情報表示方法。
  10.  請求項9記載の情報表示方法において、
     前記音声を抽出するステップは、表示された前記映像の説明が終了した際に、前記音声を抽出する、情報表示方法。
  11.  請求項9記載の情報表示方法において、
     前記表示装置が、前記翻訳音声が再生されていることを示す表示記号を生成するステップを有し、
     前記翻訳音声を再生するステップは、前記翻訳音声が再生されている期間、表示されている前記映像に前記表示記号を付加して表示する、情報表示方法。
  12.  請求項11記載の情報表示方法において、
     前記表示装置が、表示されている映像中の文字を抽出するステップと、
     前記翻訳装置が、抽出した前記文字を翻訳するステップと、
     前記表示装置が、前記翻訳音声の再生の際に、前記映像中の前記文字を前記翻訳装置が翻訳した前記文字に置換して表示するステップと、
     を有する、情報表示方法。
  13.  請求項12記載の情報表示方法において、
     前記表示装置が、表示されている前記映像に指し示されるポインタの位置を判定するステップと、
     前記表示装置が、前記翻訳音声が再生される際に、判定した前記ポインタの差し位置が翻訳音声の語順に合致するように並び替えて前記映像に表示するステップと、
     を有する、情報表示方法。
PCT/JP2016/062473 2016-04-20 2016-04-20 表示装置、出力装置、および情報表示方法 WO2017183127A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018512699A JP6802264B2 (ja) 2016-04-20 2016-04-20 表示装置、出力装置、および情報表示方法
PCT/JP2016/062473 WO2017183127A1 (ja) 2016-04-20 2016-04-20 表示装置、出力装置、および情報表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/062473 WO2017183127A1 (ja) 2016-04-20 2016-04-20 表示装置、出力装置、および情報表示方法

Publications (1)

Publication Number Publication Date
WO2017183127A1 true WO2017183127A1 (ja) 2017-10-26

Family

ID=60115751

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/062473 WO2017183127A1 (ja) 2016-04-20 2016-04-20 表示装置、出力装置、および情報表示方法

Country Status (2)

Country Link
JP (1) JP6802264B2 (ja)
WO (1) WO2017183127A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020075081A1 (en) * 2018-10-11 2020-04-16 Dahiya Vivek An automated microphone system and a method of adjustment thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03163591A (ja) * 1989-11-22 1991-07-15 Matsushita Electric Ind Co Ltd プレゼンテーション表示装置
US20080077392A1 (en) * 2006-09-26 2008-03-27 Kabushiki Kaisha Toshiba Method, apparatus, system, and computer program product for machine translation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03163591A (ja) * 1989-11-22 1991-07-15 Matsushita Electric Ind Co Ltd プレゼンテーション表示装置
US20080077392A1 (en) * 2006-09-26 2008-03-27 Kabushiki Kaisha Toshiba Method, apparatus, system, and computer program product for machine translation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KOLSS, M. ET AL.: "Simultaneous German -English Lecture Translation", PROCEEDINGS OF IWSLT, pages 174 - 181, Retrieved from the Internet <URL:http://www2.nict.go.jp/univ-com/multi _ trans/WS/IWSLT2008/proceedings/TP_5_kolss. pdf> [retrieved on 20160621] *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020075081A1 (en) * 2018-10-11 2020-04-16 Dahiya Vivek An automated microphone system and a method of adjustment thereof
US11601740B2 (en) 2018-10-11 2023-03-07 Vivek Dahiya Automated microphone system and method of adjustment thereof

Also Published As

Publication number Publication date
JP6802264B2 (ja) 2020-12-16
JPWO2017183127A1 (ja) 2018-12-27

Similar Documents

Publication Publication Date Title
US9298704B2 (en) Language translation of visual and audio input
JP7283384B2 (ja) 情報処理端末、情報処理装置、および情報処理方法
JP2013521523A (ja) 聴覚障害者向けに音声言語を手話に翻訳するシステム
US11100943B1 (en) Systems and methods for processing and presenting conversations
AU2018233050B2 (en) Accessible Audio Switching for Client Devices in an Online Conference
JP6624476B2 (ja) 翻訳装置および翻訳システム
JP5727777B2 (ja) 会議支援装置および会議支援方法
WO2017183127A1 (ja) 表示装置、出力装置、および情報表示方法
JP7051987B2 (ja) 出力装置および情報表示方法
JP2005524867A (ja) 低ビットレートの分散型スライドショウ・プレゼンテーションを提供するシステムおよび方法
KR20210097392A (ko) 회의 통역 장치
US9697851B2 (en) Note-taking assistance system, information delivery device, terminal, note-taking assistance method, and computer-readable recording medium
JP2018151533A (ja) 通信端末、通信プログラム及び通信方法
CN115359796A (zh) 数字人手语播报方法、装置、设备及存储介质
JP2008134686A (ja) 作画プログラム、プログラマブル表示器、並びに、表示システム
JP2008032788A (ja) 語学教材データ作成用プログラム
JP5777233B1 (ja) 動画生成装置及び動画生成方法
JP2006229592A (ja) コンテンツ作成装置、画像/音声出力装置および制御プログラム
JP2002271769A (ja) インターネットによる講演会のビデオ配信システム
JP2006163269A (ja) 語学学習装置
JP2009105560A (ja) 映像データ出力装置および放送システム
CN115086691A (zh) 字幕优化方法、装置、电子设备和存储介质
JP2011204119A (ja) 表示装置および表示方法
JP2019144674A (ja) 表示装置、コンテンツ配信装置、コンテンツ配信システム、コンテンツ配信方法およびコンテンツ配信プログラム
JP2009065563A (ja) マルチメディアデータ再生装置及びプログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2018512699

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16899400

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16899400

Country of ref document: EP

Kind code of ref document: A1