WO2023002300A1 - スライド再生プログラム、スライド再生装置及びスライド再生方法 - Google Patents

スライド再生プログラム、スライド再生装置及びスライド再生方法 Download PDF

Info

Publication number
WO2023002300A1
WO2023002300A1 PCT/IB2022/056404 IB2022056404W WO2023002300A1 WO 2023002300 A1 WO2023002300 A1 WO 2023002300A1 IB 2022056404 W IB2022056404 W IB 2022056404W WO 2023002300 A1 WO2023002300 A1 WO 2023002300A1
Authority
WO
WIPO (PCT)
Prior art keywords
slide
data
output
control unit
spoken text
Prior art date
Application number
PCT/IB2022/056404
Other languages
English (en)
French (fr)
Inventor
ドゥク グェントアン
Original Assignee
アイメソフト ジェイエスシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイメソフト ジェイエスシー filed Critical アイメソフト ジェイエスシー
Publication of WO2023002300A1 publication Critical patent/WO2023002300A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Definitions

  • the present invention relates to a slide playback program and the like for sequentially displaying and outputting a plurality of slides included in presentation data.
  • Patent Document 1 a presentation device using speech synthesis technology has been proposed.
  • the presentation device described in Patent Document 1 automatically reads out text data by speech synthesis in synchronization with the switching of slides.
  • the present invention has been made in view of such circumstances.
  • the object is to provide a slide reproduction program or the like that can give a more realistic feeling in a presentation using speech synthesis.
  • a slide playback program acquires presentation data including a plurality of slide data including spoken text and display elements, outputs the display elements included in each of the plurality of slide data in a predetermined order, A computer is caused to perform a process of outputting the reading voice of the spoken text included in the output slide data with a moving image of the person.
  • FIG. 1 is an explanatory diagram showing a configuration example of a presentation system
  • FIG. 3 is a block diagram showing a hardware configuration example of a playback device
  • FIG. 4 is an explanatory diagram showing an example of a basic setting DB
  • FIG. 4 is an explanatory diagram showing an example of a model DB
  • FIG. 4 is an explanatory diagram showing an example of a speech setting DB
  • FIG. 4 is an explanatory diagram showing an example of a screen setting DB
  • FIG. 10 is an explanatory diagram showing an example of a transition setting DB; 7 is a flowchart illustrating an example of the procedure of main processing; 7 is a flow chart showing an example of the procedure of command execution processing; 7 is a flow chart showing an example of a procedure of reproduction processing; 6 is a flow chart showing an example of a procedure of VR model creation processing; FIG. 10 is an explanatory diagram showing an example of a presentation setting screen; FIG. 5 is an explanatory diagram showing an example of a model creation screen; FIG. 11 is an explanatory diagram showing an example of a speech setting screen; FIG. 10 is an explanatory diagram showing an example of a presenter setting screen; FIG. 5 is an explanatory diagram showing an example of a slide show setting screen; FIG.
  • FIG. 10 is an explanatory diagram showing an example of a slide playback screen and a presenter screen
  • FIG. 11 is a flowchart showing another procedure example of reproduction processing
  • FIG. FIG. 11 is a flowchart showing another procedure example of reproduction processing
  • FIG. 7 is a flow chart showing an example of a procedure of script execution processing
  • FIG. 11 is an explanatory diagram showing another example of the slide playback screen and the presenter screen
  • FIG. 11 is a flowchart showing another procedure example of reproduction processing
  • FIG. FIG. 11 is a flowchart showing another procedure example of reproduction processing
  • FIG. FIG. 11 is a flowchart showing another procedure example of reproduction processing
  • FIG. FIG. 11 is a flowchart showing another procedure example of reproduction processing
  • FIG. FIG. 11 is a flowchart showing another procedure example of reproduction processing
  • FIG. 11 is a flowchart showing another procedure example of reproduction processing
  • FIG. 11 is a flowchart showing another procedure example of reproduction processing
  • FIG. 11 is a flowchart
  • Presentation data includes multiple slides.
  • a slide is display data for presentation software to be displayed on a computer display or projected by a projector.
  • a slide contains objects (display elements). Objects are text, figures, animations, tables, graphs, and the like. An object has size, position, and tilt as attributes. Slides can contain text (spoken text) that is not visible when projected by a projector. The text is also called speaker notes, presenter notes, or simply notes. The speaker notes are not included in the image projected by the projector, but can be displayed on the display of the computer running the presentation software.
  • FIG. 1 is an explanatory diagram showing a configuration example of a presentation system.
  • a presentation system 100 includes a playback device 1 and a speech synthesis server 2 .
  • the playback device 1 and the speech synthesis server 2 are connected by a network N so as to be able to communicate with each other.
  • the reproducing apparatus K is similar to the reproducing apparatus 1, and a conceptual diagram of the contents of the processing is shown.
  • Both the playback device 1 and the playback device K are called playback devices.
  • the playback device 1 may be connected to the projector (for example, wired connection using a USB cable or VGA cable, or wireless connection using Wifi or Bluetooth (registered trademark)).
  • the data of the display unit of the playback device 1 which will be described later, is transmitted to the projector.
  • An image is displayed by projecting the output from the projector onto a screen or the like.
  • the playback device 1 is a device used by the user for presentations.
  • the playback device 1 is composed of a notebook computer, a panel computer, a tablet computer, a smart phone, or the like.
  • the logical processing of the reproducing device 1 is indicated by the reproducing device K.
  • the playback device 1 has a hardware configuration described later, and holds presentation data K1, a VR (Virtual Reality) model DBK2, and setting data K3.
  • the slide playback program K4 of one embodiment of the present application reads these data, transmits the text of the presenter's notes to the speech synthesis server 2, and obtains speech synthesis results.
  • slides are displayed from the slide data with a slide playback program K4 (for example, Microsoft PowerPoint, Google Presentation, etc.), and a VR avatar K6 is displayed with the VR engine.
  • the slide reproduction program K4 displays and reproduces the slide display K5, the VR avatar K6, and the speech synthesis result K7.
  • the slide reproduction program K4 automatically controls page transition of slides simultaneously with slide display, speech synthesis result reproduction, and avatar display, and synchronizes the display and reproduction of these elements.
  • the speech synthesis server 2 has a speech synthesis engine.
  • the speech synthesis server 2 receives text data from the reproduction device 1 , synthesizes speech for reading out the received text using a speech synthesis model, and returns the speech data to the reproduction device 1 .
  • the speech synthesizing server 2 is composed of a server computer, a work station, and the like. Further, the speech synthesis server 2 may be configured by a multicomputer consisting of a plurality of computers, a virtual machine virtually constructed by software, or a quantum computer. Furthermore, the function of the speech synthesis server 2 may be realized by a cloud service.
  • FIG. 2 is a block diagram showing a hardware configuration example of the playback device.
  • the playback device 1 includes a control section 11 , a main storage section 12 , an auxiliary storage section 13 , a communication section 14 , an input section 15 , a display section 16 , an audio output section 17 and a reading section 18 .
  • the control unit 11 , main memory unit 12 , auxiliary memory unit 13 , communication unit 14 , input unit 15 , display unit 16 , audio output unit 17 and reading unit 18 are connected by bus B.
  • the control unit 11 has an arithmetic processing unit such as one or more CPU (Central Processing Unit), MPU (Micro-Processing Unit), GPU (Graphics Processing Unit).
  • the control unit 11 reads and executes the control program 1P (slide playback program, program product) stored in the auxiliary storage unit 13 to perform various information processing, control processing, etc. related to the playback device 1, and a functional unit such as an output unit.
  • CPU Central Processing Unit
  • MPU Micro-Processing Unit
  • GPU Graphics Processing Unit
  • the main storage unit 12 is SRAM (Static Random Access Memory), DRAM (Dynamic Random Access Memory), flash memory, or the like.
  • the main storage unit 12 mainly temporarily stores data necessary for the control unit 11 to execute arithmetic processing.
  • the auxiliary storage unit 13 is a hard disk or SSD (Solid State Drive) or the like, and stores the control program 1P and various DBs (Databases) necessary for the control unit 11 to execute processing.
  • Auxiliary storage unit 13 stores basic setting DB 131 , model DB 132 , speech setting DB 133 , screen setting DB 134 , transition setting DB 135 , VR model data 136 and presentation data 137 .
  • the auxiliary storage unit 13 may be an external storage device connected to the playback device 1 .
  • Various DBs and the like stored in the auxiliary storage unit 13 may be stored in a database server or cloud storage different from the reproducing device 1 .
  • the contents stored in the basic setting DB 131, the model DB 132, the speech setting DB 133, the screen setting DB 134, and the transition setting DB 135 may be collectively stored in the auxiliary storage unit 13 as one file.
  • the communication unit 14 communicates with the speech synthesis server 2 via the network N.
  • the control unit 11 may use the communication unit 14 to download the control program 1P from another computer via the network N or the like and store it in the auxiliary storage unit 13 .
  • the input unit 15 includes a keyboard, mouse, and the like.
  • the display unit 16 includes a liquid crystal display panel and the like.
  • the display unit 16 displays slides and the like forming the presentation data 137 .
  • the input unit 15 and the display unit 16 may be integrated to form a touch panel display.
  • the playback device 1 may perform display on an external display device.
  • the audio output unit 17 includes an audio speaker.
  • the audio output unit 17 converts digital audio data into an analog audio signal and outputs it from a speaker.
  • the reading unit 18 reads portable storage media 1a including CD (Compact Disc)-ROM and DVD (Digital Versatile Disc)-ROM.
  • the control unit 11 may read the control program 1P from the portable storage medium 1a via the reading unit 18 and store it in the auxiliary storage unit 13 .
  • the control unit 11 may read the control program 1P from the semiconductor memory 1b.
  • FIG. 3 is an explanatory diagram showing an example of the basic setting DB.
  • the basic setting DB 131 stores basic settings regarding slide reproduction.
  • the basic setting DB 131 includes a model ID column and a URI column.
  • the model ID column stores the ID of the VR model displayed as the presenter.
  • the URI column stores the URI (Uniform Resource Identifier) of the presentation data.
  • FIG. 4 is an explanatory diagram showing an example of the model DB.
  • the model DB 132 stores information on VR models displayed as presenters.
  • the model DB 132 includes a model ID column, a name column, a photo column and a model column.
  • the model ID column stores model IDs that uniquely identify VR models.
  • the model ID is the primary key of the model DB 132, and the model ID column of the basic setting DB 131 stores the model ID as a foreign key.
  • the name column stores the name of the VR model.
  • the photo column stores the still images used in creating the VR model. In the case of pre-prepared VR models, etc., the photo sequence does not need to store still images.
  • the model column stores information about the entity of the VR model. In the example shown in FIG.
  • the model column stores the name of the file corresponding to the VR model data 136 .
  • the VR model may be generated from a moving image. In this case, instead of or in addition to the photo column, a video column is provided.
  • the moving image column stores the moving images used when creating the VR model.
  • FIG. 5 is an explanatory diagram showing an example of the speech setting DB.
  • the utterance setting DB 133 stores utterance voice settings.
  • the utterance setting DB 133 includes an engine column, a pitch column, a speed column, a language column, a gender column and a voice model column.
  • the engine column stores identification information of speech synthesis engines used for speech synthesis.
  • the pitch string stores pitches of synthesized speech.
  • the speed column stores the speed of speech.
  • the language column stores the spoken language.
  • the gender column stores the gender of the uttered voice.
  • the voice model string stores identification information (specific information) of a voice model used for voice synthesis when the voice synthesis engine has a plurality of voice models.
  • FIG. 6 is an explanatory diagram showing an example of the screen setting DB.
  • the screen setting DB 134 stores the setting of the presenter screen for displaying the avatar image.
  • the screen setting DB 134 includes a background image column, a width column, a height column, and a position column.
  • the background image column stores information about images to be displayed in the background of the avatar.
  • the background image may be a still image or a moving image. In the example shown in FIG. 6, the name of the still image or moving image file is stored in the background image string.
  • the width column stores the width of the presenter screen.
  • the height column stores the height of the presenter screen.
  • the position column stores the position where the presenter's screen is displayed in the entire screen.
  • FIG. 7 is an explanatory diagram showing an example of the transition setting DB.
  • the transition setting DB 135 stores settings when a slide transitions to the next slide.
  • the transition setting DB 135 includes delay columns and switching columns.
  • the delay column stores the interval time (hereinafter referred to as "transition interval time") from the completion of reading aloud of the uttered text of the displayed slide to the transition to the next slide.
  • the transition row memorizes the effect, the motion, when switching from the current slide to the next slide.
  • FIG. 8 is a flowchart showing an example of the procedure of main processing.
  • the control unit 11 of the playback device 1 reads the settings (step S1). Settings are stored in the basic setting DB 131 , the speech setting DB 133 , the screen setting DB 134 and the transition setting DB 135 .
  • the control unit 11 generates a setting screen based on the read settings and displays it on the display unit 16 (step S2). Since there are various setting items, they are divided into a plurality of groups, and on the setting screen, the setting contents are tabbed for each group.
  • the control unit 11 receives a user's operation input via the input unit 15 (step S3).
  • the control unit 11 determines whether or not the operation input is tab switching of the setting screen (step S4). When the control unit 11 determines that the operation input is to switch tabs of the setting screen (YES in step S4), it switches the tab to be displayed to the designated tab (step S5). When the control unit 11 determines that the operation input is not tab switching of the setting screen (NO in step S4), it determines whether the operation input is a setting input (step S6). When the control unit 11 determines that the operation input is the setting input (YES in step S6), it accepts the input (step S7). The control unit 11 returns the process to step S3. At this time, the received input contents are reflected on the setting screen.
  • control unit 11 determines whether the operation input is an end instruction (step S8).
  • control unit 11 determines that the operation input is not the end instruction (NO in step S8), it executes the command corresponding to the input (step S9), and returns the process to step S3.
  • control unit 11 determines that the operation input is an end instruction (YES in step S8), it ends the process.
  • Fig. 9 is a flow chart showing an example of the procedure of command execution processing.
  • the control unit 11 determines whether or not the command to be executed is to reproduce a slide (step S21). When the control unit 11 determines that the command to be executed is to reproduce a slide (YES in step S21), it reproduces the slide (step S22). After completing the reproduction, the control unit 11 returns the processing to the calling source.
  • the control unit 11 determines that the command to be executed is not slide reproduction (NO in step S21), it determines whether or not the command to be executed is VR model creation (step S23). When the control unit 11 determines that the command to be executed is VR model creation (YES in step S23), VR model creation is performed (step S24). After creating the model, the control unit 11 returns the process to the calling source. If the control unit 11 determines that the command to be executed is not VR model creation (NO in step S23), the process returns to the calling source.
  • FIG. 10 is a flow chart showing an example of the procedure of reproduction processing.
  • the control unit 11 determines whether or not settings required for reproduction have been completed (step S31). If the control unit 11 determines that the settings required for reproduction have not been completed (NO in step S31), it displays an error (step S41) and returns the process to the calling source. If it is determined that the necessary settings have not been completed, the presentation data to be reproduced is specified, but the presence of the data cannot be confirmed.
  • the controller 11 determines that the settings necessary for reproduction have been completed (YES in step S31)
  • it acquires the VR model data (step S32).
  • the control unit 11 acquires slide data (step S33).
  • the control unit 11 displays the slide on the display unit 16 (step S34).
  • the control unit 11 transmits the spoken text included in the slide data to the speech synthesis server 2 (step S35).
  • the speech synthesis server 2 creates read-out voice data of the spoken text, and transmits the created voice data to the reproduction device 1 .
  • the control unit 11 receives the voice data from the voice synthesis server 2 (step S36).
  • the control unit 11 outputs the moving image (step S37).
  • the control unit 11 creates an avatar moving image (person moving image) created from the VR model data, displays it on the display unit 16 , and outputs read-out voice of the uttered text from the audio output unit 17 .
  • the control unit 11 determines whether or not the reading voice has been output (step S38).
  • step S38 determines whether or not there is next slide data (step S39).
  • step S40 determines whether or not the transition interval time (predetermined time) has elapsed.
  • FIG. 11 is a flow chart showing an example of the procedure of VR model creation processing.
  • the control unit 11 of the playback device 1 acquires an image used for creating a VR model (step S51).
  • the image is a photographic image of a person's portrait.
  • the control unit 11 creates a VR model from the acquired image (step S52).
  • the control unit 11 recognizes the face in the photographic image and generates a two-dimensional or three-dimensional VR model.
  • the control unit 11 recognizes the eyes and mouth, and creates an animation as if the person is blinking or talking.
  • a well-known technique can be used to create the VR model, so a detailed description thereof will be omitted.
  • the VR model may be created using an external server or cloud service instead of the playback device 1 .
  • the control unit 11 stores the substance of the created VR model in the auxiliary storage unit 13 and the attribute data such as the name of the VR model in the model DB 132 (step S53), and returns the process to the calling source.
  • FIG. 12 is an explanatory diagram showing an example of the presentation setting screen.
  • the presentation setting screen d01 is a screen for making the minimum necessary settings for reproducing slides.
  • the presentation setting screen d01 includes a model selection menu d011, a presentation data specification field d012, a reference button d013, and a play button d014.
  • the model selection menu d011 is a pull-down menu for selecting the model of the presenter whose moving image is to be displayed.
  • the presentation data designation field d012 is for inputting the URI of the presentation data to be reproduced.
  • a file selection dialog box is displayed, and a file stored in the auxiliary storage unit 13 can be selected as presentation data to be reproduced.
  • the play button d014 is selected, slide play (slide show) is started.
  • FIG. 13 is an explanatory diagram showing an example of the model creation screen.
  • the model creation screen d02 is a screen used when creating a VR model.
  • the model creation screen d02 includes a name input field d021, a file selection button d022 and a create button d023.
  • the name of the newly created VR model is entered in the name entry field d021.
  • a file selection dialog box is displayed, and it becomes possible to select a person's photo file as the basis of the VR model.
  • the create button d023 is selected, VR data is created based on the photo file.
  • the reproducing apparatus 1 recognizes the area in which the person appears in the photograph, and sets and stores the area other than the person's area as a background image.
  • FIG. 14 is an explanatory diagram showing an example of the speech setting screen.
  • the utterance setting screen d03 is a screen for setting the reading voice of the utterance text.
  • the speech setting screen d03 includes an engine selection menu d031, a pitch input field d032, a speed input field d033, a language selection menu d034, a gender setting field d035, and a model selection menu d036.
  • the engine selection menu d031 is a pull-down menu for selecting a speech synthesis engine to be used when creating read-out speech from the spoken text.
  • the setting of the voice pitch (height) is entered in the pitch input field d032. Entering 0 creates a voice with the default pitch.
  • the speed input field d033 sets the speech speed. Entering 0 will play the audio at the default speed. Entering a positive value plays the audio at a faster speed than the default. Entering a negative value will play the audio at a slower speed than the default.
  • the language selection menu d034 is a menu for selecting the language of the voice to be created. The language you select must match the language in which the spoken text is written.
  • the gender setting field d035 sets the gender of the voice.
  • the model selection menu d036 is a pull-down menu for selecting an audio model. The voice models that can be selected from the model selection menu d036 vary depending on the settings in the engine selection menu d031, language selection menu d034, and sex setting field d035.
  • WaveNet is used to create the voice model. WaveNet is composed of a DNN (Deep Neural Network), and is capable of learning the features of a speaker's voice and synthesizing the voice.
  • FIG. 15 is an explanatory diagram showing an example of the presenter setting screen.
  • the presenter setting screen d04 is a screen for setting the presenter screen.
  • the presenter setting screen d04 includes a background selection menu d041, a width setting field d042, a height setting field d043, and a position selection menu d044.
  • the background selection menu d041 is a pull-down menu for selecting an image to be displayed as the background of the presenter on the presenter screen.
  • the width of the presentation screen is entered in the width setting field d042.
  • the height of the presenter screen is entered in the height setting field d043.
  • the units of width and height are pixels, for example.
  • the position selection menu d044 is a pull-down menu for selecting the display position of the presenter's screen.
  • the display position is a position relative to the screen on which the slide is displayed. Display position and, for example, upper right, lower right, upper left, or lower left.
  • FIG. 16 is an explanatory diagram showing an example of the slide show setting screen.
  • the slide show setting screen d05 is a screen for setting reproduction of slides.
  • the slide show setting screen d05 includes a time setting field d051.
  • the reproducing apparatus 1 finishes reproducing the reading voice of the spoken text corresponding to the displayed slide, it displays the next slide. It is possible.
  • the time setting field d051 the time from the end of playback to the display of the next slide is entered in seconds.
  • FIG. 17 is an explanatory diagram showing an example of the slide playback screen and the presenter screen.
  • the presenter screen d07 is displayed on the upper right of the slide reproduction screen d06.
  • the presenter screen d07 includes a close button d071, a volume icon d072, a progress bar d073, a play/pause icon d074, and a display page icon d075. These are displayed when the mouse pointer is moved onto the presenter's screen d07.
  • the close button d071 is selected, the slide playback is stopped and the presenter screen d07 is closed.
  • the volume icon d072 is selected, a track bar is displayed, and the volume can be adjusted by dragging the knob on the track bar.
  • the progress bar d073 displays the playback position of the slide using a track bar. By dragging the knob d0731, it is possible to return or advance the displayed slide. Also, pressing the left arrow key and the right arrow key on the keyboard can perform the same operation of switching the slide to be displayed.
  • the play/pause icon d074 pauses when selected during playback, and resumes the selected playback when paused.
  • the display page icon d075 displays the order number of the slide displayed on the slide reproduction screen d06.
  • the present embodiment has the following effects.
  • each slide is reproduced in order while outputting the reading voice of the spoken text, thereby automating the presentation. becomes possible.
  • the presenter's screen displaying the moving image of the VR model is displayed together with the slides, it is possible to give a sense of realism compared to simply viewing the moving image.
  • it is possible to pause the playback of the slides it is possible to provide supplementary explanations about matters not included in the slides or the spoken text. It is also possible to receive questions during the presentation and answer them.
  • a VR model can be created from a photograph
  • a VR model is generated from an actual presenter's photograph, and by using WaveNet, which has learned the presenter's voice, to synthesize the presenter's own video. It is possible to read aloud the spoken text (personal video) and the presenter's own voice. As a result, it is possible to give the viewer the impression that the presenter himself/herself is presenting on the spot. Since the spoken text is written in the speaker notes, it is easy to modify the content, and the modification can be immediately reflected in the presentation. Therefore, immediate response and repetition of minor corrections are easily possible.
  • Embodiment 2 This embodiment relates to a mode of translating a spoken text.
  • differences from the above-described embodiment will be mainly described.
  • a description will be given of a case where the description language of the spoken text and the language of the reading voice (output language) are different.
  • the speech text is written in Japanese, and English is selected in the language selection menu d034 on the speech setting screen d03 to make the presentation.
  • FIG. 18 is a flowchart showing another procedure example of playback processing. A part of the flowchart shown in FIG. 18 is the same as in FIG.
  • the control unit 11 determines whether or not the settings necessary for reproduction have been completed (step S61). If the control unit 11 determines that the settings necessary for reproduction have not been completed (NO in step S61), it displays an error (step S74) and returns the process to the calling source.
  • the controller 11 determines that the settings required for reproduction have been completed (YES in step S61)
  • it acquires VR model data (step S62).
  • the control unit 11 acquires slide data (step S63).
  • the control unit 11 displays the slide on the display unit 16 (step S64).
  • the control unit 11 determines the description language of the spoken text included in the slide data (step S65).
  • Step S66 determines whether or not the determined description language matches the language of the reading voice. If the control unit 11 determines that the description language does not match the language of the reading voice (NO in step S66), it translates the spoken text (step S67). The translation may be performed by the playback device 1, or may be performed using a known cloud service. The control unit 11 transmits the spoken text to the translation service site and receives the translated spoken text. If the control unit 11 determines that the description language matches the reading voice language (YES in step S66), the process proceeds to step S68.
  • the control unit 11 transmits the spoken text or the translated spoken text to the speech synthesis server 2 (step S68). Since the processing contents of steps S69 to S73 are the same as the processing contents of steps S36 to S40 shown in FIG. 10, description thereof will be omitted.
  • the language determination described above is disclosed in Nguyen Thuan Duc, "Latent Relational Web Search Engine Based on the Relational Semilarity Between Entity Pairs.”
  • the present embodiment has the following effects in addition to the effects of the above-described embodiments.
  • the presentation can be made. It is also possible to extract text data contained in the slide, translate the text data into the language of the reading voice, and display it.
  • This embodiment relates to a form of controlling a pointer of a pointing device during slide reproduction.
  • an instruction (control instruction) for controlling the pointer can be described in the spoken text.
  • the spoken text is described as follows.
  • AM Talk is a virtual presenter application that uses multimodal AI and AAL PI A technology. AM Talk can automatically play slides. Synthetic voice reads out the content of the slides and turns the pages of the slides. ⁇ script>mouse_move(PRESENWIN, CENTER) ⁇ /script> can generate the presenter's facial animation.”
  • mouse_move (argument 1, argument 2) is a command to move the pointer of the pointing device to the position specified by the argument.
  • argument 1 specifies the object contained in the displayed window or slide.
  • Argument 2 is an optional argument that further specifies the position within the display element specified by argument 1 and does not have to be specified.
  • RESENWIN indicates the presenter screen and CENTER indicates the center of the display element. Executing mouse_move(PRESENWIN, CENTER) moves the pointer to the center of the presenter screen.
  • FIG. 19 is a flowchart showing another procedure example of playback processing. A part of the flowchart shown in FIG. 19 is the same as that in FIG.
  • the control unit 11 determines whether or not settings required for reproduction have been completed (step S91). If the control unit 11 determines that the settings required for reproduction have not been completed (NO in step S91), it displays an error (step S104) and returns the process to the calling source. When the control unit 11 determines that the settings required for reproduction have been completed (YES in step S91), it acquires VR model data (step S92). The control unit 11 acquires slide data (step S93). The control unit 11 displays the slide on the display unit 16 (step S94).
  • the control unit 11 searches whether or not a script is described in the spoken text included in the slide data (step S95).
  • the control unit 11 determines whether or not the script is described in the utterance text from the search result (step S96).
  • the process proceeds to step S97. Since the processing contents of steps S97 to S102 are the same as the processing contents of steps S35 to S40 shown in FIG. 10, description thereof is omitted.
  • the control unit 11 determines that the script is described in the uttered text (YES in step S96)
  • the subroutine script is executed (step S103). The control unit 11 executes steps after step S101.
  • FIG. 20 is a flow chart showing an example of the procedure of script execution processing.
  • the control unit 11 divides the spoken text included in the slide data before and after the script (step S111).
  • the control unit 11 individually transmits the divided speech texts to the speech synthesis server 2 (step S112).
  • the control unit 11 receives voice data from the voice synthesis server 2 (step S113).
  • the control unit 11 stores a temporary data stored in the main storage unit 12 or the auxiliary storage unit 13 so that the voice data corresponding to the uttered text before the script can be distinguished from the voice data corresponding to the uttered text after the script. Stored in the order of description in the storage area. In addition, it is desirable to store data with which script execution timing can be determined in the temporary storage area.
  • the control unit 11 can execute the script during voice output.
  • the control unit 11 starts outputting the moving image (step S114).
  • the control unit 11 selects execution data (step S115).
  • the control unit 11 determines whether or not the execution data is audio data and audio output is to be performed (step S116).
  • the voice output is performed (step S117).
  • the control unit 11 determines whether or not the voice output has ended (step S118).
  • step S118 is performed again.
  • the control unit 11 determines whether or not there is processing to be executed next (step S119).
  • the processing to be executed is voice output or script execution.
  • the control unit 11 determines that there is processing to be executed next (YES in step S119)
  • the processing returns to step S115. If the control unit 11 determines that there is no process to be executed next (NO in step S119), it returns the process to the calling source. If control unit 11 determines not to output audio (NO in step S116), it executes the script (step S120), and moves the process to step S119.
  • the determinations in step S116 and step S119 can be made, for example, by referring to the array described above.
  • the present embodiment has the following effects in addition to the effects of the above-described embodiments.
  • it is possible to control the movement of the pointer of the pointing device by using a script. It is possible to enhance the effectiveness of the presentation by showing the audience the points of interest within the slides.
  • the pointer movement control of the pointing device is an example of a script, and other controls are also possible.
  • the effect of the slide is to add text to be displayed each time the mouse is clicked, instead of displaying multiple texts in the slide at once. When executing such an effect, it is possible to execute without human intervention by writing a mouse-clicking script in the spoken text and executing the script.
  • the translation function shown in the second embodiment may be provided in this embodiment.
  • a script may also emulate keyboard operations.
  • This embodiment relates to a mode of controlling a presenter using a VR model. In the following description, differences from the above-described embodiment will be mainly described. This embodiment is a form related to the third embodiment.
  • the presenter using the VR model displayed on the presenter screen moves his eyes and mouth.
  • gestures are also possible.
  • a script is written in the spoken text.
  • the gestures that the presenter makes are assumed to be, for example, a command to point in a predetermined direction and a command to return to a normal posture.
  • the predetermined direction is upper right, right up, upper left, lower left, right down, right down, and the like.
  • prstr_pose argument
  • Arguments are UR (top right), DA (top right), UL (top left), LL (bottom left), DB (bottom), LR (bottom right) and NR (normal). If the argument LL is specified, the presenter points to the lower left direction of the presenter's screen. Specifying the argument NR causes the presenter to return the pointing posture to the normal posture.
  • reproduction processing performed by the reproduction device 1 is the same as in the above-described embodiment, so description thereof will be omitted.
  • the VR model can be controlled to make the presenter perform gestures using a known technique, so the explanation is omitted.
  • FIG. 21 is an explanatory diagram showing another example of the slide playback screen and the presenter screen.
  • the presenter screen d07 is displayed at the lower center of the slide reproduction screen d06.
  • the presenter displayed on the presenter screen d07 points directly upward.
  • the presenter screen d07 of FIG. 21 the presenter has a pointing stick (pointing stick), but the pointing stick does not necessarily have to be displayed.
  • the present embodiment has the following effects in addition to the effects of the above-described embodiments.
  • the audience can be expected to pay attention to the contents of the slide.
  • step S131 determines whether or not the settings necessary for reproduction have been completed. If the control unit 11 determines that the settings necessary for reproduction have not been completed (NO in step S131), it displays an error (step S151) and returns the process to the calling source.
  • step S131 determines that the settings required for reproduction have been completed (YES in step S131)
  • step S132 acquires VR model data (step S132).
  • step S133 acquires slide data (step S133).
  • the control unit 11 searches for a moving image among the display elements included in the slide data (step S134).
  • the control unit 11 determines whether or not there is a moving image in the display element based on the search result (step S135).
  • the control unit 11 determines from the search result that there is a moving image in the display element (YES in step S135), it searches whether a script is described in the spoken text (step 136).
  • the control unit 11 determines whether or not the script is described in the utterance text from the search result (step S137).
  • the control unit 11 determines that the script is not described in the spoken text (NO in step S137)
  • it displays the slide and starts playing the moving image which is the display element (step S138).
  • the control unit 11 activates a moving image reproduction application and reproduces moving images as necessary. At this time, it is desirable to minimize the slide playback screen and the presenter screen and display the video playback screen in full screen.
  • the control unit 11 determines whether or not the moving image reproduction has ended (step S139). When the control unit 11 determines that the moving image reproduction has not ended (NO in step S139), it executes step S119 again. When the control unit 11 determines that the moving image reproduction has ended (YES in step S139), the screen display state is returned to the state before the moving image reproduction, and the process proceeds to step S149 (FIG. 23). It should be noted that, if NO is determined in step S137, it is assumed that the speech text is not written. Even if something is written in the spoken text, the content is ignored and the reading voice is not output. This is because the control unit 11 cannot determine the timing of reproducing the moving image if the spoken text does not include a script.
  • step S141 When the control unit 11 determines that a script is described in the spoken text (YES in step S137), the control unit 11 displays the slide on the display unit 16 (step S140). The control unit 11 executes a subroutine/script (step S141).
  • the script described in the spoken text contains a command for reproducing a moving image. If the spoken text does not include an instruction to play the video, the video is not played. Also, in the script execution process, when an instruction to reproduce a moving image is executed, the instruction does not complete the processing until the reproduction of the moving image is completed. When the video playback is completed, the process is completed. After executing the subroutine/script, the control unit 11 shifts the process to step S149.
  • control unit 11 determines from the search result that there is no moving image in the display element (NO in step S135), the control unit 11 searches for a script written in the spoken text included in the slide data (step S142). The control unit 11 determines whether or not the script is described in the utterance text from the search result (step S143). When the control unit 11 determines that the script is not described in the spoken text (NO in step S143), it transmits the spoken text to the speech synthesis server 2 (step S144). The control unit 11 receives the voice data from the voice synthesis server 2 (step S145). The control unit 11 displays the slide on the display unit 16 (step S146). The control unit 11 shifts the process to step S147 (FIG. 23).
  • the control unit 11 outputs the presenter moving image (step S147). Steps S148 to S150 are the same as steps S38 to S40 in FIG. 10, so description thereof will be omitted.
  • the control unit 11 determines that a script is described in the uttered text (YES in step S143), the process proceeds to step S140.
  • the present embodiment has the following effects in addition to the effects of the above-described embodiments. Since it is possible to execute other applications while the slide is being reproduced, it is possible to enrich the content of the presentation. If other applications can also execute the script, if the script is executed in the other application as well, the operations that can be performed in the slide playback will be diversified, making it possible to further enhance the content of the presentation.
  • the moving image can be played using or via an Internet browser.
  • the script controls the position of the mouse pointer and clicks, the video will be paused, the spoken text will be read aloud, and the audio will be output. Operations such as resuming playback are also possible.
  • FIG. 24 is a flowchart showing another procedure example of playback processing.
  • FIG. 24 shows addition of new processing to the reproduction processing shown in FIG.
  • the control unit 11 determines whether or not the slide data includes the presenter's notes (step S161).
  • the control unit 11 determines that the slide data includes the presenter's notes (YES in step S161)
  • the process proceeds to step S35 in FIG.
  • the control unit 11 determines that the presenter's notes are not included in the slide data (NO in step S161), it searches for a text object among the objects forming the slide (step S162).
  • the control unit 11 determines whether or not there is a text object (step S163).
  • control unit 11 determines that there is a text object (YES in step S163), it creates an utterance text from the text of the text object (step S164). For example, when an itemized text is obtained, add particles, auxiliary verbs, etc., create sentences, and use it as an utterance text.
  • the control unit 11 shifts the process to step S35 in FIG.
  • character recognition is performed on the image object (step S165). For example, OCR (Optical Character Recognition) technology is used.
  • the control unit 11 determines whether or not characters are obtained as a result of the recognition processing (step S166).
  • step S166 When the control unit 11 determines that a character has been obtained (YES in step S166), the process proceeds to step S164.
  • the control unit 11 determines that no characters have been obtained (NO in step S166), it selects an image object included in the slide data, generates a caption describing the image (step S167), and proceeds to the step of FIG. Move to S35.
  • An image caption automatic generation AI is used to generate captions.
  • image caption automatic generation AI uses a deep learning model that combines CNN (Convolutional Neural Network) and LSTM (Long Short Term Memory). The learning model performs learning in the following procedure. The feature amount of the image is extracted by the trained CNN. The LSTM is used to extract the feature quantity of the text. Combine CNN and LSTM features.
  • the learning model Predict the next word with the Softmax function.
  • the learning model Predict the next word with the Softmax function.
  • the learning model generates captions for the images. Train the learning model so that the captions generated by the learning model are closer to the correct captions.
  • inputting an image into the CNN and inputting a sentence start symbol into the LSTM can generate captions.
  • Embodiment 1 An example of modifying the reproduction processing of Embodiment 1 was described, but the present invention is not limited to this. It is also possible to modify the playback process of other embodiments.
  • the present embodiment has the following effects in addition to the effects of the above-described embodiments. It is possible to automate the presentation by the presenter using the VR model without preparing the presenter's notes.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

音声合成を用いたプレゼンテーションにおいて、より臨場感を出すことが可能なスライド再生プログラム等を提供すること。スライド再生プログラムは、発話テキストと表示要素とを含むスライドデータを複数含むプレゼンテーションデータを取得し、複数の前記スライドデータそれぞれに含む前記表示要素を所定の順番で出力するとともに、出力している前記スライドデータに含む前記発話テキストの読み上げ音声を、人物動画を付して出力する処理をコンピュータに行わせる。

Description

スライド再生プログラム、スライド再生装置及びスライド再生方法
 本発明は、プレゼンテーションデータに含まれる複数のスライドを順次表示出力するスライド再生プログラム等に関する。
 近年、商談などにおいて、表示装置に画像を表示し、この画像を順次切り替えながら商材の説明することが行われている。表示される各画像をスライドと呼び、複数のスライドをまとめたものはプレゼンテーションデータと呼ばれている。
 また、音声合成技術を利用したプレゼンテーション装置が提案されている(特許文献1)。特許文献1に記載のプレゼンテーション装置は、スライドの切り替えと同期して、音声合成でテキストデータの読み上げを自動的に行う。
特開2001−5476号公報
 しかしながら、音声のみでは臨場感に欠け、聴取者は内容を理解しにくくなる場合がある。本発明はこのような状況に鑑みてなされたものである。その目的は、音声合成を用いたプレゼンテーションにおいて、より臨場感を出すことが可能なスライド再生プログラム等を提供することである。
 本願の一態様に係るスライド再生プログラムは、発話テキストと表示要素とを含むスライドデータを複数含むプレゼンテーションデータを取得し、複数の前記スライドデータそれぞれに含む前記表示要素を所定の順番で出力するとともに、出力している前記スライドデータに含む前記発話テキストの読み上げ音声を、人物動画を付して出力する処理をコンピュータに行わせることを特徴とする。
 本願の一観点によれば、人物が話しをしている人物動画を表示することにより、臨場感のあるプレゼンテーションが可能となる。
プレゼンテーションシステムの構成例を示す説明図である。 再生装置のハードウェア構成例を示すブロック図である。 基本設定DBの例を示す説明図である。 モデルDBの例を示す説明図である。 発話設定DBの例を示す説明図である。 画面設定DBの例を示す説明図である。 遷移設定DBの例を示す説明図である。 メイン処理の手順例を示すフローチャートである。 コマンド実行処理の手順例を示すフローチャートである。 再生処理の手順例を示すフローチャートである。 VRモデル作成処理の手順例を示すフローチャートである。 発表設定画面の例を示す説明図である。 モデル作成画面の例を示す説明図である。 発話設定画面の例を示す説明図である。 発表者設定画面の例を示す説明図である。 スライドショー設定画面の例を示す説明図である。 スライド再生画面及び発表者画面の例を示す説明図である。 再生処理の他の手順例を示すフローチャートである。 再生処理の他の手順例を示すフローチャートである。 スクリプト実行処理の手順例を示すフローチャートである。 スライド再生画面及び発表者画面の他の例を示す説明図である。 再生処理の他の手順例を示すフローチャートである。 再生処理の他の手順例を示すフローチャートである。 再生処理の他の手順例を示すフローチャートである。
(実施の形態1)
 以下実施の形態を、図面を参照して説明する。以下の説明におけるプレゼンテーションデータについて述べる。プレゼンテーションデータは複数のスライドを含む。スライドは、コンピュータのディスプレイに表示したり、プロジェクターで投影したりするためのプレゼンテーションソフト用の表示データをいう。スライドはオブジェクト(表示要素)を含む。オブジェクトはテキスト、図形、動画、表、グラフ等である。オブジェクトは属性として、大きさ、位置、傾きを有する。スライドには、プロジェクターで投影する際には表示されない、テキスト(発話テキスト)を含めることが可能である。当該テキストは、スピーカーノート、発表者ノート、単にノートともいう。スピーカーノートはプロジェクターで投影する画像には含まれないが、プレゼンテーションソフトを実行するコンピュータのディスプレイには表示可能である。
 図1はプレゼンテーションシステムの構成例を示す説明図である。プレゼンテーションシステム100は再生装置1及び音声合成サーバ2を含む。再生装置1及び音声合成サーバ2はネットワークNにより、互いに通信可能に接続されている。図1において、再生装置1は1台のみ記載しているが、2台以上でもよい。図1では、再生装置Kも再生装置1と同様であり、その中身の処理概念図を示す。再生装置1、再生装置Kは共に再生装置と呼ぶ。また、再生装置1をプロジェクターに接続しても良い(例えば、USBケーブル、若しくは、VGAケーブル等による有線接続、又は、Wifi若しくはBluetooth(登録商標)などによる無線接続を行なう)。その場合、後述する再生装置1の表示部のデータをプロジェクターに送信する。プロジェクターからの出力をスクリーン等に投影し、画像を表示させることになる。
 再生装置1はユーザがプレゼンテーションに用いる装置である。再生装置1はノートパソコン、パネルコンピュータ、タブレットコンピュータ、スマートフォン等で構成する。再生装置1の論理的な処理は再生装置Kで示す。再生装置1は後述のハードウェア構成で、プレゼンテーションデータK1、VR(Virtual Reality:バーチャルリアリティー)モデルDBK2、設定データK3を保持している。本願における一つの実施形態のスライド再生プログラムK4はこれらのデータを読み込み、発表者ノートのテキストを音声合成サーバ2に送信し、音声合成結果を得る。更に、スライドデータからスライド再生プログラムK4(例えば、Microsoft PowerPoint,Googleプレゼンテーションなど)でスライドを表示し、VRエンジンでVRアバターK6を表示させる。スライド再生プログラムK4はスライド表示K5、VRアバターK6及び音声合成結果K7を表示、再生する。また、スライド再生プログラムK4はスライド表示、音声合成結果の再生、アバター表示と同時に、スライドのページ遷移の制御も自動的に行い、これらの要素の表示、再生を同期化する。音声合成サーバ2は音声合成エンジンを備える。音声合成サーバ2は再生装置1からテキストデータを受け付け、音声合成モデルを用いて受け付けたテキストを読み上げる音声を合成し、音声データを再生装置1へ返信する。音声合成サーバ2はサーバコンピュータ、ワークステーション等で構成する。また、音声合成サーバ2を複数のコンピュータからなるマルチコンピュータ、ソフトウェアによって仮想的に構築された仮想マシン又は量子コンピュータで構成してもよい。さらに、音声合成サーバ2の機能をクラウドサービスで実現してもよい。
 図2は再生装置のハードウェア構成例を示すブロック図である。再生装置1は制御部11、主記憶部12、補助記憶部13、通信部14、入力部15、表示部16、音声出力部17及び読み取り部18を含む。制御部11、主記憶部12、補助記憶部13、通信部14、入力部15、表示部16、音声出力部17及び読み取り部18はバスBにより接続されている。
 制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro−Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有する。制御部11は、補助記憶部13に記憶された制御プログラム1P(スライド再生プログラム、プログラム製品)を読み出して実行することにより、再生装置1に係る種々の情報処理、制御処理等を行い、取得部及び出力部等の機能部を実現する。
 主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等である。主記憶部12は主として制御部11が演算処理を実行するために必要なデータを一時的に記憶する。
 補助記憶部13はハードディスク又はSSD(Solid State Drive)等であり、制御部11が処理を実行するために必要な制御プログラム1Pや各種DB(Database)を記憶する。補助記憶部13は、基本設定DB131、モデルDB132、発話設定DB133、画面設定DB134及び遷移設定DB135、VRモデルデータ136、並びに、プレゼンテーションデータ137を記憶する。補助記憶部13は再生装置1に接続された外部記憶装置であってもよい。補助記憶部13に記憶する各種DB等を、再生装置1とは異なるデータベースサーバやクラウドストレージに記憶してもよい。一方、基本設定DB131、モデルDB132、発話設定DB133、画面設定DB134及び遷移設定DB135が記憶する内容を、まとめて一つのファイルとして、補助記憶部13に記憶してもよい。
 通信部14はネットワークNを介して、音声合成サーバ2と通信を行う。また、制御部11が通信部14を用い、ネットワークN等を介して他のコンピュータから制御プログラム1Pをダウンロードし、補助記憶部13に記憶してもよい。
 入力部15はキーボードやマウス等を含む。表示部16は液晶表示パネル等を含む。表示部16はプレゼンテーションデータ137を構成するスライドなどを表示する。また、入力部15と表示部16とを一体化し、タッチパネルディスプレイを構成してもよい。さらに、再生装置1は外部の表示装置に表示を行ってもよい。
 音声出力部17は音声スピーカを含む。音声出力部17はデジタル音声データをアナログ音声信号に変換し、スピーカから出力する。
 読み取り部18はCD(Compact Disc)−ROM及びDVD(Digital Versatile Disc)−ROMを含む可搬型記憶媒体1aを読み取る。制御部11が読み取り部18を介して、制御プログラム1Pを可搬型記憶媒体1aより読み取り、補助記憶部13に記憶してもよい。また、半導体メモリ1bから、制御部11が制御プログラム1Pを読み込んでもよい。
 次にデータベースについて説明する。図3は基本設定DBの例を示す説明図である。基本設定DB131はスライド再生に関する基本設定を記憶する。基本設定DB131はモデルID列及びURI列を含む。モデルID列は発表者として表示されるVRモデルのIDを記憶する。URI列はプレゼンテーションデータのURI(Uniform Resource Identifier)を記憶する。
 図4はモデルDBの例を示す説明図である。モデルDB132は発表者として表示されるVRモデルの情報を記憶する。モデルDB132はモデルID列、名称列、写真列及びモデル列を含む。モデルID列はVRモデルを一意に特定するモデルIDを記憶する。モデルIDはモデルDB132の主キーであり、上述の基本設定DB131のモデルID列は、外部キーとしてモデルIDを記憶する。名称列はVRモデルの名称を記憶する。写真列はVRモデルを作成する際に用いた静止画像を記憶する。予め用意されているVRモデルなどの場合、写真列は静止画像を記憶しなくともよい。モデル列はVRモデルの実体についての情報を記憶する。図4に示す例ではVRモデルデータ136に相当するファイルの名称を、モデル列は記憶している。なお、VRモデルは動画より生成してもよい。この場合、写真列に替えて又は加えて、動画列を設ける。動画列はVRモデルを作成する際に用いた動画像を記憶する。
 図5は発話設定DBの例を示す説明図である。発話設定DB133は発話音声の設定を記憶する。発話設定DB133はエンジン列、ピッチ列、速さ列、言語列、性別列及び声モデル列を含む。エンジン列は音声合成に用いる音声合成エンジンの識別情報を記憶する。ピッチ列は合成音声の音程を記憶する。速さ列は発話の速度を記憶する。言語列は発話する言語を記憶する。性別列は発話音声の性別を記憶する。声モデル列は音声合成エンジンが複数の音声モデルを備えている場合、音声合成に用いる音声モデルの識別情報(特定情報)を記憶する。
 図6は画面設定DBの例を示す説明図である。画面設定DB134はアバター画像を表示する発表者画面の設定を記憶する。画面設定DB134は背景画像列、幅列、高さ列、位置列を含む。背景画像列はアバターの背景に表示する画像の情報を記憶する。背景の画像は静止画像でも動画像でもよい。図6に示す例では静止画像または動画画像ファイルの名称を、背景画像列は記憶する。幅列は発表者画面の幅を記憶する。高さ列は発表者画面の高さを記憶する。位置列は画面全体の中で、発表者画面を表示する位置を記憶する。
 図7は遷移設定DBの例を示す説明図である。遷移設定DB135はスライドが次のスライドに遷移する際の設定を記憶する。遷移設定DB135はディレイ列及び切り替え列を含む。ディレイ列は表示しているスライドの発話テキストの音声読み上げが完了してから、次のスライドに遷移するまでの間隔時間(以下、「遷移間隔時間」という。)を記憶する。切り替え列は現在のスライドから次のスライドに切り替える際の効果、モーションを記憶する。
 次に、プレゼンテーションシステム100で行われる処理について説明する。図8はメイン処理の手順例を示すフローチャートである。再生装置1の制御部11は設定を読み込む(ステップS1)。設定は、基本設定DB131、発話設定DB133、画面設定DB134及び遷移設定DB135に記憶されている。制御部11は読み込んだ設定に基づく設定画面を生成し、表示部16に表示する(ステップS2)。設定項目は種々あるため、複数グループに分けられており、設定画面では、設定内容をグループ毎にタブ表示している。制御部11は入力部15を介して、ユーザの操作入力を受け付ける(ステップS3)。制御部11は操作入力が設定画面のタブ切り替えであるか否かを判定する(ステップS4)。制御部11は操作入力が設定画面のタブ切り替えであると判定した場合(ステップS4でYES)、表示するタブを指定されたタブに切り替える(ステップS5)。制御部11は操作入力が設定画面のタブ切り替えでないと判定した場合(ステップS4でNO)、操作入力が設定の入力であるか否かを判定する(ステップS6)。制御部11は操作入力が設定の入力であると判定した場合(ステップS6でYES)、入力を受け付ける(ステップS7)。制御部11は処理をステップS3へ戻す。この際、受け付けた入力内容が設定画面に反映される。制御部11は操作入力が設定の入力でないと判定した場合(ステップS6でNO)、操作入力が終了指示であるか否かを判定する(ステップS8)。制御部11は操作入力が終了指示でないと判定した場合(ステップS8でNO)、入力に応じたコマンドを実行し(ステップS9)、処理をステップS3へ戻す。制御部11は操作入力が終了指示であると判定した場合(ステップS8でYES)、処理を終了する。
 図9はコマンド実行処理の手順例を示すフローチャートである。制御部11は実行するコマンドがスライドの再生であるか否かを判定する(ステップS21)。制御部11は実行するコマンドがスライドの再生であると判定した場合(ステップS21でYES)、スライドの再生を行う(ステップS22)。再生完了後、制御部11は処理を呼び出し元へ戻す。制御部11は実行するコマンドがスライドの再生でないと判定した(ステップS21でNO)、実行するコマンドがVRモデル作成であるか否かを判定する(ステップS23)。制御部11は実行するコマンドがVRモデル作成であると判定した場合(ステップS23でYES)、VRモデル作成を行う(ステップS24)。モデル作成後、制御部11は処理を呼び出し元へ戻す。制御部11は実行するコマンドがVRモデル作成でないと判定した場合(ステップS23でNO)、処理を呼び出し元へ戻す。
 図10は再生処理の手順例を示すフローチャートである。制御部11は再生に必要な設定が済みであるか否かを判定する(ステップS31)。制御部11は再生に必要な設定が済みでないと判定した場合(ステップS31でNO)、エラー表示を行い(ステップS41)、処理を呼び出し元へ戻す。必要な設定が済みでないと判定する場合には、再生するプレゼンテーションデータが指定されているが、当該データの存在を確認できない場合も含む。制御部11は再生に必要な設定が済みであると判定した場合(ステップS31でYES)、VRモデルデータを取得する(ステップS32)。制御部11はスライドデータを取得する(ステップS33)。制御部11はスライドを表示部16に表示する(ステップS34)。制御部11はスライドデータに含まれる発話テキストを、音声合成サーバ2へ送信する(ステップS35)。音声合成サーバ2は発話テキストの読み上げ音声のデータを作成し、作成した音声データを再生装置1へ送信する。制御部11は音声データを音声合成サーバ2から受信する(ステップS36)。制御部11は動画を出力する(ステップS37)。制御部11はVRモデルデータより作成したアバターの動画(人物動画)を作成し、表示部16に表示するとともに、発話テキストの読み上げ音声を音声出力部17から出力する。制御部11は読み上げ音声の出力が終了したか否かを判定する(ステップS38)。制御部11は読み上げ音声の出力が終了していないと判定した場合(ステップS38でNO)、ステップS38を再度、実行する。制御部11は読み上げ音声の出力が終了したと判定した場合(ステップS38でYES)、次のスライドデータがあるか否かを判定する(ステップS39)。制御部11は次のスライドデータがあると判定した場合(ステップS39でYES)、遷移間隔時間(所定時間)が経過した否かを判定する(ステップS40)。制御部11は遷移間隔時間が経過していないと判定した場合(ステップS40でNO)、ステップS40を再度、実行する。制御部11は遷移間隔時間が経過したと判定した場合(ステップS40でYES)、処理をステップS33へ戻す。制御部11は次のスライドデータがないと判定した場合(ステップS39でNO)、処理を呼び出し元へ戻す。
 図11はVRモデル作成処理の手順例を示すフローチャートである。再生装置1の制御部11はVRモデル作成に用いる画像を取得する(ステップS51)。画像は人物のポートレートの写真画像である。制御部11は取得した画像からVRモデルの作成を行う(ステップS52)。制御部11は、写真画像内の顔を認識し、2次元または3次元のVRモデルを生成する。制御部11は目、口を認識、まばたきや話しをしているかのようなアニメーションを作成する。VRモデルの作成は、公知技術を用いることが可能であるので、詳細な説明は省略する。VRモデルの作成は再生装置1ではなく、外部サーバやクラウドサービスを利用して行ってもよい。制御部11は作成したVRモデルの実体を補助記憶部13に、VRモデルの名称等の属性データをモデルDB132に記憶し(ステップS53)、処理を呼び出し元へ戻す。
 続いて、再生装置1が表示部16に表示する画面の例について説明する。図12は発表設定画面の例を示す説明図である。発表設定画面d01はスライドの再生を行うに当たり、最低限必要な設定を行う画面である。発表設定画面d01はモデル選択メニューd011、プレゼンデータ指定欄d012、参照ボタンd013及び再生ボタンd014を含む。モデル選択メニューd011は、動画表示する発表者のモデルを選択するプルダウンメニューである。プレゼンデータ指定欄d012は再生するプレゼンテーションデータのURIを入力する。参照ボタンd013を選択すると、ファイル選択のダイアログボックスが表示され、再生するプレゼンテーションデータとして、補助記憶部13に記憶しているファイルを選択可能である。再生ボタンd014を選択するとスライドの再生(スライドショー)を開始する。
 図13はモデル作成画面の例を示す説明図である。モデル作成画面d02はVRモデルを作成する際に使用する画面である。モデル作成画面d02は名称入力欄d021、ファイル選択ボタンd022及び作成ボタンd023を含む。名称入力欄d021には、新たに作成するVRモデルの名称を入力する。ファイル選択ボタンd022を選択すると、ファイル選択のダイアログボックスが表示され、VRモデルの基となる人物の写真ファイルを選択することが可能となる。作成ボタンd023を選択すると、写真ファイルを基にVRデータが作成される。この際、再生装置1は写真内で人が写っている領域を認識して、人の領域以外は、背景画像として設定し、記憶する。
 図14は発話設定画面の例を示す説明図である。発話設定画面d03は発話テキストの読み上げ音声についての設定を行う画面である。発話設定画面d03はエンジン選択メニューd031、ピッチ入力欄d032、速度入力欄d033、言語選択メニューd034、性別設定欄d035及びモデル選択メニューd036を含む。エンジン選択メニューd031は発話テキストから読み上げ音声を作成する際に、利用する音声合成エンジンを選択するプルダウンメニューである。ピッチ入力欄d032には音声のピッチ(高さ)の設定を入力する。0を入力すると既定の声の高さで音声が作成される。正の値を入力すると既定よりも高い声の高さで音声が作成される。負の値を入力すると既定よりも低い声の高さで音声が作成される。速度入力欄d033は発話の速度設定を行う。0を入力すると既定の速度で、音声が再生される。正の値を入力すると既定よりも速い速度で音声が再生される。負の値を入力すると既定よりも遅い速度で音声が再生される。言語選択メニューd034は作成する音声の言語を選択メニューである。選択する言語は発話テキストが記述されている言語と一致する必要がある。性別設定欄d035は音声の性別を設定する。モデル選択メニューd036は音声のモデルを選択するプルダウンメニューである。モデル選択メニューd036により選択可能な音声のモデルは、エンジン選択メニューd031、言語選択メニューd034及び性別設定欄d035の設定によって、変動する。
 なお、音声のモデルとして、発表する人間の声のモデルを音声合成エンジンに登録しておけば、発表者自身の声が利用可能となる。この場合、発話設定DB133の声モデル列に氏名等の識別情報(話者識別情報)を記憶する。声のモデルの作成は、例えば、WaveNetを利用する。WaveNetはDNN(Deep Neural Network)により構成され、話者の声の特徴を学習し、音声を合成することが可能である。
 図15は発表者設定画面の例を示す説明図である。発表者設定画面d04は発表者画面の設定を行う画面である。発表者設定画面d04は背景選択メニューd041、幅設定欄d042、高さ設定欄d043及び位置選択メニューd044を含む。背景選択メニューd041は発表者画面において、発表者の背景として表示する画像を選択するプルダウンメニューである。幅設定欄d042には発表画面の幅を入力する。高さ設定欄d043には発表者画面の高さを入力する。幅、高さの単位は例えばピクセルである。位置選択メニューd044は発表者画面の表示位置を選択するプルダウンメニューである。表示位置は、スライドを表示する画面を基準とした相対的な位置である。表示位置と例えば、右上、右下、左上又は左下である。
 図16はスライドショー設定画面の例を示す説明図である。スライドショー設定画面d05はスライドの再生設定を行う画面である。スライドショー設定画面d05は時間設定欄d051を含む。再生装置1は表示しているスライドに対応する発話テキストの読み上げ音声の再生が終わると、次のスライドを表示するが、音声の再生終了後から次のスライドを表示するまでに時間を置くことが可能である。時間設定欄d051には、再生終了後から次のスライドを表示するまでの時間を秒単位で入力する。
 図17はスライド再生画面及び発表者画面の例を示す説明図である。図17では、スライド再生画面d06の右上に発表者画面d07を表示している。発表者画面d07は閉じるボタンd071、音量アイコンd072、進行バーd073、再生/一時停止アイコンd074及び表示頁アイコンd075を含む。これらはマウスポインタを発表者画面d07上に移動させた場合に表示される。閉じるボタンd071を選択すると、スライドの再生は停止され、発表者画面d07は閉じられる。音量アイコンd072を選択すると、トラックバーが表示され、トラックバーのつまみをドラッグすることより、音量を調整可能である。進行バーd073はスライドの再生位置をトラックバーにより表示する。つまみd0731をドラッグすることより、表示するスライドを戻したり、先へ進めたりすることが可能である。また、キーボードの左矢印キー、右矢印キーを押しても、表示するスライドを切り替える同様の操作が可能である。再生/一時停止アイコンd074は再生時に選択すると一時停止し、一時停止時に選択する再生を再開する。表示頁アイコンd075はスライド再生画面d06に表示しているスライドの順番号を表示する。
 本実施の形態は以下の効果を奏する。本実施の形態においては、プレゼンテーションデータを構成する各スライドデータに発話テキストを設定しておくことにより、発話テキストの読み上げ音声を出力しながら各スライドを順に再生するので、発表(プレゼンテーション)を自動化することが可能となる。また、VRモデルの動画を表示する発表者画面をスライドと共に表示するので、単に動画を視聴する場合に比べて、臨場感を与えることが可能となる。また、スライドの再生を一時停止することが可能であるので、スライドや発話テキストには含まれていない事柄について、補足説明が可能である。また、プレゼンテーション中に質問を受け付けて、回答することも可能である。さらに、VRモデルは写真から作成可能であるので、VRモデルを実際の発表者の写真から生成し、発表者の声を学習したWaveNetを用いて、音声合成を行うことにより、発表者自身の動画(人物動画)と発表者自身の声による発話テキストの読み上げが可能となる。それにより、発表者自身がその場で発表しているかのような印象を視聴者に与えることが可能となる。そして、発話テキストはスピーカーノートに記述するので、内容の修正が容易であり、修正をしたらすぐに発表に反映することが可能である。そのため、即座の対応や微修正の繰り返しが容易に可能となる。
(実施の形態2)
 本実施の形態は発話テキストの翻訳を行う形態に関する。以下の説明において、上述の実施の形態と異なる点を主に説明する。本実施の形態では、発話テキストの記述言語と読み上げ音声の言語(出力言語)とが異なる場合について述べる。本実施の形態は、例えば、発話テキストが日本語で記述し、発話設定画面d03において、言語選択メニューd034で英語を選択して、発表を行う。
 図18は再生処理の他の手順例を示すフローチャートである。図18に示すフローチャートの一部は、図10と同様である。制御部11は再生に必要な設定が済みであるか否かを判定する(ステップS61)。制御部11は再生に必要な設定が済みでないと判定した場合(ステップS61でNO)、エラー表示を行い(ステップS74)、処理を呼び出し元へ戻す。制御部11は再生に必要な設定が済みであると判定した場合(ステップS61でYES)、VRモデルデータを取得する(ステップS62)。制御部11はスライドデータを取得する(ステップS63)。制御部11はスライドを表示部16に表示する(ステップS64)。制御部11はスライドデータに含まれる発話テキストの記述言語を判定する(ステップS65)。言語の判定は周知技術により可能である。例えば、言語の判定はその言語における文字数を数えて、割合を計算するなどの手法があるが、公知の技術であるので説明を省略する。制御部11は判定した記述言語が読み上げ音声の言語と一致するか否かを判定する(ステップS66)。制御部11は記述言語が読み上げ音声の言語と一致しないと判定した場合(ステップS66でNO)、発話テキストの翻訳を行う(ステップS67)。翻訳は再生装置1が行ってもよいが、公知のクラウドサービスを用いて行ってもよい。制御部11は発話テキストを翻訳サービスサイトに送信し、翻訳された発話テキストを受信する。制御部11は記述言語が読み上げ音声の言語と一致すると判定した場合(ステップS66でYES)、ステップS68へ処理を進める。制御部11は発話テキスト又は翻訳された発話テキストを、音声合成サーバ2へ送信する(ステップS68)。ステップS69からS73の処理内容は、図10に示したステップS36からS40の処理内容と同様であるから、説明を省略する。なお、上述した、言語の判定については、グェン トアン ドゥク,“Latent Relational Web Search Engine Based on the Relational Semilarity between Entity Pairs.”,2012年,東京大学,博士論文甲28480等に開示されている。
 本実施の形態は上述の実施の形態が奏する効果に加えて、以下の効果を奏する。本実施の形態では、発話テキストの記述言語と読み上げ音声の言語とが異なる場合であっても、発表が可能となる。なお、スライドに含まれるテキストデータを抽出し、当該テキストデータを読み上げ音声の言語へ翻訳して表示してもよい。
(実施の形態3)
 本実施の形態はスライド再生中にポインティングデバイスのポインタの制御を行う形態に関する。以下の説明において、上述の実施の形態と異なる点を主に説明する。本実施の形態において、発話テキスト内にポインタの制御を行うための命令(制御命令)を記述可能とする。例えば、発話テキストを以下のように記述する。
 「AMトークはマルチモーダルAIと、アアル・ピイ・エイの技術を利用するバーチャルプレゼンターのアプリケーションです。AMトークはスライドを自動的に再生できます。合成音声でスライドの内容を読み上げ、スライドのページ送りを自動的に制御します。<script>mouse_move(PRESENWIN,CENTER)</script>発表者の顔アニメーションを生成できます。」
 <script>はスクリプトが始まることを示し、</script>はスクリプトが終わることを示す。関数mouse_move(引数1,引数2)はポインティングデバイスのポインタを引数でしてした位置を移動させるコマンドである。例えば、引数1は表示されているウィンドウやスライドに含まれるオブジェクトを指定する。引数2は引数1で指定した表示要素内での位置をさらに指定するオプショナル引数であり指定しなくともよい。上述の例では、RESENWINは発表者画面を示し、CENTERは表示要素の中心を示す。mouse_move(PRESENWIN,CENTER)を実行すると、ポインタが発表者画面の中心に移動する。
 図19は再生処理の他の手順例を示すフローチャートである。図19に示すフローチャートの一部は、図10と同様である。制御部11は再生に必要な設定が済みであるか否かを判定する(ステップS91)。制御部11は再生に必要な設定が済みでないと判定した場合(ステップS91でNO)、エラー表示を行い(ステップS104)、処理を呼び出し元へ戻す。制御部11は再生に必要な設定が済みであると判定した場合(ステップS91でYES)、VRモデルデータを取得する(ステップS92)。制御部11はスライドデータを取得する(ステップS93)。制御部11はスライドを表示部16に表示する(ステップS94)。制御部11はスライドデータに含まれる発話テキストにスクリプトが記述されていないか探索する(ステップS95)。制御部11は探索結果からスクリプトが発話テキストにスクリプトが記述されているか否かを判定する(ステップS96)。制御部11は発話テキストにスクリプトが記述されていないと判定した場合(ステップS96でNO)、処理をステップS97へ進める。ステップS97からS102の処理内容は、図10に示したステップS35からS40の処理内容と同様であるから、説明を省略する。制御部11は発話テキストにスクリプトが記述されていると判定した場合(ステップS96でYES)、サブルーチン・スクリプト実行を行う(ステップS103)。制御部11はステップS101以降を実行する。
 図20はスクリプト実行処理の手順例を示すフローチャートである。制御部11はスライドデータに含まれる発話テキストをスクリプトの前後で分割する(ステップS111)。制御部11は分割した発話テキストを個別に音声合成サーバ2へ送信する(ステップS112)。制御部11は音声合成サーバ2から音声データを受信する(ステップS113)。この際、制御部11はスクリプト前の発話テキストに対応する音声データと、スクリプト後の発話テキストに対応する音声データとを判別可能なように、主記憶部12又は補助記憶部13に設けた一時記憶領域に記載順に記憶する。また、スクリプトの実行タイミングが判定可能なデータも一時記憶領域に記憶しておくことが望ましい。例えば、「TEXT1,SCRIPT1,TEXT2」という配列を記憶しておく。TEXT1はスクリプト前の発話テキストを、TEXT2はスクリプト後の発話テキストを、SCRIPT1はスクリプトを示す。当該配列を参照することにより、制御部11は音声出力の途中に、スクリプトの実行を行うことが可能である。制御部11は動画出力を開始する(ステップS114)。制御部11は実行データを選択する(ステップS115)。制御部11は実行データが音声データであり、音声出力を行うか否かを判定する(ステップS116)。制御部11は音声出力を行うと判定した場合(ステップS116でYES)、音声出力を行う(ステップS117)。制御部11は音声出力が終了したか否かを判定する(ステップS118)。制御部11は音声出力が終了してないと判定した場合(ステップS118でNO)、ステップS118を再度行う。制御部11は音声出力が終了したと判定した場合(ステップS118でYES)、次に実行すべき処理があるか否かを判定する(ステップS119)。実行すべき処理は、音声出力又はスクリプト実行である。制御部11は次に実行すべき処理があると判定した場合(ステップS119でYES)、処理をステップS115へ戻す。制御部11は次に実行すべき処理がないと判定した場合(ステップS119でNO)、処理を呼び出し元へ戻す。制御部11は音声出力を行なわないと判定した場合(ステップS116でNO)、スクリプトを実行し(ステップS120)、処理をステップS119へ移す。ステップS116やステップS119の判定は、例えば、上述した配列を参照することにより可能である。
 再生処理により、上述の発話テキストでは、まず、「AMトークはマルチモーダルAIと、…スライドのページ送りを自動的に制御します。」の読み上げ音声が出力される。次にスクリプトが実行され、ポインティングデバイスのポインタが、発表者画面の中心に移動する。そして「発表者の顔アニメーションを生成できます。」の読み上げ音声が出力される。
 本実施の形態は上述の実施の形態が奏する効果に加えて、以下の効果を奏する。本実施の形態においては、スクリプトにより、ポインティングデバイスのポインタ移動等の制御が可能となる。スライド内で注目すべき箇所を視聴者に示すので、発表の効果を高めることが可能となる。なお、ポインティングデバイスのポインタ移動制御は、スクリプトの一例であり、他の制御も可能である。例えば、スライドの効果として、スライド内の複数テキストを一気に表示するのではなく、マウスクリックする毎に、表示するテキストを追加する効果がある。このような効果を実行する場合、発話テキストの中に、マウスクリックするスクリプトを記述し、当該スクリプトを実行することにより、人手を介すことなく実行可能である。なお、本実施の形態において、実施の形態2で示した翻訳機能を設けてもよい。また、スクリプトにより、キーボードの操作をエミュレートしてもよい。
(実施の形態4)
 本実施の形態はVRモデルを用いた発表者の制御を行う形態に関する。以下の説明において、上述の実施の形態と異なる点を主に説明する。本実施の形態は実施の形態3に関連する形態である。
 上述の実施の形態では、発表者画面に表示するVRモデルを用いた発表者は、目と口を動作させている。本実施の形態においては、ジェスチャーも可能とする。ジェスチャーを行わせるためには、発話テキストにスクリプトを記載する。
 発表者に行わせるジェスチャーは、例えば、所定方向を指し示すコマンドと通常の姿勢に戻るコマンドとが想定される。所定方向は、右上、真上、左上、左下、真下及び右下等である。例えば、スクリプトに記述する関数として、prstr_pose(引数)を設ける。引数はUR(右上)、DA(真上)、UL(左上)、LL(左下)、DB(真下)、LR(右下)及びNR(通常)。引数LLを指定すると、発表者は発表者画面の左下方向を指し示す。引数NRを指定すると、発表者は指し示す姿勢を通常の姿勢に戻す。
 本実施の形態において、再生装置1が行なう再生処理は上述の実施の形態と同様であるから、説明を省略する。また、VRモデルにより発表者にジェスチャーを行わせる制御は公知の技術で可能であるので、説明を省略する。
 図21はスライド再生画面及び発表者画面の他の例を示す説明図である。図21では、スライド再生画面d06の中央下に発表者画面d07を表示している。そして、発表者画面d07に表示している発表者は、真上方向を指し示している。なお、図21の発表者画面d07において、発表者は指し棒(指示棒)を持っているが、指し棒は必ずしも表示する必要はない。
 本実施の形態は上述の実施の形態が奏する効果に加えて、以下の効果を奏する。発表者にジェスチャーを行わせることより、視聴者がスライドの内容に注目することを期待できる。
(実施の形態5)
 本実施の形態は他のアプリケーションソフトとの連携動作を行なう形態に関する。以下の説明において、上述の実施の形態と異なる点を主に説明する。
 まず、スライドの表示要素に動画が含まれている場合の処理について説明する。図22及び図23は再生処理の他の手順例を示すフローチャートである。図22及び図23に示すフローチャートの一部は、図19と同様である。制御部11は再生に必要な設定が済みであるか否かを判定する(ステップS131)。制御部11は再生に必要な設定が済みでないと判定した場合(ステップS131でNO)、エラー表示を行い(ステップS151)、処理を呼び出し元へ戻す。制御部11は再生に必要な設定が済みであると判定した場合(ステップS131でYES)、VRモデルデータを取得する(ステップS132)。制御部11はスライドデータを取得する(ステップS133)。制御部11はスライドデータに含まれる表示要素に動画があるか探索する(ステップS134)。制御部11は探索結果から表示要素に動画があるか否かを判定する(ステップS135)。制御部11は探索結果から表示要素に動画があると判定した場合(ステップS135でYES)、発話テキストにスクリプトが記述されていないか探索する(ステップ136)。制御部11は探索結果からスクリプトが発話テキストにスクリプトが記述されているか否かを判定する(ステップS137)。制御部11は発話テキストにスクリプトが記述されていないと判定した場合(ステップS137でNO)、スライドを表示する共に表示要素である動画の再生を開始する(ステップS138)。制御部11は必要に応じて、動画再生のアプリケーションを起動し、動画を再生する。この際、スライド再生画面及び発表者画面を最小化し、動画再生画面を全画面表示とすることが望ましい。制御部11は動画再生が終了したか否かを判定する(ステップS139)。制御部11は動画再生が終了していないと判定した場合(ステップS139でNO)、再度、ステップS119を実行する。制御部11は動画再生が終了したと判定した場合(ステップS139でYES)、画面の表示状態を動画再生前の状態へ戻し、処理をステップS149(図23)へ進める。なお、ステップS137でNOと判定された場合、発話テキストは書かれていないことが前提である。もし、発話テキストに何か書かれていても、その内容は無視されて、読み上げ音声は出力されない。発話テキストにスクリプトが含まれていない場合、動画を再生するタイミングを制御部11は判定できないからである。
 制御部11は発話テキストにスクリプトが記述されていると判定した場合(ステップS137でYES)、制御部11はスライドを表示部16に表示する(ステップS140)。制御部11はサブルーチン・スクリプト実行を行う(ステップS141)。なお、ここでは発話テキストに記載されたスクリプトの中には、動画再生の命令が書かれていることが前提である。発話テキストに動画再生の命令が書かれていない場合は、動画は再生されない。また、スクリプト実行処理において、動画再生の命令が実行される場合、当該命令は動画再生が完了するまで、処理を完了しない。動画再生が完了すると、処理を完了する。制御部11はサブルーチン・スクリプト実行後、処理をステップS149へ移す。
 制御部11は探索結果から表示要素に動画がないと判定した場合(ステップS135でNO)、制御部11はスライドデータに含まれる発話テキストにスクリプトが記述されていないか探索する(ステップS142)。制御部11は探索結果からスクリプトが発話テキストにスクリプトが記述されているか否かを判定する(ステップS143)。制御部11は発話テキストにスクリプトが記述されていないと判定した場合(ステップS143でNO)、発話テキストを音声合成サーバ2へ送信する(ステップS144)。制御部11は音声合成サーバ2から音声データを受信する(ステップS145)。制御部11はスライドを表示部16に表示する(ステップS146)。制御部11は処理をステップS147(図23)へ移す。制御部11は発表者動画を出力する(ステップS147)。ステップS148からステップS150は、図10のステップS38からS40と同様であるから説明を省略する。制御部11は発話テキストにスクリプトが記述されていると判定した場合(ステップS143でYES)、処理をステップS140へ移す。
 以上、動画の再生について説明したが、URL(リンク情報)が表示要素に含まれている場合も同様である。ただし、動画の場合と異なり、発話テキストにスクリプトが含まれていない場合でも、URLで指定されたデータを出力するために、直ちにインターネットブラウザを起動はしない。発話テキストにURLが含まれている否かを探索する。探索の結果、発話テキストにURLが含まれているときは、記載されたURLを出力するために、インターネットブラウザを起動するスクリプトが記載されていると解釈する。なお、動画再生時と同様に、インターネットブラウザを表示する際、スライド再生画面及び発表者画面を最小化し、インターネットブラウザを全画面表示とすることが望ましい。また、インターネットブラウザでの表示を終了し、スライド再生に戻るスクリプトが発話テキストに書かれていない場合、制御部11は所定時間が経過したら、インターネットブラウザでの表示を終了し、スライド再生に戻す。
 本実施の形態は上述の実施の形態が奏する効果に加えて、以下の効果を奏する。スライドの再生途中で、他のアプリケーションの実行が可能となるので、発表内容をより充実させることが可能となる。なお、他のアプリケーションにおいても、スクリプトの実行が可能である場合、他のアプリケーションでもスクリプトを実行させれば、スライド再生で行える動作が多彩となり、発表内容をさらに充実させることが可能となる。
 なお、表示要素に動画を含めていない場合でも、URLで動画ファイル等を指定すれば、インターネットブラウザを、利用して又は介して、動画の再生が可能である。また、動画再生中にスクリプトの実行を可能とし、スクリプトでマウスポインタの位置制御とクリック操作を行えば、動画を一時停止して、発話テキストを読み上げ音声を出力し、音声が終了したら、動画の再生を再開するなどの動作も可能である。
(実施の形態6)
 本実施の形態はスライドデータに発表者ノートが含まれていない場合の動作に関する形態である。以下の説明において、上述の実施の形態と異なる点を主に説明する。本実施の形態においては、スライドデータに発表者ノートが含まれていない場合、スライドデータに含まれるオブジェクトを利用して、発話テキストを作成する。
 図24は再生処理の他の手順例を示すフローチャートである。図24は、図10に示した再生処理に新たな処理を追加することを示している。再生処理において、制御部11はスライド表示(ステップS34)を行った後、スライドデータに発表者ノートが含まれているか否かを判定する(ステップS161)。制御部11はスライドデータに発表者ノートが含まれていると判定した場合(ステップS161でYES)、処理を図10のステップS35へ移す。制御部11はスライドデータに発表者ノートが含まれていないと判定した場合(ステップS161でNO)、スライドを構成するオブジェクトを対象に、テキストオブジェクトを探索する(ステップS162)。制御部11はテキストオブジェクトがあるか否かを判定する(ステップS163)。制御部11はテキストオブジェクトがあると判定した場合(ステップS163でYES)、テキストオブジェクトのテキストから発話テキストを作成する(ステップS164)。例えば、箇条書きのテキストが得られた場合、助詞や助動詞等を補い、文章作成し、発話テキストとする。制御部11は処理を図10のステップS35へ移す。制御部11はテキストオブジェクトがないと判定した場合(ステップS163でNO)、画像オブジェクトに対して文字認識を行なう(ステップS165)。例えば、OCR(Optical character recognition)技術を用いる。制御部11は認識処理の結果、文字が得られたか否かを判定する(ステップS166)。制御部11は文字が得られたと判定した場合(ステップS166でYES)、処理をステップS164へ移す。制御部11は文字が得られなかったと判定した場合(ステップS166でNO)、スライドデータに含まれる画像オブジェクトを選択し、画像を説明するキャプションを生成し(ステップS167)、処理を図10のステップS35へ移す。キャプションの生成には、画像キャプション自動生成AIを用いる。例えば、画像キャプション自動生成AIはCNN(Convolutional Neural Network)とLSTM(Long Short Term Memory)とを組み合わせた深層学習モデルを用いる。当該学習モデルでは次の手順で学習を行なう。学習済みCNNで画像の特徴量を抽出する。LSTMで文章の特徴量を抽出する。CNNとLSTMの特徴量を結合する。Softmax関数で次に来る単語を予測する。これらのステップを繰り返すことで、画像のキャプションを学習モデルは生成する。学習モデルが生成したキャプションが正解のキャプションに近づくように、学習モデルを訓練する。訓練済みの学習モデルにおいて、CNNに画像を入力し、LSTMに文開始記号を入力すると、キャプションを生成することができる。
 上述の説明において、実施の形態1の再生処理を変形する例を述べたが、それに限らない。他の実施形態の再生処理を変形することも可能である。
 本実施の形態は上述の実施の形態が奏する効果に加えて、以下の効果を奏する。発表者ノートを用意しなくとも、VRモデルを用いた発表者による発表の自動化が可能となる。
 各実施の形態で記載されている技術的特徴(構成要件)はお互いに組み合わせ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
 今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
 100  プレゼンテーションシステム
 1    再生装置
 1P   制御プログラム
 11   制御部
 12   主記憶部
 13   補助記憶部
 131  基本設定DB
 132  モデルDB
 133  発話設定DB
 134  画面設定DB
 135  遷移設定DB
 136  VRモデルデータ
 137  プレゼンテーションデータ
 14   通信部
 15   入力部
 16   表示部
 17   音声出力部
 18   読み取り部
 1a   可搬型記憶媒体
 1b   半導体メモリ
 2    音声合成サーバ
 B    バス
 N    ネットワーク

Claims (14)

  1.  発話テキストと表示要素とを含むスライドデータを複数含むプレゼンテーションデータを取得し、
     複数の前記スライドデータそれぞれに含む前記表示要素を所定の順番で出力するとともに、出力している前記スライドデータに含む前記発話テキストの読み上げ音声を、人物動画を付して出力する
     処理をコンピュータに行わせることを特徴とするスライド再生プログラム。
  2.  1枚の静止画像を取得し、
     取得した前記静止画像に基づいて、前記人物動画を作成する
     ことを特徴とする請求項1に記載のスライド再生プログラム。
  3.  出力言語を取得し、
     前記発話テキストを前記出力言語に翻訳し、翻訳した発話テキストの読み上げ音声を出力する
     ことを特徴とする請求項1又は請求項2に記載のスライド再生プログラム。
  4.  出力している前記表示要素に対応する前記発話テキストの読み上げ音声の出力完了後に、前記スライドデータの次のスライドデータの前記表示要素を出力する
     ことを特徴とする請求項1から請求項3のいずれか一項に記載のスライド再生プログラム。
  5.  前記読み上げ音声の出力完了後、さらに所定時間の経過後に、前記スライドデータの次のスライドデータの前記表示要素を出力する
     ことを特徴とする請求項4に記載のスライド再生プログラム。
  6.  性別を含む音声合成モデルを特定する特定情報、並びに、声の高さ及び発話の速さを受け付け、
     前記特定情報に対応した前記音声合成モデルに基づき、受け付けた声の高さ、及び、発話の速さで、前記発話テキストの読み上げ音声を出力する
     ことを特徴とする請求項1から請求項5のいずれか一項に記載のスライド再生プログラム。
  7.  前記音声合成モデルは、特定の話者の発話音声を学習して生成したモデルを含み、
     前記特定情報は話者を特定する話者識別情報を含み、該話者識別情報に対応する前記音声合成モデルに基づき、前記読み上げ音声を出力する
     ことを特徴とする請求項6に記載のスライド再生プログラム。
  8.  前記表示要素が動画である場合、該動画の再生を行う
     ことを特徴とする請求項1から請求項7のいずれか一項に記載のスライド再生プログラム。
  9.  前記スライドデータは、制御命令を含めることが可能であり、
     出力対象となっている前記スライドデータにポインティングデバイスにより制御されるポインタの前記制御命令が含まれている場合、当該制御命令に従い、前記ポインタを制御する
     ことを特徴とする請求項1から請求項8のいずれか一項に記載のスライド再生プログラム。
  10.  前記表示要素は全画面表示で出力し、
     出力対象となっている前記スライドデータに、他のアプリケーションソフトへ遷移するリンク情報が含まれている場合、前記表示要素を表示している画面を最小化し、前記アプリケーションソフトへ制御を渡し、
     前記アプリケーションソフトから制御が戻った場合、前記表示要素を全画面表示で再出力する
     ことを特徴とする請求項1から請求項9のいずれか一項に記載のスライド再生プログラム。
  11.  出力対象となっている前記スライドデータに、人物に所定のジェスチャーを行わせる制御命令が含まれている場合、当該制御命令に従ったジェスチャーを行う前記人物動画を出力する
     ことを特徴とする請求項1から請求項10のいずれか一項に記載のスライド再生プログラム。
  12.  前記プレゼンテーションデータは、前記発話テキストを含まないスライドデータを含み、当該スライドデータに含む前記表示要素から発話テキストを生成する
     ことを特徴とする請求項1から請求項11のいずれか一項に記載のスライド再生プログラム。
  13.  発話テキストと表示要素とを含むスライドデータを複数含むプレゼンテーションデータを取得する取得部と、
     複数の前記スライドデータそれぞれに含む前記表示要素を所定の順番で出力するとともに、出力している前記スライドデータに含む前記発話テキストの読み上げ音声を、人物動画を付して出力する出力部と
     を備えることを特徴とするスライド再生装置。
  14.  コンピュータが、
     発話テキストと表示要素とを含むスライドデータを複数含むプレゼンテーションデータを取得し、
     複数の前記スライドデータそれぞれに含む前記表示要素を所定の順番で出力するとともに、出力している前記スライドデータに含む前記発話テキストの読み上げ音声を、人物動画を付して出力する
     処理を行うことを特徴とするスライド再生方法。
PCT/IB2022/056404 2021-07-21 2022-07-12 スライド再生プログラム、スライド再生装置及びスライド再生方法 WO2023002300A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-120856 2021-07-21
JP2021120856A JP2023016504A (ja) 2021-07-21 2021-07-21 スライド再生プログラム、スライド再生装置及びスライド再生方法

Publications (1)

Publication Number Publication Date
WO2023002300A1 true WO2023002300A1 (ja) 2023-01-26

Family

ID=84980196

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2022/056404 WO2023002300A1 (ja) 2021-07-21 2022-07-12 スライド再生プログラム、スライド再生装置及びスライド再生方法

Country Status (2)

Country Link
JP (2) JP2023016504A (ja)
WO (1) WO2023002300A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072528A (ja) * 2005-09-02 2007-03-22 Internatl Business Mach Corp <Ibm> 文書構造解析方法、プログラム、装置
JP2009157677A (ja) * 2007-12-27 2009-07-16 Fuji Xerox Co Ltd 記録再生装置、およびプログラム
KR20110055957A (ko) * 2009-11-20 2011-05-26 김학식 파워포인트에 TTS 모듈을 플러그인(plug-in)하여 음성 합성된 파워포인트 문서 및 다양한 동영상 파일을 작성하는 방법과 이에 따른 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004128614A (ja) * 2002-09-30 2004-04-22 Toshiba Corp 画像表示制御装置及び画像表示制御プログラム
JP4449723B2 (ja) * 2004-12-08 2010-04-14 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
JP5545467B2 (ja) * 2009-10-21 2014-07-09 独立行政法人情報通信研究機構 音声翻訳システム、制御装置、および情報処理方法
JP6131053B2 (ja) * 2013-01-21 2017-05-17 Kddi株式会社 情報再生端末

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072528A (ja) * 2005-09-02 2007-03-22 Internatl Business Mach Corp <Ibm> 文書構造解析方法、プログラム、装置
JP2009157677A (ja) * 2007-12-27 2009-07-16 Fuji Xerox Co Ltd 記録再生装置、およびプログラム
KR20110055957A (ko) * 2009-11-20 2011-05-26 김학식 파워포인트에 TTS 모듈을 플러그인(plug-in)하여 음성 합성된 파워포인트 문서 및 다양한 동영상 파일을 작성하는 방법과 이에 따른 시스템

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"LOGOSWARE STORM Xe operation manual (8th edition)", 15 April 2021, article ANONYMOUS: ""2-3. About the operation screen" to "9-3. Animation correspondence table"", pages: 1 - 165, XP009543104 *
ARAI, SHOUMA ET AL.: "Utterance generation based on structural and linguistic interpretation of presentation slides", PROCEEDINGS OF THE 17TH ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING; MARCH 8-10, 2011, vol. 17, 7 March 2011 (2011-03-07) - 10 March 2011 (2011-03-10), pages 737 - 740, XP009543085 *
KUBOTA, HIDEKAZU ET AL.: "Sustainable Knowledge Globe: The Sustainably Developed Time-Spatial Memory", IPSJ SIG TECHNICAL REPORT, vol. 2004, no. 90, 10 September 2004 (2004-09-10), pages 1 - 8, XP002998165 *
YOSHIOKA, OSAMU ET AL.: "1-Q-25 Interactive automatic presentation system", SPRING MEETING OF THE ACOUSTICAL SOCIETY OF JAPAN; TOKYO, JAPAN; MARCH 15-17, 2000, 15 March 2000 (2000-03-15) - 17 March 2000 (2000-03-17), pages 181 - 182, XP009542769 *

Also Published As

Publication number Publication date
JP2023162179A (ja) 2023-11-08
JP2023016504A (ja) 2023-02-02

Similar Documents

Publication Publication Date Title
US10580319B2 (en) Interactive multimedia story creation application
US5613056A (en) Advanced tools for speech synchronized animation
US20110319160A1 (en) Systems and Methods for Creating and Delivering Skill-Enhancing Computer Applications
US10372790B2 (en) System, method and apparatus for generating hand gesture animation determined on dialogue length and emotion
US9332100B2 (en) Portable communications device
US20120276504A1 (en) Talking Teacher Visualization for Language Learning
US20090235162A1 (en) Method and system for providing enhanced virtual books
CN1735914A (zh) 基于视频的语言学习系统
CN112750187A (zh) 一种动画生成方法、装置、设备及计算机可读存储介质
US20220301250A1 (en) Avatar-based interaction service method and apparatus
Ciccoricco Focalization and digital fiction
KR101790709B1 (ko) 구연동화 서비스 제공 시스템, 장치 및 구연동화 서비스 제공 방법
Lamberti et al. A multimodal interface for virtual character animation based on live performance and Natural Language Processing
WO2023002300A1 (ja) スライド再生プログラム、スライド再生装置及びスライド再生方法
Govindasamy Animated Pedagogical Agent: A Review of Agent Technology Software in Electronic Learning Environment
Doumanis Evaluating humanoid embodied conversational agents in mobile guide applications
WO2001095079A1 (fr) Systeme de traitement d&#39;informations au moyen de modeles de bulles, systeme de traitement d&#39;informations par traduction dans lequel les modeles de bulles sont utilisees, systeme de traitement d&#39;informations en ligne au moyen desdits modeles de bulles, et support de stockage d&#39;informations lisible par ordinateur
CN114610429A (zh) 多媒体界面显示方法、装置、电子设备及存储介质
Bolter Digital Media and Art: Always Already Complicit?
US10110847B2 (en) Program image creation method and apparatus of the same
Fernandes et al. ArtAI4DS: AI Art and its Empowering Role in Digital Storytelling
Zhang et al. Design of Multimedia Courseware Synchronous Display System for Distance Teaching
JP4084065B2 (ja) 番組紹介ホームページの自動生成方法
EP4233007A1 (en) Conversion of text to dynamic video
MacDonald The Development and Evaluation of an Approach to Auditory Display Design Based on Soundtrack Composition

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22845520

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22845520

Country of ref document: EP

Kind code of ref document: A1