WO2008069187A1 - プレゼンテーション支援装置および方法並びにプログラム - Google Patents
プレゼンテーション支援装置および方法並びにプログラム Download PDFInfo
- Publication number
- WO2008069187A1 WO2008069187A1 PCT/JP2007/073356 JP2007073356W WO2008069187A1 WO 2008069187 A1 WO2008069187 A1 WO 2008069187A1 JP 2007073356 W JP2007073356 W JP 2007073356W WO 2008069187 A1 WO2008069187 A1 WO 2008069187A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- speaker
- presentation
- acoustic
- evaluation index
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000011156 evaluation Methods 0.000 claims abstract description 121
- 238000004364 calculation method Methods 0.000 claims abstract description 45
- 238000001228 spectrum Methods 0.000 claims description 17
- 230000009471 action Effects 0.000 claims description 9
- 230000001815 facial effect Effects 0.000 claims description 2
- 239000004071 soot Substances 0.000 claims 1
- 230000001629 suppression Effects 0.000 claims 1
- 230000010365 information processing Effects 0.000 abstract description 22
- 238000012545 processing Methods 0.000 abstract description 18
- 230000010354 integration Effects 0.000 abstract description 5
- 230000006872 improvement Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 8
- 239000000463 material Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000003550 marker Substances 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Definitions
- the present invention relates to a presentation support apparatus, method, and program for supporting a speaker who performs a presentation.
- a presentation is an activity in which a speaker communicates and presents his / her knowledge and ideas to the listener, and plays an important role not only in research presentation but also in various fields including business scenes. is there. For this reason, it is possible to practice presentations by giving advice to the speaker during the actual presentation so that it is possible to perform a better presentation than with the tools for creating presentation materials.
- a presentation support device has been proposed! Such a presentation support device analyzes the speech uttered by the speaker for the presentation material, calculates the appropriateness of the speaker's explanation, and gives advice to the speaker based on the calculated appropriateness ( For example, there are known ones that detect a speaker's speaking speed and give advice to the speaker based on the detected speaking speed (for example, refer to Patent Document 2). In addition, as such a presentation support device, it recognizes the psychological state of the speaker based on the speaker's voice, and responds according to the recognition result (for example, “The voice rubs up! (For example, refer to Patent Document 3) is also known.
- Patent Document 1 Japanese Patent Laid-Open No. 02-223983
- Patent Document 2 JP-A-2005-208163
- Patent Document 3 JP-A-10-254484
- the present invention is capable of more appropriately grasping non-linguistic information such as a speaker's voice state and physical behavior, and can contribute to better presentation execution and presentation skill improvement.
- One of the purposes is to provide methods and programs.
- Another object of the present invention is to provide a more practical presentation support apparatus, method, and program.
- a presentation support apparatus, method, and program according to the present invention employ the following means in order to achieve at least a part of the above-described object.
- a presentation support apparatus includes:
- a presentation support device for supporting a speaker performing a presentation
- Acoustic information acquisition means for acquiring acoustic information based on the voice of the speaker, image information acquisition means for acquiring image information relating to the physical movement of the speaker, and the acoustic information acquired by the acoustic information acquisition means Calculate a predetermined acoustic evaluation index related to the utterance by the speaker in the presentation, and at least either of the acoustic information acquired by the acoustic information acquisition means and the image information acquired by the image information acquisition means An evaluation index calculating means for calculating a predetermined creative evaluation index related to the action by the speaker during the presentation based on either
- Feedback hand capable of providing feedback to the speaker based on the acoustic evaluation index calculated by the evaluation index calculation means and the creative evaluation index Step and
- This presentation support device acquires acoustic information based on the voice of the speaker and image information related to the physical movement of the speaker when practicing an actual presentation, and makes a presentation ( Calculates a predetermined acoustic evaluation index related to the utterance by the speaker during the practice (including those during practice), and based on at least one of the acquired acoustic information and image information! /, Presentation presentation Calculate a pre-established evaluation index related to the action by the speakers.
- the presentation support device can provide the speaker with feedback based on these acoustic evaluation indexes and artificial evaluation indexes in near real time or after the fact.
- acoustic information based on the speaker's voice but also image information related to the physical movement of the speaker is acquired, and at least one of the acoustic information and the image information is acquired. Based on this, it is possible to more appropriately grasp non-verbal information such as the state of speech and physical behavior of the speaking person during the presentation or practice. Therefore, it is possible to realize a more practical presentation support apparatus that can contribute to better presentation execution and presentation skill improvement.
- the image information may include face information related to at least a face orientation of the speaker.
- the evaluation index calculation unit may be configured to use the speaker based on the face information acquired by the image information acquisition unit.
- An index indicating the degree of eye contact with the listener may be calculated as the creative evaluation index. In other words, if the speaker is more appropriately focused on the listener during the presentation, the presentation will have a convincing impression. Therefore, if an index indicating the degree of eye contact is used as one of the creative evaluation indices, the presentation support device should be more practical that can contribute to better presentation execution and presentation skill improvement. Touch with power.
- the acoustic information includes utterance time information indicating a time of a continuous utterance section by the speaker, and the image information relates to at least a face orientation of the speaker.
- the evaluation index calculation means that may include face information is based on at least one of the utterance time information acquired by the acoustic information acquisition means and the face information acquired by the image information acquisition means.
- An index relating to how to make room by the speaker during the presentation may be calculated as the creative evaluation index.
- the presentation support device can improve presentation skills if it performs better presentations. Can be made more practical.
- the evaluation index calculation means may include the acoustic information including utterance time information indicating a time of continuous utterance intervals by the speaker and syllable information indicating the number of syllables in the utterance interval.
- An index indicating the speaking speed of the speaker based on the utterance time information and the syllable information acquired by the acoustic information acquisition unit may be calculated as the acoustic evaluation index.
- the presentation support device should be more practical that can contribute to the improvement of the presentation skill by performing a better presentation. Can do.
- the acoustic information may include fundamental frequency information indicating a fundamental frequency of the speaker's voice.
- the evaluation index calculation means may be based on the fundamental frequency information acquired by the acoustic information acquisition means.
- An index indicating inflection of the utterance by the speaker may be calculated as the acoustic evaluation index. In other words, if the inflection of the speaker during the presentation is more appropriate, the presentation will have a merino and crisp impression. Therefore, if the index indicating the inflection of the speaker's speech is used as one of the acoustic evaluation indices, the ability to make the presentation support device more practical that can contribute to better presentation execution and presentation skill improvement S I'll do it.
- the acoustic information may include fundamental frequency information indicating a fundamental frequency of the speaker's voice and spectrum envelope information indicating a spectrum envelope based on the fundamental frequency. Based on the fundamental frequency information and the spectrum envelope information acquired by the information acquisition means, an index related to the speaking by the speaker during the presentation may be calculated as the acoustic evaluation index. In other words, if there is less excuse during the speaker's presentation, the presentation will be confident and good. Therefore, if one of the acoustic evaluation indicators is an index related to the speech of the speaker during the presentation, the presentation support device will be more practical if it can contribute to the improvement of presentation skills. be able to.
- the feedback means compares at least one of the acoustic evaluation index and the artificial evaluation index calculated by the evaluation index calculation means with a corresponding threshold value, and compares the comparison result.
- the presentation may be executed in response to the above, and a predetermined warning may be given to the speaker. This makes it possible for the speaker to grasp the current situation in real time so that the presentation will be better when practicing actual presentations and presentations.
- a presentation support method is a presentation support method for supporting a speaker who performs a presentation
- step (b) calculating a predetermined acoustic evaluation index related to the utterance by the speaker during the presentation based on the acoustic information acquired in step (a), and the acoustic information acquired in step ⁇ and Calculating a predetermined operative evaluation index related to the action by the speaker during the presentation based on at least one of the image information;
- step (C) providing feedback based on the acoustic evaluation index calculated in step (b) and the artificial evaluation index to the speaker;
- This presentation support method makes it possible to more appropriately grasp non-linguistic information such as a speaker's voice state and physical behavior during presentation or during practice. This can contribute to the improvement of performance and presentation skills.
- step (a) may acquire face information relating to at least the face direction of the speaker as the image information.
- step (b) may be obtained in step (a). Based on the acquired face information, an index indicating the degree of eye contact with the listener by the speaker may be calculated as the creative evaluation index.
- step (a) obtains utterance time information indicating the time of continuous utterance intervals by the speaker as the acoustic information, and as the image information, facial information on at least the face orientation of the speaker.
- the step (b) may be performed by the speaker during the presentation based on at least one of the speech time information and the face information acquired in step (a).
- An index regarding how to make an interval may be calculated as the creative evaluation index.
- step ⁇ may acquire, as the acoustic information, utterance time information indicating the time of continuous utterance intervals by the speaker and syllable information indicating the number of syllables in the utterance interval.
- Step (b) may calculate an index indicating the speaking speed of the speaker as the acoustic evaluation index based on the utterance time information and the syllable information acquired in step (a). Good.
- step (a) may be to acquire fundamental frequency information indicating the fundamental frequency of the speaker's voice as the acoustic information. Based on the acquired fundamental frequency information, an index indicating the inflection of speech by the speaker may be calculated as the acoustic evaluation index.
- step (a) as the acoustic information, fundamental frequency information indicating a fundamental frequency of the speaker's voice and spectrum envelope information indicating a spectrum envelope based on the fundamental frequency are acquired.
- step (b) an index related to speech by the speaker in the presentation is calculated as the acoustic evaluation index based on the fundamental frequency information and the spectrum envelope information acquired in step (a). You It may be a thing.
- An acoustic information acquisition module for acquiring acoustic information based on the voice of the speaker; an image information acquisition module for acquiring image information relating to the physical movement of the speaker;
- FIG. 2 is a schematic configuration diagram of a presentation support apparatus 20 according to an embodiment of the present invention.
- FIG. 3 is an explanatory diagram showing a procedure for determining whether or not the speaker 10 is facing the listener 100.
- FIG. 4 is a flowchart showing an example of processing executed mainly by the index calculation unit 35 and the integration processing unit 36 of the main computer 30 when the speaker 10 is giving a presentation.
- FIG. 5 is an explanatory diagram showing an example of a real-time monitor 44 displayed on the display screen 41 of the sub computer 40 when the speaker 10 is giving a presentation.
- FIG. 1 is a diagram illustrating how a presentation support device 20 according to an embodiment of the present invention is used to perform a presentation! /, A force, or a presentation rehearsal!
- FIG. 2 is a schematic configuration diagram of the presentation support apparatus 20 according to an embodiment of the present invention.
- the presentation support device 20 according to the embodiment is used by the main computer 30 that performs the main processing for supporting the presentation by the speaker 10 and the speaker 10 when the presentation is performed.
- a sub-computer 40 that captures the voice of the speaker 10 performing the presentation, and the camera 50 as an image capturing means (imaging means) that can capture and capture the image of the speaker 10 performing the presentation. It includes a microphone 60 as sound means and a predetermined warning device 70 (see FIG. 2).
- the main computer 30 and the sub computer 40 are not shown in the figure.
- a presentation support program according to the present invention is installed in the main computer 30, and a predetermined presentation software is installed in the sub-computer 40 in the embodiment.
- the presentation material is projected onto the screen 90 by the projector 80 connected to the sub computer 40.
- the camera 50 for example, a general web camera can be used, and the camera 50 can be used, for example, at a suitable position of the sub computer 40 so that the face of the speaker 10 who performs the presentation can be photographed. It is attached to.
- the camera 50 is connected to the sub computer 40, and the image data from the camera 50 is once taken into the sub computer 40 as a continuous moving image or a still image.
- the microphone 60 a pin microphone, a headset microphone, a desktop microphone, or the like can be used.
- audio data from the microphone 60 is taken into the main computer 30.
- the warning device 70 is connected to the main computer 30 and is used to give a predetermined warning to the speaker 10 who executes the presentation from the main computer 30 when supporting the presentation.
- the RVCP protocol for communication between the above components of the presentation support device 20, for example, the RVCP protocol (Masataka Goto et al .: “Speech Complement: Introduction of a new modality to the speech input interface,“ Computer Software, Vol. 19, No. 4, pp. 10-21, 2002.)
- the main computer 30 includes hardware such as a CPU, ROM, RAM, GPU, various interfaces, and storage devices (not shown) and an installed presentation support program.
- the acoustic information processing unit 31, the image information processing unit 34, the index calculation unit 35, the integration processing unit 36, the data storage unit 37, etc. are constructed as functional blocks through one or both cooperation with various programs. Has been.
- the acoustic information processing unit 31 receives the voice data of the speaker 10 collected by the microphone 60 from the microphone 60 and calculates (acquires) various acoustic information based on the voice of the speaker 10.
- An analysis unit 32 and a speech recognition unit 33 are included.
- the acoustic analysis unit 32 based on voice data received from the microphone 60 at predetermined time intervals (for example, 10 msec), utterance time t (speaking time) indicating the time of continuous utterance intervals by the speaker 10.
- a fundamental frequency fO fundamental frequency information
- a spectrum envelope Se spectrum envelope information based on the fundamental frequency fO
- the acoustic analysis unit 32 calculates the time of a series of utterance sections based on the voice power of the input voice data, for example.
- the acoustic analysis unit 32 calculates the instantaneous frequency of the input voice data and extracts frequency components based on a predetermined scale related to the instantaneous frequency, and then based on the most dominant harmonic structure.
- the fundamental frequency fO is estimated, and the spectrum envelope envelope Se is estimated based on the fundamental frequency fO.
- the speech recognition unit 33 is an extension of a speech recognition engine such as “julian” (http://julius.sourceforge.jp) so that recognition results are sequentially transmitted to the index calculation unit 35 (Kitayama et al .: “ speech starter:. "SWITCH” on "Sp e ech”, information processing Society of voice language information processing study Group research report 2003 - SLP -46 - 12, Vol 2003, No. 58, pp 67- 72, May2003).. Etc. can be easily configured.
- a speech recognition engine such as “julian” (http://julius.sourceforge.jp) so that recognition results are sequentially transmitted to the index calculation unit 35 (Kitayama et al .: “ speech starter:. "SWITCH” on "Sp e ech”, information processing Society of voice language information processing study Group research report 2003 - SLP -46 - 12, Vol 2003, No. 58, pp 67- 72, May2003).
- Etc. can be easily configured.
- AR Tool KIT may be used to calculate the position and orientation of the speaker's 10 face.
- the speaker 10 performs the presentation with a cube marker with a predetermined two-dimensional code attached to each side on the head, and the camera 50 captures the marker two-dimensional code.
- the position and orientation of the face of the speaker 10 can be obtained from the three-dimensional position and orientation of the marker.
- This method requires the placement of a marker during presentation, but does not require prior data for each speaker, unlike the image processing method using the subspace method and SVM. It can be used easily for practice.
- the index calculation unit 35 corresponds the number of syllables in a syllable string from the speech recognition unit 33 to the syllable string from the acoustic analysis unit 32, except for the silent period in which the speaker 10 does not utter.
- the number of syllables per unit time is obtained by dividing by the utterance time t, and the average value of the number of syllables per unit time in the past n seconds is calculated as the speaking speed Vs of the speaker 10.
- the index calculation unit 35 calculates the standard deviation of the fundamental frequency f0 at predetermined intervals based on the fundamental frequency f0 from the acoustic analysis unit 32, and the standard deviation of the power and the standard deviation is suppressed by the speaker 10. Used as an index Ac indicating lift. Furthermore, the index calculation unit 35 uses the characteristics that the so-called voiced pause and the extension of the syllable (vowel) have the characteristic that the fluctuation of the fundamental frequency fO is small and the deformation of the vector envelope Se is small. (See the above-mentioned Japanese Patent Laid-Open No.
- an angle ⁇ (for example, 20 °, which can be changed for each presentation environment) is set on the side s0 connecting the camera 50 and the speaker 10 and the listener 100 side.
- the hatched area in Fig. 3 is within the range defined by the plane s2 that forms a predetermined angle / 3 (for example, 90 °, but can be changed for each presentation environment) from the plane si to the surface si and the listener 100 side. ) Includes the horizontal angle of the face direction of the speaker 10, it is assumed that the speaker 10 is facing the listener 100 side.
- the integrated processing unit 36 receives the acoustic evaluation index, the artificial evaluation index, and the scheduled remaining time from the index calculation unit 35, the integrated processing unit 36 compares each evaluation index with a corresponding threshold value and executes a presentation.
- a determination process for determining whether a warning should be given to 10 is executed (step S130). In the embodiment, considering that the speaker 10 who makes a presentation generally tends to speak faster than usual, when the speech speed Vs exceeds a predetermined upper limit (eg, 7.6 syllables / second), the speaker 10 was given a warning about speech speed.
- a predetermined upper limit eg, 7.6 syllables / second
- the index Ac standard deviation of the fundamental frequency f0
- a predetermined lower limit value for example, 10 Hz for men
- the index Df 1
- the speaker 10 is given a warning that the utterance has been met.
- the eye contact index EI falls below a predetermined lower limit (for example, 15%), considering that the impression received by the listener 100 deteriorates if the eye contact with the listener 100 is small.
- a warning about eye contact was given to speaker 10.
- the speaker 10 is notified when the remaining scheduled time reaches 20% of the scheduled announcement time.
- the necessity of warning by comparing V with the index SI of the interval and the comparison with the threshold is not judged! / It is possible to give a warning according to the result of comparison with the threshold value to speaker 10 by setting a threshold value!
- step S140 it is determined whether or not there is an evaluation index targeted for warning (step S140), and the evaluation index targeted for warning exists. If so, a warning display command corresponding to the evaluation index is set (step S150).
- a warning display 43 showing a predetermined mark and warning content is displayed on the display screen 41 (see FIG. 2) of the sub computer 40 used by the speaker 10. Along with the document image 42, a similar warning is displayed on the warning device 70 (monitor). Therefore, for example, when the speech speed Vs exceeds the upper limit value, the warning display command is a command for displaying “Speech Speed Out” along with a predetermined mark!
- warning display commands for inflection, speech, eye contact, and estimated remaining time are indicated with a predetermined mark, such as “Don't inflate”, “Yodomu”, “Do not read the manuscript”, “80% elapsed time”, etc. This is a command to display the character string on the display screen 41 or the like. If there is no evaluation index subject to warning, the process of step S150 is skipped.
- step S160 a time-series graph in which each evaluation index is associated with the presentation material (slide) is provided afterwards.
- the data associated with the data is also saved. If the process of step S160 is executed, the processes after step S100 are executed again, and this routine is ended when it is determined in step S110 that the presentation has ended.
- the sound of the speaker 10 collected through the microphone 60 by the acoustic information processing unit 31 of the main computer 30 is used.
- the acoustic information based on the physical motion of the speaker 10 captured by the image information processing unit 34 through the camera 50 is acquired.
- the index calculation unit 35 of the main computer 30 calculates an acoustic evaluation index related to the utterance by the speaker 10 during the presentation based on the acoustic information, and at least one of the acoustic information and the image information. Based on either of these, an in-house evaluation index related to the operation by speaker 10 in the presentation is calculated (step S130 in Fig. 4).
- the presentation support device can also provide a posteriori feedback based on the acoustic evaluation index and the creative evaluation index to the speaker 10.
- a posteriori feedback based on the acoustic evaluation index and the creative evaluation index to the speaker 10.
- the presentation support device 20 of the embodiment can contribute to better presentation execution and improvement of presentation skills. It can be said that it is more practical.
- the practice of the actual presentation or presentation will be performed. It is possible to have the speaker 10 understand the current situation in near real time so that the presentation will be better.
- the index EI indicating the degree of eye contact and the index SI relating to how to make the interval are used as the practical evaluation index, the speech speed Vs, the index Ac indicating inflection, If the index Df is used as an acoustic evaluation index, the presentation support apparatus 20 can be made more practical that can contribute to better presentation execution and presentation skill improvement. In other words, if an index that indicates the degree outside the iconta is one of the creative evaluation indicators, the speaker 10 is more appropriately turned to the listener 100 during the presentation, and the presentation is filled with a persuasive impression. The ability to make good is possible.
- the index Ac which indicates the inflection of utterance by speaker 10
- the index Df is used as one of the acoustic evaluation indicators, the utterance by the speaker 10 during the presentation is less likely to be spoken by the speaker 10 during the presentation, and the presentation is confident and has a good impression. It can be.
- the present invention can be used in the manufacturing industry of presentation support tools, the training course of presentations, and the like.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
プレゼンテーション支援装置20は、話し手の音声に基づく音響情報を取得する音響情報処理部31と、話し手の身体的動作に関する画像情報を取得する画像情報処理部34と、音響情報処理部31からの音響情報に基づいて話し手による発話に関連した所定の音響的評価指標を算出すると共に、音響情報処理部31からの音響情報と画像情報処理部34からの画像情報との少なくとも何れか一方に基づいて話し手による所作に関連した所定の所作的評価指標を算出する指標演算部35と、話し手に対して指標演算部35により算出された音響的評価指標および所作的評価指標に基づくフィードバックを提供可能な統合処理部36とを有する。
Description
明 細 書
プレゼンテーション支援装置および方法並びにプログラム
技術分野
[0001] 本発明は、プレゼンテーションを実行する話し手を支援するためのプレゼンテーシ ヨン支援装置および方法並びにプログラムに関する。
背景技術
[0002] プレゼンテーションは、話し手が自らの知識や考え等を聞き手に伝達 ·発表する行 為であり、研究発表の場のみならずビジネスシーンを始めとした様々な分野において 重要な役割を果たすものである。このため、従来から、プレゼンテーション用の資料を 作成するためのツールだけではなぐより良いプレゼンテーションの実行が可能となる ように、実際のプレゼンテーション中に話し手にアドバイスすることゃプレゼンテーショ ンの練習を可能とするプレゼンテーション支援装置が提案されて!/、る。このようなプレ ゼンテーシヨン支援装置としては、プレゼンテーション資料に対して話し手により発声 された音声を解析して話し手による説明の適切度を算出し、算出した適切度に基づ いて話し手にアドバイスを行うもの(例えば、特許文献 1参照)や、話し手の発話速度 を検出すると共に検出した発話速度に基づいて話し手にアドバイスを行うもの(例え ば、特許文献 2参照)等が知られている。また、このようなプレゼンテーション支援装 置として、話し手の音声に基づいて当該話し手の心理状態を認識し、認識結果に応 じた反応(例えば「声が上擦って!/、ますよ」とレ、つたようなメッセージ)を発表内容と共 に表示手段に表示するもの(例えば、特許文献 3参照)も知られている。
特許文献 1:特開平 02— 223983号公報
特許文献 2 :特開 2005— 208163号公報
特許文献 3 :特開平 10— 254484号公報
発明の開示
[0003] ところで、いわゆる対人コミュニケーションに関し、自己の感情等を聞き手に伝達す る際、話し手は専ら音声の状態や表情、身振り等の身体的所作といった非言語情報 に依存しており、コミュニケーションにおける言語情報の寄与分はごく僅かである、と
いう研究報告もなされている。このような点に鑑みれば、より良いプレゼンテーション を実行可能とするためには、上記従来のプレゼンテーション支援装置のように話し手 の音声のみを解析処理するだけでは不充分であり、プレゼンテーションの実行中や 練習中に話し手による非言語情報をより適正に把握できるようにする必要がある。一 方、プレゼンテーションを実行する話し手の心理状態を計数処理により正確に捉える ことは困難であり、話し手の心理状態をフィードバックするプレゼンテーション支援装 置には、実現性や実用性の面で問題があるとレ、わざるを得なレ、。
[0004] そこで、本発明は、話し手の音声の状態や身体的所作等の非言語情報をより適正 に把握可能であり、より良いプレゼンテーションの実行やプレゼンテーションスキルの 向上に寄与し得るプレゼンテーション支援装置および方法並びにプログラムの提供 を目的の一つとする。また、本発明は、より実用的なプレゼンテーション支援装置およ び方法並びにプログラムの提供を目的の一つとする。
[0005] 本発明によるプレゼンテーション支援装置および方法並びにプログラムは、上述の 目的の少なくとも一部を達成するために以下の手段を採っている。
[0006] 本発明によるプレゼンテーション支援装置は、
プレゼンテーションを実行する話し手を支援するためのプレゼンテーション支援装 置であって、
前記話し手の音声に基づく音響情報を取得する音響情報取得手段と、 前記話し手の身体的動作に関する画像情報を取得する画像情報取得手段と、 前記音響情報取得手段により取得された音響情報に基づいて前記プレゼンテーシ ヨン中の前記話し手による発話に関連した所定の音響的評価指標を算出すると共に 前記音響情報取得手段により取得された音響情報と前記画像情報取得手段により 取得された画像情報との少なくと何れか一方に基づいて前記プレゼンテーション中 の前記話し手による所作に関連した所定の所作的評価指標を算出する評価指標算 出手段と、
前記話し手に対して前記評価指標算出手段により算出された前記音響的評価指 標および前記所作的評価指標に基づくフィードバックを提供可能なフィードバック手
段と、
を備えるものである。
[0007] このプレゼンテーション支援装置は、実際のプレゼンテーションゃプレゼンテーショ ンの練習に際し、話し手の音声に基づく音響情報と話し手の身体的動作に関する画 像情報とを取得し、取得した音響情報に基づいてプレゼンテーション (以下、練習時 のものを含む)中の話し手による発話に関連した所定の音響的評価指標を算出する と共に、取得した音響情報と画像情報との少なくとも何れか一方に基づ!/、てプレゼン テーシヨン中の話し手による所作に関連した所定の所作的評価指標を算出する。そ して、このプレゼンテーション支援装置は、話し手に対してこれらの音響的評価指標 と所作的評価指標とに基づくフィードバックをほぼリアルタイムあるいは事後的に提供 可能である。このように、実際のプレゼンテーションやプレゼンテーションの練習に際 して、話し手の音声に基づく音響情報のみならず話し手の身体的動作に関する画像 情報を取得し、音響情報と画像情報との少なくとも何れか一方に基づいて所作的評 価指標をも算出するようにすれば、プレゼンテーションの実行中あるいは練習中に話 し手の音声の状態や身体的所作等の非言語情報をより適正に把握することが可能と なるので、より良いプレゼンテーションの実行やプレゼンテーションスキルの向上に寄 与し得るより実用的なプレゼンテーション支援装置の実現が可能となる。
[0008] また、前記画像情報は、前記話し手の少なくとも顔の向きに関する顔情報を含んで もよぐ前記評価指標算出手段は、前記画像情報取得手段により取得された前記顔 情報に基づいて前記話し手による聞き手とのアイコンタクトの度合を示す指標を前記 所作的評価指標として算出するものであってもよい。すなわち、プレゼンテーションに 際して話し手がより適切に聞き手に目を向けるようになれば、そのプレゼンテーション は説得力に満ちた印象のよいものとなる。従って、このようにアイコンタクトの度合を示 す指標を所作的評価指標の一つとすれば、プレゼンテーション支援装置をより良い プレゼンテーションの実行やプレゼンテーションスキルの向上に寄与し得るより実用 的なあのとすること力でさる。
[0009] 更に、前記音響情報は、前記話し手による連続した発話区間の時間を示す発話時 間情報を含むと共に、前記画像情報は、前記話し手の少なくとも顔の向きに関する
顔情報を含んでもよぐ前記評価指標算出手段は、前記音響情報取得手段により取 得された前記発話時間情報と前記画像情報取得手段により取得された前記顔情報 との少なくとも何れか一方に基づいて前記プレゼンテーション中の前記話し手による 間の取り方に関する指標を前記所作的評価指標として算出するものであってもよい。 すなわち、プレゼンテーションに際して、話し手が例えば聞き手に目を向けた状態で の意図的な沈黙すなわち効果的な間をより適切につくり出せれば、そのプレゼンテ ーシヨンは聞き手を引きつける印象のよいものとなる。従って、音響情報と画像情報と の少なくとも何れか一方に基づく間の取り方に関する指標を所作的評価指標の一つ とすれば、プレゼンテーション支援装置をより良いプレゼンテーションの実行ゃプレ ゼンテーシヨンスキルの向上に寄与し得るより実用的なものとすることができる。
[0010] また、前記音響情報は、前記話し手による連続した発話区間の時間を示す発話時 間情報と該発話区間における音節数を示す音節情報とを含んでもよぐ前記評価指 標算出手段は、前記音響情報取得手段により取得された前記発話時間情報および 前記音節情報に基づいて前記話し手による話速度を示す指標を前記音響的評価指 標として算出するものであってもよい。すなわち、プレゼンテーション中の話し手によ る話速度がより適切なものであれば、そのプレゼンテーションは聞き取りやす!/、印象 のよいものとなる。従って、話し手による話速度を示す指標を音響的評価指標の一つ とすれば、プレゼンテーション支援装置をより良いプレゼンテーションの実行ゃプレ ゼンテーシヨンスキルの向上に寄与し得るより実用的なものとすることができる。
[0011] 更に、前記音響情報は、前記話し手の音声の基本周波数を示す基本周波数情報 を含んでもよぐ前記評価指標算出手段は、前記音響情報取得手段により取得され た前記基本周波数情報に基づいて前記話し手による発話の抑揚を示す指標を前記 音響的評価指標として算出するものであってもよい。すなわち、プレゼンテーション中 の話し手による発話の抑揚がより適切なものであれば、そのプレゼンテーションはメリ ノ、リのきいた印象のよいものとなる。従って、話し手による発話の抑揚を示す指標を 音響的評価指標の一つとすれば、プレゼンテーション支援装置をより良いプレゼンテ ーシヨンの実行やプレゼンテーションスキルの向上に寄与し得るより実用的なものと すること力 Sでさる。
[0012] また、前記音響情報は、前記話し手の音声の基本周波数を示す基本周波数情報と 該基本周波数に基づくスペクトル包絡を示すスペクトル包絡情報とを含んでもよぐ 前記評価指標算出手段は、前記音響情報取得手段により取得された前記基本周波 数情報および前記スペクトル包絡情報に基づいて前記プレゼンテーション中の前記 話し手による言い淀みに関する指標を前記音響的評価指標として算出するものであ つてもよい。すなわち、話し手によるプレゼンテーション中の言い淀みがより少なくな れば、そのプレゼンテーションは自信に満ちた印象のよいものとなる。従って、話し手 によるプレゼンテーション中の言い淀みに関する指標を音響的評価指標の一つとす れば、プレゼンテーション支援装置をより良いプレゼンテーションの実行ゃプレゼン テーシヨンスキルの向上に寄与し得るより実用的なものとすることができる。
[0013] 更に、前記フィードバック手段は、前記評価指標算出手段により算出された前記音 響的評価指標および前記所作的評価指標の少なくとも何れか一つをそれに対応し た閾値と比較すると共に、比較結果に応じて前記プレゼンテーションを実行してレ、る 前記話し手に所定の警告を付与可能なものであってもよい。これにより、実際のプレ ゼンテーシヨンやプレゼンテーションの練習に際し、そのプレゼンテーションがより良 いものとなるように、話し手にほぼリアルタイムで現状を把握させることが可能となる。
[0014] 本発明によるプレゼンテーション支援方法は、プレゼンテーションを実行する話し手 を支援するためのプレゼンテーション支援方法であって、
(a)前記話し手の音声に基づく音響情報と前記話し手の身体的動作に関する画像 情報とを取得するステップと、
(b)ステップ (a)で取得された前記音響情報に基づいて前記プレゼンテーション中の 前記話し手による発話に関連した所定の音響的評価指標を算出すると共に、ステツ プ ωで取得された前記音響情報および前記画像情報の少なくと何れか一方に基づ いて前記プレゼンテーション中の前記話し手による所作に関連した所定の所作的評 価指標を算出するステップと、
(C)前記話し手に対してステップ (b)で算出された前記音響的評価指標および前記 所作的評価指標に基づくフィードバックを提供するステップと、
を含むものである。
[0015] このプレゼンテーション支援方法は、プレゼンテーションの実行中あるいは練習中 に話し手の音声の状態や身体的所作等の非言語情報をより適正に把握することを可 能とするものであり、より良いプレゼンテーションの実行やプレゼンテーションスキル の向上に寄与し得る。
[0016] また、ステップ (a)は、前記画像情報として、前記話し手の少なくとも顔の向きに関 する顔情報を取得するものであってもよぐステップ (b)は、ステップ(a)にて取得され た前記顔情報に基づいて前記話し手による聞き手とのアイコンタクトの度合を示す指 標を前記所作的評価指標として算出するものであってもよい。
[0017] 更に、ステップ (a)は、 前記音響情報として、前記話し手による連続した発話区間 の時間を示す発話時間情報を取得すると共に、前記画像情報として、前記話し手の 少なくとも顔の向きに関する顔情報を取得するものであってもよぐステップ (b)は、ス テツプ (a)にて取得された前記発話時間情報と前記顔情報との少なくとも何れか一方 に基づいて前記プレゼンテーション中の前記話し手による間の取り方に関する指標 を前記所作的評価指標として算出するものであってもよい。
[0018] また、ステップ ωは、前記音響情報として、前記話し手による連続した発話区間の 時間を示す発話時間情報と該発話区間における音節数を示す音節情報とを取得す るものであってもよく、ステップ (b)は、ステップ (a)にて取得された前記発話時間情 報および前記音節情報に基づいて前記話し手による話速度を示す指標を前記音響 的評価指標として算出するものであってもよい。
[0019] 更に、ステップ (a)は、前記音響情報として、前記話し手の音声の基本周波数を示 す基本周波数情報を取得するものであってもよぐステップ (b)は、ステップ(a)にて 取得された前記基本周波数情報に基づいて前記話し手による発話の抑揚を示す指 標を前記音響的評価指標として算出するものであってもよい。
[0020] また、ステップ (a)は、前記音響情報として、前記話し手の音声の基本周波数を示 す基本周波数情報と該基本周波数に基づくスペクトル包絡を示すスペクトル包絡情 報とを取得するものであってもよぐステップ (b)は、ステップ (a)にて取得された前記 基本周波数情報および前記スペクトル包絡情報に基づいて前記プレゼンテーション 中の前記話し手による言い淀みに関する指標を前記音響的評価指標として算出す
るものであってもよい。
[0021] 本発明によるプレゼンテーション支援プログラムは、プレゼンテーションを実行する 話し手を支援するためのプレゼンテーション支援装置としてコンピュータを機能させる プレゼンテーション支援プログラムであって、
前記話し手の音声に基づく音響情報を取得する音響情報取得モジュールと、 前記話し手の身体的動作に関する画像情報を取得する画像情報取得モジュール と、
前記音響情報取得モジュールにより取得された音響情報に基づいて前記プレゼン テーシヨン中の前記話し手による発話に関連した所定の音響的評価指標を算出する と共に、前記音響情報取得モジュールにより取得された音響情報と前記画像情報取 得モジュールにより取得された画像情報との少なくとも何れか一方に基づいて前記 プレゼンテーション中の前記話し手による所作に関連した所定の所作的評価指標を 算出する評価指標算出モジュールと、
前記話し手に対して前記評価指標算出モジュールにより算出された前記音響的評 価指標および前記所作的評価指標に基づくフィードバックを提供可能なフィードバッ クモシユーノレと、
を備えるものである。
[0022] このプレゼンテーション支援プログラムがインストールされたコンピュータは、プレゼ ンテーシヨンの実行中あるいは練習中に話し手の音声の状態や身体的所作等の非 言語情報をより適正に把握することを可能とするものであり、より良いプレゼンテーシ ヨンの実行やプレゼンテーションスキルの向上に寄与し得る。
図面の簡単な説明
[0023] [図 1]本発明の一実施例に係るプレゼンテーション支援装置 20を用いてプレゼンテ ーシヨンを実行している様子を示す説明図である。
[図 2]本発明の一実施例に係るプレゼンテーション支援装置 20の概略構成図である
〇
[図 3]話し手 10が聞き手 100の方を向いているか否か判定する手順を示す説明図で ある。
[図 4]話し手 10がプレゼンテーションを実行している際に主にメインコンピュータ 30の 指標演算部 35と統合処理部 36とにより実行される処理の一例を示すフローチャート である。
[図 5]話し手 10がプレゼンテーションを実行している際にサブコンピュータ 40の表示 画面 41に表示されるリアルタイムモニタ 44の一例を示す説明図である。
発明を実施するための最良の形態
[0024] 次に、実施例を参照しながら本発明を実施するための最良の形態について説明す
[0025] 図 1は、本発明の一実施例に係るプレゼンテーション支援装置 20を用いてプレゼ ンテーシヨンを実行して!/、る力、、あるいはプレゼンテーションのリハーサルを行って!/ヽ る様子を示す説明図であり、図 2は、本発明の一実施例に係るプレゼンテーション支 援装置 20の概略構成図である。図 1および図 2に示すように、実施例のプレゼンテー シヨン支援装置 20は、話し手 10によるプレゼンテーションを支援するための主たる処 理を実行するメインコンピュータ 30と、プレゼンテーションの実行に際して話し手 10 により使用されるサブコンピュータ 40と、プレゼンテーションを実行する話し手 10を撮 影して当該話し手 10の画像を取り込み可能な画像取り込み手段(撮像手段)として のカメラ 50と、プレゼンテーションを実行する話し手 10の音声を取り込む集音手段と してのマイクロフォン 60と、所定の警告機器 70 (図 2参照)等とを含む。
[0026] メインコンピュータ 30とサブコンピュータ 40とは、何れも図示しない CPU, ROM, R AM、グラフィックプロセッサ(GPU)、システムバス、各種インターフェース、記憶装置 (ハードディスクドライブ)、外部記憶装置、一体化または別体化された液晶ディスプ レイ等の表示ユニット等を含む汎用のコンピュータであり、両者は相互に通信可能と される。メインコンピュータ 30には、本発明によるプレゼンテーション支援プログラム がインストールされ、実施例では、サブコンピュータ 40に所定のプレゼンテーションソ フトがインストールされる。そして、プレゼンテーション用の資料は、サブコンピュータ 4 0に接続されるプロジェクタ 80によりスクリーン 90に投影される。また、カメラ 50として は、例えば一般的なウェブカメラを使用可能であり、カメラ 50は、プレゼンテーション を実行する話し手 10の特に顔を撮影できるように例えばサブコンピュータ 40の適所
に装着される。実施例では、カメラ 50はサブコンピュータ 40に接続されており、カメラ 50からの画像データは、連続的な動画あるいは静止画としてサブコンピュータ 40に 一旦取り込まれる。更に、マイクロフォン 60としては、ピンマイク、ヘッドセットマイク、 卓上据え置き型マイク等を使用可能であり、実施例では、マイクロフォン 60からの音 声データはメインコンピュータ 30に取り込まれる。そして、警告機器 70は、メインコン ピュータ 30に接続され、プレゼンテーション支援に際してメインコンピュータ 30からプ レゼンテーシヨンを実行する話し手 10に対して所定の警告を付与する際に利用され る。警告機器 70は、プレゼンテーションの実行に際して話し手 10の目が届きやすい 位置に配置される例えばメインコンピュータ 30に接続されたモニタ等とされる力 この ような話し手 10に警告を視覚的に付与する装置に限られず、話し手 10に対して音や 振動により警告を付与する装置等を警告機器 70とすることもできる。例えば、マナー モード状態にある携帯電話を話し手 10に所持させ、話し手 10に警告を付与する際 にメインコンピュータ 30から当該携帯電話にメールを送信してもよい。この場合、警告 の種類ごとに着信パターン (振動パターン)を異ならせれば、複数の警告を話し手 10 に付与することが可能となる。なお、実施例では、プレゼンテーション支援装置 20の 上記構成要素間における通信に、例えば RVCPプロトコル (後藤真孝他:"音声補完 :音声入力インタフェースへの新しいモダリティの導入, "コンピュータソフトウェア, V ol. 19, No. 4, pp. 10- 21 , 2002.参照、)カ用いられる。
[0027] そして、メインコンピュータ 30には、図 2に示すように、図示しない CPUや ROM, R AM, GPU、各種インターフェース、記憶装置といったハードウェアと、インストールさ れたプレゼンテーション支援プログラムを始めとする各種プログラムとの一方または双 方の協働により、音響情報処理部 31と、画像情報処理部 34と、指標演算部 35、統 合処理部 36と、データ記憶部 37等とが機能ブロックとして構築されている。
[0028] 音響情報処理部 31は、マイクロフォン 60により集音された話し手 10の音声データ を当該マイクロフォン 60から受け取って話し手 10の音声に基づく各種音響情報を算 出(取得)するものであり、音響分析部 32と音声認識部 33とを有する。音響分析部 3 2は、所定時間(例えば 10msec)おきに、マイクロフォン 60から受け取った音声デー タに基づいて、話し手 10による連続した発話区間の時間を示す発話時間 t (発話時
間情報)と、話し手 10の音声の基本周波数を示す基本周波数 fO (基本周波数情報) と、当該基本周波数 fOに基づくスペクトル包絡 Se (スペクトル包絡情報)とを算出して 指標演算部 35に出力する。この場合、音響分析部 32は、例えば入力した音声デー タの音声パワーに基づいて一連の発話区間の時間を算出する。また、音響分析部 3 2は、入力した音声データについての瞬時周波数を計算すると共に瞬時周波数に関 連した所定の尺度に基づいて周波数成分を抽出した上で、最も優勢な高調波構造 に基づいて基本周波数 fOを推定し、更に、当該基本周波数 fOに基づいてスぺクトノレ 包絡 Seを推定する。なお、基本周波数 fOおよびスペクトル包絡 Seの推定には、特開 2001— 125584号公報に記載された手法を用いることができる。音声認識部 33は、 マイクロフォン 60から受け取った音声データに基づいて、例えば音節(日本語におけ る「かな」に対応した音韻体系)を単位とした音声認識処理を実行し、認識結果として 音節列ごとの音節数 (音節情報)にタイムスタンプ情報 (話し手により発せられた音声 と認識された音節との時間的な対応)情報を付与したものを指標演算部 35に出力す る。かかる音声認識部 33は、例えば" julian" (http://julius.sourceforge.jp)という音声 認識エンジンを認識結果が指標演算部 35に逐次送信されるように拡張したもの(北 山他:"音声スタータ:" SWITCH"on"Speech" ,情報処理学会 音声言語情報処 理研究会 研究報告 2003 - SLP -46 - 12, Vol. 2003, No. 58 , pp. 67— 72 , May2003. )等を用いることにより容易に構成可能である。
画像情報処理部 34は、カメラ 50を介してサブコンピュータ 40に取り込まれた画像 データを当該サブコンピュータ 40から受け取って話し手 10の身体的動作に関する各 種画像情報を算出(取得)する。実施例の画像情報処理部 34は、所定時間(例えば 10msec)おきに、カメラ 50 (サブコンピュータ 40)からの画像データに基づいて話し 手 10の顔の位置および向き (顔情報)を算出して指標演算部 35に出力する。このよ うにカメラ 50からの画像データに基づいて話し手 10の顔の位置および向きを算出す る手法としては、部分空間法と SVM (Support Vector Machine)とを用いた画像処理 方法があげられる(特開 2005— 250863号公報、および松坂要佐, "部分空間法と SVMを用いた 2次元画像からの 360度顔 ·顔部品追跡手法, "信学技報 PRMU V ol. 106, No. 72, pp. 19— 24, 2006.参照、)。咅分空間法と SVMとを用いた画像
処理方法を採用する場合には、話し手 10の様々な姿勢における頭部領域画像を事 前データとして予め収集しておく。そして、事前データに対して主成分分析を適用し て固有ベクトルのセットを得た上で、それらの固有ベクトルのセットをモデルとして使 用し、入力画像に対して最もフィットするモデルを判別することで話し手 10の顔の位 置を求める。更に、求めた顔の位置に対して SVMを用いた顔角度推定を適用するこ とにより話し手 10の顔の向きを得ること力 Sできる。また、話し手 10の顔の位置および 向きを算出する際に、 "AR Tool KIT" (http://www.hitl.washington.edu/artoolkit/参 照)を用いてもよい。この場合、話し手 10は、各面に所定の 2次元コードが貼着され た立方体であるマーカを頭部に装着した状態でプレゼンテーションを実行することに なり、カメラ 50によりマーカの 2次元コードを撮影して、当該マーカの三次元位置と向 きとから話し手 10の顔の位置および向きを得ることができる。このような手法は、プレ ゼンテーシヨンに際してマーカの装着を要求するが、部分空間法と SVMとを用いた 画像処理方法のように話し手ごとに事前データを要求するものではないことから、特 にプレゼンテーションの練習に際して手軽に利用可能なものである。
指標演算部 35は、音響情報処理部 31からの音響情報に基づいてプレゼンテーシ ヨン中の話し手 10による発話に関連した所定の音響的評価指標を算出すると共に、 音響情報処理部 31からの音響情報と画像情報処理部 34からの画像情報との少なく とも何れか一方に基づいてプレゼンテーション中の話し手 10による所作に関連した 所定の所作的評価指標を算出し、算出した評価指標を統合処理部 36に出力する。 実施例において、指標演算部 35により算出される音響的評価指標には、話し手 10 による話速度 Vsと、話し手 10による発話の抑揚 (声の高さ)に関する指標 Acと、プレ ゼンテーシヨン中の話し手 10による言い淀みに関する指標 Dfとが含まれる。この場 合、指標演算部 35は、話し手 10が音声を発していない無音区間を除いて、音声認 識部 33からのある音節列における音節数を音響分析部 32からの当該音節列に対応 した発話時間 tで除して単位時間当たりの音節数を求めた上で、過去 n秒間における 単位時間当たりの音節数の平均値を話し手 10の話速度 Vsとして算出する。また、指 標演算部 35は、音響分析部 32からの基本周波数 f0に基づいて所定時間おきに当 該基本周波数 f0の標準偏差を算出し、力、かる標準偏差が話し手 10による発話の抑
揚を示す指標 Acとして用いられる。更に、指標演算部 35は、いわゆる有声休止や音 節(母音)の引き延ばしといった言い淀みには基本周波数 fOの変動が少なぐかつス ベクトル包絡 Seの変形が小さいという特徴があることを利用して(上記特開 2001— 1 25584号公報参照)、音響分析部 32からの基本周波数 fOとスペクトル包絡 Seとに基 づいて言い淀み(有声休止および音節の引き延ばし)の有無を判定し、言い淀みを 検出しなければ言い淀みの指標 Dfを値 0に設定すると共に、言い淀みを検出した際 には言!/、淀みの指標 Dfを値 1に設定する。
[0031] 一方、実施例において、指標演算部 35により算出される所作的評価指標には、話 し手 10による聞き手 100 (図 1参照)とのアイコンタクトの度合を示す指標 EIと、プレゼ ンテーシヨン中の話し手 10による間の取り方に関する指標 SIとが含まれる。この場合 、指標演算部 35は、画像情報処理部 34から話し手 10の顔の位置および向きを示す 顔情報を受け取ると、当該顔情報に基づいて話し手 10が聞き手 100の方を向いて いるか否かを示す 2値情報を求めた上で、当該 2値情報からプレゼンテーション中に 話し手 10が聞き手 100の方を向いている時間的割合をアイコンタクトの度合を示す 指標 EIとして算出する。実施例では、図 3に示すようなプレゼンテーション環境を想 定し、カメラ 50と話し手 10とを結ぶ面 s0と聞き手 100側に角度 α (例えば 20° 、ただ しプレゼンテーション環境ごとに変更され得る)をなす面 siから、当該面 siと聞き手 1 00側に所定角度 /3 (例えば 90° 、ただしプレゼンテーション環境ごとに変更され得 る)をなす面 s2とにより規定される範囲内(図 3におけるハッチング部)に話し手 10の 顔の向きの水平方向角度が含まれていれば、話し手 10が聞き手 100側を向いてい るとみなしている。
[0032] また、指標演算部 35は、音響分析部 32からの発話時間情報や画像情報処理部 3 4からの顔情報に基づいて、話し手 10による間の取り方に関する指標 SIを次のように して算出(設定)する。ここで、プレゼンテーションにおいて効果的な「間」とは、その 後の発言を強調したり、聞き手 100を話に引き付けたりするように話し手 10が意図的 につくり出す「沈黙」をいう。そして、この沈黙は、単に発話していないだけでは何ら意 味をもたず、聞き手 100の方を向いた状態でなされる必要がある。その一方で、逆に プレゼンテーション中に間がなぐ一つ一つの発話区間が冗長になることは聞き手 10
0の理解を妨げ、聞き取りやすさを損なう。これらを踏まえて、実施例の指標演算部 3 5は、音響分析部 32からの発話時間情報と画像情報処理部 34からの顔情報との少 なくとも何れか一方に基づいて話し手 10による間の取り方に関する指標 SIを以下の ように定義する。すなわち、指標演算部 35は、発話時間情報と顔情報を用いて求め られる上記 2値情報とから話し手 10が音声を発することなく連続して聞き手 100側を 見ている無音区間の時間 ts (秒)を求めた上で、 ts< l (秒)であるときには、 SI = 50 とし、 ts≥l (秒)であるときには、次式(1)を用いて指標 SIを算出する。ただし、 SI > 100となったときには、 SI= 100とされる。また、話し手 10が連続して発話している場 合、指標演算部 35は、発話時間情報から連続した発話時間 tc (秒)を求めた上で、 次式(2)を用いて指標 SIを算出する。ただし、 SI< 0となったときには、 SI = 0とされ る。このようにして算出される指標 SIは、値 50を基準とし、間が長くなるとその値も大 きくなり、無音区間の時間 tsが 5秒以上になると最大値 100となる。なお、この 5秒とい う値は、いわゆる「びっくり間」(竹内一郎, "人は見た目が 9割, "新潮新書, 2005. 参照)を考慮したものである。また、話し手 10が発話を続けていると、式(2)より指標 S Iは基準値 50から徐々に低下していき、発話時間 tcが 13秒以上になると最小値 0と なる。なお、この 13秒という値は、深い一呼吸の時間に基づいて定められている。
[0033] SI = 50 + 12.5 -(ts - 1)
SI = 50 - 50/13 -tc · ' · (2)
[0034] 統合処理部 36は、プレゼンテーションの実行中に話し手 10に対して上述のように して指標演算部 35により算出された音響的評価指標および所作的評価指標に基づ くフィードバックを提供する。また、統合処理部 36は、 1回のプレゼンテーション中に 算出された音響的評価指標および所作的評価指標のそれぞれについて、当該評価 指標をプレゼンテーション資料 (スライド)と関連付けした時系列のグラフを作成するこ と等により、話し手 10に音響的評価指標および所作的評価指標に基づく事後的なフ イードバックをも提供可能である。また、データ記憶部 37は、プレゼンテーション支援 に際して必要とされる閾値等の各種データや画像データ等を記憶する。
[0035] 次に、図 4および図 5を参照しながら、実施例のプレゼンテーション支援装置 20の 動作について説明する。
[0036] 図 4は、話し手 10がプレゼンテーションを実行している際に主にメインコンピュータ 3 0の指標演算部 35と統合処理部 36とにより実行される処理の一例を示すフローチヤ ートである。図 4のルーチンの開始に際して、メインコンピュータ 30の指標演算部 35 は、サブコンピュータ 40からのプレゼンテーション関連情報、音響情報処理部 31か らの発話時間 t (発話時間情報)、基本周波数 f0およびスペクトル包絡 Se、画像情報 処理部 34からの顔情報(話し手 10の顔の位置および向き)、音節情報といった処理 に必要な情報の入力処理を実行する(ステップ S100)。ここで、プレゼンテーション 関連情報は、サブコンピュータ 40にインストールされたプレゼンテーションソフトから のプレゼンテーションの開始および終了信号、予定発表時間、プレゼンテーション資 料であるスライドの切替信号、スライドのサムネイル画像といった情報を含む。ステツ プ S100の入力処理の後、指標演算部 35は、サブコンピュータ 40からのプレゼンテ ーシヨン関連情報に基づいて、話し手 10によりプレゼンテーションが実行されている か否かを判定し(ステップ S110)、プレゼンテーションが実行中であれば、上述のよう にして各種音響情報や顔情報に基づいて、話し手 10による話速度 Vs、話し手 10に よる発話の抑揚を示す指標 Ac、言い淀みに関する指標 Df、アイコンタクトの度合を 示す指標 EIおよび間の取り方に関する指標 SIといった評価指標を算出すると共に、 入力したプレゼンテーション関連情報に基づいてプレゼンテーションの予定残り時間 を算出し、これらの評価指標および予定残り時間を統合処理部 36に出力する(ステ ップ S 120)。
[0037] 指標演算部 35から音響的評価指標と所作的評価指標と予定残り時間とを受け取 つた統合処理部 36は、各評価指標をそれに対応した閾値と比較してプレゼンテーシ ヨンを実行する話し手 10に警告を付与すべきか否か判定する判定処理を実行する( ステップ S 130)。実施例では、一般にプレゼンテーションを実行する話し手 10が普 段よりも早口になる傾向にあることを踏まえて、話速度 Vsが所定の上限値 (例えば 7. 6音節/秒)を超えた場合に話し手 10に話速度についての警告を付与することとした 。また、実施例では、抑揚の少ないモノトーンな発話を抑制させるベぐ発話の抑揚を 示す指標 Ac (基本周波数 f0の標準偏差)が所定の下限値 (例えば男性の場合、 10 Hz)を下回った場合に抑揚についての警告を付与することとした。更に、実施例では
、言い淀みの存在はプレゼンテーションのパフォーマンスに悪影響を与えてしまう要 因であることから、指標 Dfが値 1である場合には、話し手 10に言い淀みが合った旨 の警告を付与することとした。加えて、実施例では、聞き手 100とのアイコンタクトが少 ないと聞き手 100の受ける印象が悪化することを踏まえて、アイコンタクトの指標 EIが 所定の下限値 (例えば 15%)を下回った場合に話し手 10にアイコンタクトについての 警告を付与することとした。また、実施例では、予定発表時間は当然に遵守されるべ きであることを踏まえて、予定残り時間が予定発表時間の 20%となった時点で話し手 10にその旨を通知することとした。なお、実施例において、間の取り方の指標 SIにつ V、ては閾値との比較による警告の必要性を判定しな!/、ものとした力 間の取り方の指 標 SIについても適切な閾値を定めて話し手 10に閾値との比較結果に応じた警告を 付与してもよレ、ことは!/、うまでもな!/、。
[0038] こうしてステップ S130の処理を実行したならば、警告の対象となった評価指標が存 在するか否かを判定し (ステップ S 140)、警告の対象となった評価指標が存在してい れば、当該評価指標に対応した警告表示指令を設定する(ステップ S150)。実施例 では、警告の対象となった評価指標が存在している場合、話し手 10が用いるサブコ ンピュータ 40の表示画面 41 (図 2参照)に所定のマークと警告内容とを示す警告表 示 43を資料画像 42と共に表示すると共に警告機器 70 (モニタ)にも同様の警告表 示を表示することとしている。従って、例えば話速度 Vsが上限値を超えている場合、 警告表示指令は、所定のマークと共に「話速度おとせ」と!/、つた文字列を表示画面 4 1等に表示させるための指令となる。また、抑揚、言い淀み、アイコンタクト、予定残り 時間についての警告表示指令は、それぞれ所定のマークと共に「抑揚つけろ」、「よ どむな」、「原稿みるな」、「時間 80%経過」といった文字列を表示画面 41等に表示さ せるための指令となる。なお、警告の対象となった評価指標が存在していなければ、 ステップ S 150の処理はスキップされる。
[0039] ステップ S140また S150の処理の後、プレゼンテーション管理情報を設定し、当該 プレゼンテーション管理情報をサブコンピュータ 40や所定の警告機器 70に送信する (ステップ S 160)。プレゼンテーション管理情報は、上述の警告表示指令の他に、図 5に示すリアルタイムモニタ 44をサブコンピュータ 40の表示画面 41に表示させるた
めの指令等を含む。実施例において、リアルタイムモニタ 44は、図 5に示すように、現 状の予定残り時間、話速度 Vs、抑揚に関する指標 Ac、アイコンタクトに関する指標 E Iおよび間の取り方に関する指標 SIを話し手 10がほぼリアルタイムで把握できるよう にするものとされる。これにより、プレゼンテーションを実行する話し手 10に対して音 響的評価指標および所作的評価指標に基づくフィードバックを良好に提供可能とな る。なお、実施例のプレゼンテーション支援装置 20では、上述のように各評価指標を プレゼンテーション資料 (スライド)と関連付けした時系列のグラフを事後的に提供す ベぐステップ S 160では、各評価指標をプレゼンテーション資料と関連付けしたデー タの保存処理も実行される。そして、ステップ S160の処理を実行したならば、再度ス テツプ S 100以降の処理を実行し、ステップ S 110にてプレゼンテーションが終了した と判断した時点で本ルーチンを終了させる。
以上説明したように、実施例のプレゼンテーション支援装置 20では、実際のプレゼ ンテーシヨンやプレゼンテーションの練習に際し、メインコンピュータ 30の音響情報処 理部 31によりマイクロフォン 60を介して集音された話し手 10の音声に基づく音響情 報が取得されると共に、画像情報処理部 34によりカメラ 50を介して取り込まれた話し 手 10の身体的動作に関する画像情報とが取得される。更に、メインコンピュータ 30 の指標演算部 35により、音響情報に基づいてプレゼンテーション中の話し手 10によ る発話に関連した音響的評価指標が算出されると共に、音響情報と画像情報との少 なくとも何れか一方に基づいてプレゼンテーション中の話し手 10による所作に関連し た所作的評価指標が算出される(図 4のステップ S 130)。そして、こうして算出された 音響的評価指標と所作的評価指標とは、それ自体あるいは閾値との比較結果に基 づく警告という形式で話し手 10にほぼリアルタイムでフィードバックされる(図 4のステ ップ S 130〜S160)。また、実施例のプレゼンテーション支援装置は、話し手 10に音 響的評価指標および所作的評価指標に基づく事後的なフィードバックをも提供可能 である。このように、実際のプレゼンテーションやプレゼンテーションの練習に際して、 話し手 10の音声に基づく音響情報のみならず話し手 10の身体的動作に関する画像 情報を取得し、音響情報と画像情報との少なくとも何れか一方に基づいて所作的評 価指標をも算出するようにすれば、プレゼンテーションの実行中あるいは練習中に話
し手 10の音声の状態や身体的所作等の非言語情報をより適正に把握可能となるの で、実施例のプレゼンテーション支援装置 20は、より良いプレゼンテーションの実行 やプレゼンテーションスキルの向上に寄与し得るより実用的なものといえる。また、音 響的評価指標や所作的評価指標の少なくとも何れか一つをそれに対応した閾値と 比較すると共に比較結果に応じた警告を話し手 10に付与すれば、実際のプレゼン テーシヨンやプレゼンテーションの練習に際し、そのプレゼンテーションがより良いも のとなるように、話し手 10にほぼリアルタイムで現状を把握させることが可能となる。
[0041] 更に、実施例のように、アイコンタクトの度合を示す指標 EIや間の取り方に関する指 標 SIを所作的評価指標とすると共に、話速度 Vsや、抑揚を示す指標 Ac、言い淀み に関する指標 Dfを音響的評価指標とすれば、プレゼンテーション支援装置 20をより 良いプレゼンテーションの実行やプレゼンテーションスキルの向上に寄与し得るより 実用的なものとすることができる。すなわち、アイコンタ外の度合を示す指標を所作 的評価指標の一つとすれば、プレゼンテーションに際して話し手 10をより適切に聞き 手 100に目を向けるように仕向けて、そのプレゼンテーションを説得力に満ちた印象 のよいものとすること力 S可能となる。また、音響情報と画像情報との少なくとも何れか 一方に基づく間の取り方に関する指標 SIを所作的評価指標の一つとすれば、話し手 10が聞き手 100に目を向けた状態で意図的な沈黙すなわち効果的な間をより適切 につくり出せるようになり、そのプレゼンテーションを聞き手 100を引きつける印象のよ いものとすること力 Sできる。更に、話し手 10による話速度 Vsを示す指標を音響的評価 指標の一つとすれば、プレゼンテーション中の話し手 10による話速度がより適切なも のとなり、そのプレゼンテーションを聞き取りやすい印象のよいものとすることができる
。また、話し手 10による発話の抑揚を示す指標 Acを音響的評価指標の一つとすれ ば、プレゼンテーション中の話し手 10による発話の抑揚をより適切なものとして、その プレゼンテーションをメリノ、リのきいた印象のよいものとすることができる。更に、プレ ゼンテーシヨン中の話し手 10による言い淀みに関する指標 Dfを音響的評価指標の 一つとすれば、プレゼンテーション中の話し手 10による言い淀みがより少なくなり、そ のプレゼンテーションを自信に満ちた印象のよいものとすることができる。
[0042] なお、音響的評価指標や所作的評価指標は、上述のものに限られるものではなぐ
他の様々な指標を用いることが可能である。例えば、所作的評価指標としては、話し 手 10の視線や立ち位置の安定度に関する指標や、身振り手振りといったボディジェ スチヤに関する指標、表情に関する指標、スクリーン 90に映し出される資料に対する 視線に関する指標等をとりいれてもよい。また、上記実施例をメインコンピュータ 30に 本発明によるコンピュータ支援プログラムがインストールされるものとして説明した力 これに限られるものではなぐコンピュータ支援プログラムは、プレゼンテーションの実 行に際して話し手 10により使用されるサブコンピュータ 40にインストールされてもよい
[0043] 以上、実施例を用いて本発明の実施の形態について説明した力 本発明は上記 各実施例に何ら限定されるものではなく、本発明の要旨を逸脱しなレゝ範囲内にお!/ヽ て、様々な変更をなし得ることはレ、うまでもな!/、。
産業上の利用可能性
[0044] 本発明は、プレゼンテーション支援ツールの製造業、プレゼンテーションの講習業 等において利用可能である。
Claims
請求の範囲
[1] プレゼンテーションを実行する話し手を支援するためのプレゼンテーション支援装 置であって、
前記話し手の音声に基づく音響情報を取得する音響情報取得手段と、 前記話し手の身体的動作に関する画像情報を取得する画像情報取得手段と、 前記音響情報取得手段により取得された音響情報に基づいて前記プレゼンテーシ ヨン中の前記話し手による発話に関連した所定の音響的評価指標を算出すると共に 、前記音響情報取得手段により取得された音響情報と前記画像情報取得手段により 取得された画像情報との少なくと何れか一方に基づいて前記プレゼンテーション中 の前記話し手による所作に関連した所定の所作的評価指標を算出する評価指標算 出手段と、
前記話し手に対して前記評価指標算出手段により算出された前記音響的評価指 標および前記所作的評価指標に基づくフィードバックを提供可能なフィードバック手 段と、
を備えるプレゼンテーション支援装置。
[2] 請求項 1に記載のプレゼンテーション支援装置にお!/、て、
前記画像情報は、前記話し手の少なくとも顔の向きに関する顔情報を含み、 前記評価指標算出手段は、前記画像情報取得手段により取得された前記顔情報 に基づいて前記話し手による聞き手とのアイコンタクトの度合を示す指標を前記所作 的評価指標として算出するプレゼンテーション支援装置。
[3] 請求項 1に記載のプレゼンテーション支援装置にお!/、て、
前記音響情報は、前記話し手による連続した発話区間の時間を示す発話時間情 報を含むと共に、前記画像情報は、前記話し手の少なくとも顔の向きに関する顔情 報を含み、
前記評価指標算出手段は、前記音響情報取得手段により取得された前記発話時 間情報と前記画像情報取得手段により取得された前記顔情報との少なくとも何れか 一方に基づいて前記プレゼンテーション中の前記話し手による間の取り方に関する 指標を前記所作的評価指標として算出するプレゼンテーション支援装置。
[[44]] 請請求求項項 11にに記記載載ののププレレゼゼンンテテーーシショョンン支支援援装装置置ににおお!!//、、てて、、
前前記記音音響響情情報報はは、、前前記記話話しし手手にによよるる連連続続ししたた発発話話区区間間のの時時間間をを示示すす発発話話時時間間情情 報報とと該該発発話話区区間間ににおおけけるる音音節節数数をを示示すす音音節節情情報報ととをを含含みみ、、
前前記記評評価価指指標標算算出出手手段段はは、、前前記記音音響響情情報報取取得得手手段段にによよりり取取得得さされれたた前前記記発発話話時時 間間情情報報おおよよびび前前記記音音節節情情報報にに基基づづいいてて前前記記話話しし手手にによよるる話話速速度度をを示示すす指指標標をを前前記記 音音響響的的評評価価指指標標ととししてて算算出出すするるププレレゼゼンンテテーーシショョンン支支援援装装置置。。
[[55]] 請請求求項項 11にに記記載載ののププレレゼゼンンテテーーシショョンン支支援援装装置置ににおお!!//、、てて、、
前前記記音音響響情情報報はは、、前前記記話話しし手手のの音音声声のの基基本本周周波波数数をを示示すす基基本本周周波波数数情情報報をを含含みみ 前前記記評評価価指指標標算算出出手手段段はは、、前前記記音音響響情情報報取取得得手手段段にによよりり取取得得さされれたた前前記記基基本本周周 波波数数情情報報にに基基づづいいてて前前記記話話しし手手にによよるる発発話話のの抑抑揚揚をを示示すす指指標標をを前前記記音音響響的的評評価価指指 標標ととししてて算算出出すするるププレレゼゼンンテテーーシショョンン支支援援装装置置。。
[[66]] 請請求求項項 11にに記記載載ののププレレゼゼンンテテーーシショョンン支支援援装装置置ににおお!!//、、てて、、
前前記記音音響響情情報報はは、、前前記記話話しし手手のの音音声声のの基基本本周周波波数数をを示示すす基基本本周周波波数数情情報報とと該該基基 本本周周波波数数にに基基づづくくススペペククトトルル包包絡絡をを示示すすススペペククトトルル包包絡絡情情報報ととをを含含みみ、、
前前記記評評価価指指標標算算出出手手段段はは、、前前記記音音響響情情報報取取得得手手段段にによよりり取取得得さされれたた前前記記基基本本周周 波波数数情情報報おおよよびび前前記記ススペペククトトルル包包絡絡情情報報にに基基づづいいてて前前記記ププレレゼゼンンテテーーシショョンン中中のの前前 記記話話しし手手にによよるる言言いい淀淀みみにに関関すするる指指標標をを前前記記音音響響的的評評価価指指標標ととししてて算算出出すするるププレレゼゼ ンンテテーーシシヨヨンン支支援援装装置置。。
[[77]] 請請求求項項 11にに記記載載ののププレレゼゼンンテテーーシショョンン支支援援装装置置ににおお!!//、、てて、、
前前記記フフィィーードドババッックク手手段段はは、、前前記記評評価価指指標標算算出出手手段段にによよりり算算出出さされれたた前前記記音音響響的的 評評価価指指標標おおよよびび前前記記所所作作的的評評価価指指標標のの少少ななくくとともも何何れれかか一一つつををそそれれにに対対応応ししたた閾閾 値値とと比比較較すするるとと共共にに、、比比較較結結果果にに応応じじてて前前記記ププレレゼゼンンテテーーシショョンンをを実実行行ししてて!!//、、るる前前記記 話話しし手手にに所所定定のの警警告告をを付付与与可可能能ででああるるププレレゼゼンンテテーーシショョンン支支援援装装置置。。
[[88]] ププレレゼゼンンテテーーシショョンンをを実実行行すするる話話しし手手をを支支援援すするるたためめののププレレゼゼンンテテーーシショョンン支支援援方方 法法ででああっってて、、
((aa))前前記記話話しし手手のの音音声声にに基基づづくく音音響響情情報報とと前前記記話話しし手手のの身身体体的的動動作作にに関関すするる画画像像 *
(b)ステップ (a)で取得された前記音響情報に基づいて前記プレゼンテーション中の 前記話し手による発話に関連した所定の音響的評価指標を算出すると共に、ステツ プ ωで取得された前記音響情報および前記画像情報の少なくと何れか一方に基づ いて前記プレゼンテーション中の前記話し手による所作に関連した所定の所作的評
(c)前記話し手に対してステップ (b)で算出された前記音響的評価指標および前記 所作的評価指標に基づくフィードバックを提供するステップと、
を含むプレゼンテーション支援方法。
[9] 請求項 8に記載のプレゼンテーション支援装置方法において、
ステップ(a)は、前記画像情報として、前記話し手の少なくとも顔の向きに関する顔 情報を取得し、
ステップ (b)は、ステップ (a)にて取得された前記顔情報に基づいて前記話し手に よる聞き手とのアイコンタ外の度合を示す指標を前記所作的評価指標として算出す るプレゼンテーション支援装置。
[10] 請求項 8に記載のプレゼンテーション支援装置において、
ステップ (a)は、 前記音響情報として、前記話し手による連続した発話区間の時間 を示す発話時間情報を取得すると共に、前記画像情報として、前記話し手の少なくと も顔の向きに関する顔情報を取得し、
ステップ (b)は、ステップ (a)にて取得された前記発話時間情報と前記顔情報との 少なくとも何れか一方に基づいて前記プレゼンテーション中の前記話し手による間の 取り方に関する指標を前記所作的評価指標として算出するプレゼンテーション支援 装置。
[11] 請求項 8に記載のプレゼンテーション支援装置において、
ステップ ωは、前記音響情報として、前記話し手による連続した発話区間の時間 を示す発話時間情報と該発話区間における音節数を示す音節情報とを取得し、 ステップ (b)は、ステップ (a)にて取得された前記発話時間情報および前記音節情 報に基づいて前記話し手による話速度を示す指標を前記音響的評価指標として算 出するプレゼンテーション支援装置。
[12] 請求項 8に記載のプレゼンテーション支援装置において、
ステップ(a)は、前記音響情報として、前記話し手の音声の基本周波数を示す基本 周波数情報を取得し、
ステップ (b)は、ステップ (a)にて取得された前記基本周波数情報に基づいて前記 話し手による発話の抑揚を示す指標を前記音響的評価指標として算出するプレゼン テーシヨン支援装置。
[13] 請求項 8に記載のプレゼンテーション支援装置において、
ステップ(a)は、前記音響情報として、前記話し手の音声の基本周波数を示す基本 周波数情報と該基本周波数に基づくスペクトル包絡を示すスペクトル包絡情報とを 取得し、 ステップ (b)は、ステップ (a)にて取得された前記基本周波数情報および前 記スペクトル包絡情報に基づいて前記プレゼンテーション中の前記話し手による言 い淀みに関する指標を前記音響的評価指標として算出するプレゼンテーション支援 装置。
[14] プレゼンテーションを実行する話し手を支援するためのプレゼンテーション支援装 置としてコンピュータを機能させるプレゼンテーション支援プログラムであって、 前記話し手の音声に基づく音響情報を取得する音響情報取得モジュールと、 前記話し手の身体的動作に関する画像情報を取得する画像情報取得モジュール と、
前記音響情報取得モジュールにより取得された音響情報に基づいて前記プレゼン テーシヨン中の前記話し手による発話に関連した所定の音響的評価指標を算出する と共に、前記音響情報取得モジュールにより取得された音響情報と前記画像情報取 得モジュールにより取得された画像情報との少なくとも何れか一方に基づいて前記 プレゼンテーション中の前記話し手による所作に関連した所定の所作的評価指標を 算出する評価指標算出モジュールと、
前記話し手に対して前記評価指標算出モジュールにより算出された前記音響的評 価指標および前記所作的評価指標に基づくフィードバックを提供可能なフィードバッ クモシユーノレと、
を備えるプレゼンテーション支援プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006328217A JP2008139762A (ja) | 2006-12-05 | 2006-12-05 | プレゼンテーション支援装置および方法並びにプログラム |
JP2006-328217 | 2006-12-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2008069187A1 true WO2008069187A1 (ja) | 2008-06-12 |
Family
ID=39492075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2007/073356 WO2008069187A1 (ja) | 2006-12-05 | 2007-12-04 | プレゼンテーション支援装置および方法並びにプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2008139762A (ja) |
WO (1) | WO2008069187A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016157097A (ja) * | 2015-02-24 | 2016-09-01 | ブラザー工業株式会社 | 音読評価装置、音読評価方法、及びプログラム |
WO2019172843A1 (en) * | 2018-03-05 | 2019-09-12 | Kaha Pte. Ltd. | Methods and system for determining and improving behavioural index |
CN112805734A (zh) * | 2019-01-22 | 2021-05-14 | 互动解决方案公司 | 用于唤起对发言禁止用语的注意的演讲辅助装置 |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5771998B2 (ja) * | 2011-01-13 | 2015-09-02 | 株式会社ニコン | 電子機器および電子機器の制御プログラム |
CN103238311A (zh) * | 2011-01-13 | 2013-08-07 | 株式会社尼康 | 电子设备及电子设备的控制程序 |
WO2015114824A1 (ja) * | 2014-02-03 | 2015-08-06 | 株式会社日立製作所 | 発話訓練システム及び発話訓練方法 |
JP6846766B2 (ja) * | 2016-06-13 | 2021-03-24 | 株式会社インタラクティブソリューションズ | プレゼンテーション評価装置、プレゼンテーション評価システム、プレゼンテーション評価プログラム及びプレゼンテーション評価装置の制御方法 |
JP6844349B2 (ja) * | 2017-03-15 | 2021-03-17 | 富士通株式会社 | 発表評価システム、評価端末、評価方法、表示方法、評価プログラムおよび表示プログラム |
JP7066115B2 (ja) * | 2017-04-10 | 2022-05-13 | 国立大学法人九州大学 | パブリックスピーキング支援装置、及びプログラム |
JP6288748B1 (ja) * | 2017-11-30 | 2018-03-07 | ジャパンモード株式会社 | 評価支援システム及び評価支援装置 |
JP6241698B1 (ja) * | 2017-09-12 | 2017-12-06 | ジャパンモード株式会社 | 評価支援システム及び評価支援装置 |
WO2019053958A1 (ja) * | 2017-09-12 | 2019-03-21 | ジャパンモード株式会社 | 評価支援システム及び評価支援装置 |
JP6966404B2 (ja) * | 2018-09-14 | 2021-11-17 | Kddi株式会社 | 出力装置及び出力方法 |
JP2020149529A (ja) * | 2019-03-15 | 2020-09-17 | Co−Growth株式会社 | 動画再生装置 |
JP7198459B2 (ja) * | 2021-02-19 | 2023-01-04 | 株式会社インタラクティブソリューションズ | プレゼンテーション評価装置、プレゼンテーション評価システム、プレゼンテーション評価プログラム及びプレゼンテーション評価装置の制御方法 |
WO2022224310A1 (ja) * | 2021-04-19 | 2022-10-27 | 日本電信電話株式会社 | 情報処理装置、情報処理方法およびプログラム |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0795506A (ja) * | 1993-09-21 | 1995-04-07 | Ricoh Co Ltd | 情報再生記録装置 |
JPH07334075A (ja) * | 1994-06-03 | 1995-12-22 | Hitachi Ltd | プレゼンテーション支援装置 |
JPH08339446A (ja) * | 1995-06-09 | 1996-12-24 | Sharp Corp | 対話装置 |
JP2001125584A (ja) * | 1999-10-27 | 2001-05-11 | Natl Inst Of Advanced Industrial Science & Technology Meti | 言い淀み検出方法及び装置 |
JP2005208163A (ja) * | 2004-01-20 | 2005-08-04 | Canon Inc | プレゼンテーション支援装置、プレゼンテーション支援方法及び制御プログラム |
JP2005250863A (ja) * | 2004-03-04 | 2005-09-15 | Univ Waseda | 領域検出方法およびそのシステム |
JP2007219161A (ja) * | 2006-02-16 | 2007-08-30 | Ricoh Co Ltd | プレゼンテーション評価装置及びプレゼンテーション評価方法 |
JP2007336445A (ja) * | 2006-06-19 | 2007-12-27 | Nippon Telegr & Teleph Corp <Ntt> | 会話支援システム |
-
2006
- 2006-12-05 JP JP2006328217A patent/JP2008139762A/ja active Pending
-
2007
- 2007-12-04 WO PCT/JP2007/073356 patent/WO2008069187A1/ja active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0795506A (ja) * | 1993-09-21 | 1995-04-07 | Ricoh Co Ltd | 情報再生記録装置 |
JPH07334075A (ja) * | 1994-06-03 | 1995-12-22 | Hitachi Ltd | プレゼンテーション支援装置 |
JPH08339446A (ja) * | 1995-06-09 | 1996-12-24 | Sharp Corp | 対話装置 |
JP2001125584A (ja) * | 1999-10-27 | 2001-05-11 | Natl Inst Of Advanced Industrial Science & Technology Meti | 言い淀み検出方法及び装置 |
JP2005208163A (ja) * | 2004-01-20 | 2005-08-04 | Canon Inc | プレゼンテーション支援装置、プレゼンテーション支援方法及び制御プログラム |
JP2005250863A (ja) * | 2004-03-04 | 2005-09-15 | Univ Waseda | 領域検出方法およびそのシステム |
JP2007219161A (ja) * | 2006-02-16 | 2007-08-30 | Ricoh Co Ltd | プレゼンテーション評価装置及びプレゼンテーション評価方法 |
JP2007336445A (ja) * | 2006-06-19 | 2007-12-27 | Nippon Telegr & Teleph Corp <Ntt> | 会話支援システム |
Non-Patent Citations (2)
Title |
---|
NAGAYAMA Y.: "Presentation tte Nanda?", CAD&CG MAGAZINE, vol. 4, no. 3, 1 March 2002 (2002-03-01), pages 36 - 37 * |
TAKADA T.: "In'yo Kano na Video Message System no Teian to Jitsugen", COMPUTER SOFTWARE, vol. 16, no. 6, 15 November 1999 (1999-11-15), pages 46 - 54 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016157097A (ja) * | 2015-02-24 | 2016-09-01 | ブラザー工業株式会社 | 音読評価装置、音読評価方法、及びプログラム |
WO2019172843A1 (en) * | 2018-03-05 | 2019-09-12 | Kaha Pte. Ltd. | Methods and system for determining and improving behavioural index |
US11562819B2 (en) | 2018-03-05 | 2023-01-24 | Kaha Pte. Ltd. | Method and system for determining and improving behavioral index |
CN112805734A (zh) * | 2019-01-22 | 2021-05-14 | 互动解决方案公司 | 用于唤起对发言禁止用语的注意的演讲辅助装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2008139762A (ja) | 2008-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2008069187A1 (ja) | プレゼンテーション支援装置および方法並びにプログラム | |
JP6171617B2 (ja) | 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム | |
US9293133B2 (en) | Improving voice communication over a network | |
US10702991B2 (en) | Apparatus, robot, method and recording medium having program recorded thereon | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
JP6585733B2 (ja) | 情報処理装置 | |
JP2005244968A (ja) | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 | |
CN111475206B (zh) | 用于唤醒可穿戴设备的方法及装置 | |
JP2003255993A (ja) | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム | |
JP2013205842A (ja) | プロミネンスを使用した音声対話システム | |
US20180081621A1 (en) | Assistive apparatus having accelerometer-based accessibility | |
CN115088033A (zh) | 代表对话中的人参与者生成的合成语音音频数据 | |
JP4587854B2 (ja) | 感情解析装置、感情解析プログラム、プログラム格納媒体 | |
JP2004199053A (ja) | 絶対音量を使用して音声信号を処理する方法 | |
JP2005352154A (ja) | 感情状態反応動作装置 | |
JPWO2008007616A1 (ja) | 無音声発声の入力警告装置と方法並びにプログラム | |
WO2019142418A1 (ja) | 情報処理装置および情報処理方法 | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
JP5988077B2 (ja) | 発話区間検出装置及び発話区間検出のためのコンピュータプログラム | |
JP6480351B2 (ja) | 発話制御システム、発話制御装置及び発話制御プログラム | |
JP4411590B2 (ja) | 音声可視化方法及び該方法を記憶させた記録媒体 | |
JP6969576B2 (ja) | 情報処理装置、および情報処理方法 | |
Goetze et al. | Multimodal human-machine interaction for service robots in home-care environments | |
EP3288035B1 (en) | Personal audio analytics and behavior modification feedback | |
JP2003228449A (ja) | 対話装置及び対話処理プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 07850006 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 07850006 Country of ref document: EP Kind code of ref document: A1 |