WO2021255795A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2021255795A1
WO2021255795A1 PCT/JP2020/023454 JP2020023454W WO2021255795A1 WO 2021255795 A1 WO2021255795 A1 WO 2021255795A1 JP 2020023454 W JP2020023454 W JP 2020023454W WO 2021255795 A1 WO2021255795 A1 WO 2021255795A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
unit
phrase
utterance
template
Prior art date
Application number
PCT/JP2020/023454
Other languages
English (en)
French (fr)
Inventor
俊一 瀬古
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2022531117A priority Critical patent/JP7355244B2/ja
Priority to PCT/JP2020/023454 priority patent/WO2021255795A1/ja
Publication of WO2021255795A1 publication Critical patent/WO2021255795A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • An embodiment of the present invention relates to an information processing device, an information processing method, and a program.
  • Graphic recording in which the content spoken at a meeting is recorded by graphic expression including pictures, illustrations, symbols, characters, etc.
  • the recorder also called a graphic recorder, visualizes the content of the discussion on the spot during the discussion, or based on the recorded or recorded data. By visualizing the content of the discussion, participants can proceed with the discussion while confirming the purpose and progress of the discussion. In addition, a third party who does not participate in the meeting can efficiently grasp the content of the discussion.
  • a technique has been proposed in which voice data generated during a meeting is converted into text so that illustration candidates matching the text selected by the user can be searched for and inserted (see, for example, Patent Document 1).
  • the user can manually insert and change an arbitrary illustration to change the position, and the pose and facial expression can also be set.
  • the present invention was made by paying attention to the above circumstances, and an object thereof is to provide a technique for automatically generating a graphical record showing the utterance content of a speaker.
  • the first aspect of the present invention is in the information processing apparatus, the first acquisition unit for acquiring the activity information related to the speaker's speech activity, and the speaker's speech from the activity information.
  • An extraction unit that extracts text information representing the content, an analysis unit that analyzes the logical configuration of the utterance content based on the text information, and a selection unit that selects a visualization target section from the text information based on the logical configuration.
  • a conversion unit that converts the text information into visual information and an output data generation unit that generates and outputs output data including the visual information are provided for each visualization target section.
  • the text information representing the utterance content is extracted from the activity information, and the logical structure of the utterance content is analyzed based on the text information. Then, the visualization target section is selected from the text information based on the logical configuration, the selected visualization target section is converted into visual information, and is output as output data.
  • the text information representing the utterance content is converted into visual information, and the output data including the visual information can be automatically output. ..
  • an information processing apparatus capable of automatically generating a graphical record representing the utterance content based on the activity information related to the utterance activity of the speaker. be able to.
  • FIG. 1 is a diagram showing an outline of the entire processing by the information processing apparatus according to the embodiment of the present invention.
  • FIG. 2A is a diagram showing an example of section selection in the case of emphasizing emotions.
  • FIG. 2B is a diagram showing an example of section selection in the case of emphasizing logic.
  • FIG. 3 is a diagram showing an example of a graphic representation according to a designated orientation.
  • FIG. 4 is a diagram showing an example of an overall layout according to a designated orientation.
  • FIG. 5 is a diagram showing a functional configuration of an information processing apparatus according to an embodiment of the present invention.
  • FIG. 6 is a flowchart showing the flow of the entire process by the apparatus shown in FIG. FIG.
  • FIG. 7 is a flowchart showing the details of the utterance grouping process among the processes shown in FIG.
  • FIG. 8 is a flowchart showing the details of the topic set data selection process among the processes shown in FIG.
  • FIG. 9 is a flowchart showing the flow of the entire graphic processing among the processes shown in FIG.
  • FIG. 10 is a flowchart showing the details of the logical template selection process among the processes shown in FIG.
  • FIG. 11 is a flowchart showing the details of the emotional template selection process among the processes shown in FIG.
  • FIG. 12 is a flowchart showing the details of the phrase extraction / guessing process in the case where logic is emphasized among the processes shown in FIG. FIG.
  • FIG. 13 is a flowchart showing the details of the phrase extraction / application process in the case of emphasizing emotions among the processes shown in FIG.
  • FIG. 14 is a flowchart showing the details of the phrase extraction / application process in the case of logic-oriented processing among the processes shown in FIG.
  • FIG. 15 is a flowchart showing the details of the phrase extraction / application process in the case of emotional approach among the processes shown in FIG.
  • FIG. 16 is a flowchart showing the details of the application process in the case of neutral among the processes shown in FIG.
  • FIG. 17 is a flowchart showing the flow of the entire layout process among the processes shown in FIG.
  • FIG. 18 is a flowchart showing the details of the topic set data arrangement process among the processes shown in FIG. FIG.
  • FIG. 19 is a schematic diagram showing a calculated image of the degree of change in emotions.
  • FIG. 20 is a schematic diagram showing an image of utterance grouping processing.
  • FIG. 21 is a schematic diagram showing a topic set data selection processing image.
  • FIG. 22 is a schematic diagram showing a template selection processing image.
  • FIG. 23 is a diagram showing an example of a logic system template.
  • FIG. 24 is a diagram showing an example of an emotional template.
  • FIG. 25 is a diagram showing an example of logic system template data.
  • FIG. 26 is a diagram showing an example of emotional template data.
  • FIG. 27 is a schematic diagram showing a matching algorithm.
  • FIG. 28 is a schematic diagram showing an image of word extraction / application processing.
  • FIG. 29 is a schematic diagram showing a word / phrase extraction processing image in the case of emphasizing logic.
  • FIG. 30 is a diagram showing an example of template embedded data.
  • FIG. 31 is a schematic diagram showing a processing image that determines the correspondence between the related words and the embedded items.
  • FIG. 32 is a diagram showing an example of a graphicized topic set.
  • FIG. 33 is a schematic diagram showing a graphic processing image in the case of emphasizing emotions.
  • FIG. 34 is a schematic diagram showing a phrase extraction processing image in the case of being closer to logic.
  • FIG. 35 is a diagram showing an example of an output result obtained as a result of the processing of FIG. 34.
  • FIG. 36 is a schematic diagram showing a phrase extraction processing image in the case of being closer to emotions.
  • FIG. 37 is a schematic diagram showing an example of an output result obtained as a result of the processing of FIG. 36.
  • FIG. 38 is a schematic diagram showing an image of word extraction / application processing in the case of neutral.
  • FIG. 39 is a diagram showing an example of arrangement based on the parent-child relationship.
  • FIG. 40 is a diagram showing an example of an arrangement based on a sibling relationship and an arrangement of arrows showing the relationship.
  • FIG. 41A is a diagram showing a first example of an arrangement including an emphasized expression.
  • FIG. 41B is a diagram showing a second example of the arrangement including the emphasized expression.
  • FIG. 42A is a diagram showing a first example of a change in the overall layout.
  • FIG. 42B is a diagram showing a second example of a change in the overall layout.
  • FIG. 42C is a diagram showing a third example of changes in the overall layout.
  • FIG. 42D is a diagram showing a fourth example of changes in the overall layout.
  • FIG. 42E is a diagram showing a fifth example of a change in the overall layout.
  • FIG. 42F is a diagram showing a sixth example of changes in the overall layout.
  • FIG. 42G is a diagram showing a seventh example of changes in the overall layout.
  • FIG. 42H is a diagram showing an eighth example of a change in the overall layout.
  • FIG. 43 is a block diagram showing an example of the hardware configuration of the apparatus shown in FIG.
  • the information processing device receives the input of the activity information related to the utterance activity of the speaker, it converts the input into the visual information including the graphic expression representing the utterance content and outputs the information.
  • the visual information may include pictures or illustrations, letters, symbols, figures and the like.
  • the activity information used for automatic graphic recording includes at least spoken speech from which textual information can be extracted.
  • activity information includes all information related to speech activity, such as images or videos of speakers or participants (audience), movements of speakers or participants (audience), and information related to biological activities. obtain.
  • the subject of automatic graphic recording includes all events involving speech, such as meetings, dialogues, dialogues, and lectures.
  • the voice information may include one speaker or a plurality of speakers.
  • the information output as a result of the automatic graphic recording may be accompanied by an emphasized expression according to the input activity information.
  • the emphasis method emotional information related to changes in the speaker's emotions and expressions according to importance calculated based on logical information related to the logical composition of the speaker's utterance content are used.
  • the output graphic recording result can be changed even if the input data is the same.
  • emotional information since the content of the utterance is not organized, it is better to look back on it by using emotional changes such as excitement as a trigger rather than logically summarizing it.
  • emotional changes such as excitement as a trigger rather than logically summarizing it.
  • the information processing device does not necessarily require the use of emotional information or logical information.
  • the information processing device can determine the importance based on the information obtained from the voice information such as the sound pressure of the speaker's utterance and the presence or absence of a specific keyword, and can apply the emphasis expression according to the importance. Is.
  • other conflicting items such as document superiority or image superiority may be set.
  • the ratio of the document to the image used in the output data can be changed by arbitrarily setting the weight of the document dominant or the image dominant.
  • FIG. 1 shows an outline of the entire processing by the information processing apparatus according to the embodiment.
  • the information processing apparatus will be described as performing processing using emotional information or logical information based on orientation setting information that specifies whether emotion-oriented or logical-oriented.
  • the information processing device receives voice (IN1) and video (IN2) as an example of activity information related to utterance, and outputs a graphic recording result (GR).
  • GR graphic recording result
  • step S1 the information processing apparatus acquires the voice IN1, extracts the utterance text from the voice IN1, analyzes the document structure, and outputs the utterance text information P1 whose document structure has been analyzed.
  • Conventional technology can be used for the processing of step S1.
  • step S2 the information processing device acquires the audio IN1 and the video IN2, estimates the emotion of the speaker from the audio IN1 or the video IN2, and outputs the emotion information P2.
  • the emotional information is, for example, information indicating the degree of emotional excitement and empathy, and the details will be described later.
  • video input is not essential. As described above, only voice may be used for emotion estimation, or other activity information of the speaker (exhalation, pulse, body temperature, sweating, movement, facial expression, etc.) may be additionally used.
  • the process of step S2 can also use the prior art.
  • step S3 the information processing apparatus receives the utterance text information P1 and the emotion information P2 whose document structure has been analyzed, determines the utterance section based on the utterance text, and determines the utterance section based on the emotion information. Is grouped and the topic set data P3 is output.
  • the "topic set” refers to a unit in which utterance sections are grouped based on emotional information.
  • a topic set is a unit for graphicization.
  • the topic set data is the information of the topic set and includes a set of grouped document structured utterance text + emotional information.
  • step S4 topic set data selection process
  • the information processing apparatus should visualize the topic set data P4 based on the output direction setting information IN3 input in advance by the user or the like from the topic set data P3.
  • the output direction setting information is information indicating the degree of conflict items (for example, whether emotions are emphasized or logic is emphasized).
  • the information processing apparatus can perform the topic set data selection process by calculating the importance based on the output direction setting information.
  • step S5 the information processing apparatus receives the topic set data P4 to be visualized and reads a suitable template or illustration IN4 based on the output direction setting information IN3 to graphicize the topic set data P4. , Outputs the graphicized topic set data P5.
  • the information processing apparatus can also perform graphic processing with highlighting according to the importance in the topic set data by calculating the importance based on the output direction setting information.
  • step S6 the information processing apparatus determines the arrangement of the graphicized topic set data P5 based on the output direction setting information IN3, and outputs the graphic recording data GR as the final result.
  • the information processing apparatus can also determine the arrangement according to the importance between the graphicized topic set data by calculating the importance based on the output direction setting information.
  • the output direction setting information IN3 can be arbitrarily set by the user or the like each time automatic graphic recording is performed. Here, it is considered that the following three are affected by the orientation specified by the output orientation setting information IN3.
  • FIGS. 2A and 2B show selection images of the visualization target section according to the specified orientation.
  • the section at the start of the meeting shall be treated as important.
  • FIG. 2A shows a section selection image in the case of emphasizing emotions.
  • the vertical axis represents the degree of emotional change
  • the horizontal axis represents time.
  • Vertical lines orthogonal to the time axis represent utteranceal breaks based on the document structure.
  • the broken line in the horizontal direction represents the threshold value provided for extracting the visualization target.
  • a section showing the degree of emotional change larger than the threshold value is selected as the visualization target.
  • FIG. 2B shows an image of section selection when logic is emphasized.
  • the broken line in the horizontal direction is also a threshold value provided for extracting the visualization target, but a value higher than the threshold value in FIG. 2A is set.
  • the section in which the emotional change exceeds the threshold value is also selected as the visualization target.
  • FIG. 3 shows an example of a graphic representation according to a specified orientation.
  • UC11 shows the content of the utterance that was the target of visualization.
  • IC card is a combination of existing" IC “and” card ", but the effect of easy personal authentication and the invention of that combination Since it wasn't there at the time, it was recognized that the combination was not easy and the inventive step was recognized.
  • R11 shows an example of a graphic expression in the case of emphasizing emotions based on UC11, and emphasized expressions (for example, illustrations of people or balloons) according to changes in the emotions of the speaker are made.
  • R11 the wording of the part corresponding to the emotional information (in this example, the wording "inventive step was recognized! Corresponding to the utterance with a stronger ending) was extracted from the text information. , Shown in the blowout.
  • R12 shows an example of a graphic expression in the case of emphasizing logic based on UC11, and an emphasized expression (for example, a balloon) reflecting the logical structure of the utterance content is made. Further, in R12, the wording "effect that can easily authenticate the person" is extracted from the text information based on the logical structure of the sentence, and is shown in the balloon.
  • FIG. 4 shows an example of the overall layout according to the specified orientation.
  • LS1 represents a logical configuration between topic set data to be visualized.
  • the logical configuration includes major items A, B, C, item A includes medium items A1 and A2, and item B includes medium item B1.
  • the middle item A1 further includes the minor items A11 and A12.
  • items A11 and A2 it is determined that the emotional change of the speaker is relatively large.
  • L11 shows an example of the layout in the case of emphasizing emotions based on LS1.
  • L12 shows an example of a layout in the case of logic-oriented based on LS1.
  • L11 has an arrangement that emphasizes items (A11, A2) having a large emotional change, whereas L12 has an arrangement based on a logical configuration.
  • FIG. 5 is a block diagram showing a functional configuration of an automatic graphic recording apparatus 10 as an example of an information processing apparatus according to an embodiment of the present invention.
  • the automatic graphic recording device 10 outputs visual information including a graphic expression in response to input of activity information related to the speaker's speech activity, and is dedicated to a dedicated computer or a general-purpose computer such as a personal computer. It can be configured as having application software installed.
  • the automatic graphic recording device 10 includes a microphone (microphone) 101, a camera 102, a voice recognition unit 103, an emotion estimation unit 104, a document structure analysis unit 105, a speech grouping processing unit 106, a topic set data selection processing unit 107, and a graphic processing unit.
  • a unit 108, an overall layout processing unit 109, an output direction setting information storage unit 110, a database 111, and a display 112 are provided.
  • the microphone 101 has a function of collecting sounds including the uttered voice of the speaker, converting the sound into voice data, and outputting the sound.
  • the camera 102 has a function of outputting video data obtained by capturing an image of the speaker.
  • the video data may include audio data.
  • the voice recognition unit 103 has a function of extracting spoken text by voice recognition technology based on voice data and generating text data.
  • the emotion estimation unit 104 has a function of calculating and outputting emotion information indicating the degree of excitement and empathy based on audio data and / or video data.
  • the document structure analysis unit 105 has a function of analyzing the document structure based on the utterance text extracted from the voice data and outputting the utterance text information for which the document structure has been analyzed.
  • the utterance grouping processing unit 106 has a function of specifying an utterance section, grouping the utterance sections, and outputting topic set data based on the utterance text information whose document structure has been analyzed.
  • the utterance grouping processing unit 106 can group utterance sections based only on the document structural relevance.
  • the utterance grouping processing unit 106 can also group utterance sections based on emotional information according to the output direction setting information.
  • the topic set data selection processing unit 107 has a function of extracting topic set data to be visualized from the topic set data.
  • the topic set data selection processing unit 107 can identify utterance sections having high importance based only on the document structural relevance and extract them as topic set data to be visualized.
  • the topic set data selection processing unit 107 can also identify an utterance section having a high emotional importance based on emotion information and extract it as topic set data to be visualized.
  • the topic set data selection processing unit 107 further extracts the topic set data to be visualized by selectively specifying the utterance section having high emotional importance or logical structural importance according to the output direction setting information. You can also do it.
  • the graphic processing unit 108 has a function of graphicizing the topic set data to be visualized.
  • the graphic processing unit 108 selects a template based on the text information included in the topic set data, and performs a process of applying a phrase to the template.
  • the graphic processing unit 108 can apply an emphasis expression according to the importance based on the output direction setting installation information to the word, phrase, clause or sentence included in the text information.
  • the graphic processing unit 108 may include a template selection unit 1081 and a phrase extraction / application unit 1082.
  • the template selection unit 1081 has a function of selecting a template based on the text information of the topic set data to be visualized.
  • the template selection unit 1081 can select a template based on the output orientation setting information.
  • the word / phrase extraction / guessing unit 1082 performs a process of extracting a word / phrase from the spoken text and applying it to the selected template.
  • the word / phrase extraction / guessing unit 1082 can perform word / phrase extraction and guessing processing based on the output direction setting information.
  • the overall layout processing unit 109 has a function of arranging graphicized topic set data and outputting graphic recording data as the final result.
  • the overall layout processing unit 109 can determine the overall layout based on the output direction setting information.
  • the output orientation setting information storage unit 110 has a function of storing output orientation setting information input in advance by a user or the like.
  • Database 111 stores various data necessary for processing, including the above-mentioned threshold values, images, and templates.
  • the display 112 has a function of displaying the final graphic recording result.
  • the display 112 may be, for example, a liquid crystal display or an organic EL (Electro-Luminescence) display.
  • the microphone 101, the camera 102, and the display 112 do not necessarily have to be integrally configured with the automatic graphic recording device 10, and a separate device may be used.
  • the camera 102 may serve as both a microphone and a camera.
  • each function of the voice recognition unit 103, the emotion estimation unit 104, and the document structure analysis unit 105 does not necessarily have to be realized in the automatic graphic recording device 10, and a cloud service or the like provided via a network is used. You may.
  • the automatic graphic recording device 10 transmits the voice data collected by the microphone 101 to an external voice recognition server via the Internet or the like, and receives the data converted into text from the voice recognition server. It may be used for subsequent processing.
  • 6 to 18 are flowcharts showing an example of the processing procedure.
  • the automatic graphic recording device 10 is mainly used for recording the contents of the utterances of the conference participants in the conference.
  • FIG. 6 shows the flow of the entire process by the automatic graphic recording apparatus 10.
  • the automatic graphic recording device 10 collects the voice data of the speaker by the microphone 101, and performs voice recognition from the voice data by the voice recognition unit 103 to extract text information.
  • the automatic graphic recording device 10 also collects video data by the camera 102.
  • the automatic graphic recording device 10 can also receive inputs from various sensors such as motion sensors, temperature sensors, and biosensors in addition to or in place of the camera 102.
  • the collected audio data, video data and other sensing data are used for subsequent processing as activity information related to the speaker's speech activity.
  • the document structure analysis unit 105 performs a document structure analysis process based on the text information, and outputs the spoken text information for which the document structure has been analyzed.
  • the generation of the document structure-analyzed utterance text from the speech data may be performed using any conventional technique (eg, SpeechToText, or other natural sentence analysis technique).
  • the document structure analysis result deals with the document structure output from a general natural sentence analysis technique and the part-of-speech information for each word.
  • the emotion estimation unit 104 extracts emotion information from the activity information (details of the process will be described later).
  • emotions such as emotions can be estimated in detail by detecting facial expressions and gestures.
  • the degree of excitement may be estimated from voice data or breath information collected by a dedicated breath microphone (eg, by obtaining a power spectrum).
  • biological information such as pulse change, sweating change, and body temperature change may be used. This makes it possible to infer delicate emotional movements that are difficult to capture with audio or video alone.
  • voice when only voice is used for emotion estimation, it can be realized at low cost.
  • the utterance grouping processing unit 106 identifies the utterance section based on the utterance text whose document structure has been analyzed, groups the utterance sections, and outputs the topic set data (details of the processing will be described later).
  • the topic set data includes grouped document structure-analyzed utterance texts and emotional information.
  • step S105 the topic set data selection processing unit 107 extracts the topic set data to be visualized from the topic set data based on the output direction setting information (details of the processing will be described later).
  • step S106 the automatic graphic recording device 10 determines whether or not the visualization item has been extracted from the activity information to be processed, and if it is extracted (YES), proceeds to step S107 and if it is not extracted (NO). ), Proceed to step S109.
  • step S107 the graphic processing unit 108 graphicizes the topic set data to be visualized (details of the processing will be described later).
  • step S108 the overall layout processing unit 109 performs overall layout processing of the graphicized topic set data (details of the processing will be described later).
  • step S109 the automatic graphic recording device 10 determines whether or not the conference has ended, and if the conference ends (YES), the process ends. On the other hand, if the conference is not completed in step S109 (NO), the process returns to step S101 again, and voice recognition and various sensing are continuously executed.
  • the above processing may be executed in real time by collecting voice or the like while the conference is in progress, or may be executed in quasi-real time as processing at regular intervals, for example, or may be collected during the conference. It may be executed by dividing the stored voice data or the like into an arbitrary time length or data amount after the meeting, for example.
  • the emotion estimation unit 104 quantifies and outputs emotion information from video and audio.
  • the emotion estimation unit 104 can perform this processing by using the prior art.
  • the excitement of emotions may be detected only from audio data, for example, based on sound pressure information, or the excitement may be detected from video data, for example, based on changes in facial expressions or body movements. May be good.
  • the empathy information by adding the line-of-sight information to the input information (see, for example, Japanese Patent No. 5437297).
  • it is also possible to quantify the excitement based on the information related to the respiratory movement see, for example, Japanese Patent Application Laid-Open No. 2019-288485).
  • such excitement and empathy are referred to as emotional information, respectively.
  • the emotional change degree (M) is a value calculated based on emotional information, and is calculated by, for example, the following formula.
  • HUP represents the (normalized) degree of excitement [0 ⁇ HUP ⁇ 1]
  • EMT represents the (normalized) empathy [0 ⁇ EMT ⁇ 1].
  • FIG. 19 is a schematic diagram showing the relationship between the degree of emotional change (M), HUP, and EMT calculated as described above. Note that these are only examples, and other calculation methods may be used.
  • FIG. 20 shows an image of the utterance grouping process.
  • the horizontal axis represents time and the vertical axis represents the degree of emotional change.
  • the utterance grouping processing unit 106 divides the utterance text into utterance sections along with the utterance text whose document structure has been analyzed, with the punctuation marks as delimiters.
  • the vertical dashed line represents an utteranceal break.
  • the utterance grouping processing unit 106 considers the divided utterance sections to be utterances of the same content if any of the following two conditions is met, and concatenates the utterance sections.
  • Sections where emotional changes are large and are related to the document structure Sections that are considered important in the meeting, such as start timing and document structure assertion points
  • G11 corresponds to the start section of the conference and is a section determined to be important.
  • G12 is a section in which emotional changes are large and it is determined that they are structurally related to each other.
  • G13 is a section that is determined to be an assertion point in terms of document structure, although the emotional change is not large.
  • the utterance grouping processing unit 106 adds emotional information including the corresponding utterance content to the sections grouped as described above, and stores them in the memory as topic set data.
  • FIG. 7 shows an example of a detailed flow of the utterance grouping process by the utterance grouping process unit 106.
  • the utterance grouping processing unit 106 divides the utterance text into utterance breaks.
  • step S402 the utterance grouping processing unit 106 determines whether or not there is an utterance break that has not been grouped. If there is no utterance break that has not been determined for grouping (NO), the process ends, and if it exists (YES), the process proceeds to step S403.
  • step S403 the utterance grouping processing unit 106 adds emotional information in the same time interval as the utterance break to generate topic data.
  • step S404 the utterance grouping processing unit 106 determines whether or not a specific utterance break is logically and structurally connected to the previous utterance break. If there is no logical connection (NO), the process proceeds to step S405, and if there is a logical connection (YES), the process proceeds to step S406.
  • step S405 the utterance grouping processing unit 106 determines whether or not the specific utterance break has the same emotional information as the previous utterance break and the degree of emotional change exceeds the threshold value. If the threshold value is exceeded (YES), the process proceeds to step S406, and if the threshold value is not exceeded (NO), the process proceeds to step S407.
  • step S406 the utterance grouping processing unit 106 merges the specific utterance break into the topic data of the previous utterance group. After that, the process returns to step S402 again, and determines whether or not there is an utterance break that has not yet been grouped.
  • step S407 the utterance grouping processing unit 106 determines the above-mentioned specific utterance break as a new utterance group, and also returns to step S402.
  • the utterance grouping process is not only a utteranceal break, but also a group of utterance sections based on emotional changes such as excitement and empathy, and documentary structural connections, and emotions there. Add information and output as topic set data.
  • Topic set data selection processing The topic set data selection processing by the topic set data selection processing unit 107 described with respect to step S105 in FIG. 6 will be further described.
  • the topic set data selection processing unit 107 extracts the topic set data to be visualized from the topic set data.
  • the extracted topic set data changes depending on the output orientation setting information.
  • the topic set data selection processing unit 107 extracts a topic set that meets any of the following three conditions. (Condition 2A) Being the first topic set data: Since there is a high possibility that important information such as the agenda is included in the section at the start of the meeting, the first topic set data is extracted as a visualization target. ..
  • the degree of emotional change is normalized so as to be a value in the range of 0 to 1.
  • Topic set data that includes emotional information whose logical importance exceeds the threshold value is extracted as a visualization target.
  • the importance of logical composition can be calculated using existing technology. Further, it is assumed that the logically constructive importance is normalized so that the range is from 0 to 1.
  • FIG. 21 is a diagram showing an image of the topic set data selection process.
  • the horizontal axis represents time and the vertical axis represents the degree of emotional change.
  • the horizontal dashed line represents the emotional change threshold. As described above, the emotional change threshold value fluctuates depending on the output direction setting information.
  • the shaded section is a section determined to be a visualization target section. Since TI11 is the first topic data, it was determined to be a visualization target. TI12 and TI13 were determined to be visualization targets because they contained emotional changes above the threshold value. TI14 was determined to be a visualization target because its logically constructive importance was equal to or higher than the threshold value.
  • the present invention is not limited to the information obtained from the input activity information, and may be based only on emotions, for example. It may be based solely on logic. Additional or alternatively, the visualization target may be determined based on the size of the input voice or the like. The same applies not only to the selection process but also to other processes.
  • FIG. 8 shows an example of a detailed flow of the topic set data selection processing by the topic set data selection processing unit 107.
  • the topic set data selection processing unit 107 calculates the emotional change threshold value and the logically constructive importance based on the orientation setting information.
  • step S502 the topic set data selection processing unit 107 determines whether or not there is topic set data that has not been selected. If it exists (YES), the process proceeds to step S503, and if it does not exist (NO), the process ends.
  • step S503 the topic set data selection processing unit 107 determines whether or not the time stamp is the start of the meeting. If the time stamp is the start of a conference (YES), the process proceeds to step S506, and the topic set data is determined to be a visualization target. If the time stamp is not the start of the conference (NO), the process proceeds to step S504.
  • step S504 the topic set data selection processing unit 107 determines whether or not there is emotional information whose emotional change degree exceeds the threshold value. If there is emotional information whose emotional change degree exceeds the threshold value (YES), the process proceeds to step S506, and the topic set data is determined to be a visualization target. If there is no emotional information whose emotional change degree exceeds the threshold value (NO), the process proceeds to step S505.
  • step S505 the topic set data selection processing unit 107 determines whether or not there is utterance data whose logical and structural importance exceeds the threshold value. If there is utterance data whose logical and structural importance exceeds the threshold value (YES), the process proceeds to step S506, and the topic set data is determined to be a visualization target. After that, the process returns to step S502 again, and determines whether or not there is topic set data that has not yet been selected.
  • step S505 if there is no utterance data whose logical and structural importance exceeds the threshold value (NO), the process proceeds to step S507, and it is determined that the topic set data is not a visualization target. After that, the process returns to step S502 again.
  • the graphic processing by the graphicization processing unit 108 described with respect to step S107 in FIG. 6 will be further described.
  • the graphic processing unit 108 performs a process of converting the topic set data extracted as a visualization target into an image based on the content of the spoken text, the document structure, or the emotional information.
  • the image generated by the conversion also changes depending on the output orientation setting information.
  • Image conversion is divided into two steps: template selection and phrase extraction / guessing.
  • the template selection unit 1081 of the graphic processing unit 108 will perform the template selection processing
  • the phrase extraction / application processing unit 1082 of the graphic processing unit 108 will perform the phrase extraction / application processing, respectively. , Not limited to this.
  • FIG. 9 shows an example of the flow of the entire graphic processing by the graphic processing unit 108.
  • the graphic processing unit 108 determines whether or not there is visualization target topic set data that has not been graphicized. If it exists (YES), the process proceeds to step S702, and if it does not exist (NO), the process ends.
  • step S702 the template selection unit 1081 determines whether or not the value ⁇ of the output direction setting information is smaller than 0.5. If ⁇ is 0.5 or more (NO), the process proceeds to step S703, and if ⁇ is less than 0.5 (YES), the process proceeds to step S711.
  • step S703 the template selection unit 1081 determines whether or not the value ⁇ of the output direction setting information is larger than 0.5. If ⁇ is greater than 0.5 (YES), the process proceeds to step S707, and if ⁇ is equal to 0.5 (NO), the process proceeds to step S704. When ⁇ is larger than 0.5, it means that the output orientation setting information is emotion-oriented or emotion-oriented. If ⁇ is equal to 0.5, it means that the output orientation setting information is neutral.
  • step S704 the template selection unit 1081 performs the logic system template selection process.
  • step S705 the template selection unit 1081 performs the emotional template selection process.
  • step S706 the phrase extraction / application processing unit 1082 performs the neutral application process. After that, the process returns to step S701 again.
  • step S707 the template selection unit 1081 performs the emotional template selection process.
  • step S708 the phrase extraction / guessing processing unit 1082 determines whether or not the value ⁇ of the output direction setting information is 1.
  • is not 1 (NO)
  • the process proceeds to step S709, and the phrase extraction / guessing processing unit 1082 performs the phrase extraction / guessing process closer to emotions.
  • is 1 (YES)
  • the process proceeds to step S710, and the phrase extraction / guessing processing unit 1082 performs emotion-oriented phrase extraction / guessing processing. After that, the process returns to step S701 again.
  • step S702 when it is determined in step S702 that the value ⁇ of the output direction setting information is smaller than 0.5, it means that the output direction setting information is logic-oriented or logic-oriented.
  • the template selection unit 1081 performs the logic system template selection process.
  • step S712 the phrase extraction / guessing processing unit 1082 determines whether or not the value ⁇ of the output direction setting information is 0. If ⁇ is not 0 (NO), the process proceeds to step S713, and the phrase extraction / guessing processing unit 1082 performs the phrase extraction / guessing process closer to the logic.
  • 0 (YES)
  • the process proceeds to step S714, and the phrase extraction / application processing unit 1082 performs logic-oriented phrase extraction / application processing. After that, the process returns to step S701 again.
  • the graphic processing unit 108 graphicizes the topic set data to be visualized based on the output direction setting information.
  • the graphic processing can also be rephrased as "output with emphasis” or "output with emphasis expression”. That is, when the automatic graphic recording device 10 according to the embodiment receives the input of the activity information of a human (speaker or participant), the automatic graphic recording device 10 analyzes the utterance content based on the expression or change of the emotion and analyzes the utterance content of the emotion. It has one aspect of emphasizing output depending on the degree of change. On the other hand, the automatic graphic recording device 10 also has an aspect that it is possible to set how much emotion (or logic) is reflected in the output.
  • the template selection process includes the emotion template selection process (steps S705 and S707 in FIG. 9) and the logic template selection process (steps S704 and S711 in FIG. 9). Is included. In either case, the template selection unit 1081 selects an appropriate graphic recording-like picture template based on the extracted audio content of the visualization target section.
  • the template selection unit 1081 selects a suitable template by matching with the metadata of the template accumulated in advance based on the emotion information. (An example of the matching template will be described later). If there is no emotional information in the topic set data, the template selection unit 1081 can select a template by a method closer to logic.
  • FIG. 22 shows an image of the template selection process.
  • the utterance content UC12 contains the text information related to the utterance of a certain speaker, "Explanation of the patent proposal.” "Please consult about the utterance content visualization and automatic glareco (graphic recording)."
  • the template selection unit 1081 searches for the most matching template from the template group TP stored in the database 111 in advance.
  • FIG. 23 shows an example of a logic system template.
  • start explanation “promote to purpose”, “two-party conflict”, “three-party conflict”, “flow (horizontal)”, “flow (vertical)”, “cycle”, “combination (vertical)”. 8 types of templates are illustrated. Needless to say, a larger number and a wide variety of templates may be used.
  • FIG. 24 shows an example of an emotional template.
  • the template selection unit 1081 calculates the similarity between the content or emotional information of the statement contained in the topic set data and the keyword, and selects the nearest template.
  • the template selection unit 1081 calculates the similarity using, for example, the cosine similarity between documents vectorized by tf-idf (Term Frequency-Inverse Document Frequency).
  • FIG. 25 shows an example of logic system template data.
  • each template contains preset keywords. For example, No.
  • the keyword "explanation, start, start, introduction " is associated with the logical template (name: start of explanation) of 1.
  • the template selection unit 1081 derives an emotion vector obtained by averaging all the emotion information contained in the topic set data, and the emotion vector created based on the vector and the name of the template. Calculated by the degree of cosine similarity with.
  • the emotion vector refers to an n-dimensional vector in which the value of the emotion to be handled is taken as a vector element.
  • FIG. 26 shows an example of emotional template data.
  • Each template contains an emotion vector whose elements are emotion values.
  • the more appropriate one for example, if the siblings are parallel in the vertical direction, select the picture in the horizontal direction is selected according to the layout rule (described later).
  • FIG. 27 shows an outline of the matching algorithm in the case of logic-oriented or logic-oriented.
  • the utterance content UC13 is "The IC card is a combination of the existing" IC “and” card ", but the combination is because there was no invention of the combination and the effect of being able to easily authenticate the person. Inventive step was recognized as not easy. "
  • the IC card is a combination of the existing" IC “and” card ", but the combination is because there was no invention of the combination and the effect of being able to easily authenticate the person.
  • Inventive step was recognized as not easy.
  • the template image TP11 corresponding to the template of 8 is used for the subsequent processing.
  • FIG. 10 shows an example of a detailed flow of the logic template selection process by the template selection unit 1081 shown in steps S704 and S711 of FIG. 9.
  • the template selection unit 1081 creates a document vector of the spoken text and the keyword of the logical template.
  • step S7002 the template selection unit 1081 determines whether or not there is a logical template for which the similarity has not been calculated. If it exists (YES), the process proceeds to step S7003, and if it does not exist (NO), the process proceeds to step S7004.
  • step S7003 the template selection unit 1081 selects one from the logical system templates, calculates the document vector similarity with the spoken text, and returns to step S7002 again.
  • step S7004 the template selection unit 1081 determines the template having the highest degree of similarity as the template to be graphicized, and ends the process.
  • FIG. 11 shows an example of a detailed flow of the emotional template selection process by the template selection unit 1081 shown in steps S705 and S707 of FIG.
  • the template selection unit 1081 creates a vector of emotional information and an emotional word of an emotional template.
  • step S7102 the template selection unit 1081 determines whether or not there is an emotional template for which the similarity has not been calculated. If it exists (YES), the process proceeds to step S7103, and if it does not exist (NO), the process proceeds to step S7104.
  • step S7103 the template selection unit 1081 selects one from the emotional templates, calculates the vector similarity with the emotional information, and returns to step S7102 again.
  • step S7104 the template selection unit 1081 determines the template having the highest degree of similarity as the template to be graphicized, and ends the process.
  • the phrase extraction / guessing process includes logic-oriented phrase extraction / guessing process (step S714 in FIG. 9) and emotion-focused phrase extraction / guessing process.
  • Step S710 in FIG. 9 logic-oriented phrase extraction / guessing process
  • step S713 in FIG. 9 logic-oriented phrase extraction / guessing process
  • step S709 in FIG. 9 emotion-oriented phrase extraction / guessing process
  • neutral guessing process Step S706 in FIG. 9 is included.
  • the phrase extraction / guessing unit 1082 selects an appropriate word or picture based on the utterance content or emotional information, and applies the selected word or picture to the template.
  • the phrase extraction / guessing unit 1082 extracts words and phrases related to the keywords of the template from the utterance contents of the target section.
  • the phrase extraction / application unit 1082 derives a combination in which the extracted phrase and the embedded item on the template best match.
  • the phrase extraction / application unit 1082 searches for an image having a high degree of matching with the extracted phrase or emotion for the embedded item that is "image or wording".
  • the image search itself can use conventional technology, and may be searched on the Internet, or may be searched from a storage or system registered in advance.
  • the word / phrase extraction / application unit 1082 embeds the extracted words / phrases and images at matching positions on the template and outputs them as graphicized topic set data.
  • FIG. 28 shows an image of phrase extraction / application processing.
  • the word / phrase extraction / guessing unit 1082 extracts a suitable word / phrase based on these UC13 and TP11 (S511), derives a combination of the word / phrase and the item on the template (S512) (at this time, also performs an image search).
  • the topic set TS11 that has undergone the application process is output (S513).
  • the words "IC card", “IC", “card”, and "effect that can easily authenticate the person" are extracted from UC13 and applied to TS11. ing.
  • phrase extraction / application unit 1082 extracts words and phrases related to keywords on the template.
  • the phrase extraction / guessing unit 1082 extracts matching phrases from the utterance content based on the keywords of the template data.
  • the phrase extraction / guessing unit 1082 extracts the matching phrase and the related phrase as related phrases from the document structure analysis result of the utterance content.
  • the complement information is extracted as supplementary information (line on the template or supplementary information).
  • DS11 shows an image of word / phrase extraction in the logical configuration corresponding to UC13, bold letters represent matching words (and related words), italics represent related words, and parts surrounded by line SPI represent supplementary information.
  • "combination" (bold part) is extracted as a phrase that matches the keyword on the template, and "IC card”, “inventive step”, “not easy”, “IC", “card”, and “card” are extracted as phrases related to the phrase.
  • “Italic” italicized part
  • complement information is extracted as supplementary information (SPI part).
  • FIG. 30 shows an example of template embedded data. The process of determining the correspondence between the extracted related words and the embedded items on the template will be further described with reference to the example of FIG. Here, the degree of matching between the information contained in the embedded information of the template and the extracted related words is calculated.
  • the word / phrase extraction / guessing unit 1082 picks up the related words / phrases related to the combination. Since the combination "original” is included in the second one (combination, IC, card, existing one), the degree of matching of this related phrase is the highest. Therefore, the first object "IC" is used as a suitable phrase.
  • the content of the embedded item 3 is "after combination".
  • the degree of matching is No. 1 and No. It will be the same as 2.
  • the extracted words are words and phrases suitable for the target word and phrase "IC card” after the combination.
  • No. There is one supplementary item in 3, and the first of the complements of the target phrase "IC card” (effect that can easily authenticate the person) is selected as a suitable phrase.
  • FIG. 31 shows an image of the process of determining the correspondence between the extracted related words and the embedded items on the template. Words and phrases are extracted from DS11 based on the embedded item data IM on the template.
  • the phrase extraction / guessing unit 1082 embeds the phrase selected as described above in the template and creates a graphicized topic set.
  • the phrase extraction / guessing unit 1082 embeds the selected related phrase in the template.
  • the image search itself can use conventional technology, and may be searched on the Internet, or may be searched from a storage or system registered in advance.
  • FIG. 32 shows an image of the obtained graphicized topic set.
  • a graphicized topic set GS11 is obtained based on the selected template TP11 and the words and phrases extracted from the document structure DS12.
  • the phrase extraction / guessing unit 1082 extracts words and phrases that match the keywords of the template data from the spoken text.
  • step S7202 the phrase extraction / guessing unit 1082 extracts the matching phrase from the document structure analysis result of the utterance content as a related phrase.
  • the complement information is extracted as supplementary information (line on the template or supplementary information).
  • step S7203 the phrase extraction / application unit 1082 determines whether or not there is an embedded item whose content has not been determined. If there is an embedded item whose content is not finalized (YES), the process proceeds to step S7204, and if not (NO), the process ends.
  • step S7204 the phrase extraction / application unit 1082 selects an item whose content has not been determined from the embedded item data of the template.
  • step S7205 the phrase extraction / guessing unit 1082 determines whether or not there is a matched phrase for which the degree of matching with the selected item has not yet been calculated. If it exists (YES), the process proceeds to step S7206, and if it does not exist (NO), the process proceeds to step S7208.
  • step S7206 the phrase extraction / guessing unit 1082 selects one matching phrase for which the degree of matching has not yet been calculated.
  • step S7207 the phrase extraction / guessing unit 1082 determines how many phrases that match the suitable content of the selected item and that have not yet been used as the embedded content are included in the phrase that matches the phrase. Count and use that number as the degree of matching. After that, the process returns to step S7205 again.
  • step S7208 the word / phrase extraction / guessing unit 1082 sets the word / phrase that has the highest degree of matching and has not been used as an embedded item as the embedded content.
  • step S7209 the phrase extraction / application unit 1082 replaces the embedded item destination with an image if the embedded item destination is "human or mono" and there is a matching image. After that, the process returns to step S7203 again.
  • the phrase extraction / application unit 1082 is a phrase related to a phrase having emotion information on the utterance text. To extract.
  • the phrase extraction / guessing unit 1082 extracts matching phrases from the utterance content based on emotional information.
  • the phrase extraction / guessing unit 1082 extracts the phrase that is a person's name or a proper noun as a related phrase from the phrase that matches the phrase from the document structure analysis result of the utterance content.
  • the word / phrase extraction / guessing unit 1082 also extracts matching words / phrases from the document structure analysis result of the utterance content as supplementary information.
  • the phrase extraction / guessing unit 1082 embeds the selected phrase in the template as in the case of emphasizing logic, and extracts the phrase related to the keyword on the template for creating the graphicized topic set data.
  • the phrase extraction / guessing unit 1082 creates the graphicized topic set data GS12 based on the topic set data including the utterance content UC13 and the document structure DS21.
  • UC13 and DS21 bold “recognized” represents a matching phrase (and related phrase), italicized “IC card” represents a related phrase, and "inventive step” and “combination is not easy” represent supplementary information. .. Further, the "IC card” is identified as a proper noun.
  • the phrase extraction / guessing unit 1082 extracts words and phrases that match the emotional information from the utterance text based on the emotional information.
  • step S7302 the phrase extraction / guessing unit 1082 extracts the phrase that is a person's name or a proper noun from the phrase that matches the phrase from the document structure analysis result of the utterance content as a related phrase.
  • step S7303 the word / phrase extraction / guessing unit 1082 extracts the remaining related words / phrases as supplementary information.
  • step S7304 the phrase extraction / application unit 1082 determines whether or not there is an embedded item whose content has not been determined. If there is (YES), the process proceeds to step S7305, and if not (NO), the process ends.
  • step S7305 the phrase extraction / application unit 1082 selects an item whose content is not fixed from the embedded item data of the template.
  • step S7306 the phrase extraction / guessing unit 1082 determines whether or not there is a matched phrase for which the degree of matching with the selected item has not yet been calculated. If it exists (YES), the process proceeds to step S7307, and if it does not exist (NO), the process proceeds to step S7309.
  • step S7307 the phrase extraction / guessing unit 1082 selects one matching phrase for which the degree of matching has not yet been calculated.
  • step S7308 the phrase extraction / guessing unit 1082 determines how many phrases that match the suitable content of the selected item and that have not yet been used as embedded content are included in the phrase that matches the phrase. Count and use that number as the degree of matching. After the processing, the process returns to step S7306 again.
  • step S7309 the word / phrase extraction / guessing unit 1082 sets the word / phrase that has the highest degree of matching and has not been used as an embedded item as the embedded content.
  • step S7310 the phrase extraction / application unit 1082 replaces the embedded item destination with an image if the embedded item destination is "human or mono" and there is a matching image.
  • the phrase extraction / guessing unit 1082 embeds the selected phrase in the template and creates graphicized topic set data, as in the case of emphasizing logic.
  • FIG. 34 shows an image of the word / phrase extraction process in the case of being closer to logic.
  • the utterance content UC13 and the document structure DS31 bold letters represent matching words (and related words), italics represent related words, and the part surrounded by the line SPI represents supplementary information.
  • DS32 shows how the weighting is performed by the ratio of emotions. In this example, depending on the hierarchy, 1.25 for the "accepted" part of the flexion emphasis, 1.125 for the "IC card” as the related phrase, and 1.125 for the "inventive step”. "Combination is not easy” is weighted by 1.068.
  • the phrase extraction / guessing unit 1082 extracts the phrase selected as supplementary information centering on the phrase with the highest weight.
  • the most weighted phrase is "accepted”, so “inventive step” and “not easy to combine” are extracted as the terms to be selected as supplementary information.
  • Correspondence between the extracted related words and the embedded items on the template is carried out in the same way as in the case of emphasizing logic.
  • FIG. 35 shows the output result GS13 obtained by the above weighting. An output result using words and phrases according to the weighting can be obtained.
  • FIG. 14 shows an example of a detailed flow of the word / phrase extraction / guessing process when the logic is closer (0 ⁇ ⁇ 0.5) by the word / phrase extraction / guessing unit 1082 shown in step S713 of FIG.
  • the phrase extraction / guessing unit 1082 extracts words and phrases that match the keywords of the template from the spoken text.
  • step S7402 the phrase extraction / application unit 1082 extracts the matching phrase and the related phrase from the document structure analysis result.
  • step S7403 the phrase extraction / application unit 1082 determines whether or not there is an embedded item whose content has not been determined, and if there is (YES), proceeds to step S7404, and if not (NO), ends the process. do.
  • step S7404 the phrase extraction / application unit 1082 selects an item whose content has not been determined from the embedded item data of the template.
  • step S7405 the phrase extraction / application unit 1082 determines whether or not the appropriate content of the selected embedded item is supplementary information. If it is not supplementary information (NO), the process proceeds to step S7406, and if it is supplementary information (YES), the process proceeds to step S7411.
  • step S7406 the phrase extraction / guessing unit 1082 determines whether or not there is a matched phrase for which the degree of matching with the selected item has not yet been calculated. If it exists (YES), the process proceeds to step S7407, and if it does not exist (NO), the process proceeds to step S7409.
  • step S7407 the phrase extraction / guessing unit 1082 selects one matching phrase for which the degree of matching has not yet been calculated.
  • step S7408 the phrase extraction / guessing unit 1082 determines how many phrases that match the suitable content of the selected item and that have not yet been used as the embedded content are included in the phrase that matches the phrase. Count and use that number as the degree of matching. After that, the process returns to step S7406 again.
  • step S7409 the word / phrase extraction / guessing unit 1082 sets the word / phrase that has the highest degree of matching and has not been used as an embedded item as the embedded content.
  • step S7410 the phrase extraction / application unit 1082 replaces the embedded item destination with an image if the embedded item destination is "human or mono" and there is a matching image. After that, the process returns to step S7403 again.
  • step S7411 if the suitable content for embedding selected in step S7405 is supplementary information (YES), in step S7411, is there a phrase that matches the emotional information for which the phrase extraction / guessing unit 1082 has not further calculated the weight? Judge whether or not. If there is (YES), the process proceeds to step S7412, and if not (NO), the process proceeds to step S7416.
  • step S7412 the phrase extraction / guessing unit 1082 extracts a phrase that matches the emotional information from the spoken text.
  • step S7413 the word / phrase extraction / guessing unit 1082 extracts a person's name or a proper noun from the words / phrases that match the word / phrase from the document structure analysis result.
  • step S7414 the word / phrase extraction / guessing unit 1082 extracts the remaining related words / phrases as supplementary information.
  • step S7415 the phrase extraction / application unit 1082 weights each extracted phrase. After that, the process returns to step S7411 again.
  • step S7416 the phrase extraction / guessing unit 1082 embeds the most weighted phrase and the related phrase. After that, the process returns to step S7403 again.
  • FIG. 36 shows an image of the phrase extraction process in the case of emotional approach.
  • the utterance content UC13 and the document structure DS41 bold letters represent matching words (and related words), italics represent related words, and the part surrounded by the line SPI represents supplementary information.
  • DS42 shows how the weighting is performed by the ratio of the logic. In this example, depending on the hierarchy, 1.25 for "IC card”, 1.25 for “inventive step”, and “combination is not easy” as the phrase related to the "accepted" part of the flexion emphasis. Is weighted by 1.068.
  • the phrase extraction / guessing unit 1082 extracts the phrase to be selected as supplementary information, focusing on the phrase with emotional expression and the phrase with the highest weight.
  • emotional information extension of the ending in this example
  • "recognized” is extracted as the first phrase to be selected as supplementary information.
  • the most weighted words and phrases are "IC card” and "inventive step”, and since "IC card” has already been selected as the content of the item, "IC card” is selected as the second word and phrase to be selected as supplementary information.
  • "Inventive step” is extracted. Correspondence between the extracted related words and the embedded items on the template is carried out in the same manner as in the case of emphasizing emotions.
  • FIG. 37 shows the output result GS41 obtained by the above weighting. An output result using words and phrases according to the weighting can be obtained.
  • FIG. 15 shows an example of a detailed flow of the phrase extraction / application process in the case of emotional proximity (0.5 ⁇ ⁇ 1) by the phrase extraction / application unit 1082 shown in step S709 of FIG.
  • the phrase extraction / guessing unit 1082 extracts a phrase that matches the emotional information from the spoken text.
  • step S7502 the phrase extraction / guessing unit 1082 extracts a person's name or a proper noun from the matching terms and phrases from the document structure analysis result.
  • step S7503 the word / phrase extraction / guessing unit 1082 extracts the remaining related words / phrases as supplementary information.
  • step S7504 the phrase extraction / guessing unit 1082 determines whether or not there is an embedded item whose content has not been determined, and if there is (YES), proceeds to step S7505, and if not (NO), ends the process. do.
  • step S7505 the phrase extraction / application unit 1082 selects an item whose content has not been determined from the embedded item data of the template.
  • step S7506 the phrase extraction / guessing unit 1082 determines whether or not the suitable content of the selected embedded item is a proper noun. If it is not a proper noun (NO), the process proceeds to step S7507, and if it is a proper noun (YES), the process proceeds to step S7512.
  • step S7507 the phrase extraction / guessing unit 1082 determines whether or not there is a matched phrase for which the degree of matching with the selected item has not yet been calculated. If it exists (YES), the process proceeds to step S7508, and if it does not exist (NO), the process proceeds to step S7510.
  • step S7508 the phrase extraction / guessing unit 1082 selects one matching phrase for which the degree of matching has not yet been calculated.
  • step S7509 the phrase extraction / guessing unit 1082 determines how many phrases that match the suitable content of the selected item and that have not yet been used as the embedded content are included in the phrase that matches the phrase. Count and use that number as the degree of matching. After that, the process returns to step S7507 again.
  • step S7510 the word / phrase extraction / guessing unit 1082 sets the word / phrase that has the highest degree of matching and has not been used as an embedded item as the embedded content.
  • step S7410 the phrase extraction / application unit 1082 replaces the embedded item destination with an image if the embedded item destination is "human or mono" and there is a matching image. After that, the process returns to step S7504 again.
  • step S7512 determines whether or not the suitable content for embedding selected in step S7506 is a proper noun (YES). If there is (YES), the process proceeds to step S7513, and if not (NO), the process proceeds to step S7516.
  • step S7513 the phrase extraction / guessing unit 1082 extracts words and phrases that match the emotional information from the spoken text.
  • step S7514 the phrase extraction / guessing unit 1082 extracts a person's name or a proper noun from the matching terms and phrases from the document structure analysis result.
  • step S7515 the phrase extraction / application unit 1082 weights each extracted phrase. After that, the process returns to step S7512 again.
  • step S7516 the phrase extraction / application unit 1082 sets the most weighted phrase as the embedded content.
  • step S7517 when the target embedded item has supplementary information, the phrase extraction / guessing unit 1082 sets the complement of the most weighted phrase as the embedded content of the supplementary information. After that, the process returns to step S7512 again.
  • the phrase extraction / application unit 1082 is graphicized according to the processing content of logic-oriented and emotion-oriented. Output completed topic set data. Then, the phrase extraction / application unit 1082 applies the graphicized topic set data output with logic emphasis to the template part of "human or thing" of the output emotion-oriented graphic topic set data, and emphasizes emotions. And the result of emphasis on logic are combined.
  • FIG. 38 shows an image of word extraction / application processing in the case of neutral.
  • Neutral graphicization is performed based on the emotion-oriented graphicized topic set data GS51 and the logic-oriented graphicized topic set data GS52 (GS53).
  • the phrase extraction / application unit 1082 performs logic-oriented phrase extraction / application processing (described above).
  • step S7602 the phrase extraction / application unit 1082 performs emotion-oriented phrase extraction / application processing (described above).
  • step S7603 the phrase extraction / guessing unit 1082 replaces the embedded item portion whose appropriate content is a proper noun among the embedded items of the emotion-oriented result with the logic-oriented result.
  • step S7604 the phrase extraction / application unit 1082 uses the replaced result as graphicized topic set data.
  • the overall layout processing by the overall layout processing unit 109 described with respect to step S108 in FIG. 6 will be further described.
  • the overall layout processing unit 109 arranges the graphicized topic set data based on the output direction setting information, and outputs the graphic recording data as the final result.
  • the arrangement of topic set data changes depending on the output orientation setting information.
  • FIG. 39 shows an arrangement example based on the parent-child relationship.
  • the arrangement method is changed depending on whether (i) the parent-child relationship is found in the order of parent ⁇ child and (ii) the order of child ⁇ parent is found. ..
  • the parent (A) ⁇ child (B) is found in this order, the child (B) is arranged so as to be included in the parent (A).
  • an arrow is drawn from the child (A) to the parent (B).
  • FIG. 40 is a diagram illustrating the arrangement of sibling relationships and the arrows of relationships according to the parent-child hierarchy. Sibling relationships are arranged in the order of vertical ⁇ horizontal ⁇ vertical ⁇ horizontal ⁇ vertical ... according to the depth of the parent-child hierarchy. If you find that there is a relationship between the topic set data, connect them with an arrow.
  • the degree of emphasis ((1 + degree of emotional change) x output orientation setting information) is calculated for all topic set data, and the area occupied by the relative value is determined.
  • the others are 0.25
  • the ratio of A11: A2: other It becomes 4: 3: 2.
  • FIG. 41A shows an application example in the vertical direction or the horizontal direction based on the above case.
  • the arrangement is carried out in the vertical or horizontal ratio based on the size of the same sibling. If the siblings are lined up horizontally, the ratio is applied in the horizontal (width) direction, and if they are lined up in the vertical direction, the ratio is applied in the vertical (height) direction.
  • FIG. 41B shows an example of application to an area based on the above example. According to the ratio, the placement is carried out in the ratio of the area based on the size of the same sibling.
  • the overall layout processing unit 109 can change the arrangement of the sibling's topic set data by filling the gap (A12 is A2 in the above). The position has been changed to fill the gap below).
  • the emphasis expression is applied by applying the ratio among the same siblings, but the emphasis expression that applies the ratio to the whole may be used. Further, in the above example, the ratio of the occupied area is used as the emphasized expression, but other methods such as thickening the line and adding an icon for the emphasized expression may be used.
  • FIG. 17 shows an example of the flow of the entire overall layout processing by the overall layout processing unit 109.
  • the overall layout processing unit 109 determines whether or not the value ⁇ of the output direction setting information is larger than 0.
  • the process proceeds to step S802
  • is larger than 0 (0 ⁇ ) (YES)
  • the process proceeds to step S803.
  • step S802 the overall layout processing unit 109 sets the size ratio of all topic set data to 1: 1.
  • step S803 the overall layout processing unit 109 calculates the degree of emphasis for all topic set data based on emotional information.
  • step S804 the overall layout processing unit 109 sets the size ratio between the topic set data based on the calculated emphasis degree.
  • step S805 the overall layout processing unit 109 determines whether or not there is topic set data that has not been arranged. If there is unarranged topic set data (YES), the process proceeds to step S806, and if there is no unarranged topic set data (NO), the process ends.
  • step S806 the overall layout processing unit 109 selects one non-arranged graphicized topic set data.
  • step S807 the overall layout processing unit 109 performs topic set data placement processing.
  • step S808 the overall layout processing unit 109 determines whether or not there is a related item. If there is (YES), the process proceeds to step S809, and if not (NO), the process returns to step S805.
  • step S809 the overall layout processing unit 109 draws an arrow between the related items. After that, the process returns to step S805 again.
  • FIG. 18 shows an example of a detailed flow of the topic set data allocation process shown in step S807 of FIG.
  • the overall layout processing unit 109 determines whether or not the target data is arranged for the first time. If it is the first arrangement (YES), the process proceeds to step S8002, and if it is not the first arrangement (NO), the process proceeds to step S8003.
  • step S8002 the overall layout processing unit 109 arranges the target data at the initial position.
  • step S8003 the overall layout processing unit 109 determines whether or not the child of the target data has a parent for the first time. If the parent is born for the first time (YES), the process proceeds to step S8004, and if not (NO), the process proceeds to step S8011.
  • step S8004 the overall layout processing unit 109 determines whether or not the children are vertically parallel. If it is vertically parallel (YES), the process proceeds to step S8005, and if it is not vertically parallel (NO), the process proceeds to step S8008.
  • step S8005 the overall layout processing unit 109 is arranged horizontally according to the height of all the children, and an arrow is drawn from each child.
  • step S8006 when the size ratio is larger than 1, the overall layout processing unit 109 increases the width by the size ratio.
  • step S8007 when the size ratio is larger than 1 and the parent exists, the overall layout processing unit 109 expands the width of the parent and the sibling of the parent according to the size ratio.
  • step S8008 the overall layout processing unit 109 is arranged vertically according to the width of all the children, and an arrow is drawn from each child.
  • step S8009 when the size ratio is larger than 1, the overall layout processing unit 109 increases the height by the size ratio.
  • step S8010 when the size ratio is larger than 1 and the parent exists, the overall layout processing unit 109 expands the height of the parent and the sibling of the parent according to the size ratio.
  • step S8011 the overall layout processing unit 109 determines whether or not the target data has a parent. If there is a parent (YES), the process proceeds to step S8012, and if there is no parent (NO), step S8012 is skipped and the process proceeds to step S8013.
  • step S8012 the overall layout processing unit 109 determines whether or not the target data has siblings. If there are siblings (YES), the process proceeds to step S8013, and if there are no siblings (NO), the process proceeds to step S8016.
  • step S8013 the overall layout processing unit 109 is arranged so as to be horizontally or vertically in parallel according to the older brother.
  • step S8014 when the size ratio is larger than 1, the overall layout processing unit 109 increases the width in the case of horizontal arrangement and the height in the case of vertical arrangement by the size ratio.
  • step S8015 when the size ratio is larger than 1 and the parent exists, the overall layout processing unit 109 expands the width or height of the parent and the sibling of the parent according to the size ratio.
  • step S8016 the overall layout processing unit 109 determines whether or not the parents are horizontally parallel. If it is horizontally parallel (YES), the process proceeds to step S8017, and if it is not horizontally parallel (NO), the process proceeds to step S8020.
  • step S8017 the overall layout processing unit 109 is included in the parent and arranged so that the siblings are lined up in vertical parallel.
  • step S8018 when the size ratio is larger than 1, the overall layout processing unit 109 increases the height by the size ratio.
  • step S8019 when the size ratio is larger than 1 and the parent exists, the overall layout processing unit 109 expands the height of the parent and the sibling of the parent according to the size ratio.
  • step S8020 the overall layout processing unit 109 is included in the parent and arranged so that the siblings are lined up side by side.
  • step S8021 when the size ratio is larger than 1, the overall layout processing unit 109 increases the width by the size ratio.
  • step S8022 when the size ratio is larger than 1 and the parent exists, the overall layout processing unit 109 expands the width of the parent and the sibling of the parent according to the size ratio.
  • FIG. 42A shows a layout example for the utterance content "Today's topic is A, B, and C" at the first time point.
  • A, B, and C are analyzed as parallel and arranged in parallel.
  • FIG. 42B shows a layout example for the utterance content at the second time point, "First, the story of topic A.
  • D is important. What is D?".
  • D is analyzed as a child of A, and is included in A and arranged.
  • FIG. 42C shows a layout example for the utterance content "One more thing, E is important for topic A" at the third time point.
  • E is analyzed as the second child of A, contained in A, and arranged in parallel with D.
  • FIG. 42D shows a layout example for the utterance content "This E consists of two elements, E1 and E2. By doing so " at the fourth time point.
  • E is analyzed and arranged as having children E1 and E2.
  • FIG. 42E shows a layout example for the utterance content at the fifth time point, "From here, the story is about topic B.
  • topic B F is in an exclusive state ##.
  • F is analyzed as a child of B, and is included in B and arranged.
  • FIG. 42F shows a layout example for the utterance content "Actually, this F is interrelated with E1 that appeared in topic A " at the sixth time point.
  • E1 and F are related, and an arrow is added.
  • Figure 42G shows the content of the utterance at the 7th point in time, "Finally, topic C, but it is made up of the three G, H, and I having a close relationship with each other. A layout example for "" is shown. As a result of the analysis of the document structure, it is analyzed that C has three children of G, H, and I and is further related to each other, and an arrow is added.
  • Figure 42H shows a layout example for the utterance content "I talked to A, B, and C, but these three actually lead to K .... Thank you for your attention.” show.
  • a new K parallel to A, B, and C is analyzed and rearranged.
  • FIG. 43 shows an example of the hardware configuration of the automatic graphic recording device 10 according to the embodiment.
  • the automatic graphic recording device 10 includes a CPU (Central Processing Unit) 1001, a RAM (Random Access Memory) 1002, a ROM (Read Only Memory) 1003, an auxiliary storage device 1004, an input device 1005, an output device 1006, and a communication device 1007. ..
  • CPU Central Processing Unit
  • RAM Random Access Memory
  • ROM Read Only Memory
  • auxiliary storage device 1004 an input device 1005, an output device 1006, and a communication device 1007. .
  • the CPU 1001 is a processor that controls the overall operation of the automatic graphic recording device 10.
  • the CPU 1001 expands the program stored in the ROM 1003 or the auxiliary storage device 1004 into the RAM 1002, and by executing this program, the voice recognition unit 103, the emotion estimation unit 104, the document structure analysis unit 105, the utterance grouping processing unit 106, It operates as a topic set data selection processing unit 107, a graphic processing unit 108, and an overall layout processing unit 109.
  • the CPU 1001 may be realized in various other formats including integrated circuits such as ASIC (Application Specific Integrated Circuit) and FPGA (field-programmable gate array). Further, the CPU 1001 may include a plurality of processors.
  • the auxiliary storage device 1004 may be, for example, an HDD (Hard Disk Drive) or an SDD (Solid State Drive).
  • the auxiliary storage device 1004 non-temporarily stores a program executed by the CPU 1001 and setting data necessary for executing the program.
  • the auxiliary storage device 1004 can also function as a storage unit including the database 111 described above and the output direction setting information storage unit 110.
  • the input device 1005 accepts input from a user such as a touch screen, a keyboard, and a mouse.
  • the input device 1005 may include the microphone 101, the camera 102, or various sensors (not shown).
  • the output device 1006 is, for example, a display, a speaker, or the like, and may include the display 112 described above.
  • the communication device 1007 is a device for communicating with an external device, and includes, for example, an interface for wireless or wired LAN (Local Area Network) communication.
  • the communication device 1007 can communicate with an external device via a network such as the Internet.
  • the automatic graphic recording device 10 acquires activity information related to the utterance activity of the speaker, and a text representing the utterance content of the speaker from the activity information. Information is extracted, the logical structure of the utterance content is analyzed based on the text information, the visualization target section is selected from the text information based on the logical structure, and the text information is converted into visual information for each visualization target section. Generates and outputs output data including visual information.
  • the output data includes a graphic representation that reflects the content of the utterance. Further, the output data may be accompanied by an emphasized expression according to the importance determined based on the activity information.
  • Importance is calculated for each topic or topic set, which is a unit of topic in a conversation. Importance is calculated based on emotional information that represents the speaker's emotional changes estimated from activity information, or based on at least one of the emotional information or the logical structure of the utterance content according to preset orientation information. Will be done.
  • the orientation information includes information that specifies the weight in the conflicting item of whether the emotional information is emphasized or the logical structure is emphasized.
  • This provides an automatic graphic recording device that accepts input of information including at least the spoken voice of the speaker and executes automatic graphic recording.
  • the method of summarizing and the method of expression can be directed by using the emotional information. In particular, by orienting whether to emphasize emotions or logic, it is possible to select at least one of the contents to be visualized, the graphic representation of the contents to be visualized, and the overall layout. Can influence.
  • the automatic graphic recording device 10 it is possible to automatically create a graphic recording by adjusting an easy-to-understand way of summarizing and the direction of expression according to the purpose of a meeting or recording. It will be possible.
  • the present invention is not limited to the above embodiment.
  • the functional units 101 to 112 included in the automatic graphic recording device 10 may be distributed and arranged in a plurality of devices, and the devices may cooperate with each other to perform processing.
  • some of the functions included in the automatic graphic recording device 10 may be executed by an external device.
  • the function of the voice recognition unit 103 may be replaced by using a cloud service.
  • each functional unit may be realized by using a circuit.
  • the circuit may be a dedicated circuit that realizes a specific function, or may be a general-purpose circuit such as a processor.
  • the method described above is a program (software means) that can be executed by a computer (computer), for example, a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), an optical disk (CD-ROM, DVD, MO, etc.). , It can be stored in a recording medium (storage medium) such as a semiconductor memory (ROM, RAM, flash memory, etc.), and can also be transmitted and distributed by a communication medium.
  • the program stored on the medium side also includes a setting program for configuring the software means (including not only the execution program but also the table and the data structure) to be executed by the computer in the computer.
  • a computer that realizes the above-mentioned apparatus reads a program recorded on a recording medium, constructs software means by a setting program in some cases, and executes the above-mentioned processing by controlling the operation by the software means.
  • the recording medium referred to in the present specification is not limited to distribution, and includes storage media such as magnetic disks and semiconductor memories provided in devices connected inside a computer or via a network.
  • the present invention is not limited to the above embodiment, and can be variously modified at the implementation stage without departing from the gist thereof.
  • each embodiment may be carried out in combination as appropriate, in which case the combined effect can be obtained.
  • the above-described embodiment includes various inventions, and various inventions can be extracted by a combination selected from a plurality of disclosed constituent requirements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiment, if the problem can be solved and the effect is obtained, the configuration in which the constituent elements are deleted can be extracted as an invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

発話者の発話内容を表すグラフィカルな記録を自動的に生成可能な技術を提供する。情報処理装置が、発話者の発話活動に関わる活動情報を取得する第1取得部と、上記活動情報から上記発話者の発話内容を表すテキスト情報を抽出する抽出部と、上記テキスト情報をもとに上記発話内容の論理構成を解析する解析部と、上記論理構成に基づいて上記テキスト情報から可視化対象区間を選択する選択部と、上記可視化対象区間ごとに上記テキスト情報を視覚的情報に変換する変換部と、上記視覚的情報を含む出力データを生成し出力する出力データ生成部とを備えるようにした。

Description

情報処理装置、情報処理方法およびプログラム
 本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。
 会議などで話されている内容を、絵やイラスト、記号、文字などを含むグラフィック表現により記録する、グラフィックレコーディングが知られている。記録者は、グラフィックレコーダとも呼ばれ、議論の進行中にその場で、または録音や録画されたデータをもとに、議論の内容を可視化する。議論の内容を可視化することにより、参加者は、議論の目的や経過等を確認しながら議論を進めることができる。また、会議に参加していない第三者も議論の内容を効率的に把握することができる。
 ここで、人の手作業によるグラフィックレコーディングは、グラフィックレコーダによって、まとめ方や表現の仕方が十人十色であり、また会議の目的によっても、まとめる内容の選び方やわかりやすい表現の仕方が異なってくる。例えば、会議の種類(情報連絡、説明会、ブレインストーミング)によってまとめたい内容が異なることがある。また、同じプレゼンテーションであっても、グラフィックレコーダによってまとめ方や表現は大きく異なる。
 会議中に発生した音声データをテキスト化し、ユーザが選択したテキストに合致するイラストの候補を検索して挿入できるようにする技術が提案されている(例えば、特許文献1参照)。特許文献1に記載の技術では、ユーザが手動で任意のイラストを挿入・変更し、位置変更を行うことも可能であり、また、ポーズや表情も設定可能としている。
日本国特許第6339529号公報
 しかし従来技術では、適切なイラストを選択し、目的に合わせた表現を実現するには、ユーザが手動で操作を行う必要があり、効率面で課題が残る。
 この発明は上記事情に着目してなされたもので、その目的とするところは、発話者の発話内容を表すグラフィカルな記録を自動的に生成できるようにする技術を提供することにある。
 上記課題を解決するためにこの発明の第1の態様は、情報処理装置にあって、発話者の発話活動に関わる活動情報を取得する第1取得部と、上記活動情報から上記発話者の発話内容を表すテキスト情報を抽出する抽出部と、上記テキスト情報をもとに上記発話内容の論理構成を解析する解析部と、上記論理構成に基づいて上記テキスト情報から可視化対象区間を選択する選択部と、上記可視化対象区間ごとに上記テキスト情報を視覚的情報に変換する変換部と、上記視覚的情報を含む出力データを生成し出力する出力データ生成部とを備えるようにしたものである。
 この発明の第1の態様によれば、発話者の発話活動に関わる活動情報を受け付けると、活動情報から発話内容を表すテキスト情報が抽出され、テキスト情報をもとに発話内容の論理構成が解析され、論理構成に基づいてテキスト情報から可視化対象区間が選択され、選択された可視化対象区間が視覚的情報に変換され、出力データとして出力される。これにより、発話者の発話活動に関わる活動情報をもとに、発話内容を表すテキスト情報が視覚的情報に変換され、その視覚的情報を含む出力データを自動的に出力することが可能となる。
 したがって、この発明の第1の態様によれば、発話者の発話活動に関わる活動情報をもとに、その発話内容を表すグラフィカルな記録を自動的に生成することのできる情報処理装置を提供することができる。
図1は、この発明の一実施形態に係る情報処理装置による処理全体の概要を示す図である。 図2Aは、感情重視の場合の区間選択の一例を示す図である。 図2Bは、論理重視の場合の区間選択の一例を示す図である。 図3は、指定された方向づけに応じたグラフィック表現の一例を示す図である。 図4は、指定された方向づけに応じた全体的なレイアウトの一例を示す図である。 図5は、この発明の一実施形態に係る情報処理装置の機能構成を示す図である。 図6は、図5に示した装置による処理全体の流れを示すフローチャートである。 図7は、図6に示した処理のうち発話グルーピング処理の詳細を示すフローチャートである。 図8は、図6に示した処理のうちトピックセットデータ取捨選択処理の詳細を示すフローチャートである。 図9は、図6に示した処理のうちグラフィック化処理全体の流れを示すフローチャートである。 図10は、図9に示した処理のうち論理系テンプレート選択処理の詳細を示すフローチャートである。 図11は、図9に示した処理のうち感情系テンプレート選択処理の詳細を示すフローチャートである。 図12は、図9に示した処理のうち論理重視の場合の語句抽出・当て込み処理の詳細を示すフローチャートである。 図13は、図9に示した処理のうち感情重視の場合の語句抽出・当て込み処理の詳細を示すフローチャートである。 図14は、図9に示した処理のうち論理寄りの場合の語句抽出・当て込み処理の詳細を示すフローチャートである。 図15は、図9に示した処理のうち感情寄りの場合の語句抽出・当て込み処理の詳細を示すフローチャートである。 図16は、図9に示した処理のうちニュートラルの場合の当て込み処理の詳細を示すフローチャートである。 図17は、図6に示した処理のうち全体レイアウト処理全体の流れを示すフローチャートである。 図18は、図17に示した処理のうちトピックセットデータ配置処理の詳細を示すフローチャートである。 図19は、感情の変化度合いの算出イメージを示す略図である。 図20は、発話グルーピング処理イメージを示す略図である。 図21は、トピックセットデータ取捨選択処理イメージを示す略図である。 図22は、テンプレート選択処理イメージを示す略図である。 図23は、論理系テンプレートの一例を示す図である。 図24は、感情系テンプレートの一例を示す図である。 図25は、論理系テンプレートデータの一例を示す図である。 図26は、感情系テンプレートデータの一例を示す図である。 図27は、マッチングアルゴリズムを示す略図である。 図28は、語句抽出・当て込み処理イメージを示す略図である。 図29は、論理重視の場合の語句抽出処理イメージを示す略図である。 図30は、テンプレート埋め込みデータの一例を示す図である。 図31は、関連語句と埋め込み項目との対応を決定する処理イメージを示す略図である。 図32は、グラフィック化済みトピックセットの一例を示す図である。 図33は、感情重視の場合のグラフィック化処理イメージを示す略図である。 図34は、論理寄りの場合の語句抽出処理イメージを示す略図である。 図35は、図34の処理の結果として得られる出力結果の一例を示す図である。 図36は、感情寄りの場合の語句抽出処理イメージを示す略図である。 図37は、図36の処理の結果として得られる出力結果の一例を示す略図である。 図38は、ニュートラルの場合の語句抽出・当て込み処理イメージを示す略図である。 図39は、親子関係に基づく配置の一例を示す図である。 図40は、兄弟関係に基づく配置と関係性を表す矢印の配置の一例を示す図である。 図41Aは、強調表現を含む配置の第1の例を示す図である。 図41Bは、強調表現を含む配置の第2の例を示す図である。 図42Aは、全体レイアウトの変化の第1の例を示す図である。 図42Bは、全体レイアウトの変化の第2の例を示す図である。 図42Cは、全体レイアウトの変化の第3の例を示す図である。 図42Dは、全体レイアウトの変化の第4の例を示す図である。 図42Eは、全体レイアウトの変化の第5の例を示す図である。 図42Fは、全体レイアウトの変化の第6の例を示す図である。 図42Gは、全体レイアウトの変化の第7の例を示す図である。 図42Hは、全体レイアウトの変化の第8の例を示す図である。 図43は、図5に示した装置のハードウェア構成の一例を示すブロック図である。
 以下、図面を参照してこの発明に係わる実施形態を説明する。なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号を付し、重複する説明については基本的に省略する。例えば、複数の同一または類似の要素が存在する場合に、各要素を区別せずに説明するために共通の符号を用いることがあるし、各要素を区別して説明するために当該共通の符号に加えて枝番号を用いることもある。
 [一実施形態]
 (1)概要
 はじめに、この発明の一実施形態に係る情報処理装置および情報処理方法の概要を説明する。 
 一実施形態に係る情報処理装置は、発話者の発話活動に関わる活動情報の入力を受け付けると、発話内容を表すグラフィック表現を含む視覚的情報に変換して出力する。以下では、このような処理全体を、自動グラフィックレコーディングと呼ぶ。またその出力データを「グラフィックレコーディングの結果」とも呼ぶ。視覚的情報は、絵またはイラスト、文字、記号、図形などを含み得る。自動グラフィックレコーディングに用いられる活動情報は、少なくともテキスト情報を抽出可能な発話音声を含む。活動情報は、発話音声のほかにも、発話者または参加者(聴衆)の画像または映像、発話者または参加者(聴衆)の動きや生体活動に関わる情報など、発話活動に関わるあらゆる情報を含み得る。自動グラフィックレコーディングの対象には、会議、対話、対談、講演など、発話を伴うあらゆるイベントが含まれる。音声情報に含まれる発話者は、ひとりであっても複数であってもよい。
 ここで、自動グラフィックレコーディングの結果として出力される情報は、入力された活動情報に応じた強調表現を伴い得る。強調の手法の一例として、発話者の感情の変化に係る感情情報や、発話者の発話内容の論理構成に係る論理情報に基づいて算出される重要度に応じた表現が用いられる。
 例えば、感情情報を用いることにより、発話者の感情の変化を考慮したまとめ方や表現方法の方向づけができるようになる。また、感情情報を重視すべきか論理情報を重視すべきかの対立項目を設定することによって、入力データが同じであっても、出力されるグラフィックレコーディングの結果を変化させることができる。例えば、ブレインストーミングであれば、発話内容が整理されていないため、論理的にまとめるよりも、盛り上がったなどの感情変化をトリガとしてまとめるほうがよい振り返りができる。反対に、説明会のように内容が整理された会議は、論理重視のほうが情報が整理されやすい。そこで、一実施形態によれば、感情情報を用いることによって、または感情:論理比がα:(1-α)となるようなαを設定できるようにすることによって、出力の方向づけを可能とする。
 ただし、一実施形態に係る情報処理装置は、感情情報や論理情報の使用を必須とするものではない。例えば、情報処理装置は、発話者の発話の音圧や特定のキーワードの有無など、音声情報から得られる情報に基づいて重要度を決定し、重要度に応じた強調表現を適用することが可能である。またさらに、感情や論理のほかに、文書優位または画像優位など、他の対立項目が設定できるようにしてもよい。例えば、文書優位または画像優位の比重を任意に設定することによって、出力データ内で使用される文書と画像の比率を変化させることができる。
 図1は、一実施形態に係る情報処理装置による処理全体の概要を示す。以下では、一例として、情報処理装置が、感情重視か論理重視かを指定する方向づけ設定情報に基づいて、感情情報または論理情報を用いて処理を行うものとして説明する。情報処理装置は、発話に関わる活動情報の一例として音声(IN1)および映像(IN2)を受け取り、グラフィックレコーディングの結果(GR)を出力する。
 まずステップS1において、情報処理装置は、音声IN1を取得し、音声IN1から発話テキストを抽出し、文書構造の解析を行い、文書構造解析済みの発話テキスト情報P1を出力する。ステップS1の処理は従来技術を用いることができる。
 ステップS2において、情報処理装置は、音声IN1および映像IN2を取得し、音声IN1または映像IN2から発話者の感情を推測し、感情情報P2を出力する。感情情報とは、例えば感情の盛り上がりや共感の程度を表す情報であり、詳細は後述する。なお、映像の入力は必須ではない。上述したように、感情の推測には音声のみを用いてもよいし、発話者の他の活動情報(呼気、脈拍、体温、発汗、動作、表情など)を追加的に用いてもよい。ステップS2の処理もまた従来技術を用いることができる。
 ステップS3(発話グルーピング処理)において、情報処理装置は、文書構造解析済みの発話テキスト情報P1および感情情報P2を受け取り、発話テキストをもとに発話区間を決定し、感情情報をもとに発話区間をグルーピングし、トピックセットデータP3を出力する。ここでは、「トピックセット」は、感情情報をもとに発話区間をグルーピングした単位を指す。トピックセットはグラフィック化する際の単位である。トピックセットデータは、トピックセットの情報であり、グループ化された文書構造化済み発話テキスト+感情情報のセットを含む。
 ステップS4(トピックセットデータ取捨選択処理)において、情報処理装置は、トピックセットデータP3の中から、あらかじめユーザ等により入力された出力方向づけ設定情報IN3に基づいて、可視化対象とすべきトピックセットデータP4を抽出する。出力方向づけ設定情報は、上述したように対立項目(例えば感情重視か論理重視か)の度合いを表す情報である。情報処理装置は、出力方向づけ設定情報をもとに重要度を算出することによってトピックセットデータの取捨選択処理を行うことができる。
 ステップS5(グラフィック化処理)において、情報処理装置は、可視化対象のトピックセットデータP4を受け取り、出力方向づけ設定情報IN3に基づいて適したテンプレートまたはイラストIN4を読み込むことにより、トピックセットデータP4をグラフィック化し、グラフィック化済みトピックセットデータP5を出力する。情報処理装置は、やはり出力方向づけ設定情報をもとに重要度を算出することによって、トピックセットデータ内の重要度に応じた強調表示を伴うグラフィック化処理を行うことができる。
 ステップS6(全体レイアウト処理)において、情報処理装置は、出力方向づけ設定情報IN3に基づいて、グラフィック化済みトピックセットデータP5の配置を決定し、最終的な結果としてグラフィックレコーディングデータGRを出力する。情報処理装置は、やはり出力方向づけ設定情報をもとに重要度を算出することによって、グラフィック化済みトピックセットデータ間の重要度に応じた配置を決定することができる。
 出力方向づけ設定情報IN3は、自動グラフィックレコーディングを行うたびにユーザ等により任意に設定され得る。ここでは、出力方向づけ設定情報IN3によって指定される方向づけによって以下の3つが影響を受けると考えられる。
 [影響を受ける処理1.可視化対象とする内容の取捨選択]
 例えば、感情重視の場合、盛り上がりや共感度が上がったなど、参加者の感情が動かされた区間を重視して可視化対象が選択される。論理重視の場合、文書構成的に重要とされた区間を重視して可視化対象が選択される。
 図2Aおよび図2Bは、指定された方向づけに応じた可視化対象区間の選択イメージを示す。ここでは、方向づけにかかわらず、会議開始時の区間は重要なものとして取り扱われるものとする。
 図2Aは、感情重視の場合の区間選択イメージを示す。縦軸は感情変化度合いを示し、横軸は時間を表す。時間軸に直交する縦方向の線は、文書構造に基づく発話的な区切りを表す。横方向の破線は、可視化対象を抽出するために設けられたしきい値を表す。この例では、しきい値よりも大きい感情変化の度合いを示す区間が可視化対象として選択される。
 図2Bは、論理重視の場合の区間選択イメージを示す。横方向の破線は、やはり可視化対象を抽出するために設けられたしきい値であるが、図2Aのしきい値よりも高い値が設定されている。この例では、論理構成的な重要度が高い区間に加え、感情変化がしきい値を超える区間も可視化対象として選択される。
 [影響を受ける処理2.可視化対象となった内容のグラフィック表現]
 例えば、感情重視の場合、人物の表情や動作による喜怒哀楽に沿って、絵の配置や強調表現がなされる。論理重視の場合、文書構造や内容の関係性に沿って、絵の配置や強調表現がなされる。
 図3は、指定された方向づけに応じたグラフィック表現の例を示す。UC11は、可視化対象となった発話内容を示し、この例では「ICカードは“IC”と“カード”という既存のものの組み合わせですが、手軽に本人認証ができるという効果と、その組み合わせの発明が当時はなかったため、組み合わせは容易ではないとして進歩性が認められました。」というテキスト情報を含む。R11は、UC11に基づく感情重視の場合のグラフィック表現の一例を示し、発話者の感情の変化に応じた強調表現(例えば、人のイラストや吹き出し)がなされている。またR11では、感情情報と対応していた部分の文言(この例では、語尾を強めて発話されたことに対応して「進歩性が認められました!」という文言)がテキスト情報から抽出され、吹出しの中に示されている。一方、R12は、UC11に基づく論理重視の場合のグラフィック表現の一例を示し、発話内容の論理構成を反映した強調表現(例えば、吹き出し)がなされている。R12ではさらに、文章の論理構造に基づいて「手軽に本人認証できる効果」という文言がテキスト情報から抽出され、吹き出しの中に示されている。
 [影響を受ける処理3.全体的なレイアウト]
 例えば、感情重視の場合、感情の盛り上がりが大きかったところが他と比べて表示的な差異が現れるように配置される。表示的な差異の例として、占める面積の大きさ、太字、下線、マーカー、ハイライト、色、漫画的な強調表現などが挙げられる。論理重視の場合、文書構造に基づいて整理されて配置される。
 図4は、指定された方向づけに応じた全体的なレイアウトの一例を示す。LS1は、可視化対象であるトピックセットデータ間の論理構成を表す。この例では、論理構成は、大項目A,B,Cを含み、項目Aは中項目A1,A2を含み、項目Bは中項目B1を含む。中項目A1はさらに小項目A11,A12を含む。またここでは項目A11およびA2において発話者の感情変化が相対的に大きいと判定されている。L11は、LS1に基づく感情重視の場合のレイアウトの一例を示す。L12は、LS1に基づく論理重視の場合のレイアウトの一例を示す。L11は、感情変化が大きい項目(A11,A2)を強調する配置を有するのに対し、L12は、論理構成に基づいた配置を有する。
 このように、一実施形態に係る情報処理装置では、方向づけを設定することによって、会議や記録の目的に合わせてまとめ方や表現を調整したグラフィックレコーディングを自動的に作成することができる。
 (2)構成
 図5は、この発明の一実施形態に係る情報処理装置の一例としての自動グラフィックレコーディング装置10の機能構成を示すブロック図である。自動グラフィックレコーディング装置10は、発話者の発話活動に関わる活動情報の入力に対し、グラフィック表現を含む視覚的情報を出力するもので、専用のコンピュータとして、またはパーソナルコンピュータなどの汎用のコンピュータに専用のアプリケーションソフトウェアをインストールしたものとして構成され得る。
 自動グラフィックレコーディング装置10は、マイクロフォン(マイク)101、カメラ102、音声認識部103、感情推定部104、文書構造解析部105、発話グルーピング処理部106、トピックセットデータ取捨選択処理部107、グラフィック化処理部108、全体レイアウト処理部109、出力方向づけ設定情報記憶部110、データベース111、およびディスプレイ112を備える。
 マイク101は、発話者の発話音声を含む音を収集し、音声データに変換して出力する機能を有する。
 カメラ102は、発話者を撮像した映像データを出力する機能を有する。映像データは音声データを含み得る。
 音声認識部103は、音声データに基づき、音声認識技術により発話テキストを抽出し、テキストデータを生成する機能を有する。
 感情推定部104は、音声データおよび/または映像データに基づき、盛り上がり度や共感度を表す感情情報を算出し出力する機能を有する。
 文書構造解析部105は、音声データから抽出された発話テキストに基づき、文書構造の解析を行い、文書構造解析済みの発話テキスト情報を出力する機能を有する。
 発話グルーピング処理部106は、文書構造解析済みの発話テキスト情報に基づき、発話区間を特定し、発話区間をグルーピングし、トピックセットデータを出力する機能を有する。発話グルーピング処理部106は、文書構造的関連性のみに基づいて発話区間をグルーピングすることができる。発話グルーピング処理部106はさらに、出力方向づけ設定情報に応じて、感情情報に基づいて発話区間をグルーピングすることもできる。
 トピックセットデータ取捨選択処理部107は、トピックセットデータの中から可視化すべきトピックセットデータを抽出する機能を有する。トピックセットデータ取捨選択処理部107は、文書構造的関連性のみに基づいて重要度の高い発話区間を特定し、可視化対象のトピックセットデータとして抽出することができる。トピックセットデータ取捨選択処理部107は、感情情報に基づいて感情的重要度の高い発話区間を特定し、可視化対象のトピックセットデータとして抽出することもできる。トピックセットデータ取捨選択処理部107はさらに、出力方向づけ設定情報に応じて、感情的重要度または論理構成的重要度の高い発話区間を選択的に特定することによって可視化対象のトピックセットデータを抽出することもできる。
 グラフィック化処理部108は、可視化対象のトピックセットデータをグラフィック化する機能を有する。グラフィック化処理部108は、トピックセットデータに含まれるテキスト情報に基づき、テンプレートを選択し、テンプレートに語句を当て込む処理を行う。ここで、グラフィック化処理部108は、テキスト情報に含まれる語、句、節または文に対し、出力方向づけ設置情報に基づく重要度に応じた強調表現を適用することができる。グラフィック化処理部108は、テンプレート選択部1081と、語句抽出・当て込み部1082とを含み得る。
 テンプレート選択部1081は、可視化対象のトピックセットデータのテキスト情報に基づき、テンプレートの選択を行う機能を有する。テンプレート選択部1081は出力方向づけ設定情報に基づいてテンプレートを選択することができる。
 語句抽出・当て込み部1082は、発話テキストから語句を抽出し、選択されたテンプレートに当て込む処理を行う。語句抽出・当て込み部1082は出力方向づけ設定情報に基づいて語句抽出および当て込み処理を行うことができる。
 全体レイアウト処理部109は、グラフィック化されたトピックセットデータを配置し、グラフィックレコーディングデータを最終的な結果として出力する機能を有する。全体レイアウト処理部109は、出力方向づけ設定情報に基づいて全体レイアウトを決定することができる。
 出力方向づけ設定情報記憶部110は、ユーザ等によりあらかじめ入力された出力方向づけ設定情報を記憶する機能を有する。
 データベース111は、上述したしきい値、画像、およびテンプレートを含む、処理に必要な種々のデータを記憶する。
 ディスプレイ112は、最終的なグラフィックレコーディング結果を表示する機能を有する。ディスプレイ112は、例えば、液晶ディスプレイまたは有機EL(Electro-Luminescence)ディスプレイであり得る。
 マイク101、カメラ102およびディスプレイ112は、必ずしも自動グラフィックレコーディング装置10と一体的に構成される必要はなく、別体のデバイスが利用されてもよい。カメラ102がマイクとカメラの両方の機能を兼ねるようにしてもよい。また、音声認識部103、感情推定部104、および文書構造解析部105の各機能は、必ずしも自動グラフィックレコーディング装置10内で実現される必要はなく、ネットワークを介して提供されるクラウドサービス等を利用してもよい。例えば、自動グラフィックレコーディング装置10は、マイク101により収集された音声データを、インターネット等を介して外部の音声認識サーバに送信し、当該音声認識サーバからテキストに変換されたデータを受信することによって、後続の処理に用いるようにしてもよい。
 (3)動作
 次に、以上のように構成された一実施形態に係る自動グラフィックレコーディング装置10の動作について説明する。 
 図6~図18は、処理手順の一例を示すフローチャートである。以下では、主に自動グラフィックレコーディング装置10が会議において会議参加者の発話の内容を記録するために用いられる状況を想定して説明する。
 (3-1)概要
 図6は、自動グラフィックレコーディング装置10による処理全体の流れを示す。 
 ステップS101において、自動グラフィックレコーディング装置10は、マイク101により発話者の音声データを収集し、音声認識部103により音声データから音声認識を行ってテキスト情報を抽出する。自動グラフィックレコーディング装置10はまた、カメラ102により映像データを収集する。自動グラフィックレコーディング装置10は、カメラ102に加えて、またはカメラ102の代わりに、動きセンサ、温度センサ、生体センサ等の種々のセンサの入力を受け付けることもできる。収集された音声データ、映像データおよび他のセンシングデータは、発話者の発話活動に関わる活動情報として後続の処理に用いられる。
 ステップS102において、文書構造解析部105が、テキスト情報に基づいて文書構造の解析処理を行い、文書構造解析済みの発話テキスト情報を出力する。音声データからの文書構造解析済み発話テキストの生成は、任意の従来技術(例えば、SpeechToText、または他の自然文解析技術)を用いて行われてよい。なお、ここでは文書構造解析結果は、一般的な自然文解析技術から出力される文書構造および各語への品詞情報を扱うものとする。
 ステップS103において、感情推定部104が、活動情報から感情情報を抽出する(処理の詳細は後述する)。映像を用いる場合、表情やしぐさの検出により、喜怒哀楽等の感情を細かく推定することができる。音声データまたは専用の呼気マイクで収集した呼気の情報から(例えばパワースペクトルを求めることにより)、興奮度を推定してもよい。ほかにも、脈拍変化、発汗変化、体温変化等の生体情報を用いてもよい。これにより、音声や映像だけでは捉えづらい感情の細やかな動きを推測することができる。一方で、感情推定に音声だけを用いる場合、安価に実現することができる。
 ステップS104において、発話グルーピング処理部106が、文書構造解析済みの発話テキストに基づいて、発話区間を特定し、発話区間をグルーピングして、トピックセットデータを出力する(処理の詳細は後述する)。トピックセットデータは、グループ化された文書構造解析済みの発話テキストと感情情報とを含む。
 ステップS105において、トピックセットデータ取捨選択処理部107が、トピックセットデータの中から、出力方向づけ設定情報をもとに、可視化対象とすべきトピックセットデータを抽出する(処理の詳細は後述する)。
 ここで、一定の時間に収集された活動情報から、常に可視化項目が抽出されるわけではない。そこでステップS106において、自動グラフィックレコーディング装置10は、処理の対象とした活動情報から可視化項目が抽出されたか否かを判定し、抽出された場合(YES)、ステップS107に進み、抽出されない場合(NO)、ステップS109に進む。
 ステップS107において、グラフィック化処理部108が、可視化対象のトピックセットデータをグラフィック化する(処理の詳細は後述する)。
 ステップS108において、全体レイアウト処理部109が、グラフィック化されたトピックセットデータの全体レイアウト処理を行う(処理の詳細は後述する)。
 ステップS109において、自動グラフィックレコーディング装置10は、会議が終了したか否かを判定し、会議が終了した場合(YES)、処理を終了する。一方、ステップS109で、会議が終了していない場合(NO)、処理は再びステップS101に戻り、引き続き音声認識および各種センシングを実行する。
 以上の処理は、会議進行中に音声等を収集することにより、リアルタイムで実行されてもよいし、または例えば一定時間ごとの処理として準リアルタイムで実行されてもよいし、あるいは会議中に収集され蓄積された音声データ等を、例えば会議後に任意の時間長またはデータ量に分割することによって実行されてもよい。
 (3-2)感情情報の出力
 図6のステップS103に関して説明した感情情報の出力についてさらに説明する。 
 感情推定部104は、映像や音声から感情情報を定量化し、出力する。感情推定部104は、従来技術を利用してこの処理を行うことができる。上述したように、音声データのみから、例えば音圧情報に基づいて感情の盛り上がりを検出してもよいし、映像データから、例えば表情の変化や体の動きの変化に基づいて盛り上がりを検出してもよい。また映像以外に、例えば入力情報に視線情報も加えて、共感情報を定量化することも考えられる(例えば、日本国特許第5437297号参照)。またさらに呼吸運動に係る情報に基づいて盛り上がりを定量化することも可能である(例えば、日本国特開2019-28485号参照)。ここではこのような盛り上がり度および共感度をそれぞれ感情情報と呼ぶ。
 感情の変化度合い(M)は、感情情報に基づいて算出される値であり、例えば以下の式によって算出される。
Figure JPOXMLDOC01-appb-M000001
ここで、HUPは、(正規化した)盛り上がり度[0≦HUP≦1]を表し、EMTは、(正規化した)共感度[0≦EMT≦1]を表す。
 図19は、以上のように算出される感情の変化度合い(M)、HUP、EMTの関係を示す略図である。なお、これらは一例にすぎず、他の算出方法が用いられてもよい。
 (3-3)発話グルーピング処理
 次いで図6のステップS104において説明した発話グルーピング処理部106による発話グルーピング処理についてさらに説明する。
 図20は、発話グルーピング処理のイメージを示す。横軸は時刻、縦軸は感情変化の度合いを表す。まず、発話グルーピング処理部106は、文書構造解析済み発話テキストに沿って、句点を区切りとして、発話テキストを発話区間として分ける。縦の破線は発話的な区切りを表す。
 次に発話グルーピング処理部106は、以下の2つの条件のどちらかに当てはまれば、分けた発話区間を同一内容の発話とみなし、発話区間を連結する。
  (条件1A)感情変化が大きく、文書構造的にも関連しあっている区間
  (条件1B)開始タイミングや文書構造的に主張ポイントなど会議上重要と思われる区間
 図20において、G11は、会議の開始区間にあたり、重要と判定された区間である。G12は、感情変化が大きく、しかも文書構造的に関連しあっていると判定された区間である。G13は、感情変化は大きくないが、文書構造的に主張ポイントであると判定された区間である。
 発話グルーピング処理部106は、以上のようにグルーピングした区間に対し、対応する発話内容を含む感情情報を付加し、トピックセットデータとしてメモリ上に記憶する。
 図7は、発話グルーピング処理部106による発話グルーピング処理の詳細なフローの一例を示す。 
 まずステップS401において、発話グルーピング処理部106は、発話テキストを発話区切りごとに分ける。
 ステップS402において、発話グルーピング処理部106は、グルーピング判定していない発話区切りが存在するか否かを判定する。グルーピング判定していない発話区切りが存在しない場合(NO)、処理は終了し、存在する場合(YES)、ステップS403に進む。
 ステップS403において、発話グルーピング処理部106は、発話区切りと同一時間区間の感情情報を付与してトピックデータを生成する。
 ステップS404において、発話グルーピング処理部106は、ある特定の発話区切りが1つ前の発話区切りと論理構成的に繋がりがあるか否かを判定する。論理的繋がりがない場合(NO)、ステップS405に進み、論理的繋がりがある場合(YES)、ステップS406に進む。
 ステップS405において、発話グルーピング処理部106は、上記特定の発話区切りが上記1つ前の発話区切りと同一の感情情報で、かつ感情変化度合いがしきい値を超えているか否かを判定する。しきい値を超えている場合(YES)、ステップS406に進み、しきい値を超えていない場合(NO)ステップS407に進む。
 ステップS406では、発話グルーピング処理部106は、上記特定の発話区切りを1つ前の発話グループのトピックデータにマージする。その後、処理は再びステップS402に戻り、まだグルーピング判定していない発話区切りが存在するか否かの判定を行う。
 一方、ステップS407では、発話グルーピング処理部106は、上記特定の発話区切りを新たな発話グループと決定し、やはりステップS402に戻る。
 このように、発話グルーピング処理は、発話的な区切りだけでなく、盛り上がった、共感があがったなどの感情変化と、文書構造的な繋がりをもとにして発話区間をグループにまとめ、そこに感情情報を付加し、トピックセットデータとして出力する。
 (3-4)トピックセットデータ取捨選択処理
 図6のステップS105に関して説明したトピックセットデータ取捨選択処理部107によるトピックセットデータ取捨選択処理についてさらに説明する。トピックセットデータ取捨選択処理部107は、トピックセットデータの中から可視化すべきトピックセットデータを抽出する。抽出されるトピックセットデータは出力方向づけ設定情報によって変化する。
 トピックセットデータ取捨選択処理部107は、以下の3つの条件のいずれかに当てはまったトピックセットを抽出する。
  (条件2A)最初のトピックセットデータであること:会議開始時の区間には議題等重要な情報が含まれている可能性が高いため、最初のトピックセットデータを可視化対象として抽出するものである。
  (条件2B)感情変化度合いがしきい値を超えるものが含まれていること:感情変化が起きた発話には主張や聴衆の心を動かす情報が含まれている可能性が高いため、感情変化度合いがしきい値を超える感情情報が含まれているトピックセットデータを可視化対象として抽出するものである。ここで、抽出するしきい値は出力方向づけ設定情報によって補正される。感情重視であればしきい値は小さく(判定が緩く)なり、論理重視であればしきい値は大きく(判定が厳しく)なる。例えば、感情変化の基準しきい値が0.5であり、出力方向づけ設定情報が感情寄り(α=0.75)であった場合、感情変化しきい値は、感情変化の基準しきい値/出力方向づけ設定情報=0.5/0.75≒0.67となる。なお、感情変化度合いは0から1の範囲の値になるよう正規化されている。
  (条件2C)論理構成的な重要度がしきい値を超えるものが含まれていること:論理構成的に重要な発話には主張や説明などの情報が含まれている可能性が高いため、論理構成的な重要度がしきい値を超える感情情報が含まれているトピックセットデータを可視化対象として抽出するものである。抽出するしきい値は出力方向づけ設定情報によって補正される。感情重視であればしきい値は大きく(判定が厳しく)なり、論理重視であれば小さく(判定が緩く)なる。例えば、論理構成的な重要度の基準しきい値が0.1であり、出力方向づけ設定情報が感情寄り(α=0.75)であった場合、論理構成的な重要度のしきい値は、論理構成的な重要度の基準しきい値/(1-出力方向づけ設定情報)=0.4となる。なお、論理構成的な重要度は既存技術を使って算出することができる。また論理構成的な重要度は、その範囲が0から1になるよう正規化を行っているものとする。
 図21は、トピックセットデータ取捨選択処理のイメージを示す図である。横軸は時刻、縦軸は感情変化度合いを表す。横方向の破線は感情変化しきい値を表す。上述したように、感情変化しきい値は、出力方向づけ設定情報によって上下する。
 図21において、網掛けの区間は、可視化対象区間と判定された区間である。TI11は、最初のトピックデータであることから可視化対象と判定された。TI12およびTI13は、しきい値以上の感情変化を含むことから可視化対象と判定された。TI14は、論理構成的な重要度がしきい値以上であることから可視化対象と判定された。
 ここで、可視化対象とするか否かの判定に、感情情報だけでなく論理構成の重視という判定要素を加えることによって、感情情報だけを用いる場合にくらべて、内容的に重要なポイントが適切に抽出されるという効果がある。また、感情情報を重視するか論理構成を重視するかをその比率も含めて選択できるようにすることによって、記録対象が情報共有したい場面(論理重視)であるか、ブレインストーミングの場面(感情重視)であるかなど、目的に合わせて出力形態を変えることができるというメリットもある。
 なお、ここでは感情情報および論理情報に基づく処理の例を説明するが、入力された活動情報から得られる情報を用いるものであればこれに限定されるものではなく、例えば感情だけに基づいてもよいし、論理だけに基づいてもよい。追加的にまたは代替的に、入力音声の大きさなどに基づいて可視化対象が決定されてもよい。取捨選択処理に限らず、他の処理についても同様である。
 図8は、トピックセットデータ取捨選択処理部107によるトピックセットデータ取捨選択処理の詳細なフローの一例を示す。 
 まずステップS501において、トピックセットデータ取捨選択処理部107は、方向づけ設定情報に基づいて感情変化しきい値および論理構成的な重要度を算出する。
 ステップS502において、トピックセットデータ取捨選択処理部107は、取捨選択していないトピックセットデータが存在するか否かの判定を行う。存在する場合(YES)、ステップS503に進み、存在しない場合(NO)、処理を終了する。
 ステップS503において、トピックセットデータ取捨選択処理部107は、タイムスタンプが会議の開始であるか否かを判定する。タイムスタンプが会議の開始である場合(YES)、ステップS506に進み、当該トピックセットデータを可視化対象と判定する。タイムスタンプが会議の開始でない場合(NO)、ステップS504に進む。
 ステップS504において、トピックセットデータ取捨選択処理部107は、感情変化度合いがしきい値を超えている感情情報があるか否かを判定する。感情変化度合いがしきい値を超えている感情情報がある場合(YES)、ステップS506に進み、当該トピックセットデータを可視化対象と判定する。感情変化度合いがしきい値を超えている感情情報がない場合(NO)、ステップS505に進む。
 ステップS505において、トピックセットデータ取捨選択処理部107は、論理的構造的な重要度がしきい値を超えている発話データがあるか否かを判定する。論理的構造的な重要度がしきい値を超えている発話データがある場合(YES)、ステップS506に進み、当該トピックセットデータを可視化対象と判定する。その後、処理は再びステップS502に戻り、まだ取捨選択していないトピックセットデータがあるか否かを判定する。
 一方、ステップS505において、論理的構造的な重要度がしきい値を超えている発話データがない場合(NO)、ステップS507に進み、当該トピックセットデータは可視化対象ではないと判定する。その後、処理は再びステップS502に戻る。
 (3-5)グラフィック化処理
 図6のステップS107に関して説明したグラフィック化処理部108によるグラフィック化処理についてさらに説明する。グラフィック化処理部108は、可視化対象として抽出されたトピックセットデータを、発話テキストの内容、文書構造、または感情情報をもとに画像に変換する処理を行う。変換により生成される画像は、やはり出力方向づけ設定情報によって変化する。画像変換は、テンプレート選択と、語句抽出・当て込みの2工程に分かれる。以下、便宜上、グラフィック化処理部108のテンプレート選択部1081がテンプレート選択処理を、グラフィック化処理部108の語句抽出・当て込み処理部1082が語句抽出・当て込み処理をそれぞれ実施するものとして説明するが、これに限られるものではない。
 図9は、グラフィック化処理部108によるグラフィック化処理全体のフローの一例を示す。 
 まずステップS701において、グラフィック化処理部108は、グラフィック化処理をしていない可視化対象トピックセットデータが存在するか否かの判定を行う。存在する場合(YES)、ステップS702に進み、存在しない場合(NO)、処理は終了する。
 ステップS702において、テンプレート選択部1081は、出力方向づけ設定情報の値αが0.5より小さいか否かを判定する。αが0.5以上の場合(NO)、ステップS703に進み、αが0.5より小さい場合(YES)、ステップS711に進む。
 ステップS703において、テンプレート選択部1081は、出力方向づけ設定情報の値αが0.5より大きいか否かを判定する。αが0.5より大きい場合(YES)、ステップS707に進み、αが0.5に等しい場合(NO)、ステップS704に進む。αが0.5より大きい場合、出力方向づけ設定情報が感情重視または感情寄りであることを意味する。αが0.5に等しい場合、出力方向づけ設定情報がニュートラルであることを意味する。
 αが0.5に等しい場合、まずステップS704において、テンプレート選択部1081が論理系テンプレート選択処理を行う。次いでステップS705において、テンプレート選択部1081が感情系テンプレート選択処理を行う。そしてステップS706において、語句抽出・当て込み処理部1082がニュートラルの当て込み処理を行う。その後、処理は再びステップS701に戻る。
 一方、αが0.5より大きい場合、まずステップS707において、テンプレート選択部1081が感情系テンプレート選択処理を行う。次いで、ステップS708において、語句抽出・当て込み処理部1082が出力方向づけ設定情報の値αが1であるか否かを判定する。αが1でない場合(NO)、ステップS709に進み、語句抽出・当て込み処理部1082が、感情寄りの語句抽出・当て込み処理を行う。αが1である場合(YES)、ステップS710に進み、語句抽出・当て込み処理部1082が、感情重視の語句抽出・当て込み処理を行う。その後、処理は再びステップS701に戻る。
 また一方、ステップS702において出力方向づけ設定情報の値αが0.5より小さいと判定された場合、出力方向づけ設定情報が論理重視または論理寄りであることを意味する。この場合、まずステップS711においてテンプレート選択部1081が論理系テンプレート選択処理を行う。次いでステップS712において、語句抽出・当て込み処理部1082が出力方向づけ設定情報の値αが0であるか否かを判定する。αが0でない場合(NO)、ステップS713に進み、語句抽出・当て込み処理部1082が、論理寄りの語句抽出・当て込み処理を行う。αが0である場合(YES)、ステップS714に進み、語句抽出・当て込み処理部1082が、論理重視の語句抽出・当て込み処理を行う。その後、処理は再びステップS701に戻る。
 上記のように、グラフィック化処理部108は、出力方向づけ設定情報に基づいて、可視化対象となったトピックセットデータをグラフィック化する。グラフィック化処理は、「強調して出力」または「強調表現を伴って出力」と言い換えることもできる。すなわち、一実施形態に係る自動グラフィックレコーディング装置10は、人間(発話者または参加者)の活動情報の入力を受け付けると、感情の表出や変化をもとに発話内容を分析し、その感情の変化の程度によって強調出力するという一面を有する。また一方、自動グラフィックレコーディング装置10は、出力にあたってどこまで感情(または論理)を反映させるかを設定できるという一面も有する。
 (3-5-1)テンプレート選択処理
 次に図9で言及したテンプレート選択処理についてさらに詳細に説明する。 
 感情と論理の対立項目に対する方向づけをあらかじめ設定する場合、テンプレート選択処理には、感情系テンプレート選択処理(図9のステップS705およびS707)と、論理系テンプレート選択処理(図9のステップS704およびS711)が含まれる。いずれの場合にも、テンプレート選択部1081は、抽出された可視化対象区間の音声内容をもとに、適切なグラフィックレコーディング的な絵のテンプレートを選択する。
 ここで、論理重視または論理寄り(出力方向づけ設定情報0≦α<0.5)の場合、テンプレート選択部1081は、文書構造解析済み発話テキストをもとに、あらかじめ蓄積されたテンプレートのメタデータとマッチングをかけて適するテンプレートを選択する。感情重視または感情寄り(出力方向づけ設定情報0.5<α≦1)の場合、テンプレート選択部1081は、感情情報をもとにあらかじめ蓄積されたテンプレートのメタデータとマッチングをかけて適するテンプレートを選択する(マッチングアルゴリズムの例については後述する)。なお、トピックセットデータ内に感情情報がない場合、テンプレート選択部1081は、論理寄りの方法でテンプレートを選択することができる。出力方向づけ設定情報の値α=0.5(ニュートラル)の場合、論理寄りの方法と感情寄りの方法でそれぞれテンプレートを選択する。
 図22は、テンプレート選択処理のイメージを示す。この例では、発話内容UC12は、ある発話者の発話に係るテキスト情報「特許案についての説明です。」「発話内容可視化と自動グラレコ(グラフィックレコーディング)について相談させてください。」を含む。このUC12に対し、テンプレート選択部1081は、あらかじめデータベース111に記憶されたテンプレート群TPの中から、最も合致するテンプレートを探す。
 図23は、論理系テンプレートの一例を示す。図23では、「説明開始」、「目的へ推進」、「二者対立」、「三者対立」、「フロー(横)」、「フロー(縦)」、「サイクル」、「組み合わせ(縦)」の8種類のテンプレートが例示されている。言うまでもなく、より多くの数の、多種多様なテンプレートが用いられてよい。
 図24は、感情系テンプレートの一例を示す。図24では、「喜び(右向き)」、「強調(右向き)」、「怒り(右向き)」、「驚き(右向き)」、「悲しみ(右向き)」、「感謝(右向き)」、「安らぎ(右向き)」、「困惑(右向き)」の8種類のテンプレートが例示される。やはり、より多くの数の、多種多様なテンプレートが用いられてよい。
 (3-5-1-1)マッチングアルゴリズム例
 続いて、テンプレート選択部1081によって用いられるマッチングアルゴリズムについて説明する。各テンプレートにはキーワードが紐付けられている。テンプレート選択部1081は、トピックセットデータに含まれる発言の内容または感情情報とキーワードとの類似度を計算し、一番近いテンプレートを選択する。
 出力方向づけ設定情報が論理寄りの場合、テンプレート選択部1081は、例えばtf-idf(Term Frequency-Inverse Document Frequency)によってベクトル化した文書同士のコサイン類似度を用いて、類似度を算出する。
 図25は、論理系テンプレートデータの一例を示す。上述したように、各テンプレートは、あらかじめ設定されたキーワードを含む。例えば、No.1の論理系テンプレート(名称:説明開始)には、「説明、開始、始める、紹介・・・」というキーワードが紐づけられる。
 出力方向づけ設定情報が感情寄りの場合、テンプレート選択部1081は、トピックセットデータ内に含まれるすべての感情情報を平均した感情ベクトルを導出し、そのベクトルとテンプレートの名前をもとに作成した感情ベクトルとのコサイン類似度で算出する。ここで、感情ベクトルは、扱う感情の値をベクトル要素にとった、n次元のベクトルをいう。
 図26は、感情系テンプレートデータの一例を示す。各テンプレートは、感情の値を要素とする感情ベクトルを含む。例えば、No.1の感情系テンプレート(名称:喜び(右向き))の感情ベクトルは、(喜:怒:哀:安:強:驚:感:困:盛:共・・・)=(1:0:0:0:0:0:0:0:0:0・・・)と表される。
 類似度が同値の場合、レイアウトルール(後述)にしたがって、より適切な方(例えば、兄弟関係が縦方向に並列していたら、横方向の絵を選ぶなど)が選択される。
 図27は、論理重視または論理よりの場合のマッチングアルゴリズムの概要を示す。この例では、発話内容UC13は、「ICカードは“IC”と“カード”という既存のものの組み合わせですが、手軽に本人認証ができるという効果と、その組み合わせの発明が当時はなかったため、組み合わせは容易ではないとして進歩性が認められました。」というテキスト情報を含む。ここで、論理系テンプレートデータTDとのマッチングにより、No.8の「組み合わせ(縦)」のテンプレートに最も類似すると判定された。これにより、No.8のテンプレートに対応するテンプレート画像TP11がその後の処理に用いられる。
 (3-5-1-2)論理系テンプレート選択処理
 図10は、図9のステップS704およびS711に示したテンプレート選択部1081による論理系テンプレート選択処理の詳細なフローの一例を示す。 
 まずステップS7001において、テンプレート選択部1081は、発話テキストと論理系テンプレートのキーワードの文書ベクトルを作成する。
 次いでステップS7002において、テンプレート選択部1081は、類似度を計算していない論理系テンプレートの存在の有無を判定する。存在する場合(YES)、ステップS7003に進み、存在しない場合(NO)、ステップS7004に進む。
 ステップS7003において、テンプレート選択部1081は、論理系テンプレートから1つ選び、発話テキストとの文書ベクトル類似度を算出し、再びステップS7002に戻る。
 ステップS7004において、テンプレート選択部1081は、最も類似度が高いテンプレートをグラフィック化対象のテンプレートに決定し、処理を終了する。
 (3-5-1-3)感情系テンプレート選択処理
 図11は、図9のステップS705およびS707に示したテンプレート選択部1081による感情系テンプレート選択処理の詳細なフローの一例を示す。 
 まずステップS7101において、テンプレート選択部1081は、感情情報と感情系テンプレートの感情語のベクトルを作成する。
 次いでステップS7102において、テンプレート選択部1081は、類似度を計算していない感情系テンプレートの存在の有無を判定する。存在する場合(YES)、ステップS7103に進み、存在しない場合(NO)、ステップS7104に進む。
 ステップS7103において、テンプレート選択部1081は、感情系テンプレートから1つ選び、感情情報とのベクトル類似度を算出し、再びステップS7102に戻る。
 ステップS7104において、テンプレート選択部1081は、最も類似度が高いテンプレートをグラフィック化対象のテンプレートに決定し、処理を終了する。
 (3-5-2)語句抽出・当て込み処理
 次に図9で言及した語句抽出・当て込み処理についてさらに詳細に説明する。 
 感情と論理の対立項目に対する方向づけをあらかじめ設定する場合、語句抽出・当て込み処理には、論理重視の語句抽出・当て込み処理(図9のステップS714)と、感情重視の語句抽出・当て込み処理(図9のステップS710)と、論理寄りの語句抽出・当て込み処理(図9のステップS713)と、感情寄りの語句抽出・当て込み処理(図9のステップS709)と、ニュートラルの当て込み処理(図9のステップS706)とが含まれる。
 いずれの場合にも、語句抽出・当て込み部1082は、発話内容や感情情報をもとに適切な文言や絵を選択し、選択した文言や絵をテンプレートに当て込む処理を行う。まず、語句抽出・当て込み部1082は、対象区間の発話内容から、テンプレートのキーワードに関連する語句を抽出する。そして、語句抽出・当て込み部1082は、抽出した語句と、テンプレート上の埋め込み項目とが最も合致する組み合わせを導出する。埋め込みが行われる項目が決まった後、語句抽出・当て込み部1082は、「画像or文言」となっている埋め込み項目に関しては、抽出した語句や感情と一致度が高い画像を検索する。画像検索自体は従来技術を利用することができ、インターネット上で検索してもよいし、あらかじめ登録してあるストレージやシステムから検索してもよい。語句抽出・当て込み部1082は、抽出した語句や画像をテンプレート上の合致する位置に埋め込み、グラフィック化済トピックセットデータとして出力する。
 図28は、語句抽出・当て込み処理のイメージを示す。図28では、図27の例で使用されたのと同じ発話内容UC13と、図27の例で選択されたのと同じテンプレートTP11が用いられている。語句抽出・当て込み部1082は、これらのUC13とTP11とをもとに、適する語句を抽出し(S511)、語句とテンプレート上の項目との組み合わせを導出し(S512)(このとき画像検索も併せて実施する)、当て込み処理を行ったトピックセットTS11を出力する(S513)。この例では、テンプレートTP11に紐づけられた「組み合わせ」というキーワードに基づき、UC13から「ICカード」「IC」「カード」「手軽に本人認証できる効果」という語句が抽出され、TS11に当て込まれている。
 (3-5-2-1)論理重視の語句抽出・当て込み処理
 論理重視(α=0)の場合、語句抽出・当て込み部1082は、テンプレート上のキーワードと関連する語句を抽出する。ここで、語句抽出・当て込み部1082は、テンプレートデータのキーワードをもとに、発話内容から合致する語句を抽出する。次いで、語句抽出・当て込み部1082は、発話内容の文書構造解析結果から合致する語句と係る語句を関連語句として抽出する。補語の情報は補足情報(テンプレート上のセリフや補足用の情報)として抽出される。
 図29は、論理重視(α=0)の場合の語句抽出処理のイメージを示す。図27、図28と同様に、TD11は選択されたテンプレートデータを示し、UC13は発話内容を示す。DS11は、UC13に対応する論理構成における語句抽出のイメージを示し、太字は合致する語句(兼関連語句)を、斜体は関連語句を、線SPIで囲まれた部分は補足情報を表す。DS11において、テンプレート上のキーワードと合致する語句として「組み合わせ」(太字部分)が抽出され、当該語句と関連する語句として「ICカード」「進歩性」「は容易でない」「IC」「カード」「既存のもの」「発明が当時はなかった」「その」(斜体部分)が抽出され、補語の情報が補足情報(SPI部分)として抽出されている。
 図30は、テンプレート埋め込みデータの一例を示す。図30の例を用いて、抽出した関連語句とテンプレート上の埋め込み項目との対応の決定処理についてさらに説明する。ここでは、テンプレートの埋め込み情報が持つ情報と、抽出した関連語句との合致度合いを算出する。
 まず、No.1の埋め込み項目は、適する内容が「組み合わせ元」である。そこで、語句抽出・当て込み部1082は、関連語句の中から組み合わせに係るものをピックアップする。組み合わせ「元」が含まれるのは2つ目のもの(組み合わせ,IC,カード,既存のもの)であるので、この関連語句の合致度合いが一番高くなる。したがって、目的語の1つ目「IC」を適する語句とする。
 No.2の埋め込み項目は、内容が「組み合わせ元」であるため、No.1と同様の合致度合いとなる。目的語の1つ目は既に選択済みであるため、2つ目「カード」を適する語句とする。
 No.3の埋め込み項目は、内容が「組み合わせ後」である。合致度合いはNo.1とNo.2と同じものとなる。抽出される語は、組み合わせ後の対象となる語句「ICカード」が適する語句となる。ここでNo.3には補足項目が1つあり、対象とした語句「ICカード」の補語の中から1つ目(手軽に本人認証できる効果)を適する語句として選択する。
 図31は、抽出した関連語句とテンプレート上の埋め込み項目との対応を決定する処理のイメージを示す。テンプレート上の埋め込み項目データIMに基づき、DS11から語句が抽出される。
 このように語句抽出・当て込み部1082は、上記のように選択された語句をテンプレートに埋め込み、グラフィック化済みトピックセットを作成する。語句抽出・当て込み部1082は、選択した関連語句をテンプレートに埋め込む。埋め込む際に、埋め込み項目が「ヒトorモノ」であれば、文言から画像に置き換える。画像検索自体は従来技術を利用することができ、インターネット上で検索してもよいし、あらかじめ登録してあるストレージやシステムから検索してもよい。
 図32は、得られるグラフィック化済みトピックセットのイメージを示す。選択されたテンプレートTP11と、文書構造DS12から抽出された語句に基づき、グラフィック化済みトピックセットGS11が得られる。
 図12は、図9のステップS714に示した語句抽出・当て込み部1082による論理重視(α=0)の場合の語句抽出・当て込み処理の詳細なフローの一例を示す。 
 まずステップS7201において、語句抽出・当て込み部1082は、テンプレートデータのキーワードと合致する語句を発話テキストから抽出する。
 ステップS7202において、語句抽出・当て込み部1082は、発話内容の文書構造解析結果から合致した語句と係る語句を関連語句として抽出する。補語の情報は、補足情報(テンプレート上のセリフや補足用の情報)として抽出される。
 ステップS7203において、語句抽出・当て込み部1082は、内容が確定していない埋め込み項目があるか否かを判定する。内容が確定していない埋め込み項目があれば(YES)、ステップS7204に進み、なければ(NO)、処理を終了する。
 ステップS7204において、語句抽出・当て込み部1082は、テンプレートの埋め込み項目データから内容が確定していない項目を選択する。
 ステップS7205において、語句抽出・当て込み部1082は、選択した項目との合致度をまだ算出していない、合致した語句が存在するか否かを判定する。存在する場合(YES)、ステップS7206に進み、存在しない場合(NO)、ステップS7208に進む。
 ステップS7206において、語句抽出・当て込み部1082は、まだ合致度を算出していない合致した語句を1つ選ぶ。
 ステップS7207において、語句抽出・当て込み部1082は、選択した項目の適する内容に合致し、かつまだ埋め込み内容として使われていない語句が、合致した語句と係る語句の中にいくつ含まれているかをカウントし、その数を合致度とする。その後、処理は再びステップS7205に戻る。
 ステップS7208において、語句抽出・当て込み部1082は、最も合致度が高く、まだ埋め込み項目として使われていない語句を埋め込み内容とする。
 ステップS7209において、語句抽出・当て込み部1082は、埋め込み項目先が「ヒトorモノ」であり、合致する画像があれば画像に置き換える。その後、処理は再びステップS7203に戻る。
 (3-5-2-2)感情重視の語句抽出・当て込み処理
 感情重視(α=1)の場合、語句抽出・当て込み部1082は、発話テキスト上で感情情報がある語句と関連する語句を抽出する。ここで、語句抽出・当て込み部1082は、感情情報をもとに、発話内容から合致する語句を抽出する。次いで、語句抽出・当て込み部1082は、発話内容の文書構造解析結果から合致する語句と係る語句のうち、人名や固有名詞となる語句を関連語句として抽出する。語句抽出・当て込み部1082はまた補足情報として、発話内容の文書構造解析結果から合致する語句を抽出する。語句抽出・当て込み部1082は、論理重視の場合と同様に選択された語句をテンプレートに埋め込み、グラフィック化済みトピックセットデータを作成するテンプレート上のキーワードと関連する語句を抽出する。
 図33は、感情重視(α=1)の場合のグラフィック化処理のイメージを示す。語句抽出・当て込み部1082は、発話内容UC13と文書構造DS21とを含むトピックセットデータに基づき、グラフィック化済みトピックセットデータGS12を作成する。UC13およびDS21において、太字「認められた」は合致する語句(兼関連語句)を表し、斜体「ICカード」は関連語句を表し、「進歩性」と「組み合わせは容易でない」は補足情報を表す。また、「ICカード」は固有名詞として識別されている。
 図13は、図9のステップS710に示した語句抽出・当て込み部1082による感情重視(α=1)の場合の語句抽出・当て込み処理の詳細なフローの一例を示す。 
 まずステップS7301において、語句抽出・当て込み部1082は、感情情報をもとに感情情報と合致する語句を発話テキストから抽出する。
 ステップS7302において、語句抽出・当て込み部1082は、発話内容の文書構造解析結果から合致する語句と係る語句のうち、人名や固有名詞となる語句を関連語句として抽出する。
 ステップS7303において、語句抽出・当て込み部1082は、残りの係る語句を補足情報として抽出する。
 ステップS7304において、語句抽出・当て込み部1082は、内容が確定していない埋め込み項目があるか否かを判定する。ある場合(YES)、ステップS7305に進み、ない場合(NO)、処理を終了する。
 ステップS7305において、語句抽出・当て込み部1082は、テンプレートの埋め込み項目データから内容が確定していない項目を選択する。
 ステップS7306において、語句抽出・当て込み部1082は、選択した項目との合致度をまだ算出していない、合致した語句が存在するか否かを判定する。存在する場合(YES)、ステップS7307に進み、存在しない場合(NO)、ステップS7309に進む。
 ステップS7307において、語句抽出・当て込み部1082は、まだ合致度を算出していない合致した語句を1つ選ぶ。
 ステップS7308において、語句抽出・当て込み部1082は、選択した項目の適する内容に合致し、かつまだ埋め込み内容として使われていない語句が、合致した語句と係る語句の中にいくつ含まれているかをカウントし、その数を合致度とする。処理後、再びステップS7306に戻る。
 ステップS7309において、語句抽出・当て込み部1082は、最も合致度が高く、まだ埋め込み項目として使われていない語句を埋め込み内容とする。
 ステップS7310において、語句抽出・当て込み部1082は、埋め込み項目先が「ヒトorモノ」であり、合致する画像があれば画像に置き換える。
 語句抽出・当て込み部1082は、論理重視の場合と同様に、選択された語句をテンプレートに埋め込み、グラフィック化済みトピックセットデータを作成する。
 (3-5-2-3)論理寄りの語句抽出・当て込み処理
 論理寄り(0<α<0.5)の場合、語句抽出・当て込み部1082は、論理重視の場合と同様に、テンプレート上のキーワードと関連する語句を抽出する。ただし、抽出する際に論理構成の感情部分に感情の割合分の重みをかける。例えばα=0.25の場合、感情情報として語尾強調となっている「認められました」の部分と、それに係る語句に階層に応じて減衰させながら重みをつける。
 図34は、論理寄りの場合の語句抽出処理のイメージを示す。発話内容UC13および文書構造DS31において、太字は合致する語句(兼関連語句)を、斜体は関連語句を、線SPIで囲まれた部分は補足情報を表す。DS32は、感情の割合分の重みづけが行われる様子を示す。この例では、階層に応じて、語尾強調の「認められました」の部分に1.25、それに係る語句としての「ICカード」には1.125、「進歩性」には1.125、「組み合わせは容易でない」には1.068の重み付けがされる。
 次いで、語句抽出・当て込み部1082は、補足情報として選択する語句を、最も重みがかかっている語句を中心にして抽出する。この例では、最も重みがかかっている語句は「認められた」であるので、補足情報として選択する語句として「進歩性」および「組み合わせは容易でない」が抽出される。抽出した関連語句とテンプレート上の埋め込み項目との対応は、論理重視の場合と同様に実施する。
 図35は、以上のような重みづけによって得られる出力結果GS13を示す。重みづけに応じた語句を用いた出力結果が得られる。
 図14は、図9のステップS713に示した語句抽出・当て込み部1082による論理寄り(0<α<0.5)の場合の語句抽出・当て込み処理の詳細なフローの一例を示す。 
 まずステップS7401において、語句抽出・当て込み部1082は、テンプレートのキーワードと合致する語句を発話テキストから抽出する。
 ステップS7402において、語句抽出・当て込み部1082は、文書構造解析結果から合致した語句と係る語句を抽出する。
 ステップS7403において、語句抽出・当て込み部1082は、内容が確定していない埋め込み項目があるか否かを判定し、ある場合(YES)、ステップS7404に進み、ない場合(NO)、処理を終了する。
 ステップS7404において、語句抽出・当て込み部1082は、テンプレートの埋め込み項目データから内容が確定していない項目を選択する。
 ステップS7405において、語句抽出・当て込み部1082は、選択した埋め込み項目の適する内容が補足情報であるか否かを判定する。補足情報でない場合(NO)、ステップS7406に進み、補足情報である場合(YES)、ステップS7411に進む。
 ステップS7406において、語句抽出・当て込み部1082は、選択した項目との合致度をまだ算出していない、合致した語句が存在するか否かを判定する。存在する場合(YES)、ステップS7407に進み、存在しない場合(NO)、ステップS7409に進む。
 ステップS7407において、語句抽出・当て込み部1082は、まだ合致度を算出していない合致した語句を1つ選ぶ。
 ステップS7408において、語句抽出・当て込み部1082は、選択した項目の適する内容に合致し、かつまだ埋め込み内容として使われていない語句が、合致した語句と係る語句の中にいくつ含まれているかをカウントし、その数を合致度とする。その後処理は再びステップS7406に戻る。
 ステップS7409において、語句抽出・当て込み部1082は、最も合致度が高く、まだ埋め込み項目として使われていない語句を埋め込み内容とする。
 ステップS7410において、語句抽出・当て込み部1082は、埋め込み項目先が「ヒトorモノ」であり、合致する画像があれば画像に置き換える。その後処理は再びステップS7403に戻る。
 一方、ステップS7405において選択した埋め込みの適する内容が補足情報である(YES)場合、ステップS7411において、語句抽出・当て込み部1082は、さらに重みを計算していない感情情報と合致する語句があるか否かを判定する。ある場合(YES)、ステップS7412に進み、ない場合(NO)、ステップS7416に進む。
 ステップS7412において、語句抽出・当て込み部1082は、感情情報と合致する語句を発話テキストから抽出する。
 ステップS7413において、語句抽出・当て込み部1082は、文書構造解析結果から合致した語句と係る語句のうち人名や固有名詞を抽出する。
 ステップS7414において、語句抽出・当て込み部1082は、残りの係る語句を補足情報として抽出する。
 ステップS7415において、語句抽出・当て込み部1082は、抽出した各語句に重みをかける。その後処理は再びステップS7411に戻る。
 ステップS7416において、語句抽出・当て込み部1082は、最も重みがかかった語句とその係る語句を埋め込み内容とする。その後処理は再びステップS7403に戻る。
 (3-5-2-4)感情寄りの語句抽出・当て込み処理
 感情寄り(0.5<α<1)の場合、語句抽出・当て込み部1082は、感情重視の場合と同様に、発話テキスト上で感情情報がある語句と関連する語句を抽出する。ただし、抽出する際に論理構成の感情に係る語に論理の割合分の重みをかける。例えばα=0.75の場合、感情情報として語尾強調となっている「認められました」の部分に係る語句に階層に応じて減衰させながら重みをつける。
 図36は、感情寄りの場合の語句抽出処理のイメージを示す。発話内容UC13および文書構造DS41において、太字は合致する語句(兼関連語句)を、斜体は関連語句を、線SPIで囲まれた部分は補足情報を表す。DS42は、論理の割合分の重みづけが行われる様子を示す。この例では、階層に応じて、語尾強調の「認められました」の部分に係る語句としての「ICカード」には1.25、「進歩性」には1.25、「組み合わせは容易でない」には1.068の重み付けがされる。
 次いで、語句抽出・当て込み部1082は、補足情報として選択する語句を、感情表現がある語句と最も重みがかかっている語句を中心にして抽出する。この例では、感情情報(この例では語尾強調)が入っているため、補足情報として選択する第1の語句として「認められた」が抽出される。また、最も重みがかかっている語句は「ICカード」と「進歩性」であり、そのうち「ICカード」はすでに項目の内容として選択されているので、補足情報として選択する第2の語句として「進歩性」が抽出される。抽出した関連語句とテンプレート上の埋め込み項目との対応は、感情重視の場合と同様に実施する。
 図37は、以上のような重みづけによって得られる出力結果GS41を示す。重みづけに応じた語句を用いた出力結果が得られる。
 図15は、図9のステップS709に示した語句抽出・当て込み部1082による感情寄り(0.5<α<1)の場合の語句抽出・当て込み処理の詳細なフローの一例を示す。 
 まずステップS7501において、語句抽出・当て込み部1082は、感情情報と合致する語句を発話テキストから抽出する。
 ステップS7502において、語句抽出・当て込み部1082は、文書構造解析結果から合致した語句と係る語句のうち人名や固有名詞を抽出する。
 ステップS7503において、語句抽出・当て込み部1082は、残りの係る語句を補足情報として抽出する。
 ステップS7504において、語句抽出・当て込み部1082は、内容が確定していない埋め込み項目があるか否かを判定し、ある場合(YES)、ステップS7505に進み、ない場合(NO)、処理を終了する。
 ステップS7505において、語句抽出・当て込み部1082は、テンプレートの埋め込み項目データから内容が確定していない項目を選択する。
 ステップS7506において、語句抽出・当て込み部1082は、選択した埋め込み項目の適する内容が固有名詞であるか否かを判定する。固有名詞でない場合(NO)、ステップS7507に進み、固有名詞である場合(YES)、ステップS7512に進む。
 ステップS7507において、語句抽出・当て込み部1082は、選択した項目との合致度をまだ算出していない、合致した語句が存在するか否かを判定する。存在する場合(YES)、ステップS7508に進み、存在しない場合(NO)、ステップS7510に進む。
 ステップS7508において、語句抽出・当て込み部1082は、まだ合致度を算出していない合致した語句を1つ選ぶ。
 ステップS7509において、語句抽出・当て込み部1082は、選択した項目の適する内容に合致し、かつまだ埋め込み内容として使われていない語句が、合致した語句と係る語句の中にいくつ含まれているかをカウントし、その数を合致度とする。その後処理は再びステップS7507に戻る。
 ステップS7510において、語句抽出・当て込み部1082は、最も合致度が高く、まだ埋め込み項目として使われていない語句を埋め込み内容とする。
 ステップS7410において、語句抽出・当て込み部1082は、埋め込み項目先が「ヒトorモノ」であり、合致する画像があれば画像に置き換える。その後処理は再びステップS7504に戻る。
 一方、ステップS7506において選択した埋め込みの適する内容が固有名詞である(YES)場合、ステップS7512において、語句抽出・当て込み部1082は、さらに重みを計算していない感情情報と合致する語句があるか否かを判定する。ある場合(YES)、ステップS7513に進み、ない場合(NO)、ステップS7516に進む。
 ステップS7513において、語句抽出・当て込み部1082は、感情情報と合致する語句を発話テキストから抽出する。
 ステップS7514において、語句抽出・当て込み部1082は、文書構造解析結果から合致した語句と係る語句のうち人名や固有名詞を抽出する。
 ステップS7515において、語句抽出・当て込み部1082は、抽出した各語句に重みをかける。その後処理は再びステップS7512に戻る。
 ステップS7516において、語句抽出・当て込み部1082は、最も重みがかかった語句を埋め込み内容とする。
 ステップS7517において、語句抽出・当て込み部1082は、対象となっている埋め込み項目が補足情報を持つ場合、最も重みがかかった語句の補語を補足情報の埋め込み内容とする。その後、処理は再びステップS7512に戻る。
 (3-5-2-5)ニュートラルの当て込み処理
 ニュートラル(α=0.5)の場合、語句抽出・当て込み部1082は、論理重視および感情重視の処理内容に沿って、それぞれのグラフィック化済みトピックセットデータを出力する。そして、語句抽出・当て込み部1082は、出力した感情重視のグラフィック化済みトピックセットデータの「ヒトorモノ」のテンプレート部分に、論理重視で出力したグラフィック化済みトピックセットデータを当てはめて、感情重視の結果と論理重視の結果を合成する。
 図38は、ニュートラルの場合の語句抽出・当て込み処理のイメージを示す。感情重視のグラフィック化済みトピックセットデータGS51と、論理重視のグラフィック化済みトピックセットデータGS52とに基づき、ニュートラルのグラフィック化が行われる(GS53)。
 図16は、図9のステップS706に示した語句抽出・当て込み部1082によるニュートラル(α=0.5)の場合の当て込み処理の詳細なフローの一例を示す。 
 まずステップS7601において、語句抽出・当て込み部1082は、論理重視の語句抽出・当て込み処理(上述)を行う。
 ステップS7602において、語句抽出・当て込み部1082は、感情重視の語句抽出・当て込み処理(上述)を行う。
 ステップS7603において、語句抽出・当て込み部1082は、感情重視の結果の埋め込み項目のうち、適する内容が固有名詞である埋め込み項目部分を論理重視の結果で置き換える。
 ステップS7604において、語句抽出・当て込み部1082は、置き換えた結果をグラフィック化済みトピックセットデータとする。
 (3-6)全体レイアウト処理
 図6のステップS108に関して説明した全体レイアウト処理部109による全体レイアウト処理についてさらに説明する。全体レイアウト処理部109は、出力方向づけ設定情報に基づいて、グラフィック化されたトピックセットデータを配置し、グラフィックレコーディングデータを最終的な結果として出力する。トピックセットデータの配置は、出力方向づけ設定情報によって変化する。
 まず、基準の方針となる論理重視(出力方向づけ設定情報α=0)の場合のレイアウトルールについて説明する。 
 図39は、親子関係に基づく配置例を示す。ここでは、リアルタイムで反映可能なことを考慮し、(i)親子関係が親→子の順にわかった場合と、(ii)子→親の順にわかった場合とで配置の仕方を変えるものとする。図39の左側に示されるように、(i)親(A)→子(B)の順でわかった場合、親(A)に内包される形で子(B)が配置される。一方、図39の右側に示されるように、(ii)子(A)→親(B)の順でわかった場合、子(A)から親(B)へ矢印を描く配置とする。
 図40は、親子階層に合わせた兄弟関係の配置と関係性の矢印について説明する図である。兄弟関係は、親子階層の深さに合わせて縦→横→縦→横→縦・・・の順に配置される。トピックセットデータ間で関係を有することがわかったら、その間を矢印で結ぶ。
 出力方向づけ設定情報に感情要素が入る(0<α≦1)場合、感情変化度合いによって強調表現を行う。例えば、感情変化度合いに合わせて、該当するトピックセットデータが占める領域が大きくなるような強調表現を行う。すべてのトピックセットデータに対して強調度合い((1+感情変化度合い)×出力方向づけ設定情報)を算出し、その相対値によって占める領域を決定する。例えば図40のトピックセットデータの階層構造において、感情変化度合いがA11は1、A2が0.5、そのほかは0であったとし、出力方向づけ設定情報の値が論理よりのα=0.25であるとする。この場合、A11が(1+1)×0.25=0.5、A2が(1+0.5)×0.25=0.375、そのほかが0.25となるため、A11:A2:その他の比は、4:3:2となる。
 図41Aは、上記事例に基づく縦方向または横方向への適用例を示す。比率に従い、同一兄弟の大きさを基準に、縦または横方向への比率で配置が実施される。兄弟が横方向に並んでいる場合は横(幅)方向へ、縦方向に並んでいる場合は縦(高さ)方向へ比率が適用される。
 図41Bは、上記事例に基づく面積への適用例を示す。比率に従い、同一兄弟の大きさを基準に、面積の比率で配置が実施される。
 全体レイアウト処理部109は、強調表現に基づいて大きさを変更した際に隙間ができた場合、そこを埋める形で兄弟のトピックセットデータの配置を変更することができる(上記ではA12がA2の下の隙間を埋める形で位置変更されている)。上記例では、同一兄弟間で比率を適用させて強調表現を行ったが、全体に対して比率を適用させる強調表現を用いてもよい。また、上記の例では、占める領域の割合を強調表現としたが、他にも線を太くする、強調表現のアイコンを追加するなどを用いてもよい。
 図17は、全体レイアウト処理部109による全体レイアウト処理全体のフローの一例を示す。 
 まずステップS801において、全体レイアウト処理部109は、出力方向づけ設定情報の値αが0より大きいか否かを判定する。αが0の場合(α=0)(NO)、ステップS802に進み、αが0より大きい場合(0<α)(YES)、ステップS803に進む。
 ステップS802において、全体レイアウト処理部109は、すべてのトピックセットデータの大きさ比を1:1に設定する。
 一方、ステップS803において、全体レイアウト処理部109は、すべてのトピックセットデータに対して感情情報をもとに強調度合いを算出する。
 ステップS804において、全体レイアウト処理部109は、算出した強調度合いをもとにトピックセットデータ間の大きさ比を設定する。
 ステップS805において、全体レイアウト処理部109は、配置していないトピックセットデータがあるか否かを判定する。配置していないトピックセットデータがある場合(YES)、ステップS806に進み、配置していないトピックセットデータがない場合(NO)、処理を終了する。
 ステップS806において、全体レイアウト処理部109は、配置していないグラフィック化済みトピックセットデータを1つ選択する。
 ステップS807において、全体レイアウト処理部109は、トピックセットデータ配置処理を行う。
 ステップS808において、全体レイアウト処理部109は、関連する項目があるか否かを判定する。ある場合(YES)、ステップS809に進み、ない場合(NO)、ステップS805に戻る。
 ステップS809において、全体レイアウト処理部109は、関連する項目との間に矢印を描く。その後、処理は再びステップS805に戻る。
 (3-6-1)トピックセットデータ配置処理
 図18は、図17のステップS807に示したトピックセットデータ配置処理の詳細なフローの一例を示す。 
 まずステップS8001において、全体レイアウト処理部109は、対象のデータが初めての配置であるか否かを判定する。初めての配置である場合(YES)、ステップS8002に進み、初めての配置でない場合(NO)、ステップS8003に進む。
 ステップS8002において、全体レイアウト処理部109は、対象のデータを初期位置に配置する。
 ステップS8003において、全体レイアウト処理部109は、対象のデータの子に初めて親ができたか否かを判定する。初めて親ができた場合(YES)、ステップS8004に進み、それ以外の場合(NO)、ステップS8011に進む。
 ステップS8004において、全体レイアウト処理部109は、子は縦で並列しているか否かを判定する。縦で並列している場合(YES)、ステップS8005に進み、縦で並列していない場合(NO)、ステップS8008に進む。
 ステップS8005において、全体レイアウト処理部109は、すべての子の高さに合わせて横に配置し、各子から矢印を描く。
 ステップS8006において、全体レイアウト処理部109は、大きさ比が1より大きい場合、幅を大きさ比率分大きくする。
 ステップS8007において、全体レイアウト処理部109は、大きさ比が1より大きく親が存在する場合、親と親の兄弟の幅を、大きさ比率に合わせて拡大する。
 ステップS8008において、全体レイアウト処理部109は、すべての子の幅に合わせて縦に配置し、各子から矢印を描く。
 ステップS8009において、全体レイアウト処理部109は、大きさ比が1より大きい場合、高さを大きさ比率分大きくする。
 ステップS8010において、全体レイアウト処理部109は、大きさ比が1より大きく親が存在する場合、親と親の兄弟の高さを、大きさ比率に合わせて拡大する。
 ステップS8011において、全体レイアウト処理部109は、対象のデータに親がいるか否かを判定する。親がいる場合(YES)、ステップS8012に進み、親がいない場合(NO)、ステップS8012をスキップしてステップS8013に進む。
 ステップS8012において、全体レイアウト処理部109は、対象のデータに兄弟がいるか否かを判定する。兄弟がいる場合(YES)、ステップS8013に進み、兄弟がいない場合(NO)、ステップS8016に進む。
 ステップS8013において、全体レイアウト処理部109は、兄に合わせて横または縦に並列になるように配置する。
 ステップS8014において、全体レイアウト処理部109は、大きさ比が1より大きい場合、横並びなら幅を、縦並びなら高さを大きさ比率分大きくする。
 ステップS8015において、全体レイアウト処理部109は、大きさ比が1より大きく親が存在する場合、親と親の兄弟の幅または高さを、大きさ比率に合わせて拡大する。
 ステップS8016において、全体レイアウト処理部109は、親は横並列であるか否かを判定する。横並列である場合(YES)、ステップS8017に進み、横並列でない場合(NO)、ステップS8020に進む。
 ステップS8017において、全体レイアウト処理部109は、親に内包し、兄弟が縦並列で並ぶように配置する。
 ステップS8018において、全体レイアウト処理部109は、大きさ比が1より大きい場合、高さを大きさ比率分大きくする。
 ステップS8019において、全体レイアウト処理部109は、大きさ比が1より大きく親が存在する場合、親と親の兄弟の高さを、大きさ比率に合わせて拡大する。
 ステップS8020において、全体レイアウト処理部109は、親に内包し、兄弟が横並列で並ぶように配置する。
 ステップS8021において、全体レイアウト処理部109は、大きさ比が1より大きい場合、幅を大きさ比率分大きくする。
 ステップS8022において、全体レイアウト処理部109は、大きさ比が1より大きく親が存在する場合、親と親の兄弟の幅を、大きさ比率に合わせて拡大する。
 図42A~42Hは、会議の進行に伴う、論理重視(α=0)の場合の全体レイアウトの変化例を示す。
 図42Aは、第1の時点における発話内容「本日のトピックはA,B,Cの3つとなっています」に対するレイアウト例を示す。文書構造の解析結果、A,B,Cが並列と解析され、並列に配置されている。
 図42Bは、第2の時点における発話内容「まずトピックAの話です。ここではDというものが重要になってきます。Dとは・・・」に対するレイアウト例を示す。文書構造の解析結果、DがAの子と解析され、Aに内包して配置される。
 図42Cは、第3の時点における発話内容「トピックAにはもう一つ、Eというものが重要になってきます。」に対するレイアウト例を示す。文書構造の解析結果、EがAの2つ目の子と解析され、Aに内包してDと並列に配置される。
 図42Dは、第4の時点における発話内容「このEはE1とE2という2つの要素から成り立っています。それによって・・・」に対するレイアウト例を示す。文書構造の解析結果、Eは子E1とE2を有すると解析され、配置される。
 図42Eは、第5の時点における発話内容「ここからはトピックBの話になります。トピックBではFが独占的状態であり・・・」に対するレイアウト例を示す。文書構造の解析結果、FがBの子と解析され、Bに内包されて配置される。
 図42Fは、第6の時点における発話内容「実はこのFはトピックAで出てきたE1と相互に関係しております。・・・」に対するレイアウト例を示す。文書構造の解析結果、E1とFが関係していると解析され、矢印が付加される。
 図42Gは、第7の時点における発話内容「最後にトピックCですが、G,H,Iの3つが相互に密接な関係を持つことで成り立っております。どういうことかといいますと・・・」に対するレイアウト例を示す。文書構造の解析結果、CがG,H,Iの3つの子を持ち、さらに相互に関連を持つと解析され、矢印が付加される。
 図42Hは、第8の時点における発話内容「A,B,Cと話してきましたが、実はこの3つはKにつながっていきます。・・・ご清聴ありがとうございました。」に対するレイアウト例を示す。文書構造の解析結果、A,B,Cと並列な新たなKが解析され、再配置される。
 (4)ハードウェア構成
 図43は、一実施形態に係る自動グラフィックレコーディング装置10のハードウェア構成の一例を示す。自動グラフィックレコーディング装置10は、CPU(Central Processing Unit)1001、RAM(Random Access Memory)1002、ROM(Read Only Memory)1003、補助記憶装置1004、入力装置1005、出力装置1006、および通信装置1007を備える。
 CPU1001は、自動グラフィックレコーディング装置10の全体的な動作を制御するプロセッサである。CPU1001は、ROM1003または補助記憶装置1004に記憶されたプログラムをRAM1002に展開し、このプログラムを実行することによって、音声認識部103、感情推定部104、文書構造解析部105、発話グルーピング処理部106、トピックセットデータ取捨選択処理部107、グラフィック化処理部108、および全体レイアウト処理部109として動作する。CPU1001は、ASIC(Application Specific Integrated Circuit)やFPGA(field-programmable gate array)などの集積回路を含む、他の多様な形式で実現されてもよい。またCPU1001は、複数のプロセッサを含んでもよい。
 補助記憶装置1004は、例えば、HDD(Hard Disk Drive)又はSDD(Solid State Drive)であり得る。補助記憶装置1004は、CPU1001により実行されるプログラムや、プログラムを実行するために必要な設定データなどを非一時的に記憶する。補助記憶装置1004は、上述したデータベース111および出力方向づけ設定情報記憶部110を含む記憶部としても機能し得る。
 入力装置1005は、例えば、タッチスクリーン、キーボード、マウスなど、ユーザからの入力を受け付ける。入力装置1005は、上記のマイク101、カメラ102または図示しない各種センサを含み得る。出力装置1006は、例えば、ディスプレイやスピーカなどであり、上記のディスプレイ112を含み得る。
 通信装置1007は、外部の装置と通信するための装置であり、例えば無線または有線LAN(Local Area Network)通信のためのインタフェースを備える。通信装置1007は、インターネットなどのネットワークを介して外部の装置と通信可能である。
 (5)効果
 以上詳述したように、この発明の一実施形態に係る自動グラフィックレコーディング装置10は、発話者の発話活動に関わる活動情報を取得し、活動情報から発話者の発話内容を表すテキスト情報を抽出し、テキスト情報をもとに発話内容の論理構成を解析し、論理構成に基づいてテキスト情報から可視化対象区間を選択し、可視化対象区間ごとにテキスト情報を視覚的情報に変換し、視覚的情報を含む出力データを生成し出力する。出力データは、発話内容を反映したグラフィック表現を含む。また出力データは、活動情報に基づいて判定される重要度に応じた強調表現を伴い得る。重要度は、会話内の話題の単位であるトピックまたは話題のかたまりであるトピックセットごとに算出される。重要度は、活動情報から推定される発話者の感情変化を表す感情情報に基づいて、あるいはあらかじめ設定された方向づけ情報に応じて感情情報または発話内容の論理構成のうちの少なくとも一方に基づいて算出される。方向づけ情報には、感情情報を重視するか、または論理構成を重視するか、の対立項目における比重を指定する情報が含まれる。
 これにより、少なくとも発話者の発話音声を含む情報の入力を受け付けて、自動グラフィックレコーディングを実行する、自動グラフィックレコーディング装置が提供される。一実施形態に係る自動グラフィックレコーディング装置10によれば、感情情報を用いることによって、まとめ方や表現方法の方向づけを行うことができる。特に、感情を重視するか論理を重視するかの方向づけを行うことにより、可視化対象とする内容の取捨選択、可視化対象となった内容のグラフィック表現、および全体的なレイアウトのうちの少なくとも1つに影響を及ぼすことができる。
 従来のグラフィックレコーディングは、人の手作業によるものであり、レコーダによってその結果が大きく異なるものであった。また、会議中の音声データをテキスト化して議事録を作成する従来の技術では、システムが良いと思った通りに纏められてしまったり、会議に合わせた表現をしようとすると人が手動で操作を行う必要があり、非効率であった。
 上記のように、一実施形態に係る自動グラフィックレコーディング装置10によれば、会議や記録の目的に応じて、わかりやすいまとめ方や表現の方向づけを調整して、自動的にグラフィックレコーディングを作成することが可能となる。
 [他の実施形態]
 なお、この発明は上記実施形態に限定されるものではない。例えば、自動グラフィックレコーディング装置10が備える各機能部101~112を、複数の装置に分散配置し、これらの装置が互いに連携することにより処理を行うようにしてもよい。また、自動グラフィックレコーディング装置10が備える機能の一部は、外部の装置により実行されてもよい。例えば、音声認識部103の機能をクラウドサービスを利用して代替させてもよい。また各機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。
 さらに、以上で説明した各処理の流れは、説明した手順に限定されるものではなく、いくつかのステップの順序が入れ替えられてもよいし、いくつかのステップが同時並行で実施されてもよい。例えば、音声認識、文書構造の解析、および感情情報の抽出は、図6に示した順序で行われる必要はなく、任意のタイミングで実行されてよい。
 以上で記載した手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウェア手段)として、例えば磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ等)等の記録媒体(記憶媒体)に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段(実行プログラムのみならずテーブル、データ構造も含む)を計算機内に構成させる設定プログラムをも含む。上記装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。
 その他、テンプレートの種類、全体レイアウトのルール等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
 なお、この発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
 10…自動グラフィックレコーディング装置
 101…マイク
 102…カメラ
 103…音声認識部
 104…感情推定部
 105…文書構造解析部
 106…発話グルーピング処理部
 107…トピックセットデータ取捨選択処理部
 108…グラフィック化処理部
 1081…テンプレート選択部
 1082…語句抽出・当て込み部
 109…全体レイアウト処理部
 110…出力方向づけ設定情報記憶部
 111…データベース
 112…ディスプレイ

Claims (8)

  1.  発話者の発話活動に関わる活動情報を取得する、第1取得部と、
     前記活動情報から前記発話者の発話内容を表すテキスト情報を抽出する、抽出部と、
     前記テキスト情報をもとに前記発話内容の論理構成を解析する、解析部と、
     前記論理構成に基づいて前記テキスト情報から可視化対象区間を選択する、選択部と、
     前記可視化対象区間ごとに前記テキスト情報を視覚的情報に変換する、変換部と、
     前記視覚的情報を含む出力データを生成し出力する、出力データ生成部と
     を備える、情報処理装置。
  2.  前記選択部はさらに、前記活動情報をもとに推定される前記発話者の感情の変化に基づいて、前記発話内容のうち感情的重要度の高い区間を決定することによって、前記可視化対象区間を選択する、
     請求項1に記載の情報処理装置。
  3.  前記発話者の感情を重視するか前記論理構成を重視するかを指定する方向づけ情報を取得する、第2取得部をさらに備え、
     前記選択部はさらに前記方向づけ情報に基づいて、感情的重要度または論理構成的重要度の高い区間を判定することにより、前記可視化対象区間を選択する、
     請求項1に記載の情報処理装置。
  4.  前記変換部は、前記可視化対象区間内の前記テキスト情報に含まれる語、句、節または文に対し、前記方向づけ情報に基づく重要度に応じた強調表現を適用することによって、前記テキスト情報を前記視覚的情報に変換する、
     請求項3に記載の情報処理装置。
  5.  前記出力データ生成部は、前記可視化対象区間ごとに前記方向づけ情報に基づく重要度を算出し、前記重要度をもとに前記出力データにおける前記視覚的情報の大きさの相対的な比率を決定することによって、前記出力データを生成する、
     請求項3または4に記載の情報処理装置。
  6.  前記出力データ生成部はさらに、前記発話内容の論理構成に基づいて複数の可視化対象区間に係る前記視覚的情報のあいだの関係を推定し、前記関係に応じて前記視覚的情報の相対的な配置位置を決定することによって、前記出力データを生成する、
     請求項5に記載の情報処理装置。
  7.  発話者の発話活動に関わる活動情報を取得することと、
     前記活動情報から前記発話者の発話内容を表すテキスト情報を抽出することと、
     前記テキスト情報をもとに前記発話内容の論理構成を解析することと、
     前記論理構成に基づいて前記テキスト情報から可視化対象区間を選択することと、
     前記可視化対象区間ごとに前記テキスト情報を視覚的情報に変換することと、
     前記視覚的情報を含む出力データを生成し出力することと
     を備える、情報処理方法。
  8.  請求項1乃至6のいずれか一項に記載の情報処理装置の各部による処理をコンピュータに実行させるプログラム。
PCT/JP2020/023454 2020-06-15 2020-06-15 情報処理装置、情報処理方法およびプログラム WO2021255795A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022531117A JP7355244B2 (ja) 2020-06-15 2020-06-15 情報処理装置、情報処理方法およびプログラム
PCT/JP2020/023454 WO2021255795A1 (ja) 2020-06-15 2020-06-15 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/023454 WO2021255795A1 (ja) 2020-06-15 2020-06-15 情報処理装置、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2021255795A1 true WO2021255795A1 (ja) 2021-12-23

Family

ID=79268653

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/023454 WO2021255795A1 (ja) 2020-06-15 2020-06-15 情報処理装置、情報処理方法およびプログラム

Country Status (2)

Country Link
JP (1) JP7355244B2 (ja)
WO (1) WO2021255795A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7169030B1 (ja) 2022-05-16 2022-11-10 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
JP7169031B1 (ja) 2022-05-16 2022-11-10 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025571A (ja) * 2003-07-03 2005-01-27 Ns Solutions Corp 業務支援装置、業務支援方法およびそのプログラム
JP2005345496A (ja) * 2004-05-31 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 音声処理装置、音声処理方法およびそのプログラム
JP2019207371A (ja) * 2018-05-30 2019-12-05 ソフトバンク株式会社 音声認識結果の出力プログラム、通信装置及び音声認識結果の表示システム
US20200004803A1 (en) * 2018-06-29 2020-01-02 Adobe Inc. Emphasizing key points in a speech file and structuring an associated transcription
JP2020008690A (ja) * 2018-07-06 2020-01-16 日本電気株式会社 抽出装置、抽出方法、およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025571A (ja) * 2003-07-03 2005-01-27 Ns Solutions Corp 業務支援装置、業務支援方法およびそのプログラム
JP2005345496A (ja) * 2004-05-31 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 音声処理装置、音声処理方法およびそのプログラム
JP2019207371A (ja) * 2018-05-30 2019-12-05 ソフトバンク株式会社 音声認識結果の出力プログラム、通信装置及び音声認識結果の表示システム
US20200004803A1 (en) * 2018-06-29 2020-01-02 Adobe Inc. Emphasizing key points in a speech file and structuring an associated transcription
JP2020008690A (ja) * 2018-07-06 2020-01-16 日本電気株式会社 抽出装置、抽出方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TOGASHI, SHINGO ET AL.: "Useful contents of lecture speech and a browsing system", LECTURE PROCEEDING OF THE 1ST SPOKEN DOCUMENT PROCESSING WORKSHOP, vol. 3, no. 1, 27 February 2007 (2007-02-27), pages 17 - 24 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7169030B1 (ja) 2022-05-16 2022-11-10 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
JP7169031B1 (ja) 2022-05-16 2022-11-10 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
JP2023168692A (ja) * 2022-05-16 2023-11-29 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末
JP2023168690A (ja) * 2022-05-16 2023-11-29 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末

Also Published As

Publication number Publication date
JP7355244B2 (ja) 2023-10-03
JPWO2021255795A1 (ja) 2021-12-23

Similar Documents

Publication Publication Date Title
Duarte et al. How2sign: a large-scale multimodal dataset for continuous american sign language
Lin et al. Error weighted semi-coupled hidden Markov model for audio-visual emotion recognition
Nair et al. Conversion of Malayalam text to Indian sign language using synthetic animation
Duarte Cross-modal neural sign language translation
JP6339529B2 (ja) 会議支援システム、及び会議支援方法
Ringeval et al. Emotion recognition in the wild: Incorporating voice and lip activity in multimodal decision-level fusion
WO2021255795A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN113380271B (zh) 情绪识别方法、系统、设备及介质
WO2021039561A1 (ja) 動画生成方法、動画生成装置及び記憶媒体
Neviarouskaya et al. EmoHeart: conveying emotions in second life based on affect sensing from text
Al-Azani et al. Enhanced video analytics for sentiment analysis based on fusing textual, auditory and visual information
McDuff et al. A multimodal emotion sensing platform for building emotion-aware applications
Liang et al. Computational modeling of human multimodal language: The mosei dataset and interpretable dynamic fusion
Fu et al. CONSK-GCN: conversational semantic-and knowledge-oriented graph convolutional network for multimodal emotion recognition
KR101104777B1 (ko) 수화 애니메이션 생성을 위한 시스템 및 방법
Vlachostergiou et al. Investigating context awareness of affective computing systems: a critical approach
Wu et al. Speaker personality recognition with multimodal explicit many2many interactions
Esposito et al. Cultural specific effects on the recognition of basic emotions: A study on Italian subjects
Mircoli et al. Automatic Emotional Text Annotation Using Facial Expression Analysis.
JP6821542B2 (ja) 複数種の対話を続けて実施可能な対話制御装置、プログラム及び方法
Reddy et al. Indian sign language generation from live audio or text for tamil
JP2017167433A (ja) サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
Wu et al. Fine-grained sentiment analysis with 32 dimensions
JP7257349B2 (ja) 対象人物の特徴的な身振りを推定するプログラム、装置及び方法
JP6818916B2 (ja) サマリ生成装置、サマリ生成方法及びサマリ生成プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20941390

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022531117

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20941390

Country of ref document: EP

Kind code of ref document: A1