WO2022208692A1 - 表示用データ生成装置、表示用データ生成方法、及び表示用データ生成プログラム - Google Patents

表示用データ生成装置、表示用データ生成方法、及び表示用データ生成プログラム Download PDF

Info

Publication number
WO2022208692A1
WO2022208692A1 PCT/JP2021/013692 JP2021013692W WO2022208692A1 WO 2022208692 A1 WO2022208692 A1 WO 2022208692A1 JP 2021013692 W JP2021013692 W JP 2021013692W WO 2022208692 A1 WO2022208692 A1 WO 2022208692A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
display
annotation
information
display data
Prior art date
Application number
PCT/JP2021/013692
Other languages
English (en)
French (fr)
Inventor
節夫 山田
隆明 長谷川
和之 磯
正之 杉崎
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/013692 priority Critical patent/WO2022208692A1/ja
Priority to JP2023509990A priority patent/JPWO2022208692A1/ja
Priority to US18/552,865 priority patent/US20240194165A1/en
Publication of WO2022208692A1 publication Critical patent/WO2022208692A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/02Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the way in which colour is displayed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing

Definitions

  • the present disclosure relates to a display data generation device, a display data generation method, and a display data generation program.
  • Contact center operators receive inquiries from customers about products, services, etc., and are required to provide support to solve customer problems. For the purpose of analyzing inquiries from customers and improving the quality of responses, operators create histories of responses to customers and share them within the contact center.
  • Non-Patent Document 1 discloses a system that supports an operator by presenting appropriate information to the operator who is answering the call based on the needs of the customer who called the contact center (call center).
  • the system disclosed in Non-Patent Document 1 displays the spoken texts of the operator and the customer on the left side of the screen, and the spoken text indicating the customer's business or the spoken text confirming the operator's business on the right side of the screen. Similar questions with high scores and their answers are displayed from FAQs retrieved from .
  • keywords are extracted only for utterances in a predetermined scene, and FAQs are searched. (Scenes are utterance texts classified according to the type of scene in the dialogue between the operator and the customer.
  • the operator begins with a greeting by giving his/her name, the customer speaks the subject of the call, and the operator responds to the call. After confirming the business, the operator responds to the business after confirming the contractor and contract details, and finally thanking the operator and ending the dialogue. It refers to those classified into scenes such as "correspondence”, "closing”, etc. The estimation result of such a scene is given as a label to the spoken text.
  • Non-Patent Document 1 the user can use the spoken text of the operator and the customer, and the FAQ automatically retrieved from the spoken text that conveys the customer's business or the spoken text that confirms the operator's business. See similar questions with high scores) and their answers.
  • labels annotation information
  • scene estimation results are not presented, and it is difficult to visualize the annotation information so that the user can easily recognize it.
  • An object of the present disclosure which has been made in view of the above problems, is to provide a display data generation device, a display data generation method, and a display data generation program capable of visualizing annotation information.
  • an input unit that receives input of target data including a text sequence according to the present disclosure and annotation information corresponding to each text included in the text sequence, and a display device based on the annotation information annotation expression information indicating the background color of the display screen of the display device and the position and range for displaying the background color, for expressing the correspondence between the text and the annotation information when the text is displayed; Display data for determining and displaying the text sequence and the annotation information according to the sequence in the text sequence, wherein the background color indicated by the annotation expression information is displayed at the position and the annotation expression information indicated by the annotation expression information. and a display preparation unit that generates the display data to be displayed in the range.
  • a method for generating display data includes the steps of receiving input of target data including a text sequence and annotation information corresponding to each text included in the text sequence; A background color of the display screen of the display device for expressing the correspondence between the text and the annotation information when the display device displays the text based on the information, and a position where the background color is displayed. and a range, and display data for displaying the text series and the annotation information according to the series in the text series, wherein the background color indicated by the annotation expression information is displayed in the annotation and generating the display data to be displayed at the position and the range indicated by the expression information.
  • a display data generation program causes a computer to function as the display data generation device described above.
  • annotation information can be visualized.
  • FIG. 1 is an overall schematic diagram of a display data generation device according to a first embodiment
  • FIG. 3 is a diagram showing an example of target data whose input is received by the input unit shown in FIG. 1
  • FIG. 2 is a diagram showing an example of correspondence between annotation information and colors stored in a color storage unit shown in FIG. 1
  • FIG. 2 is a diagram showing an example of display data generated by a display preparation unit shown in FIG. 1
  • FIG. 2 is an example of a screen displayed by the display data output unit shown in FIG. 1
  • 2 is a flow chart showing an example of the operation of the display data generating device shown in FIG. 1;
  • FIG. 3 is a diagram showing an example of target data whose input is received by the input unit shown in FIG. 1
  • FIG. 2 is a diagram showing an example of correspondence between annotation information and colors stored in a color storage unit shown in FIG. 1
  • FIG. 2 is a diagram showing an example of display data generated by a display preparation unit shown in FIG. 1
  • FIG. 2 is an example
  • FIG. 4 is an overall schematic diagram of a display data generation device according to a second embodiment
  • 8 is a diagram showing an example of gradation rules stored in a gradation rule storage unit shown in FIG. 7
  • FIG. 8 is a diagram showing an example of display data generated by a display preparation unit shown in FIG. 7
  • FIG. 8 is an example of a screen displayed by the display data output unit shown in FIG. 7
  • 8 is a flow chart showing an example of the operation in the display data generation device shown in FIG. 7
  • FIG. 11 is an overall schematic diagram of a display data generation device according to a third embodiment
  • 13 is a diagram showing an example of target data whose input is accepted by the input unit shown in FIG. 12
  • FIG. 13 is a diagram showing an example of gradation rules stored in a gradation rule storage unit shown in FIG. 12;
  • FIG. 15 is a diagram for explaining in detail annotation expression information determined by the gradation rule shown in FIG. 14;
  • FIG. 13 is a diagram showing an example of display data generated by a display preparation unit shown in FIG. 12;
  • FIG. 13 is an example of a screen displayed by the display data output unit shown in FIG. 12;
  • 13 is a flow chart showing an example of the operation of the display data generating device shown in FIG. 12;
  • 8 is an example of a screen displayed by the first modified example of the display data output unit shown in FIG. 7.
  • FIG. FIG. 8 is an example of a screen displayed by the second modified example of the display data output unit shown in FIG. 7.
  • FIG. 8 is an example of a screen displayed by the third modified example of the display data output unit shown in FIG. 7.
  • FIG. 8 is an example of a screen displayed by the fourth modified example of the display data output unit shown in FIG. 7.
  • FIG. 8 is an example of a screen displayed by the fifth modified example of the display data output unit shown in FIG. 7.
  • FIG. 3 is a hardware block diagram of a display data generation device; FIG.
  • FIG. 1 is a schematic diagram of a display data generation device 1 according to this embodiment.
  • the display data generation device 1 includes an input unit 11, a target data storage unit 12, a display rule storage unit 13, a display preparation unit 14, a display A data storage unit 15 and a display data output unit 16 are provided.
  • the input unit 11 is configured by an input interface that receives input of information.
  • the input interface may be a keyboard, mouse, microphone, etc., or may be an interface for accepting information received from another device via a communication network.
  • the target data storage unit 12, the display rule storage unit 13, and the display data storage unit 15 are configured by, for example, ROM or storage.
  • the display preparation unit 14 constitutes a control unit (controller).
  • the control unit may be configured by dedicated hardware such as ASIC (Application Specific Integrated Circuit) or FPGA (Field-Programmable Gate Array), may be configured by a processor, or may be configured by including both. good too.
  • the display data output unit 16 is configured by an output interface that outputs information.
  • the input unit 11 receives input of target data including a text sequence and annotation information corresponding to each text included in the text sequence, as shown in FIG.
  • the target data may further include a text ID (Identifier) for identifying the text.
  • the target data may further include a sequential order in which each of the spoken texts is arranged.
  • the series order is information indicating the order when texts included in a text series are ordered.
  • the text is a text obtained by recognizing voice data, a text obtained by transcribing a voice, a text included in a chat, a text of minutes, a text of a story, or the like, but is not limited to this.
  • the sequence order is information for arranging the utterances of a plurality of speakers in chronological order in a voice dialogue, chat, or the like of a plurality of speakers.
  • the sequence order is the order in which texts are arranged in sentences in minutes, story texts, and the like.
  • a sequence order can be a meaningful order for arranging text from beginning to end in a text sequence.
  • the sequential order is indicated by the text ID, but this is not the only option. Note that it is not essential that the target data include the text ID, and in a configuration where the target data does not include the text ID, the utterance text may include information indicating the sequence order.
  • An utterance text is a text that indicates the content of an utterance uttered by each of a plurality of speakers in a dialogue conducted by the plurality of speakers.
  • One utterance text is a text output in response to speech recognition results in units of speech completion (units in which it is determined whether the operator or the customer has finished speaking, or whether the customer has finished speaking).
  • the spoken text may be textual data.
  • a plurality of speakers can be, for example, an operator in a call center and a customer who makes an inquiry to the call center. explain. However, in each of the embodiments described herein, the multiple speakers who utter the spoken text included in the target data are not limited to the operator and the customer.
  • One utterance text is an utterance text that becomes a segment in the utterance text uttered by any one of a plurality of speakers.
  • a segment of the spoken text may be determined by an arbitrary rule, may be determined by the operation of the speaker who uttered the spoken text, or may be determined by a computer that executes speech recognition using an arbitrary algorithm. good.
  • the text is spoken text, it may further include speaker information indicating the speaker who uttered the spoken text.
  • a text ID for identifying the speech text is called a speech ID.
  • spoken text is used as an example of text, but the text included in the target data processed by the display data generation device of the present embodiment is not limited to spoken text, and may be arbitrary text. can be done.
  • Annotation information refers to information (metadata) associated with each utterance text, which is attached to each utterance text.
  • the annotation information may be the topic of the spoken text, the scene in which the spoken text was uttered, or some sort of classification label.
  • the target data storage unit 12 stores target data whose input is accepted by the input unit 11 .
  • the display rule storage unit 13 stores rules for the display preparation unit 14 to determine the annotation expression information of the spoken text based on the annotation information.
  • the annotation expression information includes the background color of the display screen of the display device 4 and the position where the background color is displayed, in order to express the correspondence between the spoken text and the annotation information when the display device 4 displays the spoken text. and information indicating the range.
  • the position and range of displaying the background color may include the display position and display range of the annotation information, respectively.
  • the annotation expression information is the background color of annotation information.
  • the display rule storage unit 13 includes a color storage unit 131.
  • the color storage unit 131 stores rules indicating association between annotation information and annotation expression information.
  • the color storage unit 131 stores a color scheme rule indicating the correspondence between annotation information and annotation expression information (background color of display screen).
  • the annotation expression information associated with the annotation information in the color scheme rule may be determined by a computer using any algorithm, or may be determined by the administrator of the display data generation device 1 .
  • the display preparation unit 14 selects the background color of the display screen of the display device 4 and the background color of the display device 4 for expressing the correspondence relationship between the text and the annotation information when the display device 4 displays the spoken text.
  • Annotation expression information that indicates the position and range for displaying the background color is determined.
  • the display preparation unit 14 may divide the spoken text and determine annotation expression information of the divided spoken text.
  • the divided utterance texts are referred to as "divided utterance texts”.
  • the divided utterance text is referred to as "divided utterance text”
  • the undivided utterance text is simply referred to as "utterance text”. If there is no distinction between the segmented utterance text and the undivided utterance text, both the segmented utterance text and the undivided utterance text may simply be referred to as "utterance text.”
  • the display preparation unit 14 divides the spoken text included in the target data whose input is received by the input unit 11 .
  • the display preparation unit 14 can divide the spoken text by any algorithm.
  • the display preparation unit 14 uniquely identifies the divided utterance texts and attaches a determination unit ID indicating the utterance text series of the divided utterance texts.
  • the display preparation unit 14 may divide the spoken text into a part before the period and a part after the period.
  • the utterance text corresponding to the utterance ID "1" is "I am BB from AA Insurance. Are you at home, Mr.
  • the display preparation unit 14 divides this utterance text with punctuation into "I am BB from AA Insurance” and "Is Mr. CC home?" is associated with the determination unit ID "1" and the determination unit ID "2". Further, the display preparation unit 14 determines that the annotation information of the divided utterance text is the annotation information of the original utterance text. In the example shown in FIG. 4, the display preparation unit 14 determines that the topic, which is the annotation information of the utterance text corresponding to the determination unit IDs "1" and "2", is "opening".
  • the display preparation unit 14 divides the spoken text into the part before the period and the part after the period, but this is not the only option.
  • the display preparation unit 14 may divide the spoken text for each word, or may divide the spoken text into a part before the punctuation mark and a part after the punctuation mark.
  • the display preparation unit 14 may not divide the speech text, and in such a configuration, for example, the speech text included in the target data may be an undivided speech text.
  • the display preparation unit 14 forms a group (hereinafter referred to as a "speech text group") composed of speech texts that have the same annotation information and are continuous when arranged in the above-described sequence order.
  • the display preparation unit 14 uses the coloring rule stored in the color storage unit 131 to determine annotation representation information indicating the color corresponding to the speech text group. Specifically, the display preparation unit 14 determines that the annotation representation information of the speech text group is the color corresponding to the annotation information of the speech text group in the coloring rule.
  • the display preparation unit 14 determines whether or not the annotation expression information for all speech texts has been determined.
  • the display preparation unit 24 determines that the annotation expression information for some of the spoken texts has not been determined, the display preparation unit 24 forms an utterance text group for the utterance texts for which the annotation expression information has not been determined, and creates an annotation expression for the utterance text group. Repeat the process of determining information.
  • the display preparation unit 24 determines that the annotation expression information of all the uttered texts has been determined, the display data for displaying the text sequence and the annotation expression information in accordance with the sequence order in the text sequence, which is the annotation expression Display data for displaying the background color indicated by the information at the position and range indicated by the annotation expression information is generated.
  • the display data can include, for example, a determination unit ID, speaker information, utterance text, annotation information, and annotation expression information, as shown in FIG.
  • the display data storage unit 15 stores the display data generated by the display preparation unit 14.
  • the display data output unit 16 outputs display data.
  • the display data output unit 16 may output the display data to the display device 4 such as a liquid crystal panel or organic EL, or may output the display data to another device via a communication network.
  • the display device 4 displays the display screen based on the display data. Specifically, as shown in FIG. 5, the display device 4 displays the speech text included in the display data in the speech text sequence described above. Then, the display device 4 displays the annotation information corresponding to the uttered text in association with the uttered text, and further displays the background of the annotation information in the color indicated by the annotation expression information included in the display data. Moreover, the display device 4 may further display one or more of the utterance ID and the speaker information in association with the utterance text and the annotation information.
  • the gray color displayed in the background of "opening”, the green color displayed in the background of "accident situation”, the blue color displayed in the background of “injury situation”, and the orange color displayed in the background of “injury situation” are shown in Fig. 5. , are indicated by black and white binary hatching of different modes.
  • the display device 4 can collectively display the utterances on a scene-by-scene basis. can be grasped in perspective.
  • the display data output unit 16 transmits the display data to another device via the communication network, the other device, like the display device 4, displays the display screen based on the display data. indicate.
  • FIG. 6 is a flow chart showing an example of the operation of the display data generation device 1 according to the first embodiment.
  • the operation of the display data generation device 1 described with reference to FIG. 6 corresponds to the display method of the display data generation device 1 according to the first embodiment.
  • step S11 the input unit 11 accepts input of target data including the utterance text sequence and annotation information corresponding to each text included in the utterance text sequence.
  • the target data further includes an utterance ID.
  • step S ⁇ b>12 the display preparation unit 14 divides the spoken text included in the target data whose input is received by the input unit 11 .
  • step S13 the display preparation unit 14 forms an utterance text group composed of continuous utterance texts having the same annotation information.
  • step S14 the display preparation unit 14, based on the annotation information and the sequence order, displays the display device 4 for expressing the correspondence relationship between the speech text and the annotation information when the display device 4 displays the speech text.
  • the background color of the display screen of , and the annotation expression information indicating the position and range for displaying the background color are determined.
  • the display preparation unit 14 determines annotation representation information indicating color, corresponding to the spoken text group, based on the annotation information.
  • step S15 the display preparation unit 14 determines whether annotation expression information corresponding to all speech text groups has been determined.
  • step S15 When it is determined in step S15 that the annotation expression information corresponding to some of the utterance text groups has not been determined, the process returns to step S13, and the display preparation unit 14 repeats the processing. Further, when it is determined in step S15 that the annotation expression information corresponding to all the utterance text groups has been determined, in step S16 the display preparation unit 14 converts the utterance text series and the annotation information according to the series in the utterance text series. Display data for displaying the background color indicated by the annotation expression information at the position and range indicated by the annotation expression information is generated.
  • step S17 the display data storage unit 15 stores the display data.
  • the display data output unit 16 outputs the display data at arbitrary timing.
  • the display data output unit 16 may output the display data to the display device 4 such as a liquid crystal panel or organic EL, or may output the display data to another device via a communication network.
  • the arbitrary timing can be, for example, the timing when a display command is input to the input unit 11 by the user's operation.
  • the display device 4 displays the display screen based on the display data.
  • the display device 4 displays the spoken text and the annotation information based on the display data, and displays the background color indicated by the annotation expression information at the position and range indicated by the annotation expression information.
  • the display data generating device 1 executes the process of step S12 in the above description, the present invention is not limited to this.
  • the display data generating device 1 does not need to execute the process of step S12.
  • the display data generation device 1 generates the correspondence relationship between the spoken text and the spoken annotation information when the display device 4 displays the spoken text based on the annotation information. , and annotation expression information indicating the position and range for displaying the background color of the display screen of the display device 4 are determined. Then, the display data generation device 1 displays the utterance text sequence and the annotation information according to the sequence in the utterance text sequence, and displays the background color indicated by the annotation expression information at the position and range indicated by the annotation expression information. Generate data for Thereby, the user can intuitively grasp the annotation information from the background color of the display screen. Therefore, it is possible to quickly recognize the content of the target data including the spoken text corresponding to the annotation information.
  • FIG. 7 is a schematic diagram of the display data generating device 2 according to this embodiment.
  • the display data generation device 2 includes an input unit 21, a target data storage unit 22, a display rule storage unit 23, a display preparation unit 24, a display A data storage unit 25 and a display data output unit 26 are provided.
  • the input unit 21 is configured by an input interface that accepts input of information, like the input unit 11 of the first embodiment.
  • the target data storage unit 22, the display rule storage unit 23, and the display data storage unit 25 are similar to the target data storage unit 12, the display rule storage unit 13, and the display data storage unit 15 of the first embodiment. Consists of memory.
  • the display preparation unit 24 and the display data output unit 26 constitute a control unit, like the display preparation unit 14 and the display data output unit 16 of the first embodiment.
  • the input unit 21 and the target data storage unit 22 are the same as the input unit 11 and the target data storage unit 12 of the display data generation device 2 according to the first embodiment.
  • the input unit 21 receives input
  • the target data stored in the target data storage unit 22 is the text series included in the target data of the first embodiment and the text included in the text series. In addition to the corresponding annotation information, it also contains the sequential order.
  • the display rule storage unit 23 includes a color storage unit 231 and a gradation rule storage unit 232.
  • the color storage unit 231 stores coloration rules, like the color storage unit 131 of the display data generation device 1 according to the first embodiment.
  • the colors corresponding to each piece of annotation information may be different or the same.
  • annotation information is the topic.
  • the gradation rule storage unit 232 stores gradation rules for determining annotation expression information.
  • the gradation rule in the second embodiment is a rule indicating gradation corresponding to annotation information and series.
  • annotation expression information is information indicating color and gradation.
  • the annotation corresponding to the speech text group is a gradation that continuously changes from the color corresponding to the topic to white from the start point to the end point.
  • the starting point is the column for displaying the topic when the utterance contained in the target data is displayed in the sequence direction of the utterance text sequence (the direction from top to bottom in the example shown in FIG. 10 to be referred to later).
  • the end on the starting point side in the arrangement direction (the upper end in the example shown in FIG. 10).
  • the end point is the end on the end point side in the arrangement direction (the lower end in the example shown in FIG. 10) in the topic display column.
  • a color corresponding to a topic is a color stored corresponding to the topic in the coloring rule.
  • the speech text group corresponds to
  • the annotation expression information changes continuously from white to the color corresponding to the topic from the starting point to the middle point, and continuously changes from the color corresponding to the topic to white from the middle point to the end point.
  • the annotation expression information is a gradation that continuously changes from white to a color corresponding to the topic from the start point to the end point.
  • the speech text group corresponds to the speech text group.
  • the annotation expression information to be used is without gradation.
  • the gradation rule is not limited to the example shown in FIG. 8, and can be any rule that does not clearly change the color corresponding to the topic.
  • the speech texts included in the speech text group do not include the first speech text in the target data and do not include the last speech text
  • the speech text group corresponds to
  • the annotation expression information continuously changes from the color corresponding to the topic to white from the starting point to the middle point, and continuously changes from white to the color corresponding to the topic from the middle point to the end point. It may be a gradation.
  • the display preparation unit 24 determines annotation expression information of the utterance text corresponding to the utterance text sequence and the annotation information based on the annotation information and the utterance text sequence. At this time, the display preparation unit 24 may divide the utterance text and determine the annotation expression information based on the divided utterance text, the annotation information of the utterance text, and the utterance text series.
  • the display preparation unit 24 divides the spoken text included in the target data whose input is received by the input unit 11, like the display preparation unit 14 of the first embodiment. Note that the display preparation unit 24 does not need to perform the process of dividing the spoken text, like the display preparation unit 14 of the first embodiment. In such a configuration, for example, the speech texts included in the target data may be divided speech texts.
  • the display preparation unit 24 forms speech text groups in the same manner as the display preparation unit 14 of the first embodiment.
  • the display preparation unit 24 forms a group composed of speech texts corresponding to determination unit IDs "1" to "6" whose annotation information is the same "opening".
  • the display preparation unit 24 forms a group composed of uttered texts corresponding to determination unit IDs "7" and "8” whose annotation information is the same "accident situation”.
  • the display preparation unit 24 forms a group composed of uttered texts corresponding to determination unit IDs "9” to "14” whose annotation information is the same "injury situation”.
  • the display preparation unit 24 forms a group composed of speech texts corresponding to the determination unit ID "15" whose annotation information is the same "repair status”.
  • the display preparation unit 24 determines the annotation expression information so that the background color gradually changes toward the boundary where the annotation information is different before and after the sequence in the spoken text sequence. In this embodiment, the display preparation unit 24 determines annotation expression information corresponding to the spoken text group using the coloring rule and the gradation rule.
  • the display preparation unit 24 determines that the speech text included in the speech text group includes the first speech text in the target data and does not include the last speech text.
  • the annotation expression information is determined to be a gradation (gradation from gray to white) that continuously changes from the color corresponding to the topic to white from the start point to the end point.
  • the display preparation unit 24, as shown in FIG. A gradation that continuously changes from gray to white toward the end point is determined.
  • the gray color is a color corresponding to "opening" in the coloration rule.
  • the display preparation unit 24 does not include the first uttered text in the target data but includes the last uttered text in the uttered texts included in the uttered text group. If not, the annotation expression information changes continuously from white to the color corresponding to the topic from the start point to the middle point, and from the middle point to the end point, the color corresponding to the topic changes to white continuously. Determine that it is a varying gradient (a gradient with white ends and green in the center). Here, the midpoint is the middle point between the start point and the end point in the arrangement direction. As a result, as shown in FIG.
  • the display preparation unit 24 makes the annotation representation information of the group composed of the utterance texts corresponding to the determination unit IDs "7" and "8" It is determined that the gradation continuously changes from white to green and continuously changes from green to white toward the end point from the middle point.
  • green is a color corresponding to "accident situation” in the coloration rule.
  • the display preparation unit 24 causes the annotation expression information of the group composed of the utterance texts corresponding to the determination unit IDs "9” to "14” to change continuously from white to blue toward the middle point from the start point.
  • a gradation that continuously changes from blue to white toward the end point from the middle point (white at both ends and blue at the center) is determined.
  • blue is a color corresponding to "injury situation” in the coloration rule.
  • the display preparation unit 24 does not include the first uttered text in the target data but includes the last uttered text in the uttered texts included in the uttered text group.
  • the annotation expression information corresponding to the spoken text group is a gradation that continuously changes from white to a color corresponding to the topic from the start point to the end point.
  • the display preparation unit 24 changes the annotation expression information of the group composed of the speech text corresponding to the determination unit ID "15" from orange to white from the start point to the end point. Determine that it is a continuously changing gradation (white to orange gradation).
  • orange is a color corresponding to "repair status" in the coloration rule.
  • the display preparation unit 24 includes the first utterance text in the target data and the last utterance text in the utterance text included in the utterance text group. If so, it is determined that the annotation expression information corresponding to the spoken text group is without gradation. Note that in the example of FIG. 8, there is no utterance text group that includes the first utterance text and the last utterance text.
  • the display preparation unit 24 determines whether or not the annotation expression information for all the utterance texts has been determined. When the display preparation unit 24 determines that the annotation expression information for some of the spoken texts has not been determined, the display preparation unit 24 forms an utterance text group for the utterance texts for which the annotation expression information has not been determined, and creates an annotation expression for the utterance text group. Repeat the process of determining information. Further, when the display preparation unit 24 determines that all of the uttered text annotation expression information has been determined, as shown in FIG. Generate display data associated with information.
  • the display data storage unit 25 stores the display data generated by the display preparation unit 24.
  • the display data output unit 26 outputs display data.
  • the display data output unit 26 may output the display data to the display device 4 such as a liquid crystal panel or organic EL, or may output the display data to another device via a communication network.
  • the display device 4 displays the display screen based on the display data. Specifically, as shown in FIG. 10, the display device 4 displays the speech texts included in the display data in the sequence described above. Then, the display device 4 displays the annotation information corresponding to the uttered text in association with the uttered text, and further displays the background color of the annotation information with a color gradation indicated by the annotation expression information included in the display data. .
  • the display device 4 may further display one or more of the utterance ID and speaker information in association with the utterance text and the annotation.
  • the display data output unit 26 transmits the display data to another device via the communication network, the other device, like the display device 4, displays the display screen based on the display data. indicate.
  • FIG. 11 is a flow chart showing an example of the operation of the display data generation device 2 according to the second embodiment.
  • the operation of the display data generation device 2 described with reference to FIG. 11 corresponds to the display method of the display data generation device 2 according to the second embodiment.
  • step S21 the input unit 21 accepts input of target data including the utterance text sequence and annotation information corresponding to each text included in the utterance text sequence.
  • step S22 the display preparation unit 24 divides the spoken text included in the target data whose input is received by the input unit 21.
  • step S23 the display preparation unit 24 forms an utterance text group composed of continuous utterance texts having the same annotation information.
  • step S24 the display preparation unit 24, based on the annotation information and the sequence order, displays the display device 4 for expressing the correspondence relationship between the speech text and the annotation information when the display device 4 displays the speech text.
  • the background color of the display screen of , and the annotation expression information indicating the position and range for displaying the background color are determined.
  • the display preparation unit 24 determines annotation representation information indicating color and gradation corresponding to the spoken text group.
  • step S25 the display preparation unit 24 determines whether annotation expression information corresponding to all speech text groups has been determined.
  • step S25 If it is determined in step S25 that annotation expression information corresponding to some utterance text groups has not been determined, the process returns to step S23, and the display preparation unit 24 repeats the processing. Further, when it is determined in step S25 that annotation expression information corresponding to all speech text groups has been determined, in step S26 the display preparation unit 24 converts the speech text series and the annotation information according to the series in the speech text series. Display data for displaying the background color indicated by the annotation expression information at the position and range indicated by the annotation expression information is generated.
  • step S27 the display data storage unit 25 stores the display data.
  • the display data output unit 26 outputs display data at arbitrary timing.
  • the display data output unit 26 may output the display data to the display device 4, or may output the display data to another device via the communication network.
  • the arbitrary timing can be, for example, the timing when the display command is input to the input unit 21 .
  • the display device 4 displays the display screen based on the display data.
  • the display device 4 displays the spoken text and the annotation information based on the display data, and displays the background color indicated by the annotation expression information at the position and range indicated by the annotation expression information.
  • the display data generation device 2 executes the process of step S22 in the above description, the present invention is not limited to this.
  • the display data generation device 2 does not need to execute the process of step S22.
  • one utterance text may not have only one topic.
  • a plurality of topics may be interpreted corresponding to one utterance text, and the topic may switch in the middle of one utterance text.
  • the user cannot recognize other topics corresponding to the spoken text.
  • the user when dividing an utterance text whose topic is switched in the middle according to the switching and displaying the corresponding topic for each divided utterance text, the user can understand the contents of the utterance text only by referring to the divided utterance text. sometimes difficult.
  • the spoken texts are collectively displayed for each label (annotation information) such as a scene estimation result, the user can recognize the spoken texts for each label.
  • the spoken text does not necessarily correspond to one label, and when a plurality of labels can correspond, it is difficult to visualize the annotation information so that the user can easily recognize it. For example, there are cases where multiple interpretations of the label corresponding to one uttered text are conceivable, or cases where the uttered text is long and the corresponding label changes in the middle.
  • the topic of the text is interpreted as "opening".
  • the spoken text since the spoken text includes the phrase "some circumstances about the accident", it is also interpreted that the topic of the spoken text is "accident situation”.
  • the two topics "opening” and "accident situation” are displayed in correspondence with the speech text, it may be difficult for the user to understand the topic of the speech text.
  • the user when one of the two topics "opening” and "accident situation” is displayed in correspondence with the above-mentioned uttered text, the user cannot recognize the other topic.
  • the display data generation device 2 generates annotation expression information such that the background color gradually changes toward the boundary where the annotation information is different before and after the sequence in the text sequence. decide. Thereby, the display data generation device 2 can visualize the annotation information even when a plurality of pieces of annotation information correspond to one uttered text. As a result, the user can recognize that the topic of the spoken text is the topic indicated by the color, and that the topic of the spoken text may be the topic not indicated by the color. In the example shown in FIG.
  • the user can recognize that the topic of the utterance text corresponding to the utterance ID "7" may be “accident situation” and "injury situation.” For this reason, it can be understood that the object of "It was hard, wasn't it?" included in the utterance text corresponding to the utterance ID "8" following the utterance ID "7” may be the "injury situation.” Therefore, the user can intuitively grasp the speech text-related information from the background color of the information, and quickly and appropriately recognize the contents of the target data including the speech text.
  • the background of the topic "opening” (utterance IDs "1" to “5") is displayed with a gradation that changes from gray to white from the start point to the end point.
  • the background of the topic "accident situation” (utterance IDs "6” and “7") is displayed with a gradation that changes from white to green from the starting point toward the middle point. For this reason, the user can confirm that the topic of the utterance text corresponding to ID "5" at the end of the utterance text group corresponding to the topic "opening" (utterance IDs "1” to “5") is “opening". Together, it can be recognized that it may be an "accident situation”. This also allows the user to intuitively grasp the speech text-related information from the background color of the information and quickly and appropriately recognize the contents of the target data including the speech text.
  • the display data generation device 2 displays, for example, the speech text divided into three by punctuation in gradation, as indicated by speech ID8 in FIG.
  • the scope expands, making it easier to intuitively grasp the boundaries between "accident situations” and “injury situations.”
  • FIG. 12 is a schematic diagram of the display data generating device 3 according to this embodiment.
  • the display data generation device 3 includes an input unit 31, a target data storage unit 32, a display rule storage unit 33, a display preparation unit 34, a display A data storage unit 35 and a display data output unit 36 are provided.
  • the input unit 31 is configured by an input interface that accepts input of information, like the input unit 21 of the second embodiment.
  • the target data storage unit 32, the display rule storage unit 33, and the display data storage unit 35 are similar to the target data storage unit 22, the display rule storage unit 23, and the display data storage unit 25 of the second embodiment. Consists of memory.
  • the display preparation unit 34 and the display data output unit 36 constitute a control unit, like the display preparation unit 24 of the second embodiment.
  • the input unit 31 inputs target data including a speech text sequence and annotation information corresponding to each text included in the speech text sequence, as shown in FIG. accept.
  • the target data may further include speaker information.
  • the accuracy of the topic may be determined by an arbitrary algorithm for the spoken text, or may be input by the user's operation.
  • the annotation information is the topic to which the content of the spoken text belongs, but this is not the only option.
  • the target data storage unit 32 stores target data whose input is received by the input unit 31.
  • the display rule storage unit 33 stores rules for the display preparation unit 34 to determine the annotation expression information of the uttered text based on the annotation information.
  • Display rule storage unit 33 includes color storage unit 331 and gradation rule storage unit 332 .
  • the color storage unit 331 is the same as the color storage unit 231 of the display data generation device 2 according to the second embodiment.
  • the gradation rule storage unit 332 stores gradation rules such as those shown in FIG.
  • the gradation rule in the third embodiment is a gradation determined based on annotation information, a sequence of spoken text, and accuracy of annotation information.
  • FIG. 15 is a diagram showing an example of applying the gradation rule of "the last spoken text of the topic, followed by the next topic” shown in FIG. 14 when the accuracy is 60%. "The last spoken text of the topic, followed by the next topic” indicates that the topic of the spoken text is different from the topic of the spoken text next to the said spoken text.
  • the annotation expression information is:
  • the position from the start point to the position corresponding to the accuracy of the topic (60% position in the example of FIG. 15) is the color corresponding to the topic, and the color goes from the position to the end point. It is a gradation that changes from the color corresponding to the topic to white as much as possible.
  • the starting point is the utterance contained in the target data displayed in the utterance text sequence in the arrangement direction (the direction from top to bottom in the example shown in FIG. 17 to be referred to later).
  • this is the end on the starting point side in the arrangement direction (the upper end in the example shown in FIG. 17) in the topic display column (one utterance text).
  • the end point is the end (the lower end in the example shown in FIG. 17) on the end point side in the arrangement direction in the topic display column (one utterance text).
  • the annotation expression information corresponds to the topic. No color gradation.
  • the annotation expression information is a gradation that changes from white to the color corresponding to the topic as it moves toward the position corresponding to (100-accuracy of the topic)% from the starting point. , which is the color corresponding to the topic from the position corresponding to (100-probability of topic)% to the end point.
  • the first utterance text of a topic and the topic continues from the front indicates that the topic of the utterance text is different from the topic of the utterance text uttered before the topic text.
  • the accuracy of the topic is when it is 100%, the annotation expression information is the color corresponding to the topic and no gradation.
  • the annotation expression information corresponds to the accuracy of the topic from the starting point. It is a gradation from the color of the topic before switching to white up to the position where it is switched, and it is a gradation from white to the color of the topic after switching from the position corresponding to the accuracy of the topic to the end point.
  • the annotation expression information is the topic color of the speech text without gradation from the start point to the end point.
  • the display preparation unit 34 determines the annotation expression information so that the background color gradually changes toward the boundary where the annotation information is different before and after the sequence in the spoken text sequence. In this embodiment, the display preparation unit 34 determines annotation expression information further based on accuracy. The display preparation unit 34 may determine annotation expression information indicating the degree of change in the background color further based on the accuracy. In the third embodiment, annotation expression information is information indicating color and gradation. At this time, the display preparation unit 34 may divide the utterance text, and determine the annotation expression information based on the divided utterance text, the annotation information of the utterance text, and the series.
  • the display preparation unit 34 divides the spoken text included in the target data whose input is received by the input unit 11, like the display preparation unit 24 of the second embodiment.
  • the display preparation unit 34 does not have to perform the process of dividing the spoken text, like the display preparation unit 24 of the second embodiment.
  • the speech texts included in the target data may be divided speech texts.
  • the display preparation unit 34 does not divide the speech text, and therefore the speech text corresponding to the determination unit ID in the display data is the same as the speech ID in the target data shown in FIG. Same as the corresponding spoken text.
  • the display preparation unit 34 uses the color scheme rule and the gradation rule to determine the color and gradation corresponding to the spoken text.
  • the display preparation unit 34 expresses the annotation based on the annotation information of the utterance text and the annotation information of the utterance text arranged before or after the utterance text in the utterance text sequence. Determine information. Specifically, if the speech text to be determined is “the last speech text of the topic, and the next topic continues” and the accuracy of the topic is not 100%, the display preparation unit 34 sets the annotation
  • the expression information is determined to be a color corresponding to the topic up to the accuracy of the topic, and a gradation that changes from the color corresponding to the topic to white from the accuracy of the topic.
  • the display preparation unit 34 determines whether the utterance text to be determined is "the last utterance text of the topic, and the next topic continues", or "the first utterance text of the topic, and the topic continues from the front". Also, when the accuracy of the topic is 100%, it is determined that the annotation expression information is the color corresponding to the topic and no gradation.
  • the display preparation unit 34 sets the annotation expression information to the accuracy of the topic before switching. From the accuracy of the topic, it is determined that the gradation will be the color of the topic after switching from white.
  • the display preparation unit 34 sets the annotation expression information to the color of the topic of the speech text. Determine that there is no gradation.
  • the display preparation unit 34 determines whether or not the annotation expression information of all the spoken texts has been determined. When the display preparation unit 34 determines that the annotation expression information of part of the uttered texts has not been determined, it repeats the process of determining the annotation expression information of the uttered texts for the uttered texts whose annotation expression information has not been determined. Further, when the display preparation unit 34 determines that the annotation expression information for all the speech texts has been determined, it generates display data in which the annotation expression information is associated with each speech text included in the target data.
  • the display data storage unit 35 stores the display data generated by the display preparation unit 34.
  • the display data output unit 36 outputs display data.
  • the display data output unit 36 may output the display data to the display device 4 such as a liquid crystal panel or organic EL, or may output the display data to another device via a communication network.
  • the display device 4 displays the display screen based on the display data. Specifically, as shown in FIG. 17, the display device 4 associates and displays the speech text included in the display data and the annotation information corresponding to the speech text, and furthermore, displays the background color of the annotation information. Display with color gradation as indicated by the annotation expression information included in the display data. Further, the display device 4 may cause the display device 4 to further display one or more of the ID and speaker information in association with the utterance text.
  • the display data output unit 36 transmits the display data to another device via the communication network, the other device, like the display device 4, displays the display screen based on the display data. indicate.
  • FIG. 18 is a flow chart showing an example of the operation of the display data generation device 3 according to the third embodiment.
  • the operation of the display data generation device 3 described with reference to FIG. 18 corresponds to the display method of the display data generation device 3 according to the third embodiment.
  • step S31 the input unit 31 receives input of a speech text sequence, annotation information corresponding to each speech text included in the speech text sequence, and target data including accuracy of the annotation information.
  • step S ⁇ b>32 the display preparation unit 34 divides the speech text included in the target data whose input is received by the input unit 31 .
  • step S33 the display preparation unit 34 determines the correspondence relationship between the spoken text and the annotation information when the display device 4 displays the spoken text, based on the accuracy of the annotation information in addition to the annotation information and the sequence order.
  • the background color of the display screen of the display device 4 and the annotation expression information indicating the position and range for displaying the background color are determined.
  • the display preparation unit 24 determines annotation expression information indicating colors and gradations corresponding to the spoken text.
  • step S34 the display preparation unit 34 determines whether or not annotation expression information for all utterance texts has been determined.
  • step S34 If it is determined in step S34 that the annotation expression information for some of the spoken texts has not been determined, the process returns to step S33, and the display preparation unit 34 repeats the processing. Further, when it is determined in step S34 that the annotation expression information of all the spoken texts has been determined, in step S35 the display preparation unit 34 displays the spoken text series and the annotation information according to the series in the spoken text series. which is display data for displaying the background color indicated by the annotation expression information at the position and range indicated by the annotation expression information.
  • step S36 the display data storage unit 35 stores the display data.
  • the display data output unit 36 outputs the display data at arbitrary timing.
  • the display data output unit 36 may output the display data to the display device 4, or may output the display data to another device via the communication network.
  • the arbitrary timing can be, for example, the timing when the display command is input to the input unit 31 .
  • the display device 4 displays the display screen based on the display data. Specifically, the display device 4 displays the spoken text and the annotation information based on the display data, and displays the background color indicated by the annotation expression information at the position and range indicated by the annotation expression information.
  • the display data generation device 3 executes the process of step S32 in the above description, this is not the only option. For example, the display data generation device 3 does not need to execute the process of step S32.
  • the target data further includes accuracy indicating the likelihood of annotation information
  • the display preparation unit 34 determines annotation expression information further based on the accuracy.
  • the display data generation device 2 displayed the utterance texts uttered by a plurality of speakers in the same column, but this is not the only option.
  • the display data generation device 3 displays the utterance text uttered by one speaker and the utterance text uttered by the other speaker in different columns.
  • the annotation information is displayed on the line where the annotation information is displayed, and the gradation is displayed in the background of the annotation information.
  • the display data generating device 2 causes the display device 4 to display the spoken texts so that they are arranged in the spoken text sequence from the top to the bottom of the screen.
  • the target data in this example almost simultaneously with the operator uttering the utterance text "Are you okay?" The spoken text "Yes, I'm fine.” is emitted.
  • the target data includes the time when the spoken text was uttered, in the example shown in FIG. can be displayed on the same line. This allows the user to clearly understand that multiple utterance texts by multiple speakers are uttered at the same time.
  • the user who refers to the utterance text based on the target data displayed by the display data generation device 2 can easily grasp the utterance text uttered by each speaker, and can efficiently understand the contents of the target data. can be recognized The same applies to the display data generation device 1 according to the first embodiment and the display data generation device 3 according to the third embodiment.
  • the display preparation unit 24 of the display data generation device 2 may further determine an important speech text among the plurality of speech texts.
  • the display preparation unit 24 can determine important spoken text by any algorithm.
  • the display data generation device 2 may use a model generated in advance by learning based on a large amount of important spoken texts, or may store important words and phrases in the memory in advance and store them in the memory. You may determine the spoken text containing the said phrase as an important spoken text.
  • the display preparation unit 24 may determine an important uttered text based on the user's operation. In such a configuration, as shown in FIG. 20, the display data output unit 26 highlights the spoken text determined to be the important spoken text and causes the display device 4 to display the highlighted spoken text.
  • the display data generating device 2 causes the display device 4 to display in black characters indicating the spoken text (another spoken text) determined to be not the important spoken text, and the text is determined to be the important spoken text.
  • the characters representing the spoken text may be displayed on the display device 4 in a different color (for example, red) from other spoken texts.
  • important spoken text is shown in bold, but highlights are not limited to this. As a result, the user can easily grasp the important spoken text and efficiently recognize the contents of the target data.
  • the display data output unit 26 of the display data generation device 2 further does not display the speech texts that have not been determined to be important speech texts, and You may display only the utterance text determined to be. As a result, the user can more easily grasp the important spoken text, and can more efficiently recognize the contents of the target data. Further, in such a configuration, the display data output unit 26 may switch between a state in which another spoken text is displayed and a state in which another spoken text is not displayed by the user's operation. For example, if the user determines that he or she cannot understand the entire target data because the other spoken text is not displayed, the user performs an operation to display the other spoken text, and the other spoken text is displayed. You can try to understand the whole of the target data by referring to it. The same applies to the display data generation device 1 according to the first embodiment and the display data generation device 3 according to the third embodiment.
  • annotation information is a topic, but it is not limited to this.
  • the annotation information may be a "scene" indicating the scene in which the spoken text is uttered.
  • the "scene” is the utterance text classified according to the type of scene in the dialogue between the operator and the customer. For example, the operator begins with a greeting by giving his/her own name, then the customer calls and talks about the business, the operator confirms the business, and after confirming the contractor and contract details, the operator responds to the business.
  • each item may include "opening”, “inquiry comprehension”, “identity verification”, “response”, and “closing”.
  • the display data output unit 26 of the display data generation device 2 displays the speech text included in the target data, and causes the display device 4 to display the background of the speech text, which is the part related to the information, in color gradation. good.
  • the informational part is the background of the spoken text.
  • the display data output unit 26 may cause the display device 4 to display a "whole call” button and buttons indicating each item included in a scene that is annotation information.
  • the input unit 21 receives information indicating that the "whole call” button has been pressed. Then, the display device 4 displays the entire speech text included in the target data based on the information. Further, when the "opening" button is pressed by the user's operation, the input unit 21 receives information indicating the pressing of the "opening” button. Then, the display device 4 displays the utterance text whose scene is "opening", which is included in the target data, based on the information.
  • the display device 4 may display detailed information about "understand inquiry” when the "understand inquiry” button is pressed by the user's operation.
  • the detailed information about the "query grasp” is at least one of the "subject”, “issue”, and “issue confirmation” generated by an arbitrary algorithm based on the utterance text corresponding to the "query grasp” scene. can contain.
  • the display device 4 may display an operation object for changing the "subject", the “issue”, and the “issue confirmation” together with the "issue” and the “issue confirmation”. . Note that the display device 4 may display the detailed information on the "inquiry comprehension” even when the "whole call” button is pressed by the user's operation.
  • the display device 4 may display detailed information on "identity confirmation” when the "identity confirmation” button is pressed by the user's operation.
  • Detailed information about “identity verification” is at least one of customer's "name”, “address”, and “phone number” generated by any algorithm based on the spoken text corresponding to the "identity verification” scene.
  • the display data output unit 26 is an operation object for changing "name”, “address” and “telephone number” as well as “name”, “address” and “telephone number”. may be displayed on the display device 4. Note that the display data output unit 26 may cause the display device 4 to display the detailed information regarding the "personal identification” even when the "whole call” button is pressed by the user's operation.
  • the display device 4 may display the time zone in which the utterance text included in the target data was issued along with the display of the utterance text included in the target data.
  • the display device 4 may display an audio reproduction button (an arrow indicated by a triangle in FIG. 22) for reproducing audio data corresponding to the uttered text near the uttered text. In such a configuration, the display data generation device 2 reproduces the audio data when the user presses the audio reproduction button.
  • the display data generation device 1 according to the first embodiment and the display data generation device 3 according to the third embodiment can also execute the aspect described with reference to FIG. 22 in the same manner.
  • the annotation information is "scene", but as shown in FIG. It may be both the "dialogue action type” shown.
  • "scenes” include “opening", “injury”, “self-driving”, “grade”, “insurance”, “repair status”, "accident It may include “Status", “Contact”, and “Closing”.
  • the display device 4 that has output the display data from the display data generation device 2 may display the background color of the speech text included in the target data in gradation.
  • the "dialogue action type” may include "interview”, “explanation”, “question”, and "answer”.
  • the display device 4 may display a "whole call” button, a button indicating each item included in the annotation information "scene”, and a button indicating each item included in the annotation information "dialogue act type”. good.
  • a button indicating each item included in the annotation information "dialogue act type” are composed of check buttons so that one or two or more buttons can be selected, but this is not the only option. Aspect buttons can be employed as appropriate.
  • the "Answer” button is checked, and only utterance texts whose "dialogue act type” is associated with "Answer” as annotation information are displayed.
  • the display device 4 displays the speaker information and the time zone in which the speech text included in the target data was uttered along with the display of the speech text included in the target data. may be displayed.
  • the display device 4 may display an audio reproduction button (an arrow indicated by a triangle in FIG. 23) for reproducing audio data corresponding to the spoken text in the vicinity of the portion where the spoken text is displayed. .
  • the display data generation device 2 reproduces the audio data when the user presses the audio reproduction button.
  • the display data generation device 1 according to the first embodiment and the display data generation device 3 according to the third embodiment can similarly execute the aspects described with reference to FIG.
  • the colors corresponding to the annotation information stored in the color storage unit 331 are different from each other, but this is not the only option. good too.
  • the display data output unit 36 generates annotation representation information indicating colors and gradations generated by the display preparation unit 34 based on the gradation rules stored in the gradation rule storage unit 232.
  • the background can be displayed on the display device 4 with color gradation. Therefore, the user can recognize that the topic corresponding to the utterance text group is not one but can be interpreted as a plurality of topics.
  • the display data generation device 2 does not need to include the color storage unit 231, so the memory capacity can be reduced. The same applies to the third embodiment.
  • the display modes, gradation rules, etc. described in the above-described first to third embodiments are examples, and the present invention is not limited to these.
  • the display data generation devices 1 to 3 according to the first to third embodiments may further include various functions used when the operator creates histories of responses.
  • the display data generation devices 1 to 3 further include a function of displaying spoken texts for each topic, a function of editing spoken texts and topics, a search function of searching spoken texts, a comparison function of comparing target data, and the like.
  • FIG. 24 is a block diagram showing a schematic configuration of a computer 100 functioning as the display data generation device 1.
  • the computer 100 may be a general-purpose computer, a dedicated computer, a workstation, a PC (Personal Computer), an electronic notepad, or the like.
  • Program instructions may be program code, code segments, etc. for performing the required tasks.
  • a computer 100 capable of executing program instructions in order to function as the display data generation device 2, it is also possible to use a computer 100 capable of executing program instructions, and in order to function as the display data generation device 3, it is possible to use a computer 100 that executes program instructions.
  • a capable computer 100 can also be used.
  • the computer 100 includes a processor 110, a ROM (Read Only Memory) 120, a RAM (Random Access Memory) 130, a storage 140, an input section 150, an output section 160, and a communication interface ( I/F) 170.
  • the processor 110 is specifically a CPU (Central Processing Unit), MPU (Micro Processing Unit), GPU (Graphics Processing Unit), DSP (Digital Signal Processor), SoC (System on a Chip), etc. may be configured by a plurality of processors of
  • the processor 110 controls each component and executes various arithmetic processes. That is, processor 110 reads a program from ROM 120 or storage 140 and executes the program using RAM 130 as a work area. The processor 110 executes control of each configuration and various arithmetic processes according to programs stored in the ROM 120 or the storage 140 . In this embodiment, the ROM 120 or storage 140 stores a program according to the present disclosure.
  • the program may be recorded on a recording medium readable by the computer 100.
  • a program can be installed in the computer 100 by using such a recording medium.
  • the recording medium on which the program is recorded may be a non-transitory recording medium.
  • the non-transitory recording medium is not particularly limited, but may be, for example, a CD-ROM, a DVD-ROM, a USB (Universal Serial Bus) memory, or the like.
  • this program may be downloaded from an external device via a network.
  • the ROM 120 stores various programs and various data.
  • RAM 130 temporarily stores programs or data as a work area.
  • the storage 140 is configured by a HDD (Hard Disk Drive) or SSD (Solid State Drive) and stores various programs including an operating system and various data.
  • the input unit 150 includes one or more input interfaces that receive user's input operations and acquire information based on the user's operations.
  • the input unit 150 is a pointing device, keyboard, mouse, etc., but is not limited to these.
  • the output unit 160 includes one or more output interfaces that output information.
  • the output unit 160 controls a display that outputs information as video or a speaker that outputs information as audio, but is not limited to these.
  • the communication interface 170 is an interface for communicating with other devices such as external devices, and uses standards such as Ethernet (registered trademark), FDDI, and Wi-Fi (registered trademark), for example.
  • a display data generation device comprising a control unit, The control unit Receiving input of target data including a text sequence and annotation information corresponding to each text included in the text sequence; Displaying the background color of the display screen of the display device and the background color for expressing the correspondence relationship between the text and the annotation information when the display device displays the text based on the annotation information.
  • display data for determining annotation expression information indicating the position and range to be displayed, and displaying the text series and the annotation information according to the series in the text series, wherein the background color indicated by the annotation expression information is
  • a display data generation device for generating the display data to be displayed at the position and the range indicated by the annotation expression information.
  • (Appendix 6) The display according to any one of additional items 1 to 5, wherein the display data includes the annotation information, and the position and range of displaying the background color include the display position and display range of the annotation information, respectively.
  • data generator for (Appendix 7) receiving input of target data including a text sequence and annotation information corresponding to each text included in the text sequence; Displaying the background color of the display screen of the display device and the background color for expressing the correspondence relationship between the text and the annotation information when the display device displays the text based on the annotation information.
  • Display data generation method including (Appendix 8) A non-temporary storage medium storing a program executable by a computer, the non-temporary storage medium storing the program causing the computer to function as the display data generating device according to any one of additional items 1 to 6. storage medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本開示に係る表示用データ生成装置(1)は、テキスト系列、及びテキスト系列に含まれるテキストそれぞれに対応するアノテーション情報を含む対象データの入力を受け付ける入力部(11)と、アノテーション情報に基づいて、表示装置(4)がテキストを表示する際の、テキストとアノテーション情報との対応関係を表現するための、表示装置の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示すアノテーション表現情報を決定し、テキスト系列及びアノテーション情報を、テキスト系列における系列に従って表示させるための表示用データであって、アノテーション表現情報が示す背景色を、アノテーション表現情報が示す位置及び範囲に表示させるための表示用データを生成する表示準備部(14)と、を備える。

Description

表示用データ生成装置、表示用データ生成方法、及び表示用データ生成プログラム
 本開示は、表示用データ生成装置、表示用データ生成方法、及び表示用データ生成プログラムに関する。
 コンタクトセンタのオペレータは、カスタマから商品、サービス等についての問い合わせを受けたり、カスタマの問題を解決するためのサポートを提供することが求められたりしている。オペレータは、カスタマからの問い合わせの分析及び応対の質を向上させることを目的として、カスタマとの応対の履歴を作成し、コンタクトセンタ内部で共有している。
 非特許文献1には、コンタクトセンタ(コールセンタ)に電話をかけてきたカスタマの用件に基づいて適切な情報を応対中のオペレータに提示することで、オペレータを支援するシステムが開示されている。非特許文献1に開示されたシステムは、画面の左側にはオペレータとカスタマの発話テキストを表示し、画面の右側にはカスタマの用件を示す発話テキスト、又はオペレータの用件を確認する発話テキストから検索されたFAQからスコアの高い類似質問とその回答を表示している。また非特許文献1では、発話ごとにシーンの推定を行った後、所定のシーンの発話だけに絞ってキーワードを抽出し、FAQの検索を行っている。(シーンとは、オペレータとカスタマの対話における場面の種類で発話テキストを分類したもの。例えば、オペレータによる自身の名前を名乗るあいさつから始まり、カスタマが電話をかけてきた用件を話し、オペレータがその用件を確認し,契約者や契約内容を確認したうえでオペレータが用件への対応を行い,最後にお礼を述べて対話が終了するまでの流れを「オープニング」、「問い合わせ把握」、「対応」、「クロージング」等の場面に分類したものを指す。このようなシーンの推定結果は、発話テキストに対してラベルとして付与される。)
長谷川隆明、外3名、「オペレータの応対を支援する自動知識支援システム」、NTT技術ジャーナル、P16-19、2019、vol.31、No.7
 非特許文献1に記載された技術において、利用者は、オペレータとカスタマの発話テキストと、(カスタマの用件を伝える発話テキスト又はオペレータの用件を確認する発話テキストから自動で検索されたFAQのスコアの高い)類似質問と、その回答を参照する。しかし、シーンの推定結果等のラベル(アノテーション情報)は提示されておらず、アノテーション情報を利用者が認識し易いように可視化することは困難であった。
 上記のような問題点に鑑みてなされた本開示の目的は、アノテーション情報を可視化することができる表示用データ生成装置、表示用データ生成方法、及び表示用データ生成プログラムを提供することにある。
 上記課題を解決するため、本開示に係るテキスト系列、及び前記テキスト系列に含まれるテキストそれぞれに対応するアノテーション情報を含む対象データの入力を受け付ける入力部と、前記アノテーション情報に基づいて、表示装置が前記テキストを表示する際の、前記テキストと前記アノテーション情報との対応関係を表現するための、前記表示装置の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示すアノテーション表現情報を決定し、前記テキスト系列及び前記アノテーション情報を、前記テキスト系列における系列に従って表示させるための表示用データであって、前記アノテーション表現情報が示す前記背景色を、前記アノテーション表現情報が示す前記位置及び前記範囲に表示させるための前記表示用データを生成する表示準備部と、を備える。
 また、上記課題を解決するため、本開示に係る表示用データ生成方法は、テキスト系列、及び前記テキスト系列に含まれるテキストそれぞれに対応するアノテーション情報を含む対象データの入力を受け付けるステップと、前記アノテーション情報に基づいて、表示装置が前記テキストを表示する際の、前記テキストと前記アノテーション情報との対応関係を表現するための、前記表示装置の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示すアノテーション表現情報を決定し、前記テキスト系列及び前記アノテーション情報を、前記テキスト系列における系列に従って表示させるための表示用データであって、前記アノテーション表現情報が示す前記背景色を、前記アノテーション表現情報が示す前記位置及び前記範囲に表示させるための前記表示用データを生成するステップと、を含む。
 また、上記課題を解決するため、本開示に係る表示用データ生成プログラムは、コンピュータを、上述した表示用データ生成装置として機能させる。
 本開示に係る表示方法、表示用データ生成装置、及び表示用データ生成プログラムによれば、アノテーション情報を可視化することができる。
第1の実施形態に係る表示用データ生成装置の全体概略図である。 図1に示す入力部によって入力が受け付けられた対象データの一例を示す図である。 図1に示す色記憶部に記憶されているアノテーション情報と色との対応の一例を示す図である。 図1に示す表示準備部によって生成された表示用データの一例を示す図である。 図1に示す表示用データ出力部によって表示される画面の一例である。 図1に示す表示用データ生成装置における動作の一例を示すフローチャートである。 第2の実施形態に係る表示用データ生成装置の全体概略図である。 図7に示すグラデーションルール記憶部に記憶されているグラデーションルールの一例を示す図である。 図7に示す表示準備部によって生成された表示用データの一例を示す図である。 図7に示す表示用データ出力部によって表示される画面の一例である。 図7に示す表示用データ生成装置における動作の一例を示すフローチャートである。 第3の実施形態に係る表示用データ生成装置の全体概略図である。 図12に示す入力部によって入力が受け付けられた対象データの一例を示す図である。 図12に示すグラデーションルール記憶部に記憶されているグラデーションルールの一例を示す図である。 図14に示すグラデーションルールによって決定されるアノテーション表現情報を詳細に説明するための図である。 図12に示す表示準備部によって生成された表示用データの一例を示す図である。 図12に示す表示用データ出力部によって表示される画面の一例である。 図12に示す表示用データ生成装置における動作の一例を示すフローチャートである。 図7に示す表示用データ出力部の第1の変形例によって表示される画面の一例である。 図7に示す表示用データ出力部の第2の変形例によって表示される画面の一例である。 図7に示す表示用データ出力部の第3の変形例によって表示される画面の一例である。 図7に示す表示用データ出力部の第4の変形例によって表示される画面の一例である。 図7に示す表示用データ出力部の第5の変形例によって表示される画面の一例である。 表示用データ生成装置のハードウェアブロック図である。
 まず、本開示の実施形態について図面を参照して説明する。
 <第1の実施形態>
 図1を参照して第1の実施形態の全体構成について説明する。図1は、本実施形態に係る表示用データ生成装置1の概略図である。
 (表示用データ生成装置の機能構成)
 図1に示されるように、第1の実施形態に係る表示用データ生成装置1は、入力部11と、対象データ記憶部12と、表示ルール記憶部13と、表示準備部14と、表示用データ記憶部15と、表示用データ出力部16とを備える。入力部11は、情報の入力を受け付ける入力インターフェースによって構成される。入力インターフェースは、キーボード、マウス、マイクロフォン等であってもよいし、他の装置から通信ネットワークを介して受信した情報を受け付けるためのインターフェースであってもよい。対象データ記憶部12、表示ルール記憶部13、及び表示用データ記憶部15は、例えば、ROM又はストレージによって構成される。表示準備部14は、制御部(コントローラ)を構成する。制御部は、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。表示用データ出力部16は、情報を出力する出力インターフェースによって構成される。
 入力部11は、図2に示すような、テキスト系列、及びテキスト系列に含まれるテキストそれぞれに対応するアノテーション情報を含む対象データの入力を受け付ける。対象データは、テキストを識別するためのテキストID(識別子:Identification)をさらに含んでもよい。対象データは、発話テキストそれぞれが配列されている系列順序をさらに含んでもよい。系列順序は、テキスト系列に含まれるテキスト間に順序性がある場合の順序を示す情報である。各実施形態において、テキストは、音声データを音声認識したテキスト、音声を書き起こしたテキスト、チャットに含まれるテキスト、議事録のテキスト、物語のテキスト等とするが、この限りではない。系列順序は、複数の話者の音声対話やチャット等においては、複数人の発話を時系列順に配置するための情報である。また、系列順序は、議事録や物語のテキスト等においては、文章中のテキストの並び順である。系列順序は、テキスト系列において、冒頭から末尾に向けてテキストを配列させるための、意味のある順序とすることができる。本実施形態では、系列順序は、テキストIDによって示されるが、この限りではない。なお、対象データがテキストIDを含むことは必須ではなく、対象データがテキストIDを含まない構成において、発話テキストに系列順序を示す情報が含まれてもよい。
 発話テキストは、複数の話者によって行われる対話において、該複数の話者それぞれから発せられた発話内容を示すテキストである。1つの発話テキストは、音声認識の結果を受けて、話し終わり単位(オペレータやカスタマが話し終わったかどうか、言いたいことを言い切ったかどうかを判定した単位)で出力されたテキストである。発話テキストは、テキスト形式のデータであってもよい。複数の話者は、例えば、コールセンタにおけるオペレータと、該コールセンタに問合せを行うカスタマとすることができ、以降においては、オペレータとカスタマとで行われた対話に関する、アノテーション情報を含む対象データの例を説明する。しかし、本明細書で説明する各実施形態において、対象データに含まれる発話テキストを発する複数の話者は、オペレータとカスタマとに限定されない。1つの発話テキストは、複数の話者のいずれか一人によって発せられた発話テキストにおいて、一区切りとなる発話テキストである。発話テキストの一区切りは、任意のルールによって定められてもよいし、該発話テキストを発した話者の操作によって定められてもよいし、任意のアルゴリズムによる音声認識を実行するコンピュータによって定められてもよい。テキストが発話テキストである場合、発話テキストを発した話者を示す話者情報をさらに含んでもよい。また、テキストが発話テキストである場合、発話テキストを識別するためのテキストIDを発話IDという。以降において、テキストの一例としての発話テキストを用いて説明を行うが、本実施形態の表示用データ生成装置が処理する対象データに含まれるテキストは、発話テキストに限られず、任意のテキストとすることができる。
 アノテーション情報は、発話テキスト毎に付与された、該発話テキストに関連する情報(メタデータ)を指す。アノテーション情報は、発話テキストの話題であってもよいし、発話テキストが発せられたシーンであってもよいし、何かしらの分類ラベルであってもよい。
 対象データ記憶部12は、入力部11によって入力を受け付けた対象データを記憶する。
 表示ルール記憶部13は、表示準備部14が、アノテーション情報に基づいて発話テキストのアノテーション表現情報を決定するためのルールを記憶している。
 アノテーション表現情報は、表示装置4が発話テキストを表示する際の、発話テキストとアノテーション情報との対応関係を表現するための、表示装置4の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示す情報である。背景色を表示する位置及び範囲は、それぞれアノテーション情報の表示位置及び表示範囲を含んでもよい。第1の実施形態においては、アノテーション表現情報は、アノテーション情報の背景色である。
 表示ルール記憶部13は、色記憶部131を含む。色記憶部131は、アノテーション情報とアノテーション表現情報との対応付けを示すルールを記憶している。第1の実施形態では、図3に示すように、色記憶部131は、アノテーション情報とアノテーション表現情報(表示画面の背景色)との対応付けを示す配色ルールを記憶している。配色ルールにおいてアノテーション情報に対応付けられるアノテーション表現情報は、コンピュータによって任意のアルゴリズムを用いて決定されてもよいし、表示用データ生成装置1の管理者によって決定されてもよい。
 表示準備部14は、アノテーション情報に基づいて、表示装置4が発話テキストを表示する際の、テキストとアノテーション情報との対応関係を表現するための、表示装置4の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示すアノテーション表現情報を決定する。表示準備部14は、発話テキストを分割し、分割された発話テキストのアノテーション表現情報を決定してもよい。以降において、分割された発話テキストを「分割発話テキスト」という。分割された発話テキストと、分割されていない発話テキストとを区別する場合には、分割された発話テキストを「分割発話テキスト」といい、分割されていない発話テキストを単に「発話テキスト」というが、分割された発話テキストと、分割されていない発話テキストとを区別しない場合には、分割された発話テキストも分割されていない発話テキストも単に「発話テキスト」ということがある。
 具体的には、まず、表示準備部14は、入力部11によって入力を受け付けた対象データに含まれる発話テキストを分割する。表示準備部14は、任意のアルゴリズムにより発話テキストを分割することができる。このとき、表示準備部14は、分割発話テキストを一意に識別し、かつ、分割発話テキストの発話テキスト系列を示す判定単位IDを付す。例えば、表示準備部14は、句点以前の部分と、句点より後ろの部分とに発話テキストを分割してもよい。図2に示す例では、発話ID「1」に対応する発話テキストは、「私、AA保険のBBと申します。CCさんご在宅でしょうか。」である。そこで、表示準備部14は、この発話テキストを句点で、図4に示すように、「私、AA保険のBBと申します。」と「CCさんご在宅でしょうか。」とに分割し、それぞれに判定単位ID「1」と判定単位ID「2」とを対応付ける。また、表示準備部14は、分割発話テキストのアノテーション情報が、分割元の発話テキストのアノテーション情報であると判定する。図4に示す例では、表示準備部14は、判定単位ID「1」及び「2」に対応する発話テキストのアノテーション情報である話題が「オープニング」であると判定する。
 表示準備部14は、上述したように、句点以前の部分と、句点より後ろの部分とに発話テキストを分割するが、この限りではない。例えば、表示準備部14は、単語ごとに発話テキストを分割してもよいし、句読点以前の部分と、句読点より後ろの部分とに発話テキストを分割してもよい。なお、表示準備部14は、発話テキストを分割しなくてもよく、このような構成において、例えば、対象データに含まれる発話テキストは、分割されていない発話テキストであってもよい。
 表示準備部14は、アノテーション情報が同一であって、上述した系列順序で配列されたときに連続する発話テキストによって構成されるグループ(以降、「発話テキストグループ」という)を形成する。表示準備部14は、色記憶部131に記憶されている配色ルールを用いて、該発話テキストグループに対応する色を示すアノテーション表現情報を決定する。具体的には、表示準備部14は、発話テキストグループのアノテーション表現情報が、配色ルールにおいて該発話テキストグループのアノテーション情報に対応する色であると決定する。
 また、表示準備部14は、発話テキストグループのアノテーション表現情報を決定すると、全ての発話テキストのアノテーション表現情報が決定されたか否かを判定する。表示準備部24は、一部の発話テキストのアノテーション表現情報が決定されていないと判定すると、アノテーション表現情報が決定されていない発話テキストについて、発話テキストグループを形成し、該発話テキストグループのアノテーション表現情報を決定する処理を繰り返す。また、表示準備部24は、全ての発話テキストのアノテーション表現情報が決定されたと判定すると、テキスト系列及びアノテーション表現情報を、テキスト系列における系列順序に従って表示させるための表示用データであって、アノテーション表現情報が示す背景色を、アノテーション表現情報が示す位置及び範囲に表示するための表示用データを生成する。表示用データは、例えば、図4に示すように、判定単位ID、話者情報、発話テキスト、アノテーション情報、及びアノテーション表現情報を含むことができる。
 表示用データ記憶部15は、表示準備部14によって生成された表示用データを記憶する。
 表示用データ出力部16は、表示用データを出力する。表示用データ出力部16は、液晶パネル、有機EL等の表示装置4に表示用データを出力してもよいし、通信ネットワークを介して、他の装置に表示用データを出力してもよい。
 これにより、表示装置4は表示用データに基づいて表示画面を表示する。具体的には、図5に示すように、表示装置4は、表示用データに含まれる発話テキストを上述した発話テキスト系列で表示する。そして、表示装置4は、発話テキストに対応するアノテーション情報を、発話テキストに対応付けて表示し、さらに、アノテーション情報の背景を表示用データに含まれるアノテーション表現情報が示す色で表示する。また、表示装置4は、発話テキスト及びアノテーション情報に対応付けて、発話ID及び話者情報の1つ以上をさらに表示してもよい。なお、「オープニング」の背景に表示させるグレー色、「事故状況」の背景に表示させる緑色、「ケガ状況」の背景に表示させる青色、「ケガ状況」の背景に表示させるオレンジ色は、図5において、互いに異なる態様の白黒二値のハッチングにより示されている。また、上述したように、アノテーション情報はシーンを含むため、表示装置4は、発話をシーン毎にまとめて表示することが可能であり、これにより、オペレータは、対話を理解するために対話の流れを大局的につかむことができる。なお、表示用データ出力部16が、通信ネットワークを介して、他の装置に表示用データを送信する場合、該他の装置が、表示装置4と同様に、表示用データに基づいて表示画面を表示する。
 (表示用データ生成装置の動作)
 ここで、第1の実施形態に係る表示用データ生成装置1の動作について、図6を参照して説明する。図6は、第1の実施形態に係る表示用データ生成装置1における動作の一例を示すフローチャートである。図6を参照して説明する表示用データ生成装置1における動作は第1の実施形態に係る表示用データ生成装置1の表示方法に相当する。
 ステップS11において、入力部11が、発話テキスト系列、及び発話テキスト系列に含まれるテキストそれぞれに対応するアノテーション情報を含む対象データの入力を受け付ける。本例では、対象データには、さらに、発話IDが含まれる。
 ステップS12において、表示準備部14が、入力部11によって入力を受け付けた対象データに含まれる発話テキストを分割する。
 ステップS13において、表示準備部14が、アノテーション情報が同一である、連続する発話テキストによって構成される発話テキストグループを形成する。
 ステップS14において、表示準備部14が、アノテーション情報、及び系列順序に基づいて、表示装置4が発話テキストを表示する際の、発話テキストとアノテーション情報との対応関係を表現するための、表示装置4の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示すアノテーション表現情報を決定する。本例では、表示準備部14が、アノテーション情報に基づいて、発話テキストグループに対応する、色を示すアノテーション表現情報を決定する。
 ステップS15において、表示準備部14が、全ての発話テキストグループに対応するアノテーション表現情報が決定されたか否かを判定する。
 ステップS15で、一部の発話テキストグループに対応するアノテーション表現情報が決定されていないと判定されると、ステップS13に戻って、表示準備部14が、処理を繰り返す。また、ステップS15で、全ての発話テキストグループに対応するアノテーション表現情報が決定されたと判定されると、ステップS16において、表示準備部14が、発話テキスト系列及びアノテーション情報を、発話テキスト系列における系列に従って表示させるための表示用データであって、アノテーション表現情報が示す背景色を、アノテーション表現情報が示す位置及び範囲に表示させるための表示用データを生成する。
 ステップS17において、表示用データ記憶部15が、表示用データを記憶する。
 以降において、表示用データ出力部16は、任意のタイミングに、表示用データを出力する。表示用データ出力部16は、液晶パネル、有機EL等の表示装置4に表示用データを出力してもよいし、通信ネットワークを介して、他の装置に表示用データを出力してもよい。任意のタイミングは、例えば、利用者の操作によって入力部11に表示命令が入力されたタイミングとすることができる。これにより、表示装置4は表示用データに基づいて表示画面を表示する。具体的には、表示装置4は、表示用データに基づいて、発話テキスト及びアノテーション情報を表示し、該アノテーション表現情報が示す背景色を該アノテーション表現情報が示す位置及び範囲に表示する。
 なお、上述においては、表示用データ生成装置1は、ステップS12の処理を実行したが、この限りではない。例えば、表示用データ生成装置1は、ステップS12の処理を実行しなくてもよい。
 上述したように、第1の実施形態によれば、表示用データ生成装置1は、アノテーション情報に基づいて、表示装置4が発話テキストを表示する際の、発話テキストと発話アノテーション情報との対応関係を表現するための、表示装置4の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示すアノテーション表現情報を決定する。そして、表示用データ生成装置1は、発話テキスト系列及びアノテーション情報を、発話テキスト系列における系列に従って表示させ、アノテーション表現情報が示す背景色を、アノテーション表現情報が示す位置及び範囲に表示させるための表示用データを生成する。これにより、利用者は、表示画面の背景色により、アノテーション情報を直感的に把握することができる。したがって、アノテーション情報に対応する発話テキストを含む対象データの内容を迅速に認識することができる。
 <第2の実施形態>
 図7を参照して第2の実施形態の表示用データ生成装置2の全体構成について説明する。図7は、本実施形態に係る表示用データ生成装置2の概略図である。
 (表示用データ生成装置の機能構成)
 図7に示されるように、第2の実施形態に係る表示用データ生成装置2は、入力部21と、対象データ記憶部22と、表示ルール記憶部23と、表示準備部24と、表示用データ記憶部25と、表示用データ出力部26とを備える。入力部21は、第1の実施形態の入力部11と同様に、情報の入力を受け付ける入力インターフェースによって構成される。対象データ記憶部22、表示ルール記憶部23、及び表示用データ記憶部25は、第1の実施形態の対象データ記憶部12、表示ルール記憶部13、及び表示用データ記憶部15と同様に、メモリによって構成される。また、表示準備部24及び表示用データ出力部26は、第1の実施形態の表示準備部14及び表示用データ出力部16と同様に、制御部を構成する。
 入力部21及び対象データ記憶部22は、第1の実施形態に係る表示用データ生成装置2の入力部11及び対象データ記憶部12と同様である。第2の実施形態では、入力部21が入力を受け付け、対象データ記憶部22が記憶する対象データは、第1の実施形態の対象データに含まれるテキスト系列、及びテキスト系列に含まれるテキストそれぞれに対応するアノテーション情報に加えて、系列順序をさらに含む。
 表示ルール記憶部23は、色記憶部231と、グラデーションルール記憶部232とを含む。色記憶部231は、第1の実施形態に係る表示用データ生成装置1の色記憶部131と同様に、配色ルールを記憶する。第2の実施形態の配色ルールにおいて、アノテーション情報それぞれに対応する色は異なっていてもよいし、同じであってもよい。以降の具体例においては、アノテーション情報は話題である。
 グラデーションルール記憶部232は、アノテーション表現情報を決定するためのグラデーションルールを記憶している。図8に示すように、第2の実施形態におけるグラデーションルールは、アノテーション情報と系列とに対応するグラデーションを示すルールである。第2の実施形態において、アノテーション表現情報は、色及びグラデーションを示す情報である。
 図8に示す例のグラデーションルールでは、発話テキストグループに含まれる発話テキストの中に、対象データにおける最初の発話テキストが含まれ、最後の発話テキストが含まれない場合、発話テキストグループに対応するアノテーション表現情報は、始点から終点に向かうほど、話題に対応する色から白色に連続的に変化するグラデーションである。ここで、始点は、対象データに含まれる発話を、発話テキスト系列で配列方向(後述において参照する図10に示す例では上から下に向かう方向)に表示した場合の、話題を表示する欄における、上記配列方向の始点側の端部(図10に示す例では上側の端部)である。終点は、話題を表示する欄における、上記配列方向の終点側の端部(図10に示す例では下側の端部)である。話題に対応する色は、配色ルールにおいて話題に対応して記憶されている色である。
 また、図8に示す例のグラデーションルールでは、発話テキストグループに含まれる発話テキストの中に、対象データにおける最初の発話テキストが含まれず、最後の発話テキストが含まれない場合、発話テキストグループに対応するアノテーション表現情報は、始点から中点に向かうほど、白色から該話題に対応する色に連続的に変化し、中点から終点に向かうほど、該話題に対応する色から白色に連続的に変化するグラデーションである。
 また、図8に示す例のグラデーションルールでは、発話テキストグループに含まれる発話テキストの中に、対象データにおける最初の発話テキストが含まれず、最後の発話テキストが含まれる場合、発話テキストグループに対応するアノテーション表現情報は、始点から終点に向かうほど、白色から該話題に対応する色に連続的に変化するグラデーションである。
 また、図8に示す例のグラデーションルールでは、発話テキストグループに含まれる発話テキストの中に、対象データにおける最初の発話テキストが含まれ、最後の発話テキストが含まれる場合、該発話テキストグループに対応するアノテーション表現情報は、グラデーション無しである。
 ただし、グラデーションルールは、図8に示す例に限られず、話題に対応する色が明確に変化しないような任意のルールとすることができる。例えば、他の例のグラデーションルールにおいて、発話テキストグループに含まれる発話テキストの中に、対象データにおける最初の発話テキストが含まれず、最後の発話テキストが含まれない場合、該発話テキストグループに対応するアノテーション表現情報は、始点から中点に向かうほど、該話題に対応する色から白色に連続的に変化し、中点から終点に向かうほど、白色から該話題に対応する色に連続的に変化するグラデーションであってもよい。
 表示準備部24は、アノテーション情報及び発話テキスト系列に基づいて、該発話テキスト系列及び該アノテーション情報に対応する発話テキストのアノテーション表現情報を決定する。このとき、表示準備部24は、発話テキストを分割し、分割発話テキスト、該発話テキストのアノテーション情報、及び発話テキスト系列に基づいてアノテーション表現情報を決定してもよい。
 具体的には、まず、表示準備部24は、第1の実施形態の表示準備部14と同様に、入力部11によって入力を受け付けた対象データに含まれる発話テキストを分割する。なお、表示準備部24は、第1の実施形態の表示準備部14と同様に、発話テキストを分割する処理を行わなくてもよい。このような構成において、例えば、対象データに含まれる発話テキストは、分割発話テキストであってもよい。
 表示準備部24は、第1の実施形態の表示準備部14と同様に発話テキストグループを形成する。図9に示す例では、表示準備部24は、アノテーション情報が同一の「オープニング」である判定単位ID「1」~「6」に対応する発話テキストによって構成されるグループを形成する。また、表示準備部24は、アノテーション情報が同一の「事故状況」である判定単位ID「7」及び「8」に対応する発話テキストによって構成されるグループを形成する。同様にして、表示準備部24は、アノテーション情報が同一の「ケガ状況」である判定単位ID「9」~「14」に対応する発話テキストによって構成されるグループを形成する。同様にして、表示準備部24は、アノテーション情報が同一の「修理状況」である判定単位ID「15」に対応する発話テキストによって構成されるグループを形成する。
 表示準備部24は、発話テキスト系列における系列の前後でアノテーション情報が異なる境界に向けて徐々に背景色が変化するように、アノテーション表現情報を決定する。本実施形態では、表示準備部24は、配色ルール及びグラデーションルールを用いて、発話テキストグループに対応するアノテーション表現情報を決定する。
 図8に示すグラデーションルールを用いた例では、表示準備部24は、発話テキストグループに含まれる発話テキストの中に、対象データにおける最初の発話テキストが含まれ、最後の発話テキストが含まれない場合、アノテーション表現情報が、始点から終点に向かうほど、話題に対応する色から白色に連続的に変化するグラデーション(グレー色から白色へのグラデーション)であると決定する。これにより、表示準備部24は、図9に示すように、表示準備部24は、判定単位ID「1」~「6」に対応する発話テキストによって構成されるグループのアノテーション表現情報が、始点から終点に向かうほど、グレー色から白色に連続的に変化するグラデーションであると決定する。ここで、グレー色は、配色ルールにおいて「オープニング」に対応している色である。
 また、図8に示すグラデーションルールを用いた例では、表示準備部24は、発話テキストグループに含まれる発話テキストの中に、対象データにおける最初の発話テキストが含まれず、最後の発話テキストが含まれない場合、アノテーション表現情報が、始点から中点に向かうほど、白色から該話題に対応する色に連続的に変化し、中点から終点に向かうほど、話題に対応する色から白色に連続的に変化するグラデーション(両端が白色で中心が緑色のグラデーション)であると決定する。ここで、中点は、配列方向における始点と終点との中間の点である。これにより、表示準備部24は、図9に示すように、判定単位ID「7」及び「8」に対応する発話テキストによって構成されるグループのアノテーション表現情報が、始点から中点に向かうほど、白色から緑色に連続的に変化し、中点から終点に向かうほど、緑色から白色に連続的に変化するグラデーションであると決定する。ここで、緑色は、配色ルールにおいて「事故状況」に対応している色である。同様にして、表示準備部24は、判定単位ID「9」~「14」に対応する発話テキストによって構成されるグループのアノテーション表現情報が、始点から中点に向かうほど、白色から青色に連続的に変化し、中点から終点に向かうほど、青色から白色に連続的に変化するグラデーション(両端が白色で中心が青色のグラデーション)であると決定する。ここで、青色は、配色ルールにおいて「ケガ状況」に対応している色である。
 また、図8に示すグラデーションルールを用いた例では、表示準備部24は、発話テキストグループに含まれる発話テキストの中に、対象データにおける最初の発話テキストが含まれず、最後の発話テキストが含まれる場合、該発話テキストグループに対応するアノテーション表現情報が、始点から終点に向かうほど、白色から話題に対応する色に連続的に変化するグラデーションであると決定する。これにより、表示準備部24は、図9に示すように、判定単位ID「15」に対応する発話テキストによって構成されるグループのアノテーション表現情報が、始点から終点に向かうほど、オレンジ色から白色に連続的に変化するグラデーション(白色からオレンジ色へのグラデーション)であると決定する。ここで、オレンジ色は、配色ルールにおいて「修理状況」に対応している色である。
 また、図8に示すグラデーションルールを用いた例では、表示準備部24は、発話テキストグループに含まれる発話テキストの中に、対象データにおける最初の発話テキストが含まれ、最後の発話テキストが含まれる場合、該発話テキストグループに対応するアノテーション表現情報が、グラデーション無しであると決定する。なお、図8の例では、最初の発話テキストが含まれ、最後の発話テキストが含まれる発話テキストグループはない。
 表示準備部24は、発話テキストグループのアノテーション表現情報を決定すると、全ての発話テキストのアノテーション表現情報が決定されたか否かを判定する。表示準備部24は、一部の発話テキストのアノテーション表現情報が決定されていないと判定すると、アノテーション表現情報が決定されていない発話テキストについて、発話テキストグループを形成し、該発話テキストグループのアノテーション表現情報を決定する処理を繰り返す。また、表示準備部24は、全ての発話テキストアノテーション表現情報が決定されたと判定すると、図9に示すように、判定単位ID、話者情報、発話テキスト、発話テキストグループそれぞれの話題、及びアノテーション表現情報を対応付けた表示用データを生成する。
 表示用データ記憶部25は、表示準備部24によって生成された表示用データを記憶する。
 表示用データ出力部26は、表示用データを出力する。表示用データ出力部26は、液晶パネル、有機EL等の表示装置4に表示用データを出力してもよいし、通信ネットワークを介して、他の装置に表示用データを出力してもよい。
 これにより、表示装置4は表示用データに基づいて表示画面を表示する。具体的には、図10に示すように、表示装置4は、表示用データに含まれる発話テキストを上述した系列で表示する。そして、表示装置4は、発話テキストに対応するアノテーション情報を、発話テキストに対応付けて表示し、さらに、アノテーション情報の背景色を表示用データに含まれるアノテーション表現情報が示す色のグラデーションで表示させる。なお、「オープニング」の背景色であるグレー色及び白色によるグラデーション、「事故状況」の背景色である緑色及び白色によるグラデーション、「ケガ状況」の背景に表示させる青色及び白色によるグラデーション、「ケガ状況」の背景色であるオレンジ色及び白色によるグラデーションは、図10において、いずれも黒色及び白色のグラデーションにより示されている。以降において参照する図17、19~23についても同様である。また、表示装置4は、発話テキスト及びアノテーションに対応付けて、発話ID及び話者情報の1つ以上をさらに表示してもよい。なお、表示用データ出力部26が、通信ネットワークを介して、他の装置に表示用データを送信する場合、該他の装置が、表示装置4と同様に、表示用データに基づいて表示画面を表示する。
 (表示用データ生成装置の動作)
 ここで、第2の実施形態に係る表示用データ生成装置2の動作について、図11を参照して説明する。図11は、第2の実施形態に係る表示用データ生成装置2における動作の一例を示すフローチャートである。図11を参照して説明する表示用データ生成装置2における動作は第2の実施形態に係る表示用データ生成装置2の表示方法に相当する。
 ステップS21において、入力部21が、発話テキスト系列、及び発話テキスト系列に含まれるテキストそれぞれに対応するアノテーション情報を含む対象データの入力を受け付ける。
 ステップS22において、表示準備部24が、入力部21によって入力を受け付けた対象データに含まれる発話テキストを分割する。
 ステップS23において、表示準備部24が、アノテーション情報が同一である、連続する発話テキストによって構成される発話テキストグループを形成する。
 ステップS24において、表示準備部24が、アノテーション情報、及び系列順序に基づいて、表示装置4が発話テキストを表示する際の、発話テキストとアノテーション情報との対応関係を表現するための、表示装置4の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示すアノテーション表現情報を決定する。本例では、表示準備部24が、発話テキストグループに対応する、色及びグラデーションを示すアノテーション表現情報を決定する。
 ステップS25において、表示準備部24が、全ての発話テキストグループに対応するアノテーション表現情報が決定されたか否かを判定する。
 ステップS25で、一部の発話テキストグループに対応するアノテーション表現情報が決定されていないと判定されると、ステップS23に戻って、表示準備部24が処理を繰り返す。また、ステップS25で、全ての発話テキストグループに対応するアノテーション表現情報が決定されたと判定されると、ステップS26において、表示準備部24が、発話テキスト系列及びアノテーション情報を、発話テキスト系列における系列に従って表示させるための表示用データであって、アノテーション表現情報が示す背景色を、アノテーション表現情報が示す位置及び範囲に表示させるための表示用データを生成する。
 ステップS27において、表示用データ記憶部25が、表示用データを記憶する。
 以降において、表示用データ出力部26は、任意のタイミングに、表示用データを出力する。表示用データ出力部26は、表示装置4に表示用データを出力してもよいし、通信ネットワークを介して、他の装置に表示用データを出力してもよい。任意のタイミングは、例えば、入力部21に表示命令が入力されたタイミングとすることができる。これにより、表示装置4は表示用データに基づいて表示画面を表示する。具体的には、表示装置4は、表示用データに基づいて、発話テキスト及びアノテーション情報を表示し、該アノテーション表現情報が示す背景色を該アノテーション表現情報が示す位置及び範囲に表示する。
 なお、上述においては、表示用データ生成装置2は、ステップS22の処理を実行したが、この限りではない。例えば、表示用データ生成装置2は、ステップS22の処理を実行しなくてもよい。
 ここで、第2の実施形態における、第1の実施形態と比較した効果を説明する。
 複数の話者が発した複数の発話テキストを含む対象データにおいて、1つの発話テキストの話題が1つのみでないことがある。例えば、1つの発話テキストに対応して複数の話題が解釈され得ることがあり、また、1つの発話テキストの途中で話題が切り替わることがある。このような場合、利用者が話題を正確に認識するように、発話テキスト及び話題を表示することは難しい。例えば、発話テキストに対応する複数の話題のうちの1つの話題を、発話テキストに対応させて表示する場合、利用者は、該発話テキストに対応する他の話題を認識することができない。また、話題が途中で切り替わった発話テキストを切り替わりに応じて分割し、分割発話テキストごとに対応する話題を表示する場合、利用者は、分割発話テキストを参照しただけでは該発話テキストの内容を理解しにくいことがある。言い換えれば、発話テキストが、シーンの推定結果等のラベル(アノテーション情報)毎にまとめて表示された場合、利用者はラベル毎に発話テキストを認識可能である。しかし、発話テキストは必ずしも1つのラベルを対応するとは限らず、複数のラベルが対応可能な場合は、アノテーション情報を利用者が認識し易いように可視化することは困難であった。例えば、1つの発話テキストに対応するラベルの解釈が複数考えられる場合や、発話テキストが長く途中で対応するラベルが変わる場合等である。
 図2に示す対象データを例に説明すると、発話テキスト系列の初期における「では、今回の事故についていくつか状況を確認させてください。」という発話テキストは、オープニングの決まり文句であるため、該発話テキストの話題が「オープニング」であると解釈される。また、該発話テキストは、「事故についていくつか状況」という句を含むため、該発話テキストの話題が「事故状況」であるとも解釈される。このような場合、上記の発話テキストに対応して2つの話題「オープニング」及び「事故状況」が表示されると、利用者は、発話テキストの話題を理解しにくいことがある。また、上記の発話テキストに対応して2つの話題「オープニング」及び「事故状況」のどちらか一方が表示されると、利用者は、他方の話題を認識することができない。
 また、図2に示す例においては、カスタマによって「後ろのバンパーが壁に当たり外れてしまい、衝撃を受けました」(発話ID「7」)という発話テキストが発せられた後、オペレータによって「それは大変でした。お体が心配ですね。大丈夫でしたか?」(発話ID「8」)という発話テキストが発せられたことが示されている。ここで、「それは大変でした。」という発話テキストの話題が「事故状況」であり、「お体が心配ですね。」及び「大丈夫でしたか?」という発話テキストの話題が「ケガ状況」である。この場合、句点により発話テキストを分割して「それは大変でしたね。」、「お体が心配ですね。」、及び「大丈夫でしたか?」の発話テキストそれぞれに対応する話題が表示されると、利用者は、「大丈夫でしたか?」の発話テキストが指す対象を理解しにくく、これに伴い対象データの内容を認識することが困難となる。
 これに対して、第2の実施形態によれば、表示データ生成装置2は、テキスト系列における系列の前後でアノテーション情報が異なる境界に向けて徐々に背景色が変化するように、アノテーション表現情報を決定する。これにより、表示データ生成装置2は、1つの発話テキストに複数のアノテーション情報が対応する場合であっても、アノテーション情報を可視化することができる。これにより、利用者は、発話テキストの話題が、色によって示される話題であることとともに、発話テキストの話題が、色によって示されない話題である可能性があることを認識することができる。図10に示す例では、利用者は、発話ID「7」に対応する発話テキストの話題が「事故状況」であるとともに、「ケガ状況」であるかもしれないと認識することができる。このため、発話ID「7」に続く、発話ID「8」に対応する発話テキストに含まれる「大変でしたね。」の対象が「ケガ状況」であるかもしれないと理解することができる。したがって、利用者は、発話テキスト関連情報を該情報の背景色により直感的に把握し、発話テキストを含む対象データの内容を迅速かつ適切に認識することができる。
 同様にして、話題「オープニング」(発話ID「1」~「5」)の背景は、始点から終点に向かってグレー色から白色に変化するグラデーションで表示される。さらに、話題「事故状況」(発話ID「6」及び「7」)の背景は、始点から中点に向かって白色から緑色に変化するグラデーションで表示される。このため、利用者は、話題「オープニング」(発話ID「1」~「5」)に対応する、発話テキストグループの最後にあるID「5」に対応する発話テキストの話題が「オープニング」であるとともに、「事故状況」であるかもしれないと認識することができる。これによっても、利用者は、発話テキスト関連情報を該情報の背景色により直感的に把握し、発話テキストを含む対象データの内容を迅速かつ適切に認識することができる。
 また、仮に、発話テキストが分割されずに、「それは大変でした。お体が心配ですね。大丈夫でしたか?」という発話テキストが、分割されずにグラデーション表示された場合、グラデーションの範囲が狭くなり、利用者は、どこまでが「事故状況」であるか、どこからが「ケガ状況」であるか分かりにくいことがある。これに対して、本実施形態では、表示データ生成装置2は、図10の発話ID8に示すように、例えば句点で3つに分割された発話テキストをグラデーション表示するため、利用者は、グラデーションの範囲が広がり、「事故状況」と「ケガ状況」の境界を直感的に把握しやすくなる。
 <第3の実施形態>
 図12を参照して第3の実施形態の表示用データ生成装置3の全体構成について説明する。図12は、本実施形態に係る表示用データ生成装置3の概略図である。
 (表示用データ生成装置の機能構成)
 図12に示されるように、第3の実施形態に係る表示用データ生成装置3は、入力部31と、対象データ記憶部32と、表示ルール記憶部33と、表示準備部34と、表示用データ記憶部35と、表示用データ出力部36とを備える。入力部31は、第2の実施形態の入力部21と同様に、情報の入力を受け付ける入力インターフェースによって構成される。対象データ記憶部32、表示ルール記憶部33、及び表示用データ記憶部35は、第2の実施形態の対象データ記憶部22、表示ルール記憶部23、及び表示用データ記憶部25と同様に、メモリによって構成される。また、表示準備部34及び表示用データ出力部36は、第2の実施形態の表示準備部24と同様に、制御部を構成する。
 入力部31は、図13に示すような、発話テキスト系列、及び発話テキスト系列に含まれるテキストそれぞれに対応するアノテーション情報を含み、さらに、アノテーション情報の確からしさを示す確度を含む対象データの入力を受け付ける。対象データは、話者情報をさらに含んでもよい。話題の確度は、発話テキストに対して任意のアルゴリズムによって判定されてもよいし、利用者の操作によって入力されてもよい。第3の実施形態においても、アノテーション情報は、発話テキストの内容が属する話題であるが、この限りではない。
 対象データ記憶部32は、入力部31によって入力を受け付けた対象データを記憶する。
 表示ルール記憶部33は、表示準備部34が、アノテーション情報に基づいて発話テキストのアノテーション表現情報を決定するためのルールを記憶している。表示ルール記憶部33は、色記憶部331と、グラデーションルール記憶部332とを含む。色記憶部331は、第2の実施形態に係る表示用データ生成装置2の色記憶部231と同様である。
 グラデーションルール記憶部332は、表示用データ出力部36が、発話テキスト関連情報を表示し、該情報の背景を表示するにあたって用いられるアノテーション表現情報を決定するための、図14に示すようなグラデーションルールを記憶している。第3の実施形態におけるグラデーションルールは、アノテーション情報と、発話テキストの系列と、アノテーション情報の確度に基づいて決定されるグラデーションである。
 図15は、確度が60%である場合に、図14に示す「話題の最後の発話テキストで、次の話題が続く」のグラデーションルールを適用した例を示す図である。「話題の最後の発話テキストで、次の話題が続く」とは、発話テキストの話題が、該発話テキストの次に発せられた発話テキストの話題とは異なることを示す。
 図15に示すように、決定の対象となる発話テキストが「話題の最後の発話テキストで、次の話題が続く」場合であって、話題の確度が100%ではない場合、アノテーション表現情報は、始点から終点までを100%としたときに、始点から話題の確度に対応する位置(図15の例では、60%の位置)までが該話題に対応する色であり、該位置から終点に向かうほど、該話題に対応する色から白色に変化するグラデーションである。ここで、始点とは、第2の実施形態と同様に、対象データに含まれる発話を発話テキスト系列で配列方向(後述において参照する図17に示す例では上から下に向かう方向)に表示した場合の、話題を表示する欄(1つの発話テキスト)における、上記配列方向の始点側の端部(図17に示す例では上側の端部)である。終点は、話題を表示する欄(1つの発話テキスト)における、上記配列方向の終点側の端部(図17に示す例では下側の端部)である。また、決定の対象となる発話テキストが「話題の最後の発話テキストで、次の話題が続く」場合であって、話題の確度が100%である場合、アノテーション表現情報は、該話題に対応する色でグラデーション無しである。
 図14に示す例のグラデーションルールでは、決定の対象となる発話テキストと、該発話テキストに対応付けられた話題との関係性が、「話題の最初の発話テキストで、前から話題が続く」場合であって、話題の確度が100%でない場合には、アノテーション表現情報は、始点から(100-話題の確度)%に対応する位置に向かうほど、白色から該話題に対応する色に変化するグラデーションであり、(100-話題の確度)%に対応する位置から終点まで、該話題に対応する色である。なお、「話題の最初の発話テキストで、前から話題が続く」とは、発話テキストの話題が、該話題テキストの前に発せられた発話テキストの話題とは異なることを示す。また、決定の対象となる発話テキストと、該発話テキストに対応付けられた話題との関係性が、「話題の最初の発話テキストで、前から話題が続く」場合であって、話題の確度が100%である場合には、アノテーション表現情報は、該話題に対応する色でグラデーション無しである。
 また、決定の対象となる発話テキストと、該発話テキストに対応付けられた話題との関係性が「話題が途中で切り替わる発話テキスト」である場合、アノテーション表現情報は、始点から話題の確度に対応する位置まで、切り替わり前の話題の色から白色となるグラデーションであり、話題の確度に対応する位置から終点まで、白色から切り替わり後の話題の色となるグラデーションである。
 また、決定の対象となる発話テキストが上記のいずれの条件も満たさない場合、アノテーション表現情報は、始点から終点まで、発話テキストの話題の色でグラデーション無しである。
 表示準備部34は、発話テキスト系列における系列の前後でアノテーション情報が異なる境界に向けて徐々に背景色が変化するように、アノテーション表現情報を決定する。本実施形態では、表示準備部34は、確度にさらに基づいてアノテーション表現情報を決定する。表示準備部34は、確度にさらに基づいて背景色が変化する度合いを示すアノテーション表現情報を決定してもよい。第3の実施形態において、アノテーション表現情報は、色及びグラデーションを示す情報である。このとき、表示準備部34は、発話テキストを分割し、分割発話テキスト、該発話テキストのアノテーション情報、及び系列に基づいてアノテーション表現情報を決定してもよい。
 具体的には、まず、表示準備部34は、第2の実施形態の表示準備部24と同様に、入力部11によって入力を受け付けた対象データに含まれる発話テキストを分割する。なお、表示準備部34は、第2の実施形態の表示準備部24と同様に、発話テキストを分割する処理を行わなくてもよい。このような構成において、例えば、対象データに含まれる発話テキストは、分割発話テキストであってもよい。なお、図16に示す例では、表示準備部34は、発話テキストを分割しておらず、そのため、表示用データにおける判定単位IDに対応する発話テキストは、図13に示す対象データにおける発話IDに対応する発話テキストと同じである。
 表示準備部34は、配色ルール及びグラデーションルールを用いて、発話テキストに対応する色及びグラデーションを決定する。図14に示すグラデーションルールを用いた例では、表示準備部34は、発話テキストのアノテーション情報と、発話テキスト系列において該発話テキストの前又は後に配列されている発話テキストのアノテーション情報に基づいてアノテーション表現情報を決定する。具体的には、表示準備部34は、決定の対象となる発話テキストが「話題の最後の発話テキストで、次の話題が続く」場合であって、話題の確度が100%ではない場合、アノテーション表現情報が、話題の確度までが該話題に対応する色であり、話題の確度から該話題に対応する色から白色に変化するグラデーションであると決定する。
 また、図14に示すグラデーションルールを用いた例では、表示準備部34は、発話テキストが「話題の最初の発話テキストで、前から話題が続く」場合であって、話題の確度が100%ではない場合、アノテーション表現情報が、話題の確度までが該話題に対応する色であり、話題の確度から該話題に対応する色から白色に変化するグラデーションであると決定する。また、表示準備部34は、決定の対象となる発話テキストが「話題の最後の発話テキストで、次の話題が続く」場合も、「話題の最初の発話テキストで、前から話題が続く」場合も、話題の確度が100%である場合には、アノテーション表現情報は、該話題に対応する色でグラデーション無しであると決定する。
 また、図14に示すグラデーションルールを用いた例では、表示準備部34は、発話テキストが「話題が途中で切り替わる発話テキスト」である場合、アノテーション表現情報が、話題の確度まで、切り替わり前の話題の色から白色となるグラデーションとし、話題の確度から、白色から切り替わり後の話題の色となるグラデーションであると決定する。
 また、図14に示すグラデーションルールを用いた例では、表示準備部34は、決定の対象となる発話テキストが上記のいずれの条件も満たさない場合、アノテーション表現情報が、発話テキストの話題の色でグラデーション無しであると決定する。
 また、表示準備部34は、発話テキストのアノテーション表現情報を決定すると、全ての発話テキストのアノテーション表現情報が決定されたか否かを判定する。表示準備部34は、一部の発話テキストのアノテーション表現情報が決定されていないと判定すると、アノテーション表現情報が決定されていない発話テキストについて、発話テキストのアノテーション表現情報を決定する処理を繰り返す。また、表示準備部34は、全ての発話テキストのアノテーション表現情報が決定されたと判定すると、対象データに含まれる発話テキストそれぞれにアノテーション表現情報を対応付けた表示用データを生成する。
 表示用データ記憶部35は、表示準備部34によって生成された表示用データを記憶する。
 表示用データ出力部36は、表示用データを出力する。表示用データ出力部36は、液晶パネル、有機EL等の表示装置4に表示用データを出力してもよいし、通信ネットワークを介して、他の装置に表示用データを出力してもよい。
 これにより、表示装置4は表示用データに基づいて表示画面を表示する。具体的には、図17に示すように、表示装置4は、表示用データに含まれる発話テキストと、該発話テキストに対応するアノテーション情報を対応付けて表示し、さらに、アノテーション情報の背景色を表示用データに含まれるアノテーション表現情報が示すように色のグラデーションで表示する。また、表示装置4は、発話テキストに対応付けて、ID及び話者情報の1つ以上をさらに表示装置4に表示させてもよい。なお、表示用データ出力部36が、通信ネットワークを介して、他の装置に表示用データを送信する場合、該他の装置が、表示装置4と同様に、表示用データに基づいて表示画面を表示する。
 (表示用データ生成装置の動作)
 ここで、第3の実施形態に係る表示用データ生成装置3の動作について、図18を参照して説明する。図18は、第3の実施形態に係る表示用データ生成装置3における動作の一例を示すフローチャートである。図18を参照して説明する表示用データ生成装置3における動作は第3の実施形態に係る表示用データ生成装置3の表示方法に相当する。
 ステップS31において、入力部31が、発話テキスト系列、発話テキスト系列に含まれる発話テキストそれぞれに対応するアノテーション情報、及びアノテーション情報の確度を含む対象データの入力を受け付ける。
 ステップS32において、表示準備部34が、入力部31によって入力を受け付けた対象データに含まれる発話テキストを分割する。
 ステップS33において、表示準備部34が、アノテーション情報、及び系列順序に加え、アノテーション情報の確度にさらに基づいて、表示装置4が発話テキストを表示する際の、発話テキストとアノテーション情報との対応関係を表現するための、表示装置4の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示すアノテーション表現情報を決定する。具体的には、表示準備部24が、発話テキストに対応する、色及びグラデーションを示すアノテーション表現情報を決定する。
 ステップS34において、表示準備部34が、全ての発話テキストのアノテーション表現情報が決定されたか否かを判定する。
 ステップS34で、一部の発話テキストのアノテーション表現情報が決定されていないと判定されると、ステップS33に戻って、表示準備部34が処理を繰り返す。また、ステップS34で、全ての発話テキストのアノテーション表現情報が決定されたと判定されると、ステップS35において、表示準備部34が、発話テキスト系列及びアノテーション情報を、発話テキスト系列における系列に従って表示させるための表示用データであって、アノテーション表現情報が示す背景色を、アノテーション表現情報が示す位置及び範囲に表示させるための表示用データを生成する。
 ステップS36において、表示用データ記憶部35が、表示用データを記憶する。
 以降において、表示用データ出力部36が、任意のタイミングに、表示用データを出力する。表示用データ出力部36は、表示装置4に表示用データを出力してもよいし、通信ネットワークを介して、他の装置に表示用データを出力してもよい。任意のタイミングは、例えば、入力部31に表示命令が入力されたタイミングとすることができる。これにより、表示装置4は表示用データに基づいて表示画面を表示する。具体的には、表示装置4は、表示用データに基づいて、発話テキスト及びアノテーション情報を表示し、該アノテーション表現情報が示す背景色を該アノテーション表現情報が示す位置及び範囲に表示する。
 なお、上述においては、表示用データ生成装置3は、ステップS32の処理を実行したが、この限りではない。例えば、表示用データ生成装置3は、ステップS32の処理を実行しなくてもよい。
 上述したように、第3の実施形態によれば、対象データは、アノテーション情報の確からしさを示す確度をさらに含み、表示準備部34は、確度にさらに基づいてアノテーション表現情報を決定する。これにより、利用者は、発話テキストに対応するアノテーション情報が、色に対応するアノテーション情報であることを認識するとともに、該アノテーション情報が、色に対応しないアノテーション情報であるかもしれないことを認識することができる。さらに、利用者は、発話テキストに対応するアノテーション情報が、色に対応するアノテーション情報である確からしさを直感的に把握することができる。したがって、利用者は、発話テキストを含む対象データの内容をより迅速かつ適切に理解することができる。
 なお、上述した第2の実施形態において、表示用データ生成装置2は、複数の話者から発せられた発話テキストを同一の列に、表示したが、この限りではない。例えば、図19に示すように、表示用データ生成装置3は、一方の話者から発せられた発話テキストと、他方の話者から発せられた発話テキストを異なる列に表示させ、発話テキストが表示される行にアノテーション情報を表示させ、アノテーション情報の背景にグラデーションを表示させる。図19に示す例では、表示用データ生成装置2は、画面の上から下向かって、発話テキスト系列で配列されるように発話テキストを表示装置4に表示させる。本例の対象データ関し、対話において、オペレータによって、発話ID「8」に対応する発話テキスト「大丈夫でしたか?」が発せられたのとほぼ同時に、カスタマによって、発話ID「9」に対応する発話テキスト「はい、大丈夫です。」が発せられている。このような場合、図10に示す例では、複数の話者が同時に発した発話テキストの一方が先に表示され、他方が後に表示される。これに対して、対象データに発話テキストが発せられた時刻が含まれることによって、図19に示す例では、表示用データ生成装置2は、対象データに含まれる時刻に基づいて、複数の話者がほぼ同時に発した発話テキストを同じ行に表示させることができる。これによって、利用者は、複数の話者それぞれによる複数の発話テキストが同時に発せられたことを明確に理解することができる。したがって、表示用データ生成装置2によって表示された、対象データに基づく発話テキストを参照する利用者は、各話者によって発せられた発話テキストを容易に把握することができ、対象データの内容を効率的に認識することができる。また、第1の実施形態に係る表示用データ生成装置1、及び第3の実施形態係る表示用データ生成装置3についても同様である。
 また、表示用データ生成装置2の表示準備部24は、さらに、複数の発話テキストのうちの重要な発話テキストを判定してもよい。表示準備部24は、任意のアルゴリズムにより重要な発話テキストを判定することができる。例えば、表示用データ生成装置2は、大量の重要な発話テキストに基づいて予め学習により生成されたモデルを用いて判定してもよいし、予め重要な語句をメモリに記憶し、メモリに記憶された語句が含まれる発話テキストを重要な発話テキストと判定してもよい。また、表示準備部24は、利用者の操作に基づいて、重要な発話テキストを判定してもよい。このような構成において、図20に示すように、表示用データ出力部26は、重要な発話テキストであると判定された発話テキストにハイライトを付して表示装置4に表示させる。例えば、表示用データ生成装置2は、重要な発話テキストでないと判定された発話テキスト(他の発話テキスト)を示す文字を黒色で表示装置4に表示させ、重要な発話テキストであると判定された発話テキストを示す文字を、他の発話テキストとは異なる色(例えば、赤色)で表示装置4に表示させてもよい。なお、図20に示す例では、重要な発話テキストは太文字により示されているが、ハイライトはこの限りではない。これにより、利用者は、重要な発話テキストを容易に把握することができ、対象データの内容を効率的に認識することができる。また、第1の実施形態に係る表示用データ生成装置1、及び第3の実施形態係る表示用データ生成装置3についても同様である。
 また、図21に示すように、表示用データ生成装置2の表示用データ出力部26は、さらに、重要な発話テキストであると判定されなかった発話テキストを表示せず、重要な発話テキストであると判定された発話テキストのみを表示してもよい。これにより、利用者は、重要な発話テキストをより容易に把握することができ、対象データの内容をより効率的に認識することができる。また、このような構成において、表示用データ出力部26は、利用者の操作により、他の発話テキストを表示する状態と、他の発話テキストを表示しない状態とを切り替えてもよい。例えば、利用者は、他の発話テキストが表示されなかったことにより対象データの全体を理解することができないと判定した場合、他の発話テキストを表示するための操作を行い、他の発話テキストを参照して対象データの全体を理解するよう努めることができる。また、第1の実施形態に係る表示用データ生成装置1、及び第3の実施形態係る表示用データ生成装置3についても同様である。
 また、上述した第2の実施形態において、アノテーション情報は話題であるが、この限りではない。図22に示すように、アノテーション情報は、発話テキストが発せられる場面を示す「シーン」としてもよい。本例において、「シーン」とは、オペレータとカスタマの対話における場面の種類で発話テキストを分類したもの。例えば、オペレータによる自身の名前を名乗るあいさつから始まり、カスタマが電話をかけてきた用件を話し、オペレータがその用件を確認し,契約者や契約内容を確認したうえでオペレータが用件への対応を行い,最後にお礼を述べて対話が終了するまでの流れを「オープニング」、「問い合わせ把握」、「対応」、「クロージング」等の場面に分類したものを指す。このようなシーンの推定結果は、発話テキストに対してラベルとして付与される。
 例えば、オペレータがカスタマから受電するインバウンド形式のコールセンタにおいては、各項目は、「オープニング」、「問合せ把握」、「本人確認」、「対応」、及び「クロージング」を含んでもよい。また、表示用データ生成装置2の表示用データ出力部26は、対象データに含まれる発話テキストを表示し、情報に関する部分である発話テキストの背景を色のグラデーションで表示装置4に表示させてもよい。つまり、本例において、情報に関する部分は、発話テキストの背景である。さらに、表示用データ出力部26は、「通話全体」ボタン、アノテーション情報であるシーンに含まれる各項目を示すボタンを表示装置4に表示させてもよい。
 このような構成において、利用者の操作によっていずれかのボタンが操作されると、入力部21によって当該操作がされたことを示す情報が受け付けられ、表示装置4は、該情報に基づいて発話テキストを表示する。
 例えば、利用者の操作によって「通話全体」ボタンが押下されると、入力部21によって、「通話全体」ボタンの押下を示す情報が受け付けられる。そして、表示装置4は、該情報に基づいて、対象データに含まれる発話テキストの全体を表示する。また、利用者の操作によって「オープニング」ボタンが押下されると、入力部21によって、「オープニング」ボタンの押下を示す情報が受け付けられる。そして、表示装置4は、該情報に基づいて、対象データに含まれる、シーンが「オープニング」である発話テキストを表示する。
 また、表示装置4は、利用者の操作によって「問合せ把握」ボタンが押下されると、「問合せ把握」に関する詳細情報を表示してもよい。「問合せ把握」に関する詳細情報は、「問合せ把握」のシーンに対応する発話テキストに基づいて任意のアルゴリズムによって生成された「主題」、「用件」、及び「用件確認」の少なくとも一つを含むことができる。表示装置4は、「用件」及び「用件確認」とともに、「主題」、「用件」、及び「用件確認」をそれぞれ変更する操作を行うための操作用オブジェクトを表示してもよい。なお、表示装置4は、利用者の操作によって「通話全体」ボタンが押下された場合にも、「問合せ把握」に関する詳細情報を表示してもよい。
 また、表示装置4は、利用者の操作によって「本人確認」ボタンが押下されると、「本人確認」に関する詳細情報を表示してもよい。「本人確認」に関する詳細情報は、「本人確認」のシーンに対応する発話テキストに基づいて任意のアルゴリズムによって生成された、カスタマの「氏名」、「住所」、及び「電話番号」の少なくとも一つを含むことができる。表示用データ出力部26は、「氏名」、「住所」、及び「電話番号」のとともに、「氏名」、「住所」、及び「電話番号」のをそれぞれ変更する操作を行うための操作用オブジェクトを表示装置4に表示させてもよい。なお、表示用データ出力部26は、利用者の操作によって「通話全体」ボタンが押下された場合にも、「本人確認」に関する詳細情報を表示装置4に表示させてもよい。
 また、表示装置4は、対象データに含まれる発話テキストの表示に伴い、対象データに含まれる発話テキストが発せられた時間帯を表示してもよい。また、表示装置4は、発話テキストの近傍に、該発話テキストに相当する音声データを再生するための音声再生ボタン(図22の三角形で示す矢印)を表示してもよい。このような構成において、表示用データ生成装置2は、利用者によって音声再生ボタンが押下されると、音声データを再生する。
 なお、第1の実施形態に係る表示用データ生成装置1、及び第3の実施形態係る表示用データ生成装置3が図22を参照して説明した態様を同様にして実行することもできる。
 図22を参照して説明した態様において、アノテーション情報は、「シーン」であるが、図23に示すように、アノテーション情報は、「シーン」と、発話テキストが発せられた際の行為の種類を示す「対話行為種別」との両方であってもよい。例えば、オペレータがカスタマに対して発信するアウトバウンド形式のコールセンタにおいて、「シーン」は、「オープニング」、「怪我」、「自走」、「等級」、「保険対応」、「修理状況」、「事故状況」、「連絡先」、及び「クロージング」を含んでもよい。また、表示用データ生成装置2から表示用データを出力された表示装置4は、対象データに含まれる発話テキストの背景色をグラデーションで表示させてもよい。また、本例では、「対話行為種別」は、「問診」、「説明」、「質問」、及び「回答」を含んでもよい。「問診」は、オペレータがカスタマにヒアリングしている発話テキストであり、「説明」は、オペレータがカスタマに説明している発話テキストであり、「質問」は、カスタマがオペレータに質問している発話テキストであり、「回答」は、カスタマがオペレータのヒアリングに対して回答している発話テキストである。
 表示装置4は、「通話全体」ボタン、アノテーション情報である「シーン」に含まれる各項目を示すボタン、及びアノテーション情報である「対話行為種別」に含まれる各項目を示すボタンを表示してもよい。このような構成において、利用者の操作によっていずれかのボタンが操作されると、入力部21によって当該操作がされたことを示す情報が受け付けられ、表示装置4は、該情報に基づいて発話テキストを表示する。なお、本例では、「対話行為種別」に含まれる各項目を示すボタンは、1つ又は2以上のボタンが選択され得るようにチェックボタンによって構成されているが、この限りではなく、任意の態様のボタンを適宜採用することができる。図23に示す例では、「回答」ボタンがチェックされており、アノテーション情報として「対話行為種別」が「回答」と対応付けられている発話テキストのみを表示する。
 また、図22を参照して説明した態様と同様に、表示装置4は、対象データに含まれる発話テキストの表示に伴い、話者情報、及び対象データに含まれる発話テキストが発せられた時間帯を表示してもよい。また、表示装置4は、発話テキストを表示させている部分の近傍に、該発話テキストに相当する音声データを再生するための音声再生ボタン(図23の三角形で示す矢印)を表示させてもよい。このような構成において、表示用データ生成装置2は、利用者によって音声再生ボタンが押下されると、音声データを再生する。
 なお、第1の実施形態に係る表示用データ生成装置1、及び第3の実施形態係る表示用データ生成装置3は、図23を参照して説明した態様を同様にして実行することができる。
 また、上述した第2の実施形態において、色記憶部331が記憶しているアノテーション情報に対応する色は互いに異なっているが、この限りではなく、アノテーション情報が対応する色が互いに同じであってもよい。このような構成においても、表示用データ出力部36は、グラデーションルール記憶部232に記憶されているグラデーションルールに基づいて、表示準備部34によって生成された、色及びグラデーションを示すアノテーション表現情報に基づいて背景を色のグラデーションで表示装置4に表示させることができる。したがって、利用者は、発話テキストグループに対応する話題が1つではなく、複数の話題に解釈され得ることを認識することができる。また、このような構成において、表示用データ生成装置2は、色記憶部231を備える必要がないため、メモリ容量を低減することができる。なお、第3の実施形態についても同様である。
 また、上述した第1から第3の実施形態において説明した表示の態様、グラデーションルール等は一例であり、本発明がこれらに限定されることはない。また、第1から第3の実施形態に係る表示用データ生成装置1~3は、オペレータが応対の履歴を作成する際に使う様々な機能をさらに備えてもよい。例えば、表示用データ生成装置1~3は、話題ごとに発話テキストを表示する機能、発話テキスト及び話題を編集する機能、発話テキストを検索する検索機能、対象データを比較する比較機能等をさらに備えてもよい。
 <表用データ生成プログラム>
 上述した表示用データ生成装置1として機能させるために、それぞれプログラム命令を実行可能なコンピュータ100を用いることも可能である。図24は、表示用データ生成装置1としてそれぞれ機能するコンピュータ100の概略構成を示すブロック図である。ここで、コンピュータ100は、汎用コンピュータ、専用コンピュータ、ワークステーション、PC(Personal Computer)、電子ノートパッド等であってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメント等であってもよい。同様にして、表示用データ生成装置2として機能させるために、それぞれプログラム命令を実行可能なコンピュータ100を用いることも可能であり、表示用データ生成装置3として機能させるために、それぞれプログラム命令を実行可能なコンピュータ100を用いることも可能である。
 <ハードウェア構成>
 図24に示すように、コンピュータ100は、プロセッサ110と、ROM(Read Only Memory)120と、RAM(Random Access Memory)130と、ストレージ140と、入力部150と、出力部160と、通信インターフェース(I/F)170と、を備える。各構成は、バス180を介して相互に通信可能に接続されている。プロセッサ110は、具体的にはCPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)、SoC(System on a Chip)等であり、同種又は異種の複数のプロセッサにより構成されてもよい。
 プロセッサ110は、各構成の制御、及び各種の演算処理を実行する。すなわち、プロセッサ110は、ROM120又はストレージ140からプログラムを読み出し、RAM130を作業領域としてプログラムを実行する。プロセッサ110は、ROM120又はストレージ140に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を実行する。本実施形態では、ROM120又はストレージ140に、本開示に係るプログラムが格納されている。
 プログラムは、コンピュータ100が読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータ100にインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性(non-transitory)の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROM、USB(Universal Serial Bus)メモリ等であってもよい。また、このプログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
 ROM120は、各種プログラム及び各種データを格納する。RAM130は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ140は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム及び各種データを格納する。
 入力部150は、ユーザの入力操作を受け付けて、ユーザの操作に基づく情報を取得する1つ以上の入力インターフェースを含む。例えば、入力部150は、ポインティングデバイス、キーボード、マウス等であるが、これらに限定されない。
 出力部160は、情報を出力する1つ以上の出力インターフェースを含む。例えば、出力部160は、情報を映像で出力するディスプレイ、又は情報を音声で出力するスピーカを制御するが、これらに限定されない。
 通信インターフェース170は、外部の装置等の他の機器と通信するためのインターフェースであり、例えば、イーサネット(登録商標)、FDDI、Wi-Fi(登録商標)等の規格が用いられる。
 以上の実施形態に関し、更に以下の付記を開示する。
 (付記項1)
 制御部を備える表示用データ生成装置であって、
 前記制御部は、
 テキスト系列、及び前記テキスト系列に含まれるテキストそれぞれに対応するアノテーション情報を含む対象データの入力を受け付け、
 前記アノテーション情報に基づいて、表示装置が前記テキストを表示する際の、前記テキストと前記アノテーション情報との対応関係を表現するための、前記表示装置の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示すアノテーション表現情報を決定し、前記テキスト系列及び前記アノテーション情報を、前記テキスト系列における系列に従って表示させるための表示用データであって、前記アノテーション表現情報が示す前記背景色を、前記アノテーション表現情報が示す前記位置及び前記範囲に表示させるための前記表示用データを生成する表示用データ生成装置。
 (付記項2)
 前記制御部は、前記テキスト系列における系列の前後で前記アノテーション情報が異なる境界に向けて徐々に前記背景色が変化するように、前記アノテーション表現情報を決定する、付記項1に記載の表示用データ生成装置。
 (付記項3)
 前記対象データは、前記アノテーション情報の確からしさを示す確度をさらに含み、
 前記制御部は、前記確度にさらに基づいて前記アノテーション表現情報を決定する、付記項2に記載の表示用データ生成装置。
 (付記項4)
 前記制御部は、前記確度にさらに基づいて前記背景色が変化する度合いを示す前記アノテーション表現情報を決定する、付記項3に記載の表示用データ生成装置。
 (付記項5)
 前記制御部は、前記発話テキストを分割し、前記分割された発話テキストの前記アノテーション表現情報を決定する、付記項1から4のいずれか一項に記載の表示用データ生成装置。
 (付記項6)
 前記表示用データは、前記アノテーション情報を含み、前記背景色を表示する位置及び範囲は、それぞれ前記アノテーション情報の表示位置及び表示範囲を含む、付記項1から5のいずれか一項に記載の表示用データ生成装置。
 (付記項7)
 テキスト系列、及び前記テキスト系列に含まれるテキストそれぞれに対応するアノテーション情報を含む対象データの入力を受け付けるステップと、
 前記アノテーション情報に基づいて、表示装置が前記テキストを表示する際の、前記テキストと前記アノテーション情報との対応関係を表現するための、前記表示装置の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示すアノテーション表現情報を決定し、前記テキスト系列及び前記アノテーション情報を、前記テキスト系列における系列に従って表示させるための表示用データであって、前記アノテーション表現情報が示す前記背景色を、前記アノテーション表現情報が示す前記位置及び前記範囲に表示させるための前記表示用データを生成するステップと、
を含む表示用データ生成方法。
 (付記項8)
 コンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、前記コンピュータを付記項1から6のいずれか一項に記載の表示用データ生成装置として機能させる、プログラムを記憶した非一時的記憶媒体。
 本明細書に記載された全ての文献、特許出願および技術規格は、個々の文献、特許出願、および技術規格が参照により取り込まれることが具体的かつ個々に記載された場合と同程度に、本明細書中に参照により取り込まれる。
 上述の実施形態は代表的な例として説明したが、本開示の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形又は変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
1、2、3       表示用データ生成装置
4           表示装置
11、21、31    入力部
12、22、32    対象データ記憶部
13、23、33    表示ルール記憶部
14、24,34    表示準備部
15、25、35    表示用データ記憶部
16、26、36    表示用データ出力部
131、231、331 色記憶部
232、332     グラデーションルール記憶部
100         コンピュータ
110         プロセッサ
120         ROM
130         RAM
140         ストレージ
150         入力部
160         出力部
170         通信インターフェース(I/F)
180         バス

Claims (8)

  1.  テキスト系列、及び前記テキスト系列に含まれるテキストそれぞれに対応するアノテーション情報を含む対象データの入力を受け付ける入力部と、
     前記アノテーション情報に基づいて、表示装置が前記テキストを表示する際の、前記テキストと前記アノテーション情報との対応関係を表現するための、前記表示装置の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示すアノテーション表現情報を決定し、前記テキスト系列及び前記アノテーション情報を、前記テキスト系列における系列に従って表示させるための表示用データであって、前記アノテーション表現情報が示す前記背景色を、前記アノテーション表現情報が示す前記位置及び前記範囲に表示させるための前記表示用データを生成する表示準備部と、
    を備える表示用データ生成装置。
  2. 前記表示準備部は、前記テキスト系列における系列の前後で前記アノテーション情報が異なる境界に向けて徐々に前記背景色が変化するように、前記アノテーション表現情報を決定する、請求項1に記載の表示用データ生成装置。
  3.  前記対象データは、前記アノテーション情報の確からしさを示す確度をさらに含み、
     前記表示準備部は、前記確度にさらに基づいて前記アノテーション表現情報を決定する、請求項2に記載の表示用データ生成装置。
  4.  前記表示準備部は、前記確度にさらに基づいて前記背景色が変化する度合いを示す前記アノテーション表現情報を決定する、請求項3に記載の表示用データ生成装置。
  5.  前記表示準備部は、前記テキストを分割し、前記分割されたテキストの前記アノテーション表現情報を決定する、請求項1から4のいずれか一項に記載の表示用データ生成装置。
  6.  前記表示用データは、前記アノテーション情報を含み、前記背景色を表示する位置及び範囲は、それぞれ前記アノテーション情報の表示位置及び表示範囲を含む、請求項1から5のいずれか一項に記載の表示用データ生成装置。
  7.  テキスト系列、及び前記テキスト系列に含まれるテキストそれぞれに対応するアノテーション情報を含む対象データの入力を受け付けるステップと、
     前記アノテーション情報に基づいて、表示装置が前記テキストを表示する際の、前記テキストと前記アノテーション情報との対応関係を表現するための、前記表示装置の表示画面の背景色、並びに該背景色を表示する位置及び範囲を示すアノテーション表現情報を決定し、前記テキスト系列及び前記アノテーション情報を、前記テキスト系列における系列に従って表示させるための表示用データであって、前記アノテーション表現情報が示す前記背景色を、前記アノテーション表現情報が示す前記位置及び前記範囲に表示させるための前記表示用データを生成するステップと、
    を含む表示用データ生成方法。
  8.  コンピュータを、請求項1から6のいずれか一項に記載の表示用データ生成装置として機能させるための表示用データ生成プログラム。
PCT/JP2021/013692 2021-03-30 2021-03-30 表示用データ生成装置、表示用データ生成方法、及び表示用データ生成プログラム WO2022208692A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2021/013692 WO2022208692A1 (ja) 2021-03-30 2021-03-30 表示用データ生成装置、表示用データ生成方法、及び表示用データ生成プログラム
JP2023509990A JPWO2022208692A1 (ja) 2021-03-30 2021-03-30
US18/552,865 US20240194165A1 (en) 2021-03-30 2021-03-30 Display data generation device, display data generation method, and display data generation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/013692 WO2022208692A1 (ja) 2021-03-30 2021-03-30 表示用データ生成装置、表示用データ生成方法、及び表示用データ生成プログラム

Publications (1)

Publication Number Publication Date
WO2022208692A1 true WO2022208692A1 (ja) 2022-10-06

Family

ID=83458404

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/013692 WO2022208692A1 (ja) 2021-03-30 2021-03-30 表示用データ生成装置、表示用データ生成方法、及び表示用データ生成プログラム

Country Status (3)

Country Link
US (1) US20240194165A1 (ja)
JP (1) JPWO2022208692A1 (ja)
WO (1) WO2022208692A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05143588A (ja) * 1991-10-30 1993-06-11 Oki Techno Syst Raboratori:Kk 文書編集装置
JP2011008355A (ja) * 2009-06-23 2011-01-13 Omron Corp Fmeaシートの作成支援システムおよび作成支援用のプログラム
WO2016056402A1 (ja) * 2014-10-10 2016-04-14 大日本印刷株式会社 文章表示装置、プログラム及び制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05143588A (ja) * 1991-10-30 1993-06-11 Oki Techno Syst Raboratori:Kk 文書編集装置
JP2011008355A (ja) * 2009-06-23 2011-01-13 Omron Corp Fmeaシートの作成支援システムおよび作成支援用のプログラム
WO2016056402A1 (ja) * 2014-10-10 2016-04-14 大日本印刷株式会社 文章表示装置、プログラム及び制御方法

Also Published As

Publication number Publication date
US20240194165A1 (en) 2024-06-13
JPWO2022208692A1 (ja) 2022-10-06

Similar Documents

Publication Publication Date Title
US10950219B2 (en) Systems and methods for providing a virtual assistant
US11450311B2 (en) System and methods for accent and dialect modification
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
JP5684082B2 (ja) 対話支援装置、方法及びプログラム
US10755595B1 (en) Systems and methods for natural language processing for speech content scoring
CN111739556B (zh) 一种语音分析的系统和方法
KR101615848B1 (ko) 유사상황 검색을 통한 대화 스티커 추천방법 및 컴퓨터 프로그램
US20140141392A1 (en) Systems and Methods for Evaluating Difficulty of Spoken Text
JP2016045420A (ja) 発音学習支援装置およびプログラム
US9805740B2 (en) Language analysis based on word-selection, and language analysis apparatus
JP2015118710A (ja) 対話装置、方法及びプログラム
WO2022208692A1 (ja) 表示用データ生成装置、表示用データ生成方法、及び表示用データ生成プログラム
JP7135372B2 (ja) 学習支援装置、学習支援方法およびプログラム
JP6641680B2 (ja) 音声出力装置、音声出力プログラムおよび音声出力方法
JP6746886B2 (ja) 学習支援装置及びその学習支援装置用のプログラム
JP7125630B2 (ja) 要点抽出装置、要点抽出方法、及びプログラム
JP2019207647A (ja) 対話型業務支援システム
US11485022B2 (en) Dialogue apparatus and control program for dialogue apparatus
JP6383748B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
WO2022185363A1 (ja) ラベル付与支援装置、ラベル付与支援方法およびプログラム
US11902466B2 (en) Captioned telephone service system having text-to-speech and answer assistance functions
WO2022185364A1 (ja) 学習装置、学習方法およびプログラム
CN112541651B (zh) 电子设备、发音学习方法、服务器装置、发音学习处理系统及记录介质
US20240232707A9 (en) Learning device, learning method, and program
WO2021183169A1 (en) Method of voice input operation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21934862

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023509990

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 18552865

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21934862

Country of ref document: EP

Kind code of ref document: A1