WO2024023930A1 - 変換装置、変換方法、及びプログラム - Google Patents

変換装置、変換方法、及びプログラム Download PDF

Info

Publication number
WO2024023930A1
WO2024023930A1 PCT/JP2022/028792 JP2022028792W WO2024023930A1 WO 2024023930 A1 WO2024023930 A1 WO 2024023930A1 JP 2022028792 W JP2022028792 W JP 2022028792W WO 2024023930 A1 WO2024023930 A1 WO 2024023930A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
information
conversion
person
character
Prior art date
Application number
PCT/JP2022/028792
Other languages
English (en)
French (fr)
Inventor
陽子 石井
桃子 中谷
晴美 齋藤
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/028792 priority Critical patent/WO2024023930A1/ja
Publication of WO2024023930A1 publication Critical patent/WO2024023930A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present invention relates to technology for displaying character information.
  • Non-Patent Document 1 discloses a speech recognition system that automatically converts the content of a person's utterance into text in real time.
  • the general speech recognition system disclosed in Non-Patent Document 1 and the like since the utterance content is only displayed as text information, it is difficult to read the relationship between a plurality of utterance content from the text information.
  • the present invention has been made in view of the above points, and provides a technology that makes it possible to display textual information so that the relationships between a plurality of utterances can be easily read from the textual information.
  • the purpose is to
  • a character conversion unit that converts input information into character information
  • a selection unit that selects character information to be displayed from one or more character information obtained by the character conversion unit
  • a conversion device comprising: a coordinate conversion section that converts the character information selected by the selection section into coordinates corresponding to a display position thereof.
  • a technology that makes it possible to display textual information so that the relationships between a plurality of utterances can be easily read from the textual information.
  • FIG. 1 is a diagram showing an example of the overall configuration of a visualization system. It is a flowchart for explaining the operation of the conversion device.
  • FIG. 3 is a diagram for explaining coordinates on a display screen. It is a figure showing an example of a display.
  • FIG. 7 is a diagram illustrating a conversion device of Modification 1.
  • FIG. 7 is a diagram illustrating a conversion device of Modification 1. It is a diagram showing an example of the hardware configuration of the device.
  • the technology according to the present invention is not limited to this assumption and can be applied to a wide range of general dialogue situations.
  • the technology according to the present invention in a conversation without a facilitator, the contents of an arbitrary person's utterances can be displayed in a manner that makes it easy to understand the relevance of the contents of the utterances.
  • text is used as an example of the text information to be displayed, but the text information to be displayed is not limited to "text".
  • the character information to be displayed may be a sentence, a word, a symbol, or other information.
  • the facilitator simply inputs the utterance content (sentences) into the conversion device 100 sequentially using voice input or a keyboard, and the conversion device 100 adjusts the sentences to match the similarity in meaning (In other words, the two-dimensional coordinates at which the summarized sentences should be placed are automatically calculated (so that the relationships between sentences can be easily understood).
  • the conversion device 100 is configured to It is possible to judge the reactions of users and display sentences that have a characteristic reaction preferentially. In other words, it can be said that the sentences with characteristic reactions represent the content of the discussion at the time, and therefore the conversion device 100 can extract the content of the discussion at the time in an easy-to-understand manner.
  • FIG. 1 shows an example of the configuration of a visualization system according to this embodiment.
  • the visualization system of this embodiment is used in situations where two or more people are having a conversation.
  • the example shown in FIG. 1 shows a situation in which three people 1 to 3 are participating in a dialogue. Note that the configuration shown in FIG. 1 will be referred to as a "basic example.”
  • One of the three people is a facilitator whose role is to facilitate dialogue among participants.
  • the visualization system shown in FIG. 1 includes a conversion device 100, a video camera 10, microphones 20, 30, 50, and sensing devices 40, 60.
  • the conversion device 100 is, for example, a computer such as a PC (personal computer).
  • a keyboard 180 and a display unit 190 are connected to a conversion device 100.
  • the display unit 190 may be a functional unit that constitutes the conversion device 100.
  • keyboard 180, video camera 10, microphones 20, 30, 50, and sensing devices 40, 60 are all examples of input units that input information to the conversion device 10. Any of the input units may be a functional unit that constitutes the conversion device 100.
  • the conversion device 100 includes a character conversion section 110, a selection section 120, an initial value setting section 130, another person's reaction judgment section 140, a theme content transmission section 150, a coordinate conversion section 160, and a storage section 170.
  • the initial value setting unit 130 sets in advance a period T (a period of 1 second or more), a numerical value a (an integer of 1 or more), and the size of the area in which the utterance content is displayed on the display unit 170. (displayX, displayY), and retains the received information.
  • displayX, displayY For example, a keyboard 180 is used for input here.
  • the units of displayX and displayY are pixels.
  • the character conversion unit 110 acquires a sentence by converting the voice input from the microphone 20 into character information. Furthermore, the character conversion unit 110 converts information input from the keyboard 180 (specifically, a string of signals such as codes) into text.
  • the character conversion unit 110 performs a summary process on the text obtained through conversion to obtain a summary of the text (summarized text). Any conventional technique for text summarization can be used. As an example, text can be summarized using the technique disclosed in Japanese Patent Application Publication No. 2011-28638.
  • the character conversion unit 110 counts the number of characters in a sentence, performs summarization so that the number of characters is below a certain threshold, and selects the summarized text (this may be referred to as a "summary"). 120.
  • the other person's reaction determining unit 140 is a functional unit that determines the reaction of a person other than the person making the utterance.
  • the person making the utterance to be summarized is the facilitator (person 1), and the other person's reaction judgment unit 140 judges the reaction of persons other than the facilitator to the facilitator's utterance. do.
  • the other person's reaction judgment unit 140 includes three types of devices: a video camera that photographs the people who are having a conversation, a microphone that collects the utterances of the people who are having the conversation, and a sensing device that senses the people who are having the conversation. At least one type of device among the devices is connected. For example, as many microphones and sensing devices as there are people participating in the dialogue (excluding the facilitator) are prepared.
  • a video camera 10 is provided, as well as a microphone 30 and sensing device 40 for person 2, and a microphone 50 and sensing device 60 for person 3.
  • the conversion device 100, video camera 10, microphones 20, 30, 50, and sensing devices 40, 60 are all synchronized in time.
  • the operation when a video camera is provided, the operation when a microphone is provided, and the operation when a sensing device is provided will be explained.
  • the microphones 20, 30, and 50 may be of any type; for example, a headset microphone, a lavalier microphone, a gooseneck microphone, etc. can be used.
  • the sensing devices 40 and 60 may be of any type, but for example, the sensing devices may include a built-in at least one of a gyro sensor, a heart rate measuring device, and an electroencephalogram sensor. can be used.
  • the image acquired by the video camera is input to the other person's reaction judgment unit 140, and the other person's reaction judgment unit 140 uses the image to determine the individual person's behavior in real time by using, for example, the API of a posture estimation service (e.g., OpenPose). Obtain the position information of the skeleton.
  • a posture estimation service e.g., OpenPose
  • the other person's reaction determination unit 140 detects the person's movements such as nodding, shaking the head, leaning forward, etc. from time-series changes in the position information of the person's skeleton. Detection of a person's motion by the other person's reaction determination unit 140 may be performed based on the positional relationship between certain skeletons, or may be performed based on the time-series changing movement of one or more skeletons.
  • a plurality of motions are set for the other person's reaction determination unit 140 as motions to be detected. Also, a certain numerical value is set for each operation.
  • the other person's reaction determination unit 140 detects a certain action for a certain person, it obtains the numerical value set for that action as the weight ⁇ .
  • the other person's reaction determining unit 140 sends the weight ⁇ obtained by detecting the movement to the selection unit 120 together with time information t when the movement occurred.
  • the respective weights for the multiple movements may be sent to the selection unit 120, or based on predetermined rules, one of the multiple movements may be detected. It may be possible to select any one action and send the weight of the selected action to the selection unit 120, or it may be possible to send a sum of the respective weights for the plurality of actions to the selection unit 120.
  • ⁇ Microphone operations> The audio of each conversation participant's utterances is input to the other person's reaction determination unit 140 in real time by a microphone provided to each conversation participant.
  • the other person's reaction determination unit 140 performs the following processing on each person's voice.
  • the other person's reaction determination unit 140 uses, for example, an emotion understanding engine of existing technology to associate the acquired utterance audio with a numerical value representing the intensity of emotion.
  • a certain threshold value and a numerical value corresponding to a case where the numerical value representing the intensity of emotion exceeds (or falls below the threshold value) the threshold value are preset in the other person reaction determination unit 140.
  • the other person's reaction determination unit 140 sets the numerical value for the intensity of the emotion detected based on the voice input from the microphone as a weight ⁇ .
  • the other person's reaction determination unit 140 sends the weight ⁇ obtained by detecting the intensity of emotion based on the voice to the selection unit 120 together with time information t when the utterance corresponding to the weight ⁇ occurred.
  • the other person reaction determination unit 140 performs the following process to determine the weight ⁇ may be obtained and sent.
  • One or more predetermined phrases such as "I see” and “Huh” are set in advance in the other person's reaction judgment unit 140. Further, a numerical value is set for each phrase, and the numerical value is set as a weight ⁇ . That is, when the other person's reaction determining unit 140 detects a preset phrase from the uttered voice, it sends the numerical value corresponding to the uttered voice as the weight ⁇ to the selection unit 120 together with the time information t.
  • the other person's reaction determination unit 140 may perform either weight calculation based on the numerical value of the emotional intensity or weight calculation based on the phrase, or may perform both.
  • the respective weights ⁇ may be sent to the selection unit 120 together with the time information t, or one of the weights may be selected based on a predetermined rule and sent to the selection unit 120 together with the time information t.
  • the sum of both weights may be used as the weight ⁇ and sent to the selection unit 120 together with the time information t.
  • Sensing information (output data from the sensing device) for each conversation participant is input to the other person's reaction determination unit 140 in real time by the sensing device provided for each conversation participant.
  • the other person's reaction determination unit 140 performs the following processing on the sensing information of each person.
  • One sensing device may be provided for each person, or multiple sensing devices of different types may be provided.
  • the other person's reaction determination unit 140 detects a preset characteristic from the output data of each sensing device.
  • a plurality of characteristics and a numerical value for each characteristic are preset in the other person's reaction determination section 140.
  • the other person's reaction determination unit 140 obtains a numerical value corresponding to the detected feature as a weight ⁇ .
  • the other person's reaction determination unit 140 sends the weight ⁇ acquired based on the detection of a certain feature to the selection unit 120 together with time information t when the feature occurred.
  • the above-mentioned “feature” may be of any kind, but for example, the detection of a state in which the value of sensing information exceeds (or falls below) a preset threshold value may be detected. Alternatively, the detection of a predetermined change from a time-series change in sensing data may be taken as the detection of a feature.
  • the respective weights for the plurality of features may be sent to the selection unit 120, or one of the plurality of features may be selected based on a predetermined rule.
  • a feature may be selected and the weight of the selected feature may be sent to the selection unit 120, or a value obtained by adding up the weights of the plurality of features may be sent to the selection unit 120.
  • ⁇ S104 Sending information regarding the topic>
  • the theme content transmitting unit 150 transmits the sentence of the theme registered in advance in the storage unit 170 and the time s for the facilitator to speak about the theme to the coordinate conversion unit 160 and the selection unit 120 .
  • the theme content transmitting unit 150 transmits the text of the added theme and the time s for speaking about the theme to the coordinate conversion unit 160 and the selection unit 120.
  • “theme” may be replaced with “topic”, “theme”, “topic”, etc.
  • the theme and time s are stored in the storage unit 170, they are stored together with a number that identifies the theme. Further, regarding the theme transmitted to the selection unit 120, the information transmitted may be the text of the theme and a number for identifying the theme, or may be only a number for identifying the theme.
  • the text of the theme and the time s for the facilitator to speak about the theme may be sent only to the coordinate conversion unit 160 and not to the selection unit 120.
  • the selection unit 120 receives the text summary from the character conversion unit 110.
  • the summary is a summary of the sentence input as voice or text by the facilitator.
  • the start time and end time of the utterance corresponding to the summary are set in the summary. Note that the meaning of "utterance” includes not only vocalization but also input using a keyboard.
  • the selection unit 120 sequentially receives the summaries from the character conversion unit 110. That is, during a certain period of time, the selection unit 120 receives a plurality of summaries from the character conversion unit 110. However, during a certain period of time, the selection unit 120 may receive only one summary from the character conversion unit 110.
  • the selection unit 120 When the selection unit 120 receives the weight ⁇ and time information t from the other person reaction determination unit 140, if there is a summary corresponding to the time including the received time information t, the selection unit 120 adds the weight ⁇ received together with the time information t to the summary. Map the values of . For example, if the start time to end time of the summary is T to T+10, and the time information t received together with the weight ⁇ is T+5, the weight ⁇ is associated with the summary.
  • a period "start time - end time + nt", which is obtained by adding a time nt (described later) to the end time of the period "start time - end time” of the summary, may be used for the determination.
  • the selection unit 120 receives the weight ⁇ and time information t from the other person reaction determination unit 120, if the received time information t is included in “opening time to end time + nt”, the selection unit 120 adds the time to the summary. The value of the weight ⁇ received together with the information t is associated.
  • the selection unit 120 sets the sum of all the weights ⁇ as the weight of the summary.
  • the selection unit 120 receives information from the other person's reaction determination unit 140 regarding the time after the end time of the summary only for a predetermined time nt from the end time of the summary, and selects information received at a time after that time. will be discarded.
  • the time nt is managed by the selection section 12, and even if the time information t sent from the other person's reaction judgment section 140 is actually within "opening time - end time + nt", when it is received, If "end time + nt" has elapsed, the received information is discarded.
  • processing is only an example.
  • the selection unit 12 sets the weight of the summary to 0.
  • the selection unit 120 receives the period T and the value of the numerical value a from the initial value setting unit 130, and selects a summary summarized during the period T as a summary to be displayed as a candidate based on a predetermined rule. Select. Examples of selection rules are as follows. Note that the summary summarized during the period T is, for example, a summary in which the period T includes "start time to end time". Note that if there are no a summaries summarized during period T, all summaries summarized during period T may be selected.
  • the selection unit 120 selects summary 3 (start time t+1, weight 6), summary 1 (start time t, weight 5), and summary 2 (start time t-1, weight 4) based on the weights.
  • summary 1 start time t, weight 5
  • summary 2 start time t-1, weight 4
  • summary 3 start time t+1, weight 4
  • summary 4 start time t-2, weight 4
  • the selection unit 120 sets topic information indicating which topic was discussed for each selected summary. For example, based on the theme and the time s received from the theme content transmitting unit 150, the selection unit 120 sets the theme in the summary summarized within the time s.
  • the theme information set in the summary is, for example, a number by which the theme can be identified.
  • time information for example, information that time s is the time from time a to time b
  • time s is added to "time s". This can be achieved by including
  • the facilitator when the facilitator is talking about a topic that has been registered in the storage unit 170, as the conversation progresses, the facilitator selects the topic that is currently being talked about using the keyboard 180, etc. When the topic changes, the facilitator may also reselect the topic. The number of the theme is set in the summary of the content uttered while the theme is selected by the facilitator (until the theme is selected again).
  • the facilitator or other person inputs the theme manually or by voice input using an input device such as a keyboard or a microphone, and registers it in the storage unit 170.
  • the storage unit 170 when a new theme is registered, a number is also assigned to the new theme, and information such as the number is returned from the theme content transmission unit 150 to the selection unit 120.
  • the selection unit 120 sets the number of the theme to the summary of the utterance of the theme.
  • the summary selected by the selection unit 150 is sent to the coordinate conversion unit 160 along with the theme number corresponding to the summary.
  • the coordinate transformation unit 160 transforms each summary into high-dimensional coordinates (high-dimensional vectors). Any method may be used to convert the text of the summary into high-dimensional coordinates; for example, doc2vec or fast2text can be used.
  • the high-dimensional coordinates obtained here are also called distributed representations and indicate the features of the summary.
  • Both doc2vec and fast2text are examples of conversion models that extract features from text information such as sentences.
  • the number of dimensions of this high-dimensional coordinate is, for example, 200. Any numerical value can be specified for the number of dimensions.
  • the coordinate conversion unit 160 performs principal component analysis on the coordinates converted from the summary to compress the dimensions and obtain two-dimensional coordinates (aX, aY). These two-dimensional coordinates (aX, aY) also indicate the feature amount of the summary.
  • the coordinate conversion unit 160 sends the number of the theme received along with the summary to the storage unit 170, and checks whether coordinates are registered for the theme. If the coordinates are registered in the storage unit 170, the storage unit stores the center coordinates (titleX', titleY') of the rectangular area corresponding to the theme and (summaryX, summaryY) representing the size of the area. Obtained from 170.
  • the coordinate conversion unit 160 executes the following coordinate conversion process.
  • the coordinate conversion unit 160 receives the theme sentence corresponding to the inquired theme number and the time s for speaking about the theme from the storage unit 170, and performs the following processing.
  • the coordinate conversion unit 160 converts the subject sentence into high-dimensional coordinates using, for example, doc2vec or fast2text, in the same manner as the coordinate conversion for the summary, and performs principal component analysis on the converted coordinates. Dimensionally compress and obtain two-dimensional coordinates (titleX, titleY).
  • the coordinate conversion unit 160 receives from the initial value setting unit 130 the sizes displayX and displayY of the rectangular area in which the conversation content (utterance content) is displayed on the display unit 190.
  • the units of displayX and displayY are pixels.
  • the coordinate conversion unit 160 projectively transforms the coordinates of the theme (titleX, titleY) to the size of the area where the dialogue content is displayed, and obtains the coordinates (titleX', titleY').
  • the coordinate conversion unit 160 calculates the topic speaking time sn for all the topics scheduled to be talked about this time (s1 if the topic number is 1, s1 if the topic number is n, etc.) , the period T and the numerical value a are obtained from the storage unit 170. Note that here, it is assumed that the period T and the numerical value a are held in the storage unit 170.
  • the coordinate conversion unit 160 obtains the values of (titleX', titleY') and (summaryX, summaryY) for each theme. Subsequently, the coordinate transformation unit 160 performs the following processing for each theme and each summary.
  • the coordinate transformation unit 160 projectively transforms the two-dimensional coordinates (aX, aY) of the summary into summaryX, summaryY to obtain (aX', aY').
  • the coordinate transformation unit 160 transforms (aX', aY') using the following formula so that (titleX'-summaryX/2, titleY'-summaryY/2) is the origin (aX Find ⁇ ⁇ , aY ⁇ ⁇ ).
  • the coordinate conversion unit 160 sends each piece of coordinate information including the determined (aX'', aY'') and information such as a summary to be displayed to the display unit 190.
  • the display unit 190 displays the text of the summary at the position (aX'', aY'') for each topic and each summary.
  • the display unit 190 also displays the title at (titleX', titleY') for each title. Please note that if the topic is already displayed, it will not be overwritten.
  • Figure 3 shows an image of each coordinate.
  • summary display areas for two themes, summaryX1 ⁇ summaryY1 and summaryX2 ⁇ summaryY2 are shown in the displayX ⁇ displayY area.
  • the display position of theme 1 (titleX1 ⁇ , titleY1 ⁇ ) and the display position of theme 2 (titleX2 ⁇ , titleY2 ⁇ ) are shown.
  • the display position of summary 1 (aX1 ⁇ , aY1 ⁇ ) and the display position of summary 2 ( aX2 ⁇ , aY2 ⁇ ) are shown.
  • the theme 1 above is ⁇ Children's favorite game
  • '' summary 1 is ⁇ Playing with building blocks
  • '' theme 2 is ⁇ Where to go out with children
  • summary 2 is ⁇ Children's favorite activity.'' A display example in the case of "going to the park" is shown.
  • Mode 1 In the configuration (basic example) of the conversion device 100 shown in FIG. 1, the other person's reaction determination section 140 may not be provided. In this case, the video camera 10 and the microphones and sensing devices attached to the persons 2 and 3 other than the facilitator may not be provided. However, the persons 2 and 3 may be provided with microphones 30 and 50, and the voices from the microphones 30 and 50 may be input to the character conversion section 110.
  • FIG. 5 shows a configuration in which the other person's reaction determination unit 140 is removed from the configuration of the basic example (conversion device 100 in FIG. 1).
  • the operation of the conversion device 100 of the first modification shown in FIG. 5 corresponds to the operation of the basic example except for the operation related to the other person's reaction determination unit 140.
  • the other person's reaction determining unit 140 calculates a weight indicating the other person's reaction, and the selecting unit 120 uses the weight to select a summary to be displayed from a plurality of summaries.
  • the selection unit 120 selects, for example, a summaries from among the plurality of summaries received from the character conversion unit 110, in order from the one with the earliest utterance start time. . Further, the selection unit 120 may randomly select a summaries from among the plurality of summaries received from the character conversion unit 110.
  • Modification 2 In both the basic example and modification 1, no theme may be used. In this case, for example, a summary is displayed on the coordinates (aX', aY') for each summary without displaying the theme on the display unit 190. Even if the topic is not displayed, the summaries are displayed in positions according to their mutual meanings, so summaries with similar meanings can be viewed together. In other words, the relationships between summaries can be clearly displayed.
  • FIG. 6 shows a configuration example of the conversion device 100 in Modification 2.
  • the operation configured in FIG. 6 is the operation obtained by excluding the operation related to the theme from the operation of Modification 1 (the operation excluding the operation of the other person's reaction determination unit 140 from the basic example).
  • the conversion device 100 can be realized, for example, by having a computer execute a program.
  • This computer may be a physical computer or a virtual machine on the cloud.
  • the conversion device 100 can be realized by using hardware resources such as a CPU and memory built into a computer to execute a program corresponding to the processing performed by the conversion device 100.
  • the above program can be recorded on a computer readable recording medium (such as a portable memory), and can be stored or distributed. Furthermore, it is also possible to provide the above program through a network such as the Internet or e-mail.
  • FIG. 7 is a diagram showing an example of the hardware configuration of the computer.
  • the computer in FIG. 7 includes a drive device 1000, an auxiliary storage device 1002, a memory device 1003, a CPU 1004, an interface device 1005, a display device 1006, an input device 1007, an output device 1008, etc., which are interconnected by a bus BS.
  • a program that realizes processing on the computer is provided, for example, on a recording medium 1001 such as a CD-ROM or a memory card.
  • a recording medium 1001 such as a CD-ROM or a memory card.
  • the program is installed from the recording medium 1001 to the auxiliary storage device 1002 via the drive device 1000.
  • the program does not necessarily need to be installed from the recording medium 1001, and may be downloaded from another computer via a network.
  • the auxiliary storage device 1002 stores installed programs as well as necessary files, data, and the like.
  • the memory device 1003 reads and stores the program from the auxiliary storage device 1002 when there is an instruction to start the program.
  • CPU 1004 implements functions related to conversion device 100 according to programs stored in memory device 1003.
  • the interface device 1005 is used as an interface for connecting to a network or the like.
  • a display device 1006 displays a GUI (Graphical User Interface) and the like based on a program.
  • the input device 1007 includes a keyboard, a mouse, buttons, a touch panel, or the like, and is used to input various operation instructions.
  • An output device 1008 outputs the calculation result. Note that when the conversion device 100 does not include an input unit and a display unit, the display device 1006 and the input device 1007 are not included in the computer.
  • text information can be displayed so that the relationships between a plurality of utterances can be easily read from the text information.
  • the conversion device 100 can display sentences input by the facilitator automatically arranged in a two-dimensional space, participants in the conversation can view multiple summaries with similar meanings together. can do. This has the effect of reducing the cognitive load of reading.
  • the conversion device 100 including the other person's reaction determination unit 140 can preferentially leave sentences that have a characteristic reaction, so it is possible to confirm the content of the conversation in consideration of the participants' reactions.
  • the processor converts the topic corresponding to the selected text information into coordinates corresponding to its display position, The conversion device according to supplementary note 1 or 2, wherein the topic is displayed at the coordinates obtained from the topic in the display section, and the text information is displayed at the coordinates converted from the text information selected by the selection section. .
  • the conversion device according to supplementary note 4 wherein the processor converts the reaction into a weight, and selects the text information to be displayed from the one or more weighted text information based on the weight.
  • a conversion method performed by a computer comprising: a character conversion step for converting input information into character information; a selection step of selecting character information to be displayed from one or more character information obtained in the character conversion step; A conversion method comprising: a coordinate conversion step of converting the character information selected in the selection step into coordinates corresponding to its display position.
  • Supplementary Notes 1 to 5 A non-temporary storage medium storing a program for causing a computer to function as each part of the conversion device according to any one of Supplementary Notes 1 to 5.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

変換装置において、入力情報を文字情報に変換する文字変換部と、前記文字変換部により得られた1以上の文字情報から、表示する文字情報を選択する選択部と、前記選択部により選択された文字情報を、その表示位置に対応する座標に変換する座標変換部とを備える。

Description

変換装置、変換方法、及びプログラム
 本発明は、文字情報を表示する技術に関連するものである。
 2名以上の参加者がある対話において、参加者間の対話を円滑に進める役割を持つファシリテータが存在する場合が多い。ファシリテータが存在する対話では、ファシリテータが付箋紙に発話内容をメモしつつ、付箋紙をグルーピングしながら掲示して、対話を進めることが多い。このようなグルーピングをすることで、発話内容の関連性を容易に把握できるので、スムーズに対話を進めることが可能となる。
H. Masataki, D. Shibata, Y. Nakazawa, S. Kobashikawa, A. Ogawa, K.Ohtsuki, VoiceRex - Spontaneous speech recognition technology for contact-center conversations, NTT Tech. Rev., 5 (2007) 22-27.
 しかし、付箋紙をグルーピングしながら対話を進めるには高いスキルを必要とし、特に初心者には難しい。
 人物の発話内容の表示に関する従来技術として、人物の発話内容をリアルタイムで自動的にテキスト化する音声認識システムが非特許文献1に開示されている。しかし、非特許文献1等に開示されている一般的な音声認識システムでは、発話内容を文字情報で表示するだけなので、複数の発話内容の間の関連性を文字情報から読み取ることが難しい。
 なお、上記の課題は、ファシリテータが存在する対話に限らずに、音声や文字入力等で発話が行われる対話の場面全般に生じ得る課題である。
 本発明は上記の点に鑑みてなされたものであり、複数の発話内容の間の関連性を文字情報から容易に読み取ることができるように、文字情報を表示することを可能とする技術を提供することを目的とする。
 開示の技術によれば、入力情報を文字情報に変換する文字変換部と、
 前記文字変換部により得られた1以上の文字情報から、表示する文字情報を選択する選択部と、
 前記選択部により選択された文字情報を、その表示位置に対応する座標に変換する座標変換部と
 を備える変換装置が提供される。
 開示の技術によれば、複数の発話内容の間の関連性を文字情報から容易に読み取ることができるように、文字情報を表示することを可能とする技術が提供される。
可視化システムの全体構成例を示す図である。 変換装置の動作を説明するためのフローチャートである。 表示画面上の座標を説明するための図である。 表示例を示す図である。 変形例1の変換装置を示す図である。 変形例1の変換装置を示す図である。 装置のハードウェア構成例を示す図である。
 以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
 以下の実施の形態では、2名以上の参加者があり、参加者間での対話を円滑に進めるためにファシリテータが存在している対話を想定し、ファシリテータの発話内容が要約されて、お題とともに表示されることを想定している。
 ただし、本発明に係る技術は、このような想定に限定されない広く一般の対話の場面に適用可能である。例えば、本発明に係る技術により、ファシリテータが存在しない対話において、任意の人物の発話内容を、発話内容の関連性が分かり易いように表示できる。
 また、以下で説明する実施の形態では、表示する文字情報の例として「文章」を使用しているが、表示する文字情報は「文章」に限らない。表示する文字情報は、文であってもよいし、単語であってもよいし、記号であってもよいし、これら以外の情報であってもよい。
 (実施の形態の概要)
 前述したように、2名以上の参加者があり、参加者間での対話を円滑に進めるためにファシリテータが存在している対話において、ファシリテータが重要なポイントのみを書き出すことがよく行われるが、対話の場を調整しつつ、ポイントを書き出すには高いファシリテータのスキルを要する。
 この問題に対して、例えば従来の音声認識システムを用いて、発話内容を全て自動的に文字で表示させることが考えられる。しかし、この方法では、参加者にとってはどこが重要なポイントなのか読み取ることが難しい。特に長い時間をかけて対話を行う場合、参加者は頭の中で発話内容を整理しつつ、発話内容を確認することが難しい。
 そこで本実施の形態では、音声入力、もしくはキーボード等により、ファシリテータが発話内容(文章)を変換装置100に順次入力するだけで、変換装置100が、文章間の意味の近さに合わせるように(つまり、文章間の関連性が分かり良いように)、要約された文章を配置すべき二次元座標を自動的に算出する。
 また、その場の議論の内容を分かり易く抽出するには高いファシリテータのスキルを要するという課題に対して、本実施の形態では、変換装置100が、ファシリテータの発した発話内容(文章)に対する他者の反応を判断し、特徴的な反応のあった文章を優先的に残して表示させることが可能である。つまり、特徴的な反応のあった文章は、その場の議論の内容を表していると考えられるので、変換装置100は、その場の議論の内容を分かり易く抽出することができるといえる。
 (システム構成例)
 図1に、本実施の形態の可視化システムの構成例を示す。本実施の形態の可視化システムは、2名以上の人物が対話を行なっている場面において使用される。図1に示す例では、3名の人物1~3が対話に参加している状況を示す。なお、図1に示す構成を「基本例」と呼ぶことにする。
 3名のうちの1名(人物1)は、参加者間での対話を円滑に進める役割を持つファシリテータである。
 図1に示す可視化システムは、変換装置100、ビデオカメラ10、マイク20、30、50、センシング機器40、60を有する。
 変換装置100は、例えばPC(パーナルコンピュータ)等のコンピュータである。図1には、例として、キーボード180、及び表示部190(ディスプレイを含む情報表示機能)が変換装置100に接続されている。なお、表示部190を、変換装置100を構成する機能部であるとしてもよい。
 また、キーボード180、ビデオカメラ10、マイク20、30、50、センシング機器40、60は、いずれも、変換装置10に情報を入力する入力部の例である。いずれの入力部についても、変換装置100を構成する機能部であるとしてもよい。
 図1に示すように、変換装置100は、文字変換部110、選択部120、初期値設定部130、他者反応判断部140、お題内容送信部150、座標変換部160、記憶部170を有する。
 (変換装置100の動作例)
 続いて、上述した構成を備える変換装置100の動作例を、図2のフローチャートの手順に沿って説明する。なお、図2の示す手順は例であり、変換装置100の動作が図2の手順に限定されるわけではない。
 下記の動作の前提として、初期値設定部130は、事前に、期間T(1秒以上の期間)と数値a(1以上の整数)、及び、発話内容を表示部170に表示するエリアのサイズ(displayX, displayY)、の入力を受け付け、受け付けた情報を保持する。ここでの入力には例えばキーボード180が使用される。なお、displayXとdisplayYのそれぞれの単位はピクセルであるとする。
 <S101:入力>
 ファシリテータが音声で発話を行うことにより、発話情報がマイク20から文字変換部110に入力される。また、ファシリテータがキーボード180により情報を入力した場合、入力情報は文字変換部110に入力される。
 <S102:文章の取得及び要約>
 S102において、文字変換部110は、マイク20から入力された音声を文字情報に変換することで、文章を取得する。また、文字変換部110は、キーボード180から入力された情報(具体的にはコード等の信号の列)を文章に変換する。
 更に、文字変換部110は、変換により取得した文章に対して要約処理を行って、文章の要約(要約された文章)を取得する。文章の要約については任意の従来技術を使用することが可能である。一例として、特開2011-28638号に開示された技術を使用して文章の要約を行うことができる。
 文字変換部110は、上記の要約処理において、文章の文字数をカウントし、文字数がある閾値以下になるように要約を行って、要約された文章(これを「要約」と呼んでもよい)を選択部120へ送る。
 <S103:他者の反応の判断>
 次に、他者反応判断部140に関する処理について説明する。他者反応判断部140は、発話を行なっている人物以外の人物の反応を判断する機能部である。本実施の形態では、要約表示の対象とする発話を行なっている人物はファシリテータ(人物1)であるものとし、他者反応判断部140は、ファシリテータの発話に対する、ファシリテータ以外の人物の反応を判断する。
 他者反応判断部140には、対話を行なっている人々の様子を撮影するビデオカメラ、対話を行なっている人々の発話を収集するマイク、対話を行なっている人々をセンシングするセンシング機器の3種の機器のうちの少なくとも1種の機器が接続される。例えば、マイクとセンシング機器はそれぞれ、対話に参加する人物(ファシリテータを除く)の数だけ用意される。
 図1に示す例では、ビデオカメラ10が備えられるとともに、人物2用のマイク30とセンシング機器40、及び、人物3用のマイク50とセンシング機器60が備えられている。
 本実施の形態に係る可視化システムにおいて、変換装置100、ビデオカメラ10、マイク20、30、50、センシング機器40、60は全て時刻の同期がとられているものとする。以下では、ビデオカメラを備える場合の動作、マイクを備える場合の動作、センシング機器を備える場合の動作それぞれについて説明する。
 なお、マイク20、30、50の種類に関してはどのような種類であってもよいが、例えば、ヘッドセットマイク、ラベリアマイク、グースネックマイク等を使用できる。
 また、センシング機器40、60の種類に関してもどのような種類であってもよいが、例えば、センシング機器として、ジャイロセンサ、心拍計測機、脳波センサのうちの少なくともいずれか1つが内蔵されている機器を使用することができる。
  <ビデオカメラについての動作>
 ビデオカメラにより取得された映像は他者反応判断部140に入力され、他者反応判断部140は、例えば姿勢推定サービス(例:OpenPose)のAPIを用いることで、当該映像からリアルタイムで人物それぞれの骨格の位置情報を取得する。
 他者反応判断部140は、人物の骨格の位置情報の時系列変化から、人物のうなずく動作や、首を振る動作、前のめりになる動作等の動作を検出する。他者反応判断部140による人物の動作の検出は、ある骨格間の位置関係に基づき行ってもよいし、1つ以上の骨格の時系列変化の動きに基づき行ってもよい。
 他者反応判断部140に対し、検出するべき動作として、複数の動作が設定される。また、それぞれの動作に対してある数値が設定される。他者反応判断部140は、ある人物に対してある動作を検出したときに、その動作に対して設定されているその数値を、重みαとして取得する。他者反応判断部140は、動作の検出により取得した重みαを、当該動作が発生した時刻情報tとともに選択部120に送る。
 他者反応判断部140が同一時刻tに複数の動作を検出した場合、当該複数の動作に対するそれぞれの重みを選択部120に送ることとしてもよいし、予め定めたルールに基づき、複数の動作からどれか1つの動作を選択して、選択した動作の重みを選択部120に送ることとしてもよいし、当該複数の動作に対するそれぞれの重みを合算した値を選択部120に送ることとしてもよい。
  <マイクについての動作>
 対話参加者一人ずつに備えられたマイクにより、対話参加者一人ずつの発話の音声がリアルタイムに他者反応判断部140に入力される。各人物の音声に対し、他者反応判断部140は下記の処理を行う。
 他者反応判断部140は、例えば既存技術の感情理解エンジンを用いることにより、取得された発話の音声を、感情の強度を表す数値に対応付ける。
 他者反応判断部140には、ある閾値と、感情の強度を表す数値がその閾値を超えた(又はその閾値を下回った)場合に対応する数値が予め設定されている。他者反応判断部140は、マイクから入力された音声に基づき検知された感情の強度に対する当該数値を重みαとする。他者反応判断部140は、音声に基づく感情の強度の検出により得られた重みαを、その重みαに対応する発話が発生した時刻情報tとともに選択部120に送る。
 また、他者反応判断部140は、上記のような感情認識に基づく重みαの取得及び送信に代えて、又は、感情認識に基づく重みαの取得及び送信に加えて、下記の処理により重みαを取得し、送信してもよい。
 他者反応判断部140に、予め「わかる」、「へー」などの決められたフレーズを1つ以上設定しておく。また、各フレーズに対して数値が設定され、その数値を重みαとする。つまり、他者反応判断部140は、発話音声から予め設定したフレーズを検出した場合に、その発話音声に対応する数値を重みαとして、時刻情報tとともに選択部120に送る。
 他者反応判断部140は、感情の強度の数値に基づく重み算出、フレーズに基づく重み算出のうちのいずれを行ってもよいし、両方を行ってもよい。両方を行う場合、それぞれの重みαを時刻情報tとともに選択部120に送ることとしてもよいし、予め定めたルールに基づきどれか一方の重みを選択して時刻情報tとともに選択部120に送ることとしてもよいし、両方の重みを合算した値を重みαとして時刻情報tとともに選択部120に送ることとしてもよい。
  <センシング機器についての動作>
 対話参加者一人ずつに備えられたセンシング機器により、対話参加者一人ずつのセンシング情報(センシング機器の出力データ)がリアルタイムに他者反応判断部140に入力される。各人物のセンシング情報に対し、他者反応判断部140は下記の処理を行う。
 各人物に対して、1つのセンシング機器が備えられてもよいし、違う種類のセンシング機器が複数個備えられてもよい。他者反応判断部140は、それぞれのセンシング機器の出力データから、予め設定されたある特徴を検出する。
 他者反応判断部140には、複数の特徴と、それぞれの特徴に対する数値が予め設定されている。他者反応判断部140は、検出した特徴に対応する数値を重みαとして取得する。他者反応判断部140は、ある特徴の検出に基づき取得した重みαを、当該特徴が発生した時刻情報tとともに選択部120に送る。
 上記の「特徴」はどのようなものであってもよいが、例えば、センシング情報の値が、予め設定した閾値を超えた状態(又は下回った状態)を検出したことを、特徴を検出したこととしてもよいし、センシングデータの時系列変化から予め定めた変化を検出したことを、特徴を検出したこととしてもよい。
 他者反応判断部140が複数の特徴を検出した場合、当該複数の特徴に対するそれぞれの重みを選択部120に送ることとしてもよいし、予め定めたルールに基づき、複数の特徴からどれか1つの特徴を選択して、選択した特徴の重みを選択部120に送ることとしてもよいし、当該複数の特徴に対するそれぞれの重みを合算した値を選択部120に送ることとしてもよい。
 <S104:お題に関する情報の送信>
 S104において、お題内容送信部150は、予め記憶部170に登録していたお題の文章と、そのお題についてファシリテータが話す時間sを座標変換部160及び選択部120へ送信する。お題内容送信部150は、記憶部170に新たにお題が追加されると、追加されたお題の文章とそのお題について話す時間sを座標変換部160及び選択部120へ送信する。なお、「お題」を、「話題」、「テーマ」、「トピック」等に言い換えてもよい。
 なお、記憶部170にお題と時間sが格納される際には、当該お題を識別する番号とともに格納される。また、選択部120へ送信されるお題に関して、送信される情報は、お題の文章とお題を識別する番号であってもよいし、お題を識別する番号のみであってもよい。
 なお、お題の文章等と、そのお題についてファシリテータが話す時間sは、座標変換部160のみに送り、選択部120へは送らないこととしてもよい。
 <S105:要約の選択>
 S105において、選択部120は、文字変換部110から文章の要約を受け取る。前述したとおり、当該要約は、ファシリテータにより音声又は文字として入力された文章の要約である。当該要約には、その要約に対応する発話の開始時刻と終了時刻がセットされる。なお、「発話」の意味には、音声の発声のみならず、キーボードでの入力も含まれる。
 選択部120は、文字変換部110から要約を順次受け取る。つまり、ある期間の間には、選択部120は、文字変換部110から複数の要約を受け取る。ただし、ある期間の間に、選択部120は、文字変換部110から1つのみの要約を受け取ることがあってもよい。
 選択部120は、他者反応判断部140から重みαと時刻情報tを受信すると、受信した時刻情報tを含む時間に対応する要約がある場合、その要約に、時刻情報tとともに受信した重みαの値を対応づける。例えば、要約の開示時刻~終了時刻がT~T+10であるとして、重みαとともに受信した時刻情報tがT+5であるとすると、当該要約に重みαが対応付けられる。
 なお、要約の「開示時刻~終了時刻」の期間の終了時刻に後述の時間ntを加えた期間「開示時刻~終了時刻+nt」を判断に用いてもよい。この場合、選択部120は、他者反応判断部120から重みαと時刻情報tを受信すると、受信した時刻情報tが「開示時刻~終了時刻+nt」に含まれる場合に、その要約に、時刻情報tとともに受信した重みαの値を対応づける。
 同じ要約に対して複数の重みαが対応する場合、選択部120は、全ての重みαを合算したものをその要約の重みとする。
 選択部120は、要約の終了時刻後の時刻に関して、他者反応判断部140からの情報を、要約の終了時刻から、予め定めた時間ntの間だけ受け付け、それ以降の時刻に受信した情報については破棄する。
 時間ntは選択部12が管理するものとし、他者反応判断部140から送られた時刻情報tが実際には「開示時刻~終了時刻+nt」内であったとしても、それを受け取った時点で「終了時刻+nt」が経過している場合には受信した情報は破棄される。ただし、このような処理は一例である。
 また、選択部12は、「終了時刻+nt」を経過しても該当する要約に対する情報を他者反応判断部140から受信しない場合は、その要約の重みを0とする。
 選択部120は、初期値設定部130から期間Tと数値aの値を受け取り、予め定めたルールに基づいて、その期間Tの間に要約された要約を、表示の候補となる要約として、a個選択する。選択のルールの例は下記のとおりである。なお、期間Tの間に要約された要約とは、例えば、「開始時刻~終了時刻」が期間Tに含まれる要約である。なお、期間Tの間に要約された要約として、a個の要約が存在しない場合には、期間Tの間に要約された要約を全て選択すればよい。
 選択部120は、まず、要約に設定された重みの数値が大きいものから順番に、要約を選択し、次に発話の開始時刻の早いものから順にa個の要約を選択する。例えば、要約1(開始時刻t、重み5)、要約2(開始時刻t-1、重み4)、要約3(開始時刻t+1、重み6)、要約4(開始時刻t-1、重み3)があるとして、a=3であるとする。
 このとき、選択部120は、重みに基づき、要約3(開始時刻t+1、重み6)、要約1(開始時刻t、重み5)、要約2(開始時刻t-1、重み4)を選択する。
 また、要約1(開始時刻t、重み5)、要約2(開始時刻t-1、重み4)、要約3(開始時刻t+1、重み4)、要約4(開始時刻t-2、重み4)があるとして、a=3であるとする場合、選択部120は、まず、(開始時刻t、重み5)を選択し、重みが同じものについては、開始時刻に基づき、要約4(開始時刻t-2、重み4)、要約2(開始時刻t-1、重み4)を選択する。
 <S106:お題情報のセット>
 次に、選択部120は、選択した各要約に対し、どのお題で話されたのかのお題情報をセットする。例えば、選択部120は、お題内容送信部150から受信したお題とその時間sに基づき、その時間s内に要約された要約にそのお題をセットする。要約にセットされるお題の情報は、例えば、そのお題を識別可能な番号である。なお、時間s内に要約された要約であるかどうかの判別に関しては、例えば、「時間s」に時刻の情報(例:時間sは、時刻aから時刻bまでの時間であるという情報)を含めることで実現できる。
 また、ファシリテータが、記憶部170に登録していたお題について話をしている場合には、対話が進むごとに今話されているお題をファシリテータがキーボード180等を用いて選択し、お題が切り替わると、ファシリテータが、お題も選択し直すこととしてもよい。ファシリテータによりお題が選択されている間(選択し直すまでの間)に発話された内容の要約にそのお題の番号がセットされる。
 ファシリテータあるいはその他の人物が、対話中に新たなお題を設定することも可能である。その場合、ファシリテータは、キーボードやマイクなどの入力機器を用いて、手入力、もしくは音声入力によりお題を入力し、記憶部170に登録する。記憶部170では、新たなお題の登録が行われると、新規のお題に対しても番号を振り、その番号等の情報が、お題内容送信部150から選択部120へ返される。選択部120は、そのお題の番号を、そのお題の発話の要約にセットする。
 選択部150で選択された要約は、当該要約に対応するお題の番号とともに座標変換部160へ送られる。
 <S107:座標変換>
 S107において、座標変換部160は選択部120から要約とお題の番号を受け取る。
 まず、座標変換部160は、各要約を高次元の座標(高次元のベクトル)に変換する。要約の文章を高次元座標に変換する方法としてはどのような方法を用いてもよいが、例えば、doc2vecもしくはfast2textを使用することができる。ここで得られる高次元座標は分散表現とも呼ばれ、要約の特徴量を示している。doc2vecとfast2textはいずれも、文章等の文字情報から特徴量を抽出する変換モデルの例である。
 この高次元座標の次元数は、例えば200等である。次元数については任意の数値を指定可能である。
 座標変換部160は、要約から変換された座標に対して主成分分析を行うことで次元圧縮し、2次元の座標(aX, aY)を得る。この2次元の座標(aX, aY)も、要約の特徴量を示している。
 次に、座標変換部160は、要約とともに受け取ったお題の番号を記憶部170へ送付し、そのお題に対して座標が登録されているかどうかを確認する。座標が記憶部170に登録されている場合、そのお題に対応する矩形のエリアの中心座標である(titleX´, titleY´)と、当該エリアの大きさを表す(summaryX, summaryY)を記憶部170から取得する。
 上記の座標が記憶部170に登録されていない場合、座標変換部160は、以下の座標変換処理を実行する。
 座標変換部160は、記憶部170から、問い合わせたお題の番号に対応するお題の文章と、そのお題について話す時間sを受け取り、次の処理を行う。
 座標変換部160は、要約に対する座標変換と同様にして、例えばdoc2vecもしくはfast2textを使用して、お題の文章を高次元の座標に変換し、変換した座標に対して主成分分析を行うことで次元圧縮し、2次元の座標(titleX, titleY)を得る。
 次に座標変換部160は、表示部190上で対話内容(発話内容)を表示する矩形のエリアのサイズdisplayX, displayYを初期値設定部130から受け取る。前述したように、displayX,displayYの単位はピクセルである。
 座標変換部160は、お題の座標(titleX, titleY)を、対話内容を表示するエリアのサイズに射影変換し、座標(titleX´, titleY´)を得る。
 次に、座標変換部160は、今回話される予定のお題すべてについての、お題について話す時間sn(お題の番号が1のものはs1、.....お題の番号がnのものはsnとする)と、期間Tと数値aを記憶部170から得る。なお、ここでは、期間Tと数値aは記憶部170に保持されていると想定している。
 座標変換部160は、すべてのお題1~nのそれぞれについて(sn/T)×a=numMを計算し、numMをそのお題に関する最終的な要約の個数の最大値とする。numMは、aを、期間Tに対するそのお題の時間snで按分した数に相当する。
 次に、座標変換部160は、ΣnumM_i(i=n) =NUMMAXを計算し、お題すべての要約最大値の和(NUMMAX)を求める。「ΣnumM_i(i=n)」は、numMのお題についての総和である。
 次に、座標変換部160は、(displayX×displayY)/NUMMAX =areaを計算し、要約最大和NUMMAXに対する単位面積areaを得る。続いて、座標変換部160は、各お題について、numM×area = areaMを計算し、これを各お題が持つ最大エリアサイズareaMとする。
 次に、座標変換部160は、各お題についての要約の配置エリアの形状をdisplayX,displayYと同じ比率の矩形とし、そのサイズをsummaryX,summaryYとする。具体的には、座標変換部160は、summaryX×summaryY= areaMとdisplayX:displayY = summaryX:sumaryYを満たすsummaryX,summaryYを求める。
 以上の処理の結果、座標変換部160は、お題ごとに、(titleX´, titleY´)の値と(summaryX, summaryY)の値を得る。続いて、座標変換部160は、お題ごと、要約ごとに次の処理を行う。
 座標変換部160は、要約の2次元座標(aX, aY)を、summaryX,summaryYに射影変換し、(aX´, aY´)を得る。
 そして、座標変換部160は、下記の式で、(aX´, aY´)に対して、(titleX´-summaryX/2, titleY´-summaryY/2)を原点とするように変換を行い(aX´´, aY´´)を求める。
 aX´´=aX´+(titleX´-summaryX/2)
 aY´´=aY´+(titleY´-summaryY/2)
 座標変換部160は、求められた(aX´´, aY´´)を含む各座標情報と、表示すべき要約等の情報を表示部190に送る。
 <S108:表示>
 表示部190は、お題ごと、要約ごとに、(aX´´, aY´´)の位置に要約の文章を表示する。また、表示部190は、お題ごとに、(titleX´, titleY´)にお題を表示する。なお、お題に関しては、すでに表示されている場合は上書きしない。
 図3に、各座標のイメージを示す。図3には、displayX×displayYのエリアに、2つのお題についての要約表示エリアであるsummaryX1×summaryY1と、summaryX2×summaryY2が示されている。また、お題1の表示位置(titleX1´, titleY1´)とお題2の表示位置(titleX2´, titleY2´)、及び、要約1の表示位置(aX1´, aY1´)と要約2の表示位置(aX2´, aY2´)が示されている。
 また、図4には、上記のお題1が「子供の好きな遊び」であり、要約1が「積み木遊び」であり、お題2が「子供とのお出かけ先」であり、要約2が「公園へ行く」である場合における表示例が示されている。
 また、各お題のエリアである「(titleX´, titleY´)を中心とした(summaryX,summaryY)の矩形」を明確にするために、図4のように、(titleX´, titleY´)を中心とした円状に色を塗り、お題のエリアをわかりやすくしても良い。
 上記のように、お題ごとに「(titleX´, titleY´)を中心とした(summaryX,summaryY)の矩形」のエリアを設けることは一例であり、このようなエリアを設けずに、お題と要約を配置(表示)してもよい。
 (変形例1)
 図1に示した変換装置100の構成(基本例)において、他者反応判断部140を備えないこととしてもよい。この場合、ビデオカメラ10、及び、ファシリテータ以外の人物2,3に取り付けられている各マイク及び各センシング機器を備えないこととしてもよい。ただし、人物2,3においてマイク30,50を備え、マイク30,50からの音声が文字変換部110に入力されるようにしてもよい。
 基本例(図1の変換装置100)の構成から他者反応判断部140を除いた構成を図5に示す。図5に示す変形例1の変換装置100の動作は、基本例における動作から、他者反応判断部140に係る動作を除いた動作に相当する。
 前述したように、基本例では、他者反応判断部140が、他者の反応を示す重みを算出し、選択部120は、重みを用いて、複数の要約から、表示する要約を選択する。
 一方、変形例1では、重みを算出しないので、選択部120は、文字変換部110から受け取った複数の要約の中から、例えば、発話の開始時刻の早いものから順にa個の要約を選択する。また、選択部120は、文字変換部110から受け取った複数の要約の中から、ランダムにa個の要約を選択してもよい。
 (変形例2)
 基本例と変形例1のいずれの場合でも、お題を用いないこととしてもよい。この場合、例えば、表示部190上には、お題が表示されずに、要約ごとに、座標(aX´, aY´)上に要約が表示される。お題を表示しなくても、各要約は、互いの意味の近さに応じた位置に表示されるので、近い意味同士の要約内容を一緒に閲覧することができる。つまり、要約間の関連性を分かり良く表示することができる。
 変形例2では、お題を用いないので、お題内容送信部150は不要である。図6に、変形例2における変換装置100の構成例を示す。図6の構成の動作は、変形例1の動作(基本例から他者反応判断部140の動作を除いた動作)から、お題に関わる動作を除いた動作になる。
 (ハードウェア構成例)
 変換装置100は、例えば、コンピュータにプログラムを実行させることにより実現できる。このコンピュータは、物理的なコンピュータであってもよいし、クラウド上の仮想マシンであってもよい。
 すなわち、変換装置100は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、変換装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
 図7は、上記コンピュータのハードウェア構成例を示す図である。図7のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
 当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、変換装置100に係る機能を実現する。
 インタフェース装置1005は、ネットワーク等に接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。なお、変換装置100には、入力部と表示部を含まないこととする場合、表示装置1006と入力装置1007は当該コンピュータに含まれない。
 (実施の形態のまとめ、効果)
 以上説明したとおり、本実施の形態に係る技術では、複数の発話内容の間の関連性を文字情報から容易に読み取ることができるように、文字情報を表示することができる。
 より具体的には、変換装置100により、ファシリテータの入力した文章を、自動的に二次元空間に配置した状態で表示できるので、対話の参加者は、近い意味同士の複数の要約を一緒に閲覧することができる。これにより、読み取りの認知的負荷を下げることができるという効果がある。
 また、他者反応判断部140を備える変換装置100により、特徴的な反応のあった文章を優先的に残すことができるので、参加者のリアクションを考慮した対話内容を確認することができる。
 (付記)
 本明細書には、少なくとも下記各項の変換装置、変換方法、及びプログラムが開示されている。
(付記項1)
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 入力情報を文字情報に変換し、
 得られた1以上の文字情報から、表示する文字情報を選択し、
 選択された文字情報を、その表示位置に対応する座標に変換する
 変換装置。
(付記項2)
 前記プロセッサは、変換モデルを用いて前記文字情報を高次元座標に変換し、前記高次元座標の次元削減を行うことにより前記座標を取得する
 付記項1に記載の変換装置。
(付記項3)
 前記プロセッサは、選択された文字情報に対応する話題を、その表示位置に対応する座標に変換し、
 表示部において、前記話題から得られた座標に前記話題が表示され、前記選択部により選択された文字情報から変換された座標に当該文字情報が表示される
 付記項1又は2に記載の変換装置。
(付記項4)
 前記プロセッサは、前記入力情報の発出元の第1人物とは異なる第2人物における、前記入力情報に対する反応を検出する
 付記項1ないし3のうちいずれか1項に記載の変換装置。
(付記項5)
 前記プロセッサは、前記反応を重みに変換し、重みが付された前記1以上の文字情報から、重みに基づいて、表示する文字情報を選択する
 付記項4に記載の変換装置。
(付記項6)
 コンピュータが実行する変換方法であって、
 入力情報を文字情報に変換する文字変換ステップと、
 前記文字変換ステップにより得られた1以上の文字情報から、表示する文字情報を選択する選択ステップと、
 前記選択ステップにより選択された文字情報を、その表示位置に対応する座標に変換する座標変換ステップと
 備える変換方法。
(付記項7)
 コンピュータを、付記項1ないし5のうちいずれか1項に記載の変換装置における各部として機能させるためのプログラムを記憶した非一時的記憶媒体。
 以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 ビデオカメラ
20、30,50 マイク
40,60 センシング機器
100 変換装置
110 文字変換部
120 選択部
130 初期値設定部
140 他者反応判断部
150 お題内容送信部
160 座標変換部
170 記憶部
180 キーボード
190 表示部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置

Claims (7)

  1.  入力情報を文字情報に変換する文字変換部と、
     前記文字変換部により得られた1以上の文字情報から、表示する文字情報を選択する選択部と、
     前記選択部により選択された文字情報を、その表示位置に対応する座標に変換する座標変換部と
     を備える変換装置。
  2.  前記座標変換部は、変換モデルを用いて前記文字情報を高次元座標に変換し、前記高次元座標の次元削減を行うことにより前記座標を取得する
     請求項1に記載の変換装置。
  3.  前記座標変換部は、前記選択部により選択された文字情報に対応する話題を、その表示位置に対応する座標に変換し、
     表示部において、前記話題から得られた座標に前記話題が表示され、前記選択部により選択された文字情報から変換された座標に当該文字情報が表示される
     請求項1に記載の変換装置。
  4.  前記入力情報の発出元の第1人物とは異なる第2人物における、前記入力情報に対する反応を検出する他者反応判断部
     を更に備える請求項1に記載の変換装置。
  5.  前記他者反応判断部は、前記反応を重みに変換し、
     前記選択部は、重みが付された前記1以上の文字情報から、重みに基づいて、表示する文字情報を選択する
     請求項4に記載の変換装置。
  6.  コンピュータが実行する変換方法であって、
     入力情報を文字情報に変換する文字変換ステップと、
     前記文字変換ステップにより得られた1以上の文字情報から、表示する文字情報を選択する選択ステップと、
     前記選択ステップにより選択された文字情報を、その表示位置に対応する座標に変換する座標変換ステップと
     を備える変換方法。
  7.  コンピュータを、請求項1ないし5のうちいずれか1項に記載の変換装置における各部として機能させるためのプログラム。
PCT/JP2022/028792 2022-07-26 2022-07-26 変換装置、変換方法、及びプログラム WO2024023930A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/028792 WO2024023930A1 (ja) 2022-07-26 2022-07-26 変換装置、変換方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/028792 WO2024023930A1 (ja) 2022-07-26 2022-07-26 変換装置、変換方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2024023930A1 true WO2024023930A1 (ja) 2024-02-01

Family

ID=89705633

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/028792 WO2024023930A1 (ja) 2022-07-26 2022-07-26 変換装置、変換方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2024023930A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000105731A (ja) * 1998-09-29 2000-04-11 Fuji Xerox Co Ltd 共同作業支援装置
JP2017174172A (ja) * 2016-03-24 2017-09-28 株式会社アドバンスト・メディア 表示処理装置及び表示処理プログラム
JP2022047653A (ja) * 2020-09-14 2022-03-25 株式会社日立製作所 テキスト分類装置、テキスト分類方法及びテキスト分類プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000105731A (ja) * 1998-09-29 2000-04-11 Fuji Xerox Co Ltd 共同作業支援装置
JP2017174172A (ja) * 2016-03-24 2017-09-28 株式会社アドバンスト・メディア 表示処理装置及び表示処理プログラム
JP2022047653A (ja) * 2020-09-14 2022-03-25 株式会社日立製作所 テキスト分類装置、テキスト分類方法及びテキスト分類プログラム

Similar Documents

Publication Publication Date Title
JP4395687B2 (ja) 情報処理装置
JP4364251B2 (ja) 対話を検出する装置、方法およびプログラム
US20040064498A1 (en) Communication device, communication method, and computer usable medium
CN100592749C (zh) 会话支持系统与会话支持方法
JP6548045B2 (ja) 会議システム、会議システム制御方法、およびプログラム
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
Mirzaei et al. Combining augmented reality and speech technologies to help deaf and hard of hearing people
JP6176041B2 (ja) 情報処理装置及びプログラム
JP2020181022A (ja) 会議支援装置、会議支援システム、および会議支援プログラム
JP2017064853A (ja) ロボット、コンテンツ決定装置、コンテンツ決定方法、及びプログラム
JP2010176544A (ja) 会議支援装置
KR101567154B1 (ko) 다중 사용자 기반의 대화 처리 방법 및 이를 수행하는 장치
WO2024023930A1 (ja) 変換装置、変換方法、及びプログラム
JP7130290B2 (ja) 情報抽出装置
US20220013128A1 (en) Conversation support system, conversation support method and computer readable storage medium
CN111095397A (zh) 自然言语数据生成系统和方法
JP7358265B2 (ja) 特性評価システムおよびその方法
CN110992958B (zh) 内容记录方法、装置、电子设备及存储介质
JP6866731B2 (ja) 音声認識装置、音声認識方法、及びプログラム
WO2019146199A1 (ja) 情報処理装置、及び情報処理方法
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム
JP2006031467A (ja) 応答生成プログラム、応答生成方法、および応答生成装置
JP7347725B1 (ja) 表示プログラム、表示方法及び表示システム
JP7307295B1 (ja) コンテンツ提供システム、コンテンツ提供方法、及びコンテンツ提供プログラム
JP5613102B2 (ja) 会議装置、会議方法および会議プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22953027

Country of ref document: EP

Kind code of ref document: A1