WO2010071112A1 - トピック遷移解析システム、トピック遷移解析方法およびプログラム - Google Patents

トピック遷移解析システム、トピック遷移解析方法およびプログラム Download PDF

Info

Publication number
WO2010071112A1
WO2010071112A1 PCT/JP2009/070839 JP2009070839W WO2010071112A1 WO 2010071112 A1 WO2010071112 A1 WO 2010071112A1 JP 2009070839 W JP2009070839 W JP 2009070839W WO 2010071112 A1 WO2010071112 A1 WO 2010071112A1
Authority
WO
WIPO (PCT)
Prior art keywords
topic
statement
media stream
language
stream
Prior art date
Application number
PCT/JP2009/070839
Other languages
English (en)
French (fr)
Inventor
健太郎 長友
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/139,550 priority Critical patent/US8670978B2/en
Priority to JP2010542961A priority patent/JP5488475B2/ja
Publication of WO2010071112A1 publication Critical patent/WO2010071112A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Definitions

  • the present invention is based on the priority claim of Japanese patent application: Japanese Patent Application No. 2008-318639 (filed on Dec. 15, 2008), the entire description of which is incorporated herein by reference. Shall.
  • the present invention relates to a topic transition analysis system, a topic transition analysis method, and a program, and more particularly to a topic transition analysis system, a topic transition analysis method, and a topic transition analysis for analyzing topic transitions in various language streams made in parallel from a media stream. Regarding the program.
  • voice Since voice is transmitted through the air, there are not so many voice channels that can be used simultaneously in a certain place. For example, in conferences and lectures, there is usually only one publicly accepted voice channel, and voice communication using other channels is called “chat” and is often considered inappropriate.
  • chat is “noise” for the only voice channel and should be avoided. However, if you think of a meeting or lecture as an opportunity to recall ideas for participants and listeners to get new ideas and perspectives, “chat” can also be an opportunity to recall useful ideas. Should not be denied. For example, in a question-and-answer session at an academic conference, discussions that are slightly out of focus from the main presentation are often excitement. Based on this idea, there is a community that actively incorporates communication using non-voice channels such as chat in parallel with voice communication. As an example, there is an attempt of WISS (Workshop on Interactive Systems and Software) described in Non-Patent Document 1.
  • Non-patent Document 2 a major bulletin board
  • Non-patent Document 3 an application example has been born that is free from the time constraints of television programs and radio programs
  • the only privileged channel of video is communication using a secondary channel such as chat, and so on. It can be seen that they have the same structure.
  • ⁇ ⁇ Voice indexing technology can be considered as an existing technology that can be used for such purposes.
  • Non-Patent Document 4 is shown as an example of an indexing technology that handles voice and secondary channels that accompany it.
  • the system disclosed in this document indexes a television program using the live chat text for the program in the following procedure. That is, first, the number of chat writings per unit time is measured, and if there are many writings, it is considered that an event having a particularly high response has occurred on the television program immediately before that time. Next, those writings are analyzed, and “a degree of excitement” and “a degree of discouragement” are extracted with reference to vocabulary appearing there. In this way, by extracting the time when the event on the program side occurred and the corresponding chat writing, it is possible to link between the specific time of the program and each chat writing, A specific part of a television program corresponding to a certain writing can be indexed.
  • Patent Document 1 is also another example of the audio indexing technology.
  • the text-to-speech cross-indexing system disclosed in this document generally operates as follows. First, a topic label is assigned to the whole text or each part. Next, the probability that a keyword given in advance appears for each topic of the whole input text or each part is obtained. Finally, the likelihood of appearance of the keyword is estimated by the speech recognition means for an arbitrary section of the input speech, and the correlation between the text and speech is estimated by combining with the appearance probability of the keyword for each topic.
  • Non-Patent Document 5 is shown as an example of a voice indexing technique based on the voice summarization technique.
  • conference speech is converted into text using speech recognition technology, and a concept vector given in advance for each word is used to stretch the speech by the word set included in the speech recognition result text for a certain speech.
  • the concept vector set is divided for each topic on the basis of whether the concept vector set is similar to that of another speech. After that, the topic transition of the entire meeting is reconstructed in a tree shape based on the similarity between topics. Since each node of the tree represents a set of utterances belonging to a certain topic, this tree-like topic network can be used to guide the first utterance that deals with the same topic as a particular utterance in the conference.
  • Non-Patent Document 5 The main application of the technique of Non-Patent Document 5 is speech summarization, which outputs a topic transition tree analyzed from speech. Therefore, another part of the text that appears in the topic transition tree, that is, a part of speech data, is used. You can only link to the department.
  • the construction of the topic transition tree itself is mainly performed because it is applied to the text sequence obtained by the speech recognition process and there is no particular restriction that the stream from which the text sequence originates must be single. By inputting both the media stream and the secondary language communication channel simultaneously, it can be extended to cross-indexing between the language communication and the main media stream performed in the secondary channel.
  • Non-Patent Document 6 to Non-Patent Document 11 are documents that introduce methods and the like that can be applied to the present invention, and their contents and the relationship with the present invention will be described in corresponding sections of each embodiment.
  • the entire disclosure of the above patent documents and non-patent documents is incorporated herein by reference.
  • the following analysis is given by the present invention.
  • the first problem is that a series of linguistic communication leading to a certain statement on the secondary channel when linguistic communication on a topic according to the content of the main media stream is performed in the secondary channel associated with the main media stream.
  • Non-Patent Document 4 in the method of simply using the time information of the statement in the secondary channel and linking it to a part of the main media stream that is close in time, If you are away from a topic in the main media stream that is based on linguistic communication in a social channel, it cannot be properly associated.
  • Patent Document 1 requires a step of adding a topic label to text in advance, and a step of calculating in advance the keywords included in the topic and the appearance probability thereof. In fact, it is difficult to apply to indexing for language communication that proceeds in real time.
  • Non-Patent Document 5 the method using the technique described in Non-Patent Document 5 and using the method of structuring topic transitions after integrating the main media stream and the language stream in the secondary channel, the structuring of the topic is appropriately performed. In order to do this, it is necessary to analyze both the main and substreams once. Such a technique is difficult to use in a media stream (for example, a conference) that proceeds in real time.
  • An object of the present invention is to provide a topic transition analysis system for obtaining the position of a main media stream that is a starting point from a certain statement made in a language communication performed in a secondary channel attached to the main media stream. It is to provide an efficient topic transition analysis system whose operation is suitable for real-time processing.
  • a main media stream and one or a plurality of language communication streams (hereinafter, “language stream”) formed in parallel with the media stream are input,
  • a topic transition analysis system including a statement incentive sequence determination unit that determines whether a certain statement on a plurality of language streams is newly generated due to the contents of a media stream.
  • an arbitrary statement is selected from one or a plurality of language streams made in parallel with the media stream, and the statement is newly added due to the content of the media stream.
  • a topic transition analysis method is provided for determining whether or not an occurrence has occurred.
  • a program to be executed by a computer constituting a topic transition analysis system which selects an arbitrary statement from one or more language streams made in parallel with the media stream.
  • a program for causing the computer to execute processing and processing for determining whether or not the statement is newly generated due to the content of the media stream can be distributed in a state stored in an arbitrary storage medium or via a network.
  • the present invention when a series of linguistic communication on a secondary channel based on a topic at a certain point of the main media stream gradually deviates in time or content from the topic on which it is based. Even so, it becomes possible to obtain a certain point in time on the media stream as a base point from any statement in the language stream. Further, according to the present invention, it can be realized by mounting suitable for real-time processing.
  • a statement incentive sequence determination means for determining whether the content of a group of statements is to be continued or not, and by tracing the statements that appear on each language stream, It is possible to estimate one point or one section on the main media stream that is the starting point.
  • FIG. 1 is a block diagram showing the configuration of a topic transition analysis system according to the first embodiment of the present invention.
  • the topic transition analysis system according to the first embodiment of the present invention includes a statement incentive sequence determination unit 100.
  • the statement incentive sequence determination unit 100 includes a language stream buffer unit 110 that temporarily stores individual statements included in the language stream, and a statement that is a target of the incentive sequence determination and a statement stored in the language stream buffer unit 110.
  • a first topic similarity calculation unit 120 that calculates a topic similarity between them
  • a second topic similarity calculation unit 130 that calculates a topic similarity between a statement and a media stream that are also subject to incentive sequence determination
  • a topic Similarity comparison means 140 is also subject to incentive sequence determination.
  • the language stream buffer means 110 temporarily stores the statement included in the input language stream on the memory.
  • a statement refers to a series of linguistic events with a certain intent. For example, if the communication on the language stream is the exchange of sentences, one statement corresponds to one sentence. Alternatively, if the language stream is a voice conversation, each sentence corresponds to a statement.
  • the statement shall also have information indicating the time it occurred.
  • the first topic similarity calculation unit 120 calculates the topic similarity between the input statement and a past statement on the language stream held in the language stream buffer unit 110 based on a given algorithm. Actually, the similarity is calculated by taking out the latest statement stored in the language stream buffer means 110 in response to a request from the topic similarity calculation algorithm.
  • the second topic similarity calculation means 130 calculates the topic similarity between the input statement and an arbitrary partial section on the media stream based on a given algorithm.
  • the topic similarity comparison unit 140 compares the topic similarity of the statement and the language stream and the topic similarity of the statement and the media stream calculated by the two topic similarity calculation units, respectively, and shows a higher topic similarity. Are output as an incentive sequence for the statement.
  • each statement included in the language stream is extracted and stored in a memory of the language stream buffer unit 110.
  • the topic transition analysis system When the topic transition analysis system according to the present embodiment is operated online with respect to a language stream, that is, the incentive sequence determination is sequentially repeated for statements newly appearing on the language stream.
  • the incentive sequence determination is made for the statement s1 that appears at a certain time t1, this statement becomes part of the language stream that is the comparison target for the statement s2 that appears at the next time t2. Therefore, when operating in the real-time format in this way, s1 is a language stream at the time when the determination at time t1 is performed (when the first and second topic similarity calculating means calculate the topic similarity for s1). It will be operated to store in the buffer means 110.
  • the accumulation and storage in the language stream buffer means 110 may be temporary, and how many statements are accumulated at a time depends on the algorithm used in the first topic similarity calculation means 120. For example, if the algorithm requires only one recent statement, only one may be retained, and if N statements are required, at most N may be retained.
  • Statements stored in the language stream buffer means 110 may be deleted at an appropriate timing. For example, if it is known that the number of statements required by the algorithm is at most N as described above, the oldest stored statement is deleted when the (N + 1) th statement appears in the language stream. Good. Alternatively, if the memory capacity sufficient to store the number of statements required by the algorithm is known, deletion is performed at the timing when new statements appearing in the language stream will exceed this capacity. May be. When such an algorithm that is difficult to predict in advance is used, the first topic similarity calculation unit 120 may be instructed to delete statements that are no longer necessary.
  • the first topic similarity calculation unit 120 calculates the topic similarity between the given statement and the statement stored in the language stream buffer unit 110 according to a given algorithm.
  • Non-patent Document 6 the vector space method (Non-patent Document 6) may be used by regarding the statement as a document. At this time, if only one recent statement in the language stream is used, a biased word vector may be generated. Therefore, the sum of the word vectors of the most recent statements may be used. Alternatively, the sum may be multiplied by an attenuation coefficient so that the word vector of the most recent statement has a weight.
  • the second topic similarity calculation means 130 calculates the topic similarity between the given statement and the media stream according to a given algorithm.
  • a media stream is often given in a form other than text information.
  • the topic similarity is calculated using the vector space method in the same way as the first topic similarity. Can be calculated.
  • it can be converted into text information by extracting character information (telop or the like) in a video stream combined with an image recognition technique or using a closed caption signal.
  • the attributes for that object can be used to define topic similarity.
  • the topic similarity is calculated by the second topic similarity calculation means 130, it is not necessary to use the entire media stream input up to that point, and the one interval closest to the time at which the statement to be determined occurs is determined. It is often sufficient to use it. For example, a predetermined fixed length section may be used, or a section in which the number of detected utterances is within a certain threshold may be used for a stream including an audio signal.
  • the topic similarity comparing means 140 compares them, and the stream showing the highest similarity is selected for the statement. It is determined that the stream is an incentive.
  • the topic similarity comparison unit 140 selects the media stream as the incentive sequence for a certain statement. All the statements stored in the buffer means 110 are deleted, and the statements are newly stored in the language stream buffer means 110. In this way, it is possible to correctly determine the incentive sequence for the statement at the next time.
  • the statement is a continuation of language communication leading to the previous statement on the language stream, or is newly created according to the contents of the latest media stream. Is determined using only one or more statements immediately before the statement and a section of the media stream in the vicinity of the time at which the statement occurred. A determination method suitable for processing can be realized.
  • FIG. 2 is a block diagram showing the configuration of a topic transition analysis system according to the second embodiment of the present invention.
  • the topic transition analysis system according to the second exemplary embodiment of the present invention includes a statement incentive sequence determination unit 200.
  • the statement incentive sequence determination unit 200 is stored in the topic group buffer unit 210 that temporarily stores individual statements included in the language stream for each topic group, and the statement and topic group buffer unit 210 that is the target of the trigger sequence determination.
  • First topic similarity calculating means 220 for calculating the topic similarity between the statement and the second topic similarity calculating means for calculating the topic similarity between the statement that is the target of the incentive sequence determination and the media stream.
  • 230 and topic similarity comparison means 240 are topic similarity comparison means 240.
  • the topic group buffer unit 210 temporarily stores the statements included in the input language stream in the memory for each topic group.
  • a topic group is a set of statements whose characteristics related to the topic of the statement are close to each other. Since the function for buffering the statement itself is substantially the same as the language stream buffer means 110 in the first embodiment of the present invention, it is omitted.
  • the operations of the first and second topic similarity calculation means 220 and 230 also conform to the first embodiment of the present invention.
  • the operation is slightly different for the first topic similarity that calculates the topic similarity between the statement and the language stream.
  • the first embodiment since there is only one statement set representing a language stream, the comparison with the statement was made only with this one set of statements.
  • the second embodiment there are a plurality of statement sets (that is, topic groups) representing language streams. Accordingly, topic similarity is also calculated for each group.
  • the topic similarity comparison means 240 compares the topic similarity for each of these topic groups with the topic similarity for the media stream, and considers the topic group or stream having the highest topic similarity as an incentive sequence for the statement to be discriminated. Output.
  • the statement is stored in the topic group buffer means 210 as belonging to the topic group.
  • the statement on the language stream is classified into a plurality of topic groups, and the topic similarity is calculated for each of them, so that the topic groups overlap in time. It is possible to operate without problems even in a simple language stream.
  • FIG. 3 shows a situation in which statements belonging to a plurality of topic groups appear overlapping in time. It is assumed that language communication performed starting from an event e0 that appears in the media stream before and after time t0 is followed by statements s0, s1, and s2. Here, after the statement s3 for the phenomenon e1 occurring at the time t1, the statement s4 following the s0, s1, s2 was made at a later timing.
  • the statement s0, s1, s2 is deleted from the language stream buffer means when the statement s3 appears, so the statement s4 is in the group of statements s0, s1, s2. Even if it belongs, this cannot be detected correctly, and it is determined that the statement s3 is continued or a statement regarding the media stream immediately after the event e1.
  • the statement s4 is obtained by comparing the group of statements s0, s1, s2 and the group of statement s3, and the topic similarity to the media stream, the comparison is made. It can be determined that the statement is correctly linked to the statements s0, s1, and s2.
  • topic transition analysis system according to the second embodiment of the present invention, it is possible to correctly determine the incentive series of statements even in a situation where a plurality of topic groups appear temporally overlapping. can do.
  • the language stream buffer means 110 in the topic transition analysis system of the first embodiment of the present invention has been described as deleting the old statement from the memory, but the same control is also performed in the second embodiment of the invention. be able to.
  • an appropriate timeout time (t / o in FIG. 3) is set in advance, and the time when the statement belonging to a certain topic group appears last
  • the old statement can be deleted at the timing when the timeout period has passed.
  • the timeout process may be started from the time when it is determined that a certain statement does not belong to any existing topic group.
  • the statement s5 in FIG. 3 is a statement for the event e2, but because the topic similarity between the events e0 and e2 is high, there is a possibility that the statement s5 is erroneously determined to belong to the topic group of the statements s0, s1, s2, and s4. is there. If time-out processing is used at this time, the statement s5 is correctly generated by the event e2 using the fact that the time t2 when the statement s5 occurs is more than t / o seconds from the time t1 when the statement s4 occurs. Can be determined as a statement.
  • the same heuristic can be included in the first topic similarity calculation means 220.
  • the difference between the last occurrence of the statement in the topic group and the occurrence time of the statement to be identified is calculated. It is also possible to introduce a forgetting factor that reduces the value of.
  • FIG. 4 is a block diagram showing the configuration of a topic transition analysis system according to the third embodiment of the present invention.
  • the topic transition analysis system according to the third exemplary embodiment of the present invention includes a topic transition network generation unit 400.
  • the topic transition network generation unit 400 includes an incentive sequence estimation unit 410, an incentive sequence storage unit 420, and a topic transition estimation unit 430.
  • Incentive sequence estimation means 410 is substantially equivalent to the statement incentive sequence determination means 100, 200 described in the first and second embodiments. However, while the statement incentive sequence determination means 100 and 200 output the result of determining which is the incentive sequence for a statement, the incentive sequence estimation means 410 outputs each input stream (each topic group with respect to a language stream). Returns a set of topic similarities with the statement to be distinguished.
  • the incentive sequence storage unit 420 records a statement and a set of topic similarities of each stream and topic group for the statement obtained by the incentive sequence estimation unit 410.
  • the topic transition estimation unit 430 uses the set of topic similarities for each statement stored in the incentive sequence storage unit 420 to form a tree-like relationship of the incentive sequence for all statements that appear before any statement on the language stream. Build on the network and output. This output is called a topic transition network because it is a network showing how the topic has transitioned in the language communication performed on the language stream.
  • the first statement is taken from the language stream. It is assumed that this appears at time t0. Since the statement s0 appearing at time t0 has no previous statement, it can be regarded as a statement generated by the latest media stream (box a in FIG. 5).
  • the incentive sequence storage unit 420 records the result ⁇ s0, m0, g1 (s0) ⁇ . This means that the statement s0 has formed a topic group G1, which is a new topic group. At this time, it means that one section of the media stream for which the topic similarity is obtained is m0.
  • gi (x) represents the topic similarity between statement x and topic group Gi.
  • the incentive sequence estimation means 410 calculates the topic similarity between the statement s1, the media stream, and the topic group G1.
  • the incentive sequence storage unit 420 records the result ⁇ s1, m1, g1 (s1), g2 (s1) ⁇ .
  • the topic group G2 is a temporary label attached to the topic group newly formed by the statement s1 when the statement s1 is made with the media stream as an incentive.
  • the topic similarity with each stream and topic group is obtained as ⁇ s2, m2, g1 (s2), g2 (s2) ⁇ as before.
  • the statement s2 forms a new topic stream G2. Therefore, for the fourth statement s3 that appears at the next time t3, topic similarity for one media stream and two topic groups is obtained, resulting in ⁇ s3, m3, g1 (s3), g2 (S3), g3 (s3) ⁇ are stored in the incentive sequence storage means 420. The same continues thereafter.
  • the topic transition estimation means 430 operates as follows.
  • the oldest statement s0 is extracted from the incentive sequence storage means 420, and the topic similarity with each sequence to which this may belong is compared. Since the statement s0 is recorded as ⁇ s0, m0, g1 (s0) ⁇ , it is determined that it belongs to the topic group G1, and the content of one section m0 of the media stream near this time is used as an incentive. It is confirmed that it was done. Thus, a network is constructed that transitions from a section m0 of the media stream to the statement s0.
  • FIG. 6 shows the topic transition network generated at the timing when the topic similarity for the statement s8 is recorded in the incentive sequence storage unit 420.
  • topic transition estimation is directly performed from the incentive sequence estimation unit 410 without the incentive sequence storage unit 420.
  • the topic similarity information may be input to the means 430 to construct the topic transition network online.
  • topic similarity is accumulated in the incentive sequence storage unit 420, a more flexible topic transition network can be generated.
  • the third embodiment of the present invention for a statement in a language stream, is the statement a continuation of linguistic communication leading to the immediately preceding statement, or is it a new reaction regarding the content of the immediately preceding media stream? Because it is configured to determine which one is using the topic similarity, the transition from the topic at a certain point in the media stream where the topic gradually becomes the base point in the language communication in the language stream. Even if you do, you can track the transition.
  • the above-described effect can be realized by giving only one or a plurality of statements immediately before and a voice recognition result for a part of the media stream immediately before the statement to a certain statement.
  • topic transition analysis suitable for online processing can be performed.
  • completely online operation is possible by operating the topic transition estimation unit 430 online without going through the incentive sequence storage unit 420.
  • FIG. 7 is a block diagram showing the configuration of a topic transition analysis system according to the fourth embodiment of the present invention.
  • the topic transition analysis system includes an incentive sequence discrimination means 800.
  • Incentive sequence discrimination means 800 includes language stream buffer means 810, first speech recognition means 820, first recognition reliability calculation means 830, second speech recognition means 840, second recognition reliability calculation means 850, A recognition reliability comparison unit 860 and a recognition result selection unit 870 are included.
  • the first and second speech recognition means 820 and 840 convert the speech signal included in the input language stream into a text unit using the existing speech recognition technology. At this time, each voice recognition unit performs voice recognition while performing adaptive processing on different topics.
  • Non-Patent Document 8 a speech recognition method based on a commonly used trigger model (Non-Patent Document 8) or cache model (Non-Patent Document 9) can be used.
  • the language stream buffer unit 810 stores the speech recognition result output by the first speech recognition unit 820 as a single statement of the recognition result text for one utterance.
  • the handling of the statements accumulated in the language stream buffer means 810 can take a form according to the first and second embodiments as appropriate.
  • the first speech recognition means 820 performs speech recognition processing after applying topic adaptation to the set of latest statements stored in the language stream buffer means 810. Therefore, the recognition result is slightly biased to the latest contents of the language stream.
  • the second speech recognition means 840 performs speech recognition processing after applying topic adaptation to one section of the latest media stream.
  • a specific method for extracting topic information from the media stream it is possible to appropriately adopt a form according to the one described in the first embodiment.
  • topic adaptive speech recognition processing can be executed accordingly.
  • the recognition result output by the second voice recognition unit is slightly biased to the contents of the latest media stream.
  • the recognition results output by the first and second speech recognition means 820 and 840 are used as inputs to the first and second recognition reliability calculation means 830 and 850, and indicate the reliability (validity) of the recognition results.
  • An index value is output.
  • Non-Patent Document 10 Various things can be considered as the reliability (Non-Patent Document 10). For example, a word posterior probability can also be used.
  • the recognition reliability comparison unit 860 uses the reliability output by the recognition reliability calculation units 830 and 850 as the topic similarity to the latest utterance (statement) on the language stream, and performs the first and second implementations.
  • the incentive sequence is determined in the same manner as the form.
  • the recognition result selection means 870 outputs the recognition result that has been adapted to the stream on the side determined to be the incentive sequence as the recognition result text of the utterance (statement).
  • an audio utterance when a language stream is given as a media signal including an audio signal, an audio utterance has the same topic as each of the immediately preceding language stream and the immediate media stream. Assuming that the speech is converted to text using a topic-adapted speech recognition means, and the conversion result text operates to determine which stream's content was triggered by the reliability of the text. Even if the stream is not text, it is possible to determine the incentive sequence.
  • Another advantage of the embodiment of the present invention is that when a language stream is given as a media signal including an audio signal, a better recognition result text can be simultaneously obtained for the audio signal of the language stream. Is a point. The reason is that either the language stream or media stream immediately before a certain utterance is equal to the topic of the utterance, so the recognition result applied to that topic is compared to the case where it was not applied to any topic. This is because it can be expected to be more appropriate.
  • FIG. 8 is a block diagram showing a configuration of a real-time conference support apparatus according to the fifth embodiment of the present invention.
  • the real-time conference support apparatus includes a computer 900 and a video camera, a microphone, a display device, and an input device connected to the computer.
  • the computer 900 is connected to a network.
  • the computer 900 includes the following software modules. That is, a recording / recording module 910 that captures voice and video, a voice recognition module 920 that converts voice to text, a chat reading module 930 that sequentially obtains computer chat chat writing from the network, an incentive sequence estimation module 940, an incentive Series storage module 950, topic transition network generation module 960, screen composition module 970 that appropriately shapes chat messages and videos, and arranges them together with UI (User Interface) elements such as hyperlinks and buttons, based on this arrangement information
  • UI User Interface
  • a UI module 980 that receives a corresponding UI operation while outputting an image
  • a media playback module 990 that plays back video and audio at an arbitrary time based on the arrangement of the screen configuration module 970 are included.
  • the recording / recording module 910 acquires a video signal input from the video camera and an audio signal input from the microphone by a predetermined method.
  • a video / audio stream via a network may be used.
  • the audio signal (extracted from the video signal if it is a video signal) is sent to the audio recognition module 920.
  • the video signal and the audio signal are sent after being buffered as necessary for playback by the media playback module 990.
  • the speech recognition module 920 is positioned as a specific example of the speech recognition means of the first to fourth embodiments described above, generates a text string having the highest validity for the input speech signal, and generates time information and At the same time, it is sent to the incentive sequence estimation module 940.
  • the chat reading module 930 sequentially acquires the remarks newly appearing in the computer chat performed over the network, and sends them to the incentive sequence estimation module 940 together with the time information.
  • the incentive sequence estimation module 940 is positioned as a specific example of the incentive sequence estimation means of the third embodiment described above. That is, the incentive sequence estimation module 940 receives the speech recognition result text obtained from the speech recognition module 920 and the chat speech text obtained from the chat reading module 930 as inputs, and temporarily accumulates them as necessary. However, the incentive sequence is estimated for the chat utterance text newly obtained from the chat reading module 930 and sent to the incentive sequence storage module 950 together with the score of the estimation result.
  • topic groups g1, g2,..., Gn ⁇ 1 and video signal or audio signal sequences are included as candidates for the incentive sequence of s (t). Conceivable. If s (t) is a statement made with the latter as an incentive, a new topic group gn is formed, and eventually n topic groups are candidates for the incentive sequence. For each of these, the topic similarity between one or more recent utterances and s (t) is obtained.
  • recognition result text for one or more utterance sections (each start time is set to u1, u2,..., um) that appeared more than a given delay time D before time t.
  • r (u1), r (u2),..., r (um) are used.
  • This delay time D is the minimum delay time required for chat input and network transmission, and can be given a value of about 1 second, for example.
  • chat systems have a function that automatically determines that a statement made in a specific format was triggered by another specific statement. Even without such a function, a certain format may be recognized as a common effect as a common recognition within chat users.
  • the incentive series for a statement may be determined based on its format, in which case the topic similarity is deterministic (maximum for a particular topic group, all other series The minimum value).
  • the incentive sequence storage module 950 includes ⁇ t, s (t), d (g1, s (t)), d (g2, s (t)), ..., d (gn, s (t)), u1, u2, ..., um ⁇ are stored as one set.
  • d (x, y) is the topic similarity between the series x and the statement y.
  • the topic transition network generation module 960 generates a topic transition network (topic transition graph) based on information stored in the incentive sequence storage module 950 in accordance with instructions from the UI module 980. Details are described in detail in the third embodiment. The generated topic transition network is used in the UI module 980.
  • the screen composition module 970 is useful information for the user of the real-time conference support system of this embodiment, such as each chat utterance acquired by the chat reading module 930 and a display area for the media playback module 990 to play back video and audio Prior to displaying on the screen, hyperlinks, button controls, and the like are appropriately added to these to determine the screen layout and output it as screen configuration information.
  • the screen configuration module when the screen layout is described in HTML (Hyper Text Markup Language), the screen configuration module generates an HTML document. At this time, it is necessary to make it possible for the user to interact with each message in the form of buttons and hyperlinks, and to embed a scroll bar and a frame structure so that the user can easily read.
  • the media playback module 990 calculates a layout so as to secure a display area in which controls for playing back video and audio are allocated.
  • Chat messages may be simply arranged in time series like a general chat system.
  • each transition sequence may be displayed in a tree shape (see FIG. 6).
  • the screen configuration module 970 updates the screen configuration information
  • the topic transition network is acquired from the topic transition network generation module 960.
  • overlay display (subtitles, see Non-Patent Document 2) may be performed in accordance with the display content of the media playback module 990, or the time series of video and audio to be played back may be arranged in a balloon shape. In this way, when cooperating with the media playback module, information necessary for cooperating is included in the screen configuration information and output.
  • the UI module 980 actually performs screen drawing processing based on the screen layout information generated by the screen configuration module 970, and the result is presented to the user by the display device.
  • a user input is received from an input device such as a mouse or a keyboard, and the system is controlled as follows.
  • the utterance is generated using the topic transition network generation module 960.
  • a topic transition network is generated, the time of the video or audio that is the starting point of this utterance is obtained, and the media or playback module 990 is controlled to play back the video or audio before and after that time.
  • this is a cue function that uses chat statements as an index.
  • the processing for obtaining the time of video and audio that is the starting point of a certain statement is specifically performed as follows.
  • the message corresponds to one of the sections. From this section, if you follow a message in the direction of the start point of the network, you will eventually reach a certain message. If this utterance s (t ') is made at time t', the time of the video or audio starting from this can be obtained. For example, it is possible to select a time that is back by a certain time (1 second, 5 seconds, 10 seconds, etc.) from the time t ′. Alternatively, the start time of the utterance section detected immediately before time t ′ may be used. Alternatively, the earliest utterance time u′1 used in the trigger sequence estimation of the utterance s (t ′) made at the time t ′ may be used. Of course, you may determine combining these conditions.
  • the present invention can be applied not only to the above-described real-time conference support apparatus but also to other media stream indexing systems and language stream search systems.
  • the present invention can be applied to a meeting / lecture support system in which auxiliary communication is performed in meetings / lectures whose main purpose is idea creation to stimulate discussions.
  • the present invention can be preferably applied to the media stream indexing system and language stream search system for conference presentation and educational purposes.
  • the present invention can also be applied to uses such as a video communication support system that activates video-mediated communication.
  • the term “means” indicates a unit having the function.
  • the embodiments and examples can be changed and adjusted based on the basic technical concept.
  • Various combinations and selections of various disclosed elements are possible within the scope of the claims of the present invention. That is, the present invention of course includes various variations and modifications that could be made by those skilled in the art according to the entire disclosure including the claims and the technical idea.
  • Topic similarity comparison means 100, 200 Statement incentive sequence determination means 110, 810 Language stream buffer means 120, 220 First topic similarity calculation means 130, 230 Second topic similarity calculation means 140, 240 Topic similarity comparison means 210 Topic group buffer means 400 Topics Transition network generation means 410 Incentive sequence estimation means 420 Incentive sequence storage means 430 Topic transition estimation means 800 Incentive series discrimination means 820 First speech recognition means 830 First recognition reliability calculation means 840 Second speech recognition means 850 Second recognition reliability Calculation means 860 Recognition reliability comparison means 870 Recognition result selection means 900 Computer 910 Recording recording module 920 Speech recognition module 930 Chat reading module 940 Incentive sequence estimation module 950 Incentive system Storage module 960 topic transition network generation module 970 screen configuration module 980 UI (User Interface) module 990 media playback module

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

 本発明は、主たるメディアストリームに付随する副次的チャネルにおいて行われる言語コミュニケーションの中でなされたある言明から、その言明に至る起点となった主メディアストリームの位置を求めるトピック遷移解析システムの提供する。トピック遷移解析システムは、主たるメディアストリームと、当該メディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム(以下、「言語ストリーム」)とを入力とし、前記一つまたは複数の言語ストリーム上のある言明が、メディアストリームの内容に起因して新たに生起したものであるか否かを判定する言明誘因系列判定手段を備える(図3)。

Description

トピック遷移解析システム、トピック遷移解析方法およびプログラム
 (関連出願についての記載)
 本発明は、日本国特許出願:特願2008-318639号(2008年12月15日出願)の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
 本発明はトピック遷移解析システム、トピック遷移解析方法およびプログラムに関し、特にメディアストリームから平行してなされる各種の言語ストリームにおけるトピックの遷移を解析するトピック遷移解析システム、トピック遷移解析方法およびトピック遷移解析用プログラムに関する。
 音声は空気を媒介として伝達されるので、ある場において同時に利用可能な音声チャネルはあまり多くない、という特徴を持つ。例えば会議や講演においては、公に認められた音声チャネルは通常ただひとつであり、この音声チャネル以外を用いた音声コミュニケーションは「雑談」と呼ばれ、不適切なものと考えられることが多い。
 会議や講演の役割を情報伝達と捉えるならば、「雑談」は唯一の音声チャネルに対する「雑音」であるから、忌避されるべきものである。しかしながら、会議や講演を、参加者や聴講者が新たな発想や視点を得るためのアイデア想起の契機となるものと捉えるならば、「雑談」もまた有益なアイデア想起の契機となりえるので、必ずしも否定されるべきではない。例えば、学会発表の質疑応答では、往々にして主たる発表内容からやや外れた議論で盛り上がることがある。このような思想に基づいて、音声コミュニケーションと平行してチャットなどの非音声チャネルを用いたコミュニケーションを活発に取り入れるコミュニティが存在する。一例として、非特許文献1に記載されているWISS(Workshop on Interactive Systems and Software)の試みが挙げられる。
 会議以外の分野では、映像を媒介としたコミュニケーションの例が挙げられる。このようなコミュニケーションは、インターネットの普及以前から、離れた場所にいる親しい友人同士が同じ番組をテレビで見ながら電話を掛けるというような形でしばしば行われてきた。パソコン通信やインターネットの黎明期にはチャットによるコミュニケーションが生まれたが、ここでも同様にテレビ番組を媒介として盛り上がる例が見られた。今日では大手掲示板に専用のスレッドが立てられる(非特許文献2)など、ネット上ではごく普通に見られるコミュニケーション手段となっている。さらに近年では映像そのものもネットワーク上を流れるようになったことで、テレビ番組やラジオ番組の持つ時間的な束縛からも解放された形での適用例も生まれてきている(非特許文献3)。
 こうした映像とチャットの併用も、映像という唯一の特権的なチャネルに対し、チャット等の副次的なチャネルを用いたコミュニケーションを併用するという構図から見れば、先に述べた会議・講演の事例と同じ構造を持つことが分かる。
 このように、主たるチャネルを通して流れる音声や映像などのメディアストリームに対して、これに付随する副次的なチャネルにおいて平行してなされるコミュニケーションのストリームがひとつまたは複数存在する、というモデルは、近年、さまざまな場面で見られるようになりつつある。
 こうしたコミュニケーション・モデルにおける問題のひとつは、ユーザが副次的ストリームにおけるコミュニケーションに集中しすぎた場合に、主たるメディアストリームの一部を見逃したり聞き逃したりしがちである、という点にある。このようなケースで、副次的ストリームに集中しはじめた最初のタイミングまで主たるメディアストリームを簡便に巻き戻すことができれば便利である。
 例えば、「首相辞任会見」という映像コンテンツを視聴する複数のユーザがチャットを楽しんでいる状況で、首相が何か暴言を吐いたことを契機として、その暴言に関する話題でチャットが盛り上がり、その流れから歴代総理による暴言、さらには過去の政治家の暴言を次々に羅列する書き込みが連続して行われたりする。この場合、元の「首相辞任会見」というコンテンツにおける「現首相の暴言」という事象からやや離れたトピック(「過去の政治家の暴言」)に対する会話が続いていることになるので、チャット参加者の注意は「首相辞任会見」から一時的に逸れてしまう。しばらく後、ひとしきりチャットで盛り上がったユーザが再び「首相辞任会見」に注意を向けると、そこではまったく異なるトピックに内容が移っていることに気づく。このユーザは、このコンテンツの視聴を継続するために、現時点のトピックが何であるかを読み取り、把握する必要に迫られる。ここで、一連のチャット議論の発端となった「首相の暴言」シーンの直後まで簡単に巻き戻すような仕組みがあれば、ユーザは見失った場面を素早く視聴しなおして、より容易にトピックに追いつくことができる。このような仕組みが実現されていれば、ユーザは、「首相辞任会見」の全体を漏れなく効率的に閲覧しつつ、同時に、思う存分チャットを楽しむことができるようになるだろう。
 ところで、ここで想定しているコミュニケーション・モデルにおいては、副次的チャネルにおけるコミュニケーションは必ず主たるチャネルにおけるコミュニケーションを起点として行われている。上述の例で言えば、「過去の政治家の暴言」を語る一連のチャット上の対話は、「首相辞任会見」映像の「首相の暴言」のシーンを起点としている。従って、副次的チャネルにおけるコミュニケーションから、その起点となった主たるチャネルのメディアストリーム上の一点を特定する技術を用いれば、このようなニーズに応えられる。
 このような用途に利用できそうな既存の技術として、音声インデキシング技術が考えられる。
 音声とそれに付随する副次的なチャネルを扱うインデキシング技術の一例として、非特許文献4を示す。この文献に開示されるシステムは、テレビ番組に対して、その番組に対する実況チャットのテキストを用いて、次の手順でインデキシングする。すなわち、まず単位時間あたりのチャットの書き込み数を計測し、特に書き込みが多ければその時刻の直前にテレビ番組側に特に反響の大きいイベントが起きたと看做す。次にそれらの書き込みを分析し、そこに現れる語彙などを参照に「盛り上がり度」「落胆度」を抽出する。このようにして番組側のイベントが起こった時刻とそれに対応するチャットの書き込みを抽出していくことで、番組の特定時刻とチャットの各書き込みの間の紐付けを行うことができるので、チャットのある書き込みに対応するテレビ番組の特定部位をインデキシングすることができる。
 特許文献1もまた音声インデキシング技術の別の一例である。この文献に開示されるテキストと音声のクロスインデキシング・システムは、概略次のように動作する。まず、テキストの全体または各部にトピック・ラベルを付与する。次に、予め与えられたキーワードが入力テキストの全部または各部の各々のトピックに対して出現する確率を求める。最後に入力音声の任意区間に対して前記キーワードの出現尤度を音声認識手段によって推定し、前記トピックごとのキーワードの出現確率と組み合わせることで、テキストと音声の相関関係を推定する。
 やや異なる方式であるが、音声要約技術に基づく音声インデキシング技術の一例として、非特許文献5を示す。この文献で開示される会議インデクシングシステムは、会議音声を音声認識技術によってテキスト化し、予め単語ごとに与えられた概念ベクトルを用いて、ある発話音声に対する音声認識結果テキストに含まれる単語集合によって張られる概念ベクトル集合が、別の発話音声のそれと類似するかどうかを基準としてトピックごとに分割する。その後、トピック間の類似度に基づいて会議全体の話題遷移をツリー状に再構築する。ツリーの各ノードは、ある一塊のトピックに属す発話の集合を表すので、このツリー状のトピックネットワークを用いて、会議のある特定の発話と同じトピックを扱う最初の発話を導くことができる。
 非特許文献5の技術の主たる用途は音声要約であり、音声から解析されたトピック遷移ツリーを出力とするものであるから、トピック遷移ツリーに現れたテキスト、すなわち音声データの一部から別の一部へのリンクしか張ることができない。しかしながら、トピック遷移ツリーの構築自体は音声認識処理によって得られたテキスト系列に対して施されることと、テキスト系列の起源となるストリームが単一でなければならないという制約が特にないことから、主たるメディアストリームと副次的な言語コミュニケーションチャネルの両方を同時に入力することによって、副次的チャネルで行われる言語コミュニケーションと主メディアストリームとの間のクロスインデキシングに拡張することができる。
 非特許文献6から非特許文献11は、本発明に適用可能な手法等を紹介する文献であり、その内容及び本発明との関連は各実施形態の該当箇所でそれぞれ説明する。
"参加者が作る会議支援システム ~WISS Challenge~", コンピュータソフトウェア(日本ソフトウェア科学会), 2006, Vol. 23, No.4, pp.76-81 "実況板", http://ja.wikipedia.org/wiki/実況板, フリー百科事典『ウィキペディア(Wikipedia)』 "ニコニコ動画", http://ja.wikipedia.org/wiki/ニコニコ動画, フリー百科事典『ウィキペディア(Wikipedia)』 宮森 ほか, 番組実況チャットに基づく視聴者視点を利用した放送番組のビュー生成, 日本データベース学会Letters, Vol.4, No.1, pp.93-96, 2005 別所 ほか, 話題構造抽出に基づく会議音声インデクシングシステム, 電子情報通信学会論文誌 D Vol.J91-D No.9 pp.2256-2267, 2008 Salton, et al (1975), "A Vector Space Model for Automatic Indexing", Communications of the ACM, vol.18, nr.11, pp.613-620 NEC,"音声認識ソフトウェアCSVIEW/VisualVoice", http://www.nec.co.jp/middle/VisualVoice/, 2008/09/19現在 Rosenfeld, "A maximum entropy approach to adaptive statistical language modeling", Computer, Speech and Language 10, pp.187-228, 1996 Kuhn and de Mori, "A cache-based natural language model for speech recognition", IEEE Transaction PAMI, Vol.12, No.6 pp.570-583, 1990 Wessel, et al, "Confidence measures for large vocabulary continuous speech Recognition", IEEE Transaction on Speech and Audio Processing, 2001, vol.9, No.3 pp.288-298 磯谷ほか, "話し言葉認識技術とその応用", NEC技報 Vol.58 No.5/2005, pp.30-32 特開2000-235585号公報
 なお、上記特許文献ならびに非特許文献の全開示内容はその引用をもって本書に繰込み記載する。以下の分析は、本発明によって与えられたものである。
 第1の問題点は、主たるメディアストリームに付随する副次的チャネルにおいて主メディアストリームの内容に応じたトピックに関する言語コミュニケーションがなされる際、副次的チャネル上のある言明へと至る一連の言語コミュニケーションの基点となった、主メディアストリーム上の位置をリアルタイムに特定するのに適した手法が知られていない、という点である。
 例えば、非特許文献4に記載の技術のように、単に副次的チャネルにおける言明の時刻情報を利用し、時刻的に近傍にある主メディアストリームの一部に紐付けるだけの手法では、副次的チャネルにおける言語コミュニケーションが基点となった主メディアストリームでのトピックから離れていった場合に、適切に関連付けることができない。
 また、特許文献1に記載のシステムは、予めテキストにトピック・ラベルを付与するステップが必要であることと、トピックに含まれるキーワードとその出現確率をも事前に算出するステップが必要である点から、事実上、リアルタイムに進行する言語コミュニケーションに対するインデキシングに適用することは困難である。
 また、非特許文献5に記載の技術を援用し、主メディアストリームと副次的チャネルにおける言語ストリームを一体にした上でトピック遷移を構造化する手法を用いる方法では、トピックの構造化を適切に行うために主副双方のストリームを一旦すべて分析する必要がある。このような技術は、リアルタイムに進行するメディアストリーム(例えば会議など)で利用することは困難である。
 本発明の目的は、主たるメディアストリームに付随する副次的チャネルにおいて行われる言語コミュニケーションの中でなされたある言明から、その言明に至る起点となった主メディアストリームの位置を求めるトピック遷移解析システムを提供することであって、特に、その動作がリアルタイム処理に適した効率の良いトピック遷移解析システムを提供することにある。
 本発明の第1の視点によれば、主たるメディアストリームと、当該メディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム(以下、「言語ストリーム」)とを入力とし、前記一つまたは複数の言語ストリーム上のある言明が、メディアストリームの内容に起因して新たに生起したものであるか否かを判定する言明誘因系列判定手段を備えるトピック遷移解析システムが提供される。
 本発明の第2の視点によれば、当該メディアストリームに平行してなされた一つまたは複数の言語ストリームから任意の言明を選択し、当該言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する、トピック遷移解析方法が提供される。
 本発明の第3の視点によれば、トピック遷移解析システムを構成するコンピュータに実行させるプログラムであって、当該メディアストリームに平行してなされた一つまたは複数の言語ストリームから任意の言明を選択する処理と、当該言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する処理と、を前記コンピュータに実行させるプログラムが提供される。なお、このプログラムは、任意の記憶媒体に記憶した状態で、あるいは、ネットワークを介して配布することができる。
 本発明によれば、主たるメディアストリームのある時点におけるトピックを基点とする副次的チャネル上の一連の言語コミュニケーションが、基点となったトピックから時間的または内容的に徐々に乖離していった場合であっても、その言語ストリームにおける任意の言明から、基点となったメディアストリーム上のある時点を求めることができるようになる。また、本発明によれば、リアルタイム処理に適した実装で実現することができる。
 その理由は、いずれかの言語ストリーム上のある言明が、当該言明のなされた時刻およびその近傍の時刻におけるメディアストリームの内容に起因して新たに生起したものであるか、当該言明の直前になされた一群の言明の内容を継続するものであるか、のいずれであるかを判定する言明誘因系列判定手段を備え、各言語ストリーム上に現れる言明をたどっていくことにより、一連の言明の流れの起点となった主たるメディアストリーム上の一点または一区間を推定することを可能としたことにある。
本発明の第1の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。 本発明の第2の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。 本発明の第2の実施形態に係るトピック遷移解析システムの動作を説明するための図である。 本発明の第3の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。 本発明の第3の実施形態に係るトピック遷移解析システムの動作を説明するための図である。 本発明の第3の実施形態に係るトピック遷移解析システムによって作成されるトピック遷移ネットワーク(トピック遷移グラフ)の一例である。 本発明の第4の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。 本発明の第5の実施形態に係るリアルタイム会議支援装置の構成を表したブロック図である。
 次に、本発明の好適な形態について図面を参照して詳細に説明する。
[第1の実施形態]
 図1は、本発明の第1の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。図1を参照すると、本発明の第1の実施形態に係るトピック遷移解析システムは、言明誘因系列判定手段100を含んで構成されている。
 言明誘因系列判定手段100は、言語ストリームに含まれる個々の言明を一時的に保持する言語ストリームバッファ手段110と、誘因系列判定の対象となる言明と言語ストリームバッファ手段110に保持された言明との間のトピック類似度を算出する第1トピック類似度計算手段120と、同じく誘因系列判定の対象となる言明とメディアストリームの間のトピック類似度を算出する第2トピック類似度計算手段130と、トピック類似度比較手段140と、を含む。
 これらの手段は、トピック遷移解析システムを構成するコンピュータに実行させるプログラムによって実現可能であり、それぞれ概略次のように動作する。
 言語ストリームバッファ手段110は、入力される言語ストリームに含まれる言明を一時的にメモリ上に蓄積する。ここで、言明とは、ある意図を持って成された一連の言語的事象を指し、例えば言語ストリーム上におけるコミュニケーションが文章のやり取りであるなら、ひとつの言明はひとつの文章に相当する。またあるいは、言語ストリームが音声会話であるなら、ひとつひとつのセンテンスが言明に相当する。また言明は、それが生起した時刻を示す情報を持つものとする。
 第1トピック類似度計算手段120は、入力された言明と、言語ストリームバッファ手段110に保持された言語ストリーム上の過去の言明とのトピック類似度を、所与のアルゴリズムに基づいて算出する。実際には、言語ストリームバッファ手段110に蓄積された直近の言明から、トピック類似度算出アルゴリズムの要請に応じて取り出して類似度を算出する。
 第2トピック類似度計算手段130は、入力された言明と、メディアストリーム上の任意の一部区間とのトピック類似度を、所与のアルゴリズムに基づいて算出する。
 トピック類似度比較手段140は二つのトピック類似度計算手段にてそれぞれ算出された、言明と言語ストリームのトピック類似度および言明とメディアストリームのトピック類似度を比較し、より高いトピック類似度を示す側のストリームを、その言明に対する誘因系列と判定して出力する。
 続いて、本実施形態の動作について詳細に説明する。まず、言語ストリームバッファ手段110に言語ストリームが入力されると、言語ストリームに含まれる各言明が取り出され、言語ストリームバッファ手段110が持つメモリ上に蓄積される。
 本実施の形態に係るトピック遷移解析システムを言語ストリームに対してオンラインで動作させる場合、すなわち、言語ストリーム上に新たに現れた言明に対して誘因系列判定を順次繰り返し行うことになる。この場合、ある時刻t1に現れた言明s1に対して誘因系列判定を行ったとすれば、この言明は次の時刻t2に現れた言明s2に対して比較対象である言語ストリームの一部となる。従って、このようにリアルタイム形式で動作させる場合には、時刻t1における判定が行われた時点(第1および第2トピック類似度計算手段がs1に対するトピック類似度を算出した時点)でs1を言語ストリームバッファ手段110に格納するよう動作させることになる。
 上記言語ストリームバッファ手段110への蓄積記憶は一時的なものでよく、どの程度の言明を一度に蓄積するかは、第1トピック類似度計算手段120で用いられるアルゴリズムに依存する。例えば、直近の言明が一つだけ必要なアルゴリズムであれば一つだけ、N個の言明が必要であれば高々N個だけ保持すればよい。
 言語ストリームバッファ手段110に蓄積された言明は適切なタイミングで削除して良い。例えば上述のようにアルゴリズムが要求する言明の個数が高々N個であることが既知であるなら、言語ストリームにN+1個目の言明が現れた時点で、蓄積されている最も古い言明を削除すればよい。あるいはまた、アルゴリズムが必要とする個数の言明を記憶するのに充分なメモリ容量が既知であるなら、新たに言語ストリームに現れた言明を蓄積するとこの容量を超えてしまうというタイミングに、削除を行っても良い。このような事前の予測が困難なアルゴリズムを用いる場合は、第1トピック類似度計算手段120の側から、逐次不要になった言明を削除するよう指示させてもよい。
 次に、第1および第2トピック類似度計算手段に対して、言明と、この言明の誘因系列であるか否かの判定対象となる言語ストリームおよびメディアストリームがそれぞれ与えられる。
 第1トピック類似度計算手段120は、与えられた言明と、言語ストリームバッファ手段110に蓄積された言明との間のトピック類似度を所与のアルゴリズムに従って計算する。
 上記トピック類似度の具体的な計算手法にはさまざまな既存方式を用いることができる。例えば、言明をドキュメントと看做してベクトル空間法(非特許文献6)を用いても良い。このとき、言語ストリームの直近の言明を一つだけ用いると偏った単語ベクトルが生成される恐れがあるので、直近の複数の言明の単語ベクトルの和を用いても良い。また、この和において減衰係数を掛け、直近の言明の単語ベクトルほど重みを持つようにしても良い。
 第2トピック類似度計算手段130も同様に、与えられた言明と、メディアストリームとの間のトピック類似度を所与のアルゴリズムに従って計算する。
 第2トピック類似度計算手段130の上記トピック類似度の計算方法も、前述の第1トピック類似度計算手段120と同様に、さまざまな既存方式を用いることができる。
 一般に、メディアストリームはテキスト情報以外の形態で与えられる場合が多いので、この場合はメディアストリームからテキスト情報を何らかの形で抽出する必要がある。例えば、音声認識ソフトウェア(非特許文献7、もちろんこれに限らない)等を用いていったんテキストデータに変換してしまえば、第1のトピック類似度と同様にベクトル空間法を用いてトピック類似度を計算できる。このほか、画像認識技術と組み合わせ映像ストリーム内の文字情報(テロップなど)を抽出したり、クローズドキャプション信号を利用したりすることでテキスト情報に変換可能である。また、オブジェクトとその属性の集合である概念データベースが利用可能であるなら、映像中の個々のオブジェクトを画像認識した後、そのオブジェクトに対する属性(例えば「りんご」に対して「赤い」、「果物」、「おいしい」、「青森」など)が言明に含まれる頻度等を用いてトピック類似度を定義できる。
 第2トピック類似度計算手段130にてトピック類似度を算出する際、その時点までに入力されたメディアストリームの全体を用いる必要はなく、判定対象となる言明が生起した時刻の直近の一区間を用いれば充分であることが多い。例えば予め定めた固定長の区間を用いても良いし、音声信号を含むストリームであれば検出された発話数が一定閾値以内になるような区間を用いても良い。
 トピック類似度の算出で用いるメディアストリームの区間の長さをどのように制御するかということは、言明とのトピック類似度を適切に算出できるかどうかに係わる。あまり区間が長すぎる場合、トピックに関する特徴がぼやけるために適切なトピック類似度を得られない。その一方、あまりに区間が短い場合はトピック類似度算出の根拠となるトピックに依存した情報(トピックに特有の語彙など)が充分に観測できず、これも適切なトピック類似度が得られなくなる原因となりうる。
 また、既知の言明の起点となっているメディアストリーム上の一区間が明らかな場合は、この区間以降のみに限定してトピック類似度計算を行った方が良い。なぜなら、この一区間におけるトピックと、これを起点としてなされた言明におけるトピックとは比較的トピック類似度が高いので、第2トピック類似度計算手段130に入力された言明とこれら両者の間のトピック類似度は同じような値となって、判別が困難になるためである。
 第1および第2トピック類似度計算手段によって各ストリームに対する言明とのトピック類似度が算出されると、トピック類似度比較手段140はそれらを比較し、最も高い類似度を示したストリームをその言明の誘因となったストリームであると判定する。
 なお、直近の複数の言明の単語ベクトルの和を用いてトピック類似度を算出している場合には、トピック類似度比較手段140が、ある言明に対する誘因系列としてメディアストリームを選択した場合、言語ストリームバッファ手段110に蓄積された言明をすべて削除し、当該言明を新たに言語ストリームバッファ手段110に蓄積する。このようにすることで、次の時刻における言明に対する誘因系列の判定を正しく行うことが可能になる。
 次に、本実施形態の効果について説明する。本実施の形態では、ある言明に対して、その言明が言語ストリーム上の直前の言明へと至る言語コミュニケーションの継続であるか、直近のメディアストリームの内容に応じて新たに生起されたものであるかを判定するのに際し、当該言明の直前の一つまたは複数の言明と、当該言明が生起した時刻の近傍のメディアストリームの一区間のみを用いて、判定処理を行うため、効率が良く、オンライン処理に適した判定手法を実現できる。
 その理由は、ある言明に対する基点となるメディアストリーム上の位置を求めるためには、その言明と、それに先行する直前のひとつまたは複数の言明と、その言明の時間的直近におけるメディアストリームの一部が与えられればよく、主副どちらのチャネルに関しても、例えば全体を解析してトピック遷移を計算する必要がないためである。このような性質は、副次的チャネルで行われる言語コミュニケーションが、主たるメディアストリームに対する新規の反応と、副次的チャネルにおけるコミュニケーションの継続と、のいずれかである、という知見から導かれるものである。
 また別の理由は、ある言明に対する判定を行う場合、その言明が生起した時刻からある程度以上古い両ストリーム上の情報を必要としないので、必要最小限の記憶装置のみを用いて実装可能なためである。
[第2の実施形態]
 次に、本発明の第2の実施形態について図面を参照して詳細に説明する。図2は、本発明の第2の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。図2を参照すると、本発明の第2の実施形態に係るトピック遷移解析システムは、言明誘因系列判定手段200を含んで構成されている。
 言明誘因系列判定手段200は、言語ストリームに含まれる個々の言明をトピックグループごとに一時的に保持するトピックグループバッファ手段210と、誘因系列判定の対象となる言明とトピックグループバッファ手段210に保持された言明との間のトピック類似度を算出する第1トピック類似度計算手段220と、同じく誘因系列判定の対象となる言明とメディアストリームの間のトピック類似度を算出する第2トピック類似度計算手段230と、トピック類似度比較手段240と、を含む。
 これらの手段は、トピック遷移解析システムを構成するコンピュータに実行させるプログラムによって実現可能であり、それぞれ概略次のように動作する。
 トピックグループバッファ手段210は、入力される言語ストリームに含まれる言明を、トピックグループごとに一時的にメモリ上に蓄積する。ここでトピックグループとは、その言明のトピックに関する特徴が互いに近い言明の集合である。言明をバッファリングする機能そのものは本発明の第1の実施形態における言語ストリームバッファ手段110とほぼ同様であるので、省略する。
 第1および第2トピック類似度計算手段220および230の動作についても、本発明の第1の実施の形態に準ずる。
 ただし、言明と言語ストリームのトピック類似度を求める第1のトピック類似度に関しては若干動作が異なる。第1の実施形態においては、言語ストリームを代表する言明の組は一つだけであったので、言明との比較はこの唯一の言明の組との間でのみ行われた。一方、第2の実施形態においては、言語ストリームを代表する言明の集合(すなわちトピックグループ)は複数存在する。従って、トピック類似度の計算も各グループに対して行われる。
 トピック類似度比較手段240はこれら各トピックグループに対するトピック類似度と、メディアストリームに対するトピック類似度を比較し、最もトピック類似度の高いトピックグループまたはストリームを、判別対象の言明に対する誘因系列と看做して出力する。
 言明がいずれかのトピックグループを誘因としてなされたと判定された場合、その言明は当該トピックグループに属すものとしてトピックグループバッファ手段210に蓄積される。
 次に、本実施形態の効果について説明する。本発明の第2の実施形態では、言語ストリーム上の言明を複数のトピックグループに分類し、それらの各々に対するトピック類似度を算出することによって、トピックグループ同士が時間的に重複して存在するような言語ストリームでも問題なく動作することを可能としている。
 図3は、複数のトピックグループに属する言明が時間的にオーバーラップして現れた状況を示している。時刻t0前後にメディアストリームに現れた事象e0を起点として行われる言語コミュニケーションが言明s0,s1,s2と続いたとする。ここで時刻t1に生じた現象e1に対する言明s3がなされたのち、さらにその後のタイミングでs0,s1,s2に続く言明s4がなされた。
 第1の実施形態のトピック遷移解析システムを用いる場合、言明s3が現れた時点で言明s0,s1,s2は言語ストリームバッファ手段から削除されるので、言明s4が言明s0,s1,s2のグループに属していてもこれを正しく検知することができず、言明s3を継続するものか、あるいは事象e1の直後のメディアストリームに関する言明であると判断してしまう。
 一方、第2の実施形態のトピック遷移解析システムでは、言明s4に対して言明s0,s1,s2のグループと言明s3のグループのそれぞれ、およびメディアストリームに対するトピック類似度を求めて比較することから、正しく言明s0,s1,s2に連なる言明であると判別できる。
 このような理由により、本発明の第2の実施形態のトピック遷移解析システムを用いることで、複数のトピックグループが時間的にオーバーラップして現れるような状況においても、言明の誘因系列を正しく判断することができる。
 なお、第1の発明の実施形態のトピック遷移解析システムにおける言語ストリームバッファ手段110では古い言明をメモリから削除するものとして説明したが、第2の発明の実施の形態においても同様の制御を実施することができる。ただし、削除のタイミングとしてメディアストリームが誘因系列として判別されたタイミングは利用できないので、適当なタイムアウト時間(図3のt/o)を予め設定し、あるトピックグループに属す言明が最後に現れた時刻からこのタイムアウト時間を過ぎたタイミングで古い言明を削除するように設計すればよい。あるいは、ある言明が既存のどのトピックグループにも属さないと判定された時刻からタイムアウト処理を開始しても良い。
 例えば、図3の言明s5は事象e2に対する言明であるが、事象e0とe2のトピック類似度が高いために、言明s0,s1,s2,s4のトピックグループに属すと誤判定される可能性がある。このときタイムアウト処理を用いていれば、言明s5の生起した時刻t2が言明s4の生起した時刻t1からt/o秒以上経過していることを利用して、言明s5を正しく事象e2によって生起された言明と判定できるようになる。
 このタイムアウト処理が有効である理由は、言語コミュニケーションにおいて、既に別のトピックに関する議論が開始して相当の時間が過ぎた後に、何のきっかけや標識もなくそれ以前のトピックに対する議論が唐突に行われることは少ない、というヒューリスティクに基づく。
 なお、同じヒューリスティクを第1トピック類似度計算手段220に盛り込むことも可能である。すなわち、あるトピックグループに対するトピック類似度を算出する際に、そのトピックグループで最後に生起した言明の生起時刻と、判別対象である言明の生起時刻との差を求め、差が大きいほどトピック類似度を小さくするような忘却係数を導入するようにすることも可能である。
[第3の実施形態]
 次に、本発明の第3の実施形態について図面を参照して詳細に説明する。図4は、本発明の第3の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。図4を参照すると、本発明の第3の実施形態に係るトピック遷移解析システムは、トピック遷移ネットワーク生成手段400を含んで構成されている。
 トピック遷移ネットワーク生成手段400は、誘因系列推定手段410と、誘因系列記憶手段420と、トピック遷移推定手段430とから構成されている。
 これらの手段は、トピック遷移解析システムを構成するコンピュータに実行させるプログラムによって実現可能であり、それぞれ概略次のように動作する。
 誘因系列推定手段410は、第1、第2の実施形態に記載の言明誘因系列判定手段100、200とほぼ同等のものである。ただし、言明誘因系列判定手段100、200がある言明に対する誘因系列がいずれであるか判定した結果を出力するのに対し、誘因系列推定手段410は各入力ストリーム(言語ストリームに関しては各トピックグループ)の判別対象となる言明とのトピック類似度の組を返す。
 誘因系列記憶手段420は、誘因系列推定手段410によって得られた、言明とその言明に対する各ストリームおよびトピックグループのトピック類似度の組を記録する。
 トピック遷移推定手段430は、誘因系列記憶手段420に蓄えられた各言明に対するトピック類似度の組を用いて、言語ストリーム上の任意の言明以前に現れたすべての言明に対する誘因系列の関係を樹状のネットワークに構築して出力する。この出力は、言語ストリーム上でなされた言語コミュニケーションにおいてどのようにトピックが遷移していったかを示すネットワークであることから、トピック遷移ネットワークと呼ぶ。
 次に、図5の遷移図を参照して本実施形態の全体の動作について詳細に説明する。
 まず言語ストリームから最初の言明が取り出される。これが時刻t0に現れたとする。時刻t0に現れた言明s0は、それ以前に言明がないので、直近のメディアストリーム(図5のボックスa)によって生起した言明であると看做せる。誘因系列記憶手段420は、この結果{s0, m0, g1(s0)}を記録する。これは、言明s0が新たなトピックグループであるトピックグループG1を形成したことを意味し、このときトピック類似度を求めたメディアストリームの一区間がm0であることを意味する。
 ここでgi(x)は言明xとトピックグループGiのトピック類似度を表す。
 次に、時刻t1に二つ目の言明s1が現れたとき、時刻t1に近傍するメディアストリームの一区間(ボックスb)の内容か、この直前の言明s0が属すトピックグループ1の最新の言明(ボックスc)の内容か、どちらかを誘因として為された言明であるかを求める。誘因系列推定手段410によって、言明s1とメディアストリーム、トピックグループG1それぞれとのトピック類似度が算出される。誘因系列記憶手段420は、この結果{s1,m1,g1(s1),g2(s1)}を記録する。ここでトピックグループG2は、言明s1がメディアストリームを誘因として為されたとした場合に言明s1が新たに形成するトピックグループにつけられた仮のラベルである。ここでは説明のため、g1(s1)>g2(s1)であったとする。
 次に、時刻t2に三つ目の言明s2が現れたとき、先ほどと同様に各ストリームおよびトピックグループとのトピック類似度が{s2,m2,g1(s2),g2(s2)}として求められる。ここでは説明のためにg1(s2)<g2(s2)であったとすると、言明s2は新たなトピックストリームG2を形成する。従って、その次の時刻t3に現れた四つ目の言明s3に対しては1つのメディアストリームと2つのトピックグループに対するトピック類似度が求められ、結果として{s3,m3,g1(s3),g2(s3),g3(s3)}が誘因系列記憶手段420に蓄えられる。以降も同様に続く。
 任意のタイミングで既知の言明snまでに現れたすべての言明に関するトピック遷移ネットワークを生成することができる。このとき、トピック遷移推定手段430は次のように動作する。
 まず、誘因系列記憶手段420から最も古い言明s0を取り出し、これが属す可能性のある各系列とのトピック類似度を比較する。言明s0に関しては{s0,m0,g1(s0)}と記録されていることから、トピックグループG1に属すことが確定し、またこの時刻の近傍のメディアストリームの一区間m0の内容を誘因として為されたことが確定する。そこで、メディアストリームの一区間m0から言明s0へ遷移するネットワークが構築される。
 続いて、次に古い言明s1を取り出すと、{s1,m1,g1(s1),g2(s1)}でかつg1(s1)>g2(s1)であるから、言明s1はトピックグループG1に属すことが確定する。そこで、先ほど構築したネットワークを更新し、言明s0から言明s1への遷移を追加する。
 さらに続けて言明s2を取り出すと、{s2,m2,g1(s2),g2(s2)}かつg1(s2)<g2(s2)であるから、言明s2はトピックグループG2に属すことが確定する。そこで、先ほど構築したネットワークを更新し、メディアストリームの一区間m2から言明s2への遷移を追加する。
 以上を繰り返していくことによって、最終的に図6のようなネットワークを形成することができる。図6は、言明s8に対するトピック類似度が誘因系列記憶手段420に記録されたタイミングで生成されたトピック遷移ネットワークを示している。
 ここまでに示した動作では、各言明に対して最もトピック類似度の高い系列を決定的に選択しているので、誘因系列記憶手段420を省いて、直接、誘因系列推定手段410からトピック遷移推定手段430にトピック類似度情報を入力してトピック遷移ネットワークをオンラインで構築させるように構成することもできる。
 しかし、ある言明に対する各系列のトピック類似度にあまり差がない場合は、決定的に誘因系列を決定することで誤った系列を選択してしまう可能性がある。このような場合は誘因系列記憶手段420を経由させることが役に立つ。
 例えば図5において、言明s2に対するトピック類似度g1(s2)とg2(s2)の差がごく僅かであったとする。もし、この後、相当の時間が超過してもトピックグループG2に属すと看做せる言明がひとつも現れなかったのであれば、s2をトピックグループG2に分類したことがそもそも誤りであった可能性が高い。そこで、ある言明sが新たなトピックグループGの最初の言明と判断された場合、そのトピックグループGに属す(と看做せる)新たな言明s’が現れるまでの時間tを用いてsのトピック類似度g(s)を補正する方法が考えられる。具体的には、例えば次の[数1]のように、所与のタイムアウト時間Tを超過したのちにペナルティを与える式を用いることができる。ここでλは所与のペナルティ重みである正の実数である。
Figure JPOXMLDOC01-appb-M000001
 このように、誘因系列記憶手段420にトピック類似度をいったん蓄積することによって、より柔軟なトピック遷移ネットワークの生成が可能となる。
 次に、本実施形態の効果について説明する。本発明の第3の実施形態では、言語ストリームのある言明に対して、その言明が直前の言明へと至る言語コミュニケーションの継続であるか、または直前のメディアストリームの内容に関する新たな反応であるか、そのいずれであるかを、トピック類似度を用いて判別するよう構成されているため、言語ストリームにおける言語コミュニケーションの中でトピックが漸進的に基点となったメディアストリームのある時点におけるトピックから遷移していったとしても、その遷移を追跡することができる。
 その理由は、メディアストリーム上のある起点から始まる一連の言語ストリーム上の言語コミュニケーションにおいては、トピックは一定であるか漸進的に遷移すると期待できるのに対し、主たるメディアストリームの内容に応じて言語ストリーム上に新たに生起する言語コミュニケーションは、それ以前になされた一連のコミュニケーションのトピックよりも、むしろ、起点となったメディアストリーム上のトピックにより近いものに急激に遷移すると期待できる、という性質を利用しているためである。
 また、本実施形態では、さらに、ある言明に対して、その直前のひとつまたは複数の言明と、当該言明の直近のメディアストリームの一部に対する音声認識結果のみを与えることで前記の効果を実現できるよう構成されているため、オンラインな処理に適したトピック遷移解析を行うことができる。オンライン性が特に重要な場合は、誘因系列記憶手段420を経由せずにトピック遷移推定手段430をオンライン動作させることによって、完全にオンラインな動作も可能である。
[第4の実施形態]
 次に、本発明の第4の実施形態について図面を参照して詳細に説明する。図7は、本発明の第4の実施形態に係るトピック遷移解析システムの構成を表したブロック図である。
 図7を参照すると、本発明の第4の実施形態に係るトピック遷移解析システムは、誘因系列判別手段800を含んで構成されている。
 誘因系列判別手段800は、言語ストリームバッファ手段810と、第1音声認識手段820と、第1認識信頼度計算手段830と、第2音声認識手段840と、第2認識信頼度計算手段850と、認識信頼度比較手段860と、認識結果選択手段870とを含む。
 これらはトピック遷移解析システムを構成するコンピュータに実行させるプログラムによって実現可能であり、それぞれ概略次のように動作する。
 第1および第2音声認識手段820、840は、入力された言語ストリームに含まれる音声信号を既存の音声認識技術を用いて発話単位にテキスト化する。このとき、各々の音声認識手段はそれぞれ異なるトピックに対して適応処理を施しながら音声認識を行う。
 トピック適応音声認識の具体的な方法としてはさまざまな手法が考えられるが、例えば、良く用いられるトリガーモデル(非特許文献8)やキャッシュモデル(非特許文献9)に基づく音声認識手法が利用できる。
 言語ストリームバッファ手段810は、第1音声認識手段820が出力した音声認識結果を、一つの発話に対する認識結果テキストを一つの言明として蓄積する。
 言語ストリームバッファ手段810における蓄積した言明の扱い(削除タイミング等)は第1および第2の実施形態に準じた形態を適宜採ることができる。
 第1音声認識手段820は、この言語ストリームバッファ手段810に蓄積された直近の言明の集合に対してトピック適応を施した上で音声認識処理を行う。従って認識結果は言語ストリームの直近の内容にやや偏ったものとなる。
 一方、第2音声認識手段840は直近のメディアストリームの一区間に対してトピック適応を施した上で音声認識処理を行う。メディアストリームからトピック情報を取り出す具体的な方法については第1の実施形態に記載したものに準じた形態を適宜採ることができる。
 メディアストリームから何らかのトピック情報が取り出せれば、それに応じたトピック適応音声認識処理を実行することができる。この結果、第2音声認識手段が出力する認識結果は、直近のメディアストリームの内容にやや偏ったものとなる。
 第1および第2音声認識手段820、840によって出力された認識結果は、第1および第2認識信頼度計算手段830、850への入力として用いられ、認識結果に対する信頼度(妥当性)を示す指標値が出力される。
 信頼度としてはさまざまなものが考えられる(非特許文献10)が、例えば単語事後確率(word posterior probability)などを用いることもできる。
 認識信頼度比較手段860は、これらの認識信頼度計算手段830、850が出力した信頼度を、言語ストリーム上の直近の発話(言明)に対するトピック類似度として用い、第1および第2の実施の形態と同様に誘因系列を判定する。このとき、認識結果選択手段870が、あわせて誘因系列と判定された側のストリームに適応して出力された認識結果を、その発話(言明)の認識結果テキストとして出力する。
 次に、本実施形態の効果について説明する。本発明の第4の実施形態では、言語ストリームが音声信号を含むメディア信号として与えられた場合、ある音声発話を、その直前の言語ストリームと、その直近のメディアストリームのそれぞれと同じトピックを有すると仮定してトピック適応した音声認識手段を用いてテキストに変換し、その変換結果テキストの信頼度の大小によって、その発話がどちらのストリームの内容を誘因としてなされたかを判定するよう動作するので、言語ストリームがテキストでない場合でも、誘因系列を判定することが可能である。
 その理由は、当該発話のトピックは、いずれかのストリームのトピックにより近いので、そちらのストリームのトピックに適応した認識結果の方が、他方よりもよりよい認識結果となるためである。
 また本発明の実施形態の別の効果は、言語ストリームが音声信号を含むメディア信号として与えられた場合に、その言語ストリームの音声信号に対してより良い認識結果テキストを同時に得ることができる、という点である。その理由は、ある発話の直前の言語ストリームとメディアストリームのいずれかは当該発話のトピックと等しいのであるから、そのトピックに適応させた認識結果は、どのトピックにも適応させなかった場合にくらべて、より適切なものとなることが期待できるためである。
 なお、以上第1から第4の実施の形態では言語ストリームが一つだけの場合について説明したが、二つ以上複数の言語ストリームを用いる場合でも同様の原理にて、上述した作用効果が得られることは明らかである。
[第5の実施形態]
 次に、本発明をリアルタイム会議支援装置に応用した第5の実施形態について図面を参照して詳細に説明する。図8は、本発明の第5の実施形態に係るリアルタイム会議支援装置の構成を表したブロック図である。
 図8に示すように、本実施形態に係るリアルタイム会議支援装置は、コンピュータ900と、このコンピュータに接続されたビデオカメラ、マイクロフォン、ディスプレイ装置、入力装置から構成される。また、このコンピュータ900はネットワークに接続されている。
 コンピュータ900は以下のソフトウェアモジュールを含む。すなわち、音声および映像を取り込む録画録音モジュール910、音声をテキストに変換する音声認識モジュール920、ネットワークからコンピュータ・チャットの書く発言(書き込み)を順次取得するチャット読取りモジュール930、誘因系列推定モジュール940、誘因系列記憶モジュール950、トピック遷移ネットワーク生成モジュール960、チャットの発言や映像等を適切に整形してハイパーリンクやボタン等のUI(User Interface)要素とともに配置する画面構成モジュール970、この配置情報を元に画像を出力しつつ、対応するUI操作を受け付けるUIモジュール980、画面構成モジュール970の配置に基づいて任意の時刻の映像や音声を再生するメディア再生モジュール990、を含む。
 これらのモジュールは概略次のように動作する。
 録画録音モジュール910は、ビデオカメラから入力された映像信号やマイクロフォンから入力された音声信号を所定の方法で取得する。ネットワークを経由した映像/音声ストリームでも良い。このうち音声信号(映像信号の場合はそこから抽出する)は音声認識モジュール920に送られる。映像信号および音声信号は、メディア再生モジュール990で再生するために、必要に応じてバッファリングされたのち送られる。
 音声認識モジュール920は、上記した第1~第4の実施形態の音声認識手段の一具体例として位置付けられ、入力された音声信号に対して最も妥当性の高いテキスト列を生成し、時刻情報とあわせて誘因系列推定モジュール940に送る。
 本実施形態では会議の場で交わされるいわゆる「話し言葉」音声を想定しているので、非特許文献11のような話し言葉認識技術を実装した音声認識モジュールを利用することが望ましい。
 チャット読取りモジュール930は、ネットワーク越しに行われるコンピュータ・チャットにおいて新たに現れた発言を順次取得して、時刻情報と合わせて誘因系列推定モジュール940に送る。
 ここで、このコンピュータ・チャットでは各発言に何らかの時刻情報が付与されており、これが録画録音モジュール910に入力される映像または音声と同期するための何らかのルールは既知でなければならない。本実施形態ではリアルタイム会議支援、すなわち、会議の場で平行して行われるチャットを想定しているので、これは単にチャットの各発言が入力されたタイムスタンプを取得するだけでよい。
 誘因系列推定モジュール940は、上記した第3の実施形態の誘因系列推定手段の一具体例として位置付けられる。すなわち、誘因系列推定モジュール940は、音声認識モジュール920から得られた音声認識結果テキストと、チャット読取りモジュール930から得られたチャット発言テキストとを入力とし、必要に応じてこれらを一時的に蓄積しながら、新たにチャット読取りモジュール930から得られたチャット発言テキストに対してその誘因系列を推定し、推定結果のスコアとともに誘因系列記憶モジュール950に送る。
 より具体的には次のように動作する。ある時刻tに入力されたチャット上の発言s(t)に対して、s(t)の誘因系列の候補としてトピックグループg1,g2,…,gn-1と、映像信号または音声信号の系列が考えられる。仮にs(t)が後者を誘因としてなされた発言であるなら新たなトピックグループgnを構成するので、結局のところn個のトピックグループが誘因系列の候補となる。これらのそれぞれについて、直近のひとつ以上複数の発言とs(t)とのトピック類似度を求める。gn(音声認識結果の系列)に関しては時刻tより所与の遅延時間D以上前に現れたひとつ以上複数の発話区間(それぞれの開始時刻をu1,u2,…,umとする)に対する認識結果テキストr(u1),r(u2),…,r(um)を用いる。なお、この遅延時間Dはチャットの入力およびネットワーク伝送に掛かる最小遅延時間であって、例えば1秒程度の値を与えることができる。
 なお、一部のチャットシステムでは、特定の書式でなされた発言は別の特定の発言を誘因として為されたと自動的に判定する機能を備えている。このような機能がなくても、チャット利用者内の共通認識としてある種の書式が同様の効果を認められている場合もある。このようなケースでは、ある発言に対する誘因系列はその書式に基づいて決定しても良く、この場合のトピック類似度は決定的(特定のトピックグループに対して最大値、その他のすべての系列に対して最小値)に与える。
 誘因系列記憶モジュール950は、上記した第3の実施形態の誘因系列記憶手段の一具体例として位置付けられ、チャット読取りモジュール930から得られたチャット発言テキストと、この発言に対する誘因系列とそのスコアの組とをあわせてメモリまたは外部記憶装置に蓄積する。また、誘因系列記憶モジュール950は、トピック遷移ネットワーク生成モジュール960の要求に応じて任意の発言に対する誘因系列=スコアの組の集合を返す。
 上述の説明に従ってより具体的に蓄積するデータを述べると、誘因系列記憶モジュール950は、{t,s(t),d(g1,s(t)),d(g2,s(t)),…,d(gn,s(t)), u1,u2,…,um}を一つの組として記憶する。ここでd(x,y)は系列xと発言yのトピック類似度である。
 トピック遷移ネットワーク生成モジュール960は、UIモジュール980の指示に従って、誘因系列記憶モジュール950に蓄積された情報に基づいてトピック遷移ネットワーク(トピック遷移グラフ)を生成する。詳細は前述の第3の実施形態に詳しく記載している。生成されたトピック遷移ネットワークはUIモジュール980で利用される。
 画面構成モジュール970は、チャット読取りモジュール930が取得したチャットの各発言や、メディア再生モジュール990が映像や音声を再生するための表示領域など、本実施形態のリアルタイム会議支援システムのユーザに有益な情報を画面に表示するのに先立って、これらにハイパーリンクやボタン・コントロールなどを適切に追加して、画面配置を決定し、画面構成情報として出力する。
 例えば、画面配置をHTML(Hyper Text Markup Language)で記述する場合には、画面構成モジュールはHTML文書を生成する。この際、個別の発言に対してボタンやハイパーリンクの形でユーザからのインタラクションが可能な形にし、スクロールバーやフレーム構造を埋め込んでユーザが読みやすいように配慮する。また、メディア再生モジュール990が映像や音声を再生するためのコントロールを配置する表示領域を確保するようレイアウトの計算を行う。
 チャットの各発言は一般的なチャットシステムのように単純に時系列に並べても良い。あるいは、遷移系列ごとにツリー状に表示しても良い(図6参照)が、この場合は画面構成モジュール970が画面構成情報を更新する際にトピック遷移ネットワーク生成モジュール960からトピック遷移ネットワークを取得する必要がある。またあるいは、メディア再生モジュール990の表示内容に合わせてオーバーレイ表示(字幕、非特許文献2参照)してもよいし、再生される映像や音声の時系列に対して吹き出し状に並べても良い。このようにメディア再生モジュールと連携する場合は、連携に必要な情報も画面構成情報に含めて出力する。
 UIモジュール980は、画面構成モジュール970によって生成された画面配置情報を元に実際に画面描画処理を行い、その結果はディスプレイ装置によってユーザに提示される。一方でマウスやキーボード等の入力装置からユーザ入力を受け取り、以下のようにシステムを制御する。
 ユーザ入力として画面配置情報に埋め込まれていた各発言を指定するアクション(具体的には、ハイパーリンクやボタン・コントロールのクリックなど)を受けた場合、トピック遷移ネットワーク生成モジュール960を用いて当該発言を含むトピック遷移ネットワークを生成し、この発言の起点となった映像または音声の時刻を求め、メディア再生モジュール990を制御して当該時刻前後の映像または音声を再生する。一言で言えば、これはチャットの発言をインデックスとして利用した頭出し機能である。
 ある発言の起点となった映像や音声の時刻を求める処理は、具体的には以下のように行われる。トピック遷移ネットワーク生成モジュール960が生成したネットワークにおいて、当該発言はそのいずれかの節に相当する。この節から、ネットワークの始点方向に発言を辿っていけば、最終的にある発言に到達する。この発言s(t’)が時刻t’になされているならば、これを基準として起点となった映像または音声の時刻を求めることができる。例えば、その時刻t’から一定の時間(1秒、5秒、10秒など)だけ遡った時刻を選択してもよい。あるいは、時刻t’の時間的に直前に検出された発話区間の開始時刻を用いてもよい。またあるいは、その時刻t’に為された発言s(t’)の誘因系列推定で用いられた最も古い発話の時刻u’1を用いてもよい。もちろん、これらの条件を組み合わせて決定してもよい。
 ユーザ入力としてメディア再生モジュール990が再生する映像または音声の特定の時刻の指定(例えばスクロールバー等によるタイムシフト動作など)を受けた場合、トピック遷移ネットワーク生成モジュール960を用いてトピック遷移ネットワークを生成し、当該時刻の周辺の映像または音声を起点とするトピック遷移の系列(=トピックグループ)が存在するかどうかを調べる。この結果、いずれかのトピックグループ(複数のトピックグループが含まれることもありうる)がその時刻周辺を起点としていると判断できれば、そのトピックグループの画面表示の際にこれを反映する。具体的には、そのトピックグループに属す発言の表示色を他の発言と区別できるものに変えたり、文字サイズを大きくしたりしてもよい。あるいは、そのトピックグループに属す最新の発言に表示を切り替えても良い。後者は、映像または音声の特定のシーンに対する反応を調べる際に便利である。
 以上、本発明の好適な実施形態及びその具体例を説明したが、本発明は、上記した実施形態やその具体例に限定されるものではなく、本発明の基本的技術的思想を逸脱しない範囲で、更なる変形・置換・調整を加えることができる。
 本発明は、上記したリアルタイム会議支援装置のみならず、その他のメディアストリーム・インデキシング・システムや言語ストリーム検索システムにも適用することができる。例えば、アイデア創造を主たる目的とした会議・講演などで補助的なコミュニケーションを行って議論を活発化させるような、会議・講演支援システムといった用途に適用できる。また、学会発表や教育目的の上記メディアストリーム・インデキシング・システムや言語ストリーム検索システムにも好ましく適用することが可能である。
 また本発明は、映像を媒介としたコミュニケーションを活発化させる、映像コミュニケーション支援システムといった用途にも適用可能である。
 なお、本発明の開示において、「手段」の語は、当該機能を有するユニットを示すものである。
 本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
 100、200 言明誘因系列判定手段
 110、810 言語ストリームバッファ手段
 120、220 第1トピック類似度計算手段
 130、230 第2トピック類似度計算手段
 140、240 トピック類似度比較手段
 210 トピックグループバッファ手段
 400 トピック遷移ネットワーク生成手段
 410 誘因系列推定手段
 420 誘因系列記憶手段
 430 トピック遷移推定手段
 800 誘因系列判別手段
 820 第1音声認識手段
 830 第1認識信頼度計算手段
 840 第2音声認識手段
 850 第2認識信頼度計算手段
 860 認識信頼度比較手段
 870 認識結果選択手段
 900 コンピュータ
 910 録画録音モジュール
 920 音声認識モジュール
 930 チャット読取りモジュール
 940 誘因系列推定モジュール
 950 誘因系列記憶モジュール
 960 トピック遷移ネットワーク生成モジュール
 970 画面構成モジュール
 980 UI(User Interface)モジュール
 990 メディア再生モジュール

Claims (15)

  1.  主たるメディアストリームと、
     当該メディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム(以下、「言語ストリーム」)とを入力とし、
     前記一つまたは複数の言語ストリーム上のある言明が、
     メディアストリームの内容に起因して新たに生起したものであるか否かを判定する言明誘因系列判定手段を備える
     ことを特徴とする、トピック遷移解析システム。
  2.  前記言明誘因系列判定手段は、
     当該言明が、当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、前記判定を行う請求項1に記載のトピック遷移解析システム。
  3.  当該言明に対して、
     その言明が行われた時刻およびその近傍の時刻におけるメディアストリームとのトピック類似度と、
     当該言明の直前になされた一群の言明のトピックとのトピック類似度と、
     をそれぞれ求める一つまたは複数のトピック類似度計算手段を備え、
     前記言明誘因系列判定手段は、トピック類似度の高い系列を当該言明の誘因系列と判定する
     請求項1または2に記載のトピック遷移解析システム。
  4.  前記トピック類似度計算手段のうち少なくとも一つは、
     当該言明と、
     類似度計算の対象となる一つまたは複数の言明の組とを入力とし、
     各々に含まれる単語について、所与のアルゴリズムに基づいて重み付けを行うことで当該言明および言明の組に対する文書ベクトルを算出し、
     これら文書ベクトル間の距離を求め、
     その大小をもってトピック類似度を算出する請求項3に記載のトピック遷移解析システム。
  5.  さらに、前記主たるメディアストリームに含まれる音声信号からテキスト列を生成する音声認識手段を備え、
     前記トピック類似度計算手段のうち少なくとも一つは、
     当該言明と、
     前記音声認識手段を用いて類似度計算の対象となるメディアストリームの全部または任意の区間から生成したテキスト列とのトピック類似度を求める請求項3または4に記載のトピック遷移解析システム。
  6.  さらに、前記言語ストリーム上に現れた複数の言明を、互いにトピック類似度の高い言明ごとに分類したトピックグループごとに蓄積するトピックグループ記憶手段を備え、
     前記トピック類似度計算手段は、当該言明と、前記トピックグループ記憶手段に蓄積された各グループとのトピック類似度を求め、
     前記言明誘因系列判定手段は、よりトピック類似度の高い系列を当該言明の誘因系列と判定する請求項3から5のいずれか一に記載のトピック遷移解析システム。
  7.  さらに、前記言語ストリームに含まれる音声信号から任意のトピックに適応したテキスト列を生成する音声認識手段と、
     前記音声認識手段にて生成されたテキスト列の妥当性を推定する音声認識結果信頼度推定手段と、を備え、
     前記トピック類似度計算手段のうち少なくとも一つは、
     当該言明の発話である言語ストリームの一区間の音声信号に対して、
     前記音声認識手段を用いてテキスト列を生成するのに際し、
     類似度計算の対象となるメディアストリームの全部または任意の区間、および、一つまたは複数の言明の組から推定されるトピックに適応した音声認識処理を行い、
     音声認識処理により得られたテキスト列に対する前記音声認識結果信頼度推定手段による信頼度指標の大小をもってトピック類似度を算出する請求項3から6のいずれか一に記載のトピック遷移解析システム。
  8.  前記言明誘因系列判定手段によりトピック類似度の高い系列と判定された系列の音声認識結果を出力する請求項5または7に記載のトピック遷移解析システム。
  9.  さらに、前記トピック類似度に基づいて、前記メディアストリームの任意の時点または区間および各言明間の誘因系列の関係を樹状のネットワークで表したトピック遷移ネットワークを生成するトピック遷移ネットワーク生成手段を備える請求項3から8のいずれか一に記載のトピック遷移解析システム。
  10.  請求項1から9のいずれか一に記載のトピック遷移解析システムを含み、
     前記言語ストリーム上の任意の言明に対して、
     その誘因となった前記メディアストリーム上の時点または区間を推定する手段を備えるメディアストリーム・インデキシング・システム。
  11.  請求項1から9のいずれか一に記載のトピック遷移解析システムを含み、
     前記メディアストリーム上の任意の時点または区間に対して、
     その時点または区間を誘因とする前記言語ストリーム上の言明の系列を推定する手段を備える言語ストリーム検索システム。
  12.  当該メディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム(以下、「言語ストリーム」)から任意の言明を選択し、
     当該言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する、トピック遷移解析方法。
  13.  当該言明が、当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、前記判定を行う請求項12に記載のトピック遷移解析方法。
  14.  トピック遷移解析システムを構成するコンピュータに実行させるプログラムであって、
     当該メディアストリームに平行してなされた一つまたは複数の言語コミュニケーションのストリーム(以下、「言語ストリーム」)から任意の言明を選択する処理と、
     当該言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する処理と、を前記コンピュータに実行させるプログラム。
  15.  当該言明が、当該言明のなされた時刻及びその近傍の時刻におけるメディアストリームの内容と、当該言明より前になされた言語ストリームの内容とのどちらにより強く類似しているかに基づいて、前記言明が、前記メディアストリームの内容に起因して新たに生起したものであるか否かを判定する請求項14に記載のプログラム。
PCT/JP2009/070839 2008-12-15 2009-12-14 トピック遷移解析システム、トピック遷移解析方法およびプログラム WO2010071112A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/139,550 US8670978B2 (en) 2008-12-15 2009-12-14 Topic transition analysis system, method, and program
JP2010542961A JP5488475B2 (ja) 2008-12-15 2009-12-14 トピック遷移解析システム、トピック遷移解析方法およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-318639 2008-12-15
JP2008318639 2008-12-15

Publications (1)

Publication Number Publication Date
WO2010071112A1 true WO2010071112A1 (ja) 2010-06-24

Family

ID=42268783

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/070839 WO2010071112A1 (ja) 2008-12-15 2009-12-14 トピック遷移解析システム、トピック遷移解析方法およびプログラム

Country Status (3)

Country Link
US (1) US8670978B2 (ja)
JP (1) JP5488475B2 (ja)
WO (1) WO2010071112A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015156099A (ja) * 2014-02-20 2015-08-27 株式会社リコー 会議支援装置、会議支援装置の制御方法、及びプログラム
JP2018207302A (ja) * 2017-06-05 2018-12-27 株式会社Jvcケンウッド チャット端末装置、チャットシステム、チャット表示方法、及びチャット表示プログラム
CN111310413A (zh) * 2020-02-20 2020-06-19 阿基米德(上海)传媒有限公司 一种基于节目串联单的广播节目音频智能拆条方法及装置
US11018997B2 (en) * 2018-04-12 2021-05-25 Disney Enterprises, Inc. Systems and methods for maintaining a conversation

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140033025A1 (en) * 2007-12-06 2014-01-30 Adobe Systems Incorporated Displaying a text-based description of digital content in a sub-frame
US10629188B2 (en) * 2013-03-15 2020-04-21 International Business Machines Corporation Automatic note taking within a virtual meeting
US9495357B1 (en) * 2013-05-02 2016-11-15 Athena Ann Smyros Text extraction
US10404806B2 (en) 2015-09-01 2019-09-03 Yen4Ken, Inc. Methods and systems for segmenting multimedia content
US10546028B2 (en) 2015-11-18 2020-01-28 International Business Machines Corporation Method for personalized breaking news feed
US9934449B2 (en) * 2016-02-04 2018-04-03 Videoken, Inc. Methods and systems for detecting topic transitions in a multimedia content
US10296533B2 (en) 2016-07-07 2019-05-21 Yen4Ken, Inc. Method and system for generation of a table of content by processing multimedia content

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306579A (ja) * 2000-04-25 2001-11-02 Mitsubishi Electric Corp 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404295A (en) * 1990-08-16 1995-04-04 Katz; Boris Method and apparatus for utilizing annotations to facilitate computer retrieval of database material
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US5828839A (en) * 1996-11-14 1998-10-27 Interactive Broadcaster Services Corp. Computer network chat room based on channel broadcast in real time
EP1016985A3 (en) 1998-12-30 2004-04-14 Xerox Corporation Method and system for topic based cross indexing of text and audio
US7143428B1 (en) * 1999-04-21 2006-11-28 Microsoft Corporation Concurrent viewing of a video programming and of text communications concerning the video programming
US6816858B1 (en) * 2000-03-31 2004-11-09 International Business Machines Corporation System, method and apparatus providing collateral information for a video/audio stream
EP1297403A4 (en) * 2000-05-01 2006-12-20 Invoke Solutions Inc INTERACTIONS BETWEEN MACROGROUPES
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US6772120B1 (en) * 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US20030061028A1 (en) * 2001-09-21 2003-03-27 Knumi Inc. Tool for automatically mapping multimedia annotations to ontologies
US6928407B2 (en) * 2002-03-29 2005-08-09 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
US7137070B2 (en) * 2002-06-27 2006-11-14 International Business Machines Corporation Sampling responses to communication content for use in analyzing reaction responses to other communications
US20040024598A1 (en) * 2002-07-03 2004-02-05 Amit Srivastava Thematic segmentation of speech
US7739584B2 (en) * 2002-08-08 2010-06-15 Zane Vella Electronic messaging synchronized to media presentation
JP4779481B2 (ja) * 2005-07-19 2011-09-28 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP4580885B2 (ja) * 2006-03-27 2010-11-17 株式会社東芝 シーン情報抽出方法、シーン抽出方法および抽出装置
US7624416B1 (en) * 2006-07-21 2009-11-24 Aol Llc Identifying events of interest within video content
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
US7739261B2 (en) * 2007-06-14 2010-06-15 Microsoft Corporation Identification of topics for online discussions based on language patterns
US20090132252A1 (en) * 2007-11-20 2009-05-21 Massachusetts Institute Of Technology Unsupervised Topic Segmentation of Acoustic Speech Signal
US20090164572A1 (en) * 2007-12-20 2009-06-25 Motorola, Inc. Apparatus and method for content item annotation
US9384186B2 (en) * 2008-05-20 2016-07-05 Aol Inc. Monitoring conversations to identify topics of interest

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306579A (ja) * 2000-04-25 2001-11-02 Mitsubishi Electric Corp 情報検索装置、情報検索方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ISAO KONDO ET AL.: "Eizo o Kaishita Communication ni Okeru Scene Profile Jido Seisei Gijutsu to Navigation eno Tekiyo", ITE TECHNICAL REPORT, vol. 30, no. 46, 15 September 2006 (2006-09-15), pages 5 - 10 *
TAIHEI OGURO ET AL.: "Internet Chat o Riyo shita Bangumi Metadata no Jido Seisei System no Jisso to Hyoka", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2005, no. 23, 11 March 2005 (2005-03-11), pages 73 - 78 *
WATARU MIYAMORI ET AL.: "Bangumi Jikkyo Chat o Riyo shita Television Bangumi no Metadata Jido Chushutsu Hoshiki", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 30, no. 46, 15 December 2005 (2005-12-15), pages 59 - 71 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015156099A (ja) * 2014-02-20 2015-08-27 株式会社リコー 会議支援装置、会議支援装置の制御方法、及びプログラム
JP2018207302A (ja) * 2017-06-05 2018-12-27 株式会社Jvcケンウッド チャット端末装置、チャットシステム、チャット表示方法、及びチャット表示プログラム
US11018997B2 (en) * 2018-04-12 2021-05-25 Disney Enterprises, Inc. Systems and methods for maintaining a conversation
CN111310413A (zh) * 2020-02-20 2020-06-19 阿基米德(上海)传媒有限公司 一种基于节目串联单的广播节目音频智能拆条方法及装置
CN111310413B (zh) * 2020-02-20 2023-03-03 阿基米德(上海)传媒有限公司 一种基于节目串联单的广播节目音频智能拆条方法及装置

Also Published As

Publication number Publication date
US20110246183A1 (en) 2011-10-06
JPWO2010071112A1 (ja) 2012-05-31
US8670978B2 (en) 2014-03-11
JP5488475B2 (ja) 2014-05-14

Similar Documents

Publication Publication Date Title
JP5488475B2 (ja) トピック遷移解析システム、トピック遷移解析方法およびプログラム
US10659499B2 (en) Providing selectable content items in communications
WO2022121601A1 (zh) 一种直播互动方法、装置、设备及介质
US8645121B2 (en) Language translation of visual and audio input
KR101391599B1 (ko) 컨텐트에서의 등장 인물간의 관계에 대한 정보 생성 방법및 그 장치
US8407055B2 (en) Information processing apparatus and method for recognizing a user's emotion
KR20190011829A (ko) 컴퓨터 실행 방법, 시스템 및 컴퓨터 판독 가능 매체
JP6122792B2 (ja) ロボット制御装置、ロボット制御方法及びロボット制御プログラム
CN108292314B (zh) 信息处理装置、信息处理方法和程序
KR20120038000A (ko) 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템
JP2006287319A (ja) 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム
JP6323947B2 (ja) 音響イベント認識装置、及びプログラム
CN113841418A (zh) 动态视频精彩场面
JP2008234431A (ja) コメント蓄積装置、コメント作成閲覧装置、コメント閲覧システムおよびプログラム
CN112733654B (zh) 一种视频拆条的方法和装置
JP6337183B1 (ja) テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置
Brown et al. Playing a part: Speaker verification at the movies
JP2008152605A (ja) プレゼンテーション解析装置およびプレゼンテーション視聴システム
JP2002335473A (ja) 動画コンテンツの検索情報抽出システム、検索情報抽出方法、検索情報保存システム、動画コンテンツのストリーミング配信方法
JP6327745B2 (ja) 音声認識装置、及びプログラム
JP7101057B2 (ja) 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム
JP3923932B2 (ja) 映像要約装置、映像要約方法及びプログラム
JP2015061194A (ja) 情報処理装置、情報処理方法、及びプログラム
JP5474591B2 (ja) 画像選定装置、画像選定方法および画像選定プログラム
CN117251595A (zh) 视频录像处理

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09833415

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2010542961

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13139550

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09833415

Country of ref document: EP

Kind code of ref document: A1