WO2022259564A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2022259564A1
WO2022259564A1 PCT/JP2021/030174 JP2021030174W WO2022259564A1 WO 2022259564 A1 WO2022259564 A1 WO 2022259564A1 JP 2021030174 W JP2021030174 W JP 2021030174W WO 2022259564 A1 WO2022259564 A1 WO 2022259564A1
Authority
WO
WIPO (PCT)
Prior art keywords
candidate
word
image
common
speech
Prior art date
Application number
PCT/JP2021/030174
Other languages
English (en)
French (fr)
Inventor
佳昭 東海林
志朗 小笠原
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023526844A priority Critical patent/JPWO2022259564A1/ja
Publication of WO2022259564A1 publication Critical patent/WO2022259564A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Definitions

  • the embodiments relate to an information processing device, an information processing method, and a program.
  • a technology that utilizes logs accumulated by terminal operations is known. For example, the pairing technology pairs the most appropriate consultee with the consulter based on the accumulated logs.
  • Voice recognition technology and image recognition technology are known as technologies for accumulating logs.
  • Speech recognition technology extracts words contained in speech as a log.
  • Image recognition technology extracts words contained in images as logs. Speech and image recognition techniques allow words extracted from different forms of information to be treated in a common form.
  • the present invention has been made in view of the above circumstances, and its purpose is to provide means for improving the accuracy of recognizing words from voice and images.
  • An information processing apparatus of one aspect includes a speech recognition unit, an image recognition unit, a selection unit, a detection unit, a calculation unit, and a determination unit.
  • a speech recognition unit recognizes a plurality of in-speech candidate words associated with different ranks with respect to each of the plurality of in-speech words from speech including a plurality of in-speech words respectively associated with a plurality of periods.
  • the image recognition unit recognizes a plurality of in-image candidate words associated with different ranks for each of the plurality of in-image words from an image including a plurality of in-image words respectively associated with a plurality of areas. do.
  • the selection unit selects a plurality of combinations.
  • Each of the plurality of combinations includes at least one set of one period of the plurality of periods and one region of the plurality of regions.
  • the detection unit detects common candidate words commonly included in the plurality of in-speech candidate words and the plurality of in-image candidate words for each of the plurality of combinations.
  • the calculation unit calculates, for each of the plurality of combinations, the in-speech order associated with the common candidate word in the plurality of in-speech candidate words, and the in-speech order associated with the common candidate word in the plurality of image candidate words.
  • An evaluation value is calculated based on the ranking within the image.
  • the determination unit determines, from the plurality of combinations, a combination in which both the in-voice word and the in-image word match the common candidate word.
  • FIG. 1 is a block diagram showing an example of the configuration of an information processing system according to an embodiment.
  • FIG. 2 is a block diagram illustrating an example of the hardware configuration of the information processing apparatus according to the embodiment;
  • FIG. 3 is a block diagram illustrating an example of the functional configuration of the information processing apparatus according to the embodiment;
  • FIG. 4 is a diagram illustrating an example of speech information and speech recognition candidates and image information and image recognition candidates according to the embodiment.
  • FIG. 5 is a flowchart showing an outline of common word extraction operation in the information processing apparatus according to the embodiment.
  • FIG. 6 is a flowchart showing a first method of common word extraction operation in the information processing apparatus according to the embodiment.
  • FIG. 7 is a diagram showing how to combine speech recognition candidates and image recognition candidates in the first method of common word extraction operation in the information processing apparatus according to the embodiment.
  • FIG. 8 is a diagram showing how to calculate an evaluation value in the first method of the common word extraction operation in the information processing apparatus according to the embodiment.
  • FIG. 9 is a flowchart showing a second method of common word extraction operation in the information processing apparatus according to the embodiment.
  • FIG. 10 is a diagram showing speech recognition candidates and image recognition candidates in the second method of common word extraction operation in the information processing apparatus according to the embodiment.
  • FIG. 11 is a diagram showing how to calculate an evaluation value in the second method of common word extraction operation in the information processing apparatus according to the embodiment.
  • FIG. 12 is a diagram showing how to calculate an evaluation value in the second method of common word extraction operation in the information processing apparatus according to the embodiment.
  • FIG. 13 is a diagram showing how to calculate an evaluation value in the second method of common word extraction operation in the information processing apparatus according to the embodiment.
  • FIG. 1 is a block diagram showing an example of the configuration of an information processing system according to an embodiment.
  • the information processing system 1 is a computer network connected via a network NW.
  • the network NW is a WAN (Wide Area Network), a LAN (Local Area Network), or the Internet.
  • the information processing system 1 includes an information processing device 100 and terminals 200 and 300 .
  • the information processing device 100 is, for example, a data server.
  • Information processing apparatus 100 stores media information shared between terminal 200 and terminal 300 via network NW.
  • Media information includes, for example, audio information and image information.
  • the terminals 200 and 300 are, for example, personal computers or smartphones. Terminals 200 and 300 share information via network NW.
  • FIG. 2 is a block diagram showing an example of the hardware configuration of the information processing apparatus according to the embodiment.
  • the information processing device 100 includes a control circuit 11, a storage 12, a communication module 13, and a drive .
  • the control circuit 11 is a circuit that controls each component of the information processing apparatus 100 as a whole.
  • the control circuit 11 includes a CPU (Central Processing Unit), RAM (Random Access Memory), ROM (Read Only Memory), and the like.
  • the storage 12 is an auxiliary storage device for the information processing device 10 .
  • the storage 12 is, for example, an HDD (Hard Disk Drive), an SSD (Solid State Drive), or a memory card.
  • Storage 12 stores media information received from terminals 200 and 300 .
  • the storage 12 may also store programs.
  • the communication module 13 is a circuit used for transmitting and receiving media information via the network NW.
  • the communication module 13 transfers media information received from the terminals 200 and 300 to the storage 12 .
  • the drive 14 is a device for reading software stored in the storage medium 15.
  • the drive 14 includes, for example, a CD (Compact Disk) drive, a DVD (Digital Versatile Disk) drive, and the like.
  • the storage medium 15 is a medium that stores software by electrical, magnetic, optical, mechanical or chemical action.
  • the storage medium 15 may store programs.
  • FIG. 3 is a block diagram showing an example of the functional configuration of the information processing apparatus according to the embodiment.
  • the CPU of the control circuit 11 expands the program stored in the storage 12 or storage medium 15 to RAM. Then, the CPU of the control circuit 11 interprets and executes the program developed in the RAM.
  • the information processing apparatus 100 functions as a computer including a voice receiving unit 21, an image receiving unit 22, a voice recognizing unit 23, an image recognizing unit 24, a common candidate word detecting unit 25, an evaluation value calculating unit 26, and a determining unit 27. Function.
  • the voice receiving unit 21 receives the voice information Va via the network NW.
  • the voice receiving section 21 transmits the voice information Va to the voice recognition section 23 .
  • the voice information Va is media information including voice.
  • the voices in the voice information Va correspond to multiple words. A portion of the voice in the voice information Va that corresponds to one word is uttered within a certain period. The length of the period corresponding to one word can be any length for each word. Note that the voice information Va does not include information for identifying a plurality of words corresponding to voice.
  • the image receiving unit 22 receives the image information Ia via the network NW.
  • the image reception section 22 transmits the image information Ia to the image recognition section 24 .
  • the image information Ia is media information including images.
  • the images in the image information Ia correspond to multiple words.
  • a portion of the image in the image information Ia that corresponds to one word is displayed in a certain area.
  • the width of the region corresponding to one word can be any width for each word. Note that the image information Ia does not include information for identifying a plurality of words corresponding to the image.
  • the voice recognition unit 23 generates voice recognition candidates WV based on the voice information Va. Specifically, the voice recognition unit 23 converts the voice in the voice information Va into a character string by voice recognition processing. Various methods such as acoustic analysis and acoustic model can be applied to the speech recognition processing. Also, the speech recognition unit 23 classifies the character string into a plurality of words by morphological analysis. When converting speech into character strings and classifying character strings into words, the speech recognition unit 23 generates at least one candidate word (candidate word group). The voice recognition unit 23 transmits candidate word groups generated for each of the plurality of words to the common candidate word detection unit 25 as voice recognition candidates WV. That is, the speech recognition candidate WV is an intermediate product in speech recognition processing for the speech information Va.
  • the image recognition unit 24 generates image recognition candidates WI based on the image information Ia. Specifically, the image recognition unit 24 converts the image in the image information Ia into a character string by image recognition processing. Various techniques such as optical character recognition (OCR) can be applied to image recognition processing. The image recognition unit 24 also classifies the character string into a plurality of words by morphological analysis. In converting an image into a character string and classifying the character string into words, the image recognition unit 24 generates at least one candidate word (candidate word) for each of the plurality of words before finally determining the plurality of words. word group). The image recognition unit 24 transmits candidate word groups generated for each of the plurality of words to the common candidate word detection unit 25 as image recognition candidates WI. That is, the image recognition candidate WI is an intermediate product in the image recognition processing for the image information Ia.
  • OCR optical character recognition
  • FIG. 4 is a diagram showing examples of voice information and voice recognition candidates and image information and image recognition candidates according to the embodiment.
  • the audio information Va is composed of 12 periods "A", “I”, "U”, .
  • a case consisting of . . . is shown.
  • a candidate word group related to a certain word is associated with the period during which the certain word is uttered. Further, among the speech recognition candidates WV, candidate word groups related to a certain word are ranked relative to each other, for example, according to speech recognition accuracy. That is, in a certain candidate word group within the speech recognition candidates WV, a candidate word with high speech recognition accuracy is assigned a higher rank than a candidate word with low speech recognition accuracy. Specifically, in the example of FIG. 4, the speech recognition unit 23 generates a candidate word group including four candidate words (consultation, gradation, presentation, cannonball) during a certain period.
  • the highest order (1) is assigned to the candidate word “consultation” with the highest speech recognition accuracy.
  • ranks (2), (3), and (4) are assigned to the candidate words “shading,” “going on stage,” and “cannonball,” respectively, in descending order of speech recognition accuracy.
  • a candidate word group related to a certain word is associated with the area where the certain word is displayed.
  • candidate word groups related to a certain word are ranked according to image recognition accuracy, for example. That is, in a certain candidate word group within the image recognition candidates WI, a candidate word with high image recognition accuracy is assigned a higher rank than a candidate word with low image recognition accuracy.
  • the image recognition unit 24 generates a candidate word group including four candidate words (consultation, mokumedan, shingenen, mokumegenen) in a certain region.
  • the candidate word "consultation" with the highest image recognition accuracy is assigned the highest rank (1).
  • ranks (2), (3), and (4) are assigned to the candidate words “Kimedan”, “Sogenen”, and “Kimegonen”, respectively, in descending order of image recognition accuracy.
  • the common candidate word detection unit 25 generates common candidate words WC based on the voice recognition candidates WV and image recognition candidates WI. Specifically, the common candidate word detection unit 25 detects at least one candidate word included in both the voice recognition candidate WV and the image recognition candidate WI as the common candidate word WC. The common candidate word detection unit 25 transmits the common candidate word WC to the evaluation value calculation unit 26 .
  • the voice recognition candidate WV and the image recognition candidate WI are independent information regarding time. Therefore, the detection processing of the common candidate word WC in the common candidate word detection unit 25 does not require simultaneous input of the voice recognition candidate WV and the image recognition candidate WI.
  • the evaluation value calculation unit 26 calculates the evaluation value EV for the common candidate word WC based on the rank associated as the voice recognition candidate WV and the rank associated as the image recognition candidate WI.
  • the evaluation value calculator 26 transmits the evaluation value EV to the determination unit 27 .
  • the determination unit 27 determines whether the common candidate word WC is included in both the audio information Va and the image information Ia based on the evaluation value EV.
  • the determination unit 27 causes the storage 12 to store, as a common word W, the common candidate word WC determined to be included in both the audio information Va and the image information Ia as a result of the determination.
  • the information processing apparatus 100 can determine the candidate word recognized from the voice information Va and the candidate word recognized from the image information Ia to be included in both the voice information Va and the image information Ia. It is possible to extract a common word W with a high probability.
  • FIG. 5 is a flowchart showing an outline of common word extraction operation in the information processing apparatus according to the embodiment.
  • audio information Va and image information Ia are media information shared between terminals 200 and 300 regarding a common topic.
  • the voice recognition unit 23 when the voice information Va and the image information Ia are received (start), the voice recognition unit 23 generates voice recognition candidates WV ranked by period from the voice information Va (S10).
  • the image recognition unit 24 generates image recognition candidates WI ranked for each area from the image information Ia (S20).
  • the common candidate word detection unit 25 selects candidates commonly associated with at least one period and at least one region from the speech recognition candidates WV generated in the process of S10 and the image recognition candidates WI generated in the process of S20.
  • the words are detected as common candidate words WC (S30).
  • the evaluation value calculation unit 26 calculates the evaluation value EV for the common candidate word WC detected in the process of S30, based on the ranking in each of the corresponding periods and regions (S40). That is, the evaluation value calculation unit 26 calculates the evaluation value EV for the common candidate word WC based on the rank associated as the voice recognition candidate WV and the rank associated as the image recognition candidate WI.
  • the determination unit 27 determines whether or not the common candidate word WC is the common word W based on the evaluation value EV calculated in the process of S40 (S50). As a result of the process of S ⁇ b>50 , common words W are extracted from common candidate words WC and stored in the storage 12 .
  • the process of S20 is executed after the process of S10 has been described, but the present invention is not limited to this.
  • the process of S20 may be performed before the process of S10.
  • the first method of common word extraction operation will be described.
  • the first method is a method of extracting the common word W with high precision through exhaustive search.
  • FIG. 6 is a flow chart showing the first method of common word extraction operation in the information processing apparatus according to the embodiment.
  • FIG. 6 shows details of the processes of S30, S40, and S50 among the various processes shown in FIG. More specifically, the processing of S31A and S32A shown in FIG. 6 corresponds to the processing of S30 shown in FIG.
  • the processing of S40A shown in FIG. 6 corresponds to the processing of S40 shown in FIG.
  • the processing of S51A and S52A shown in FIG. 6 corresponds to the processing of S50 shown in FIG.
  • the common candidate word detection unit 25 detects a combination of at least one period and at least one region (hereinafter referred to as the first method , simply called "combination") is selected (S31A). That is, the common candidate word detection unit 25 selects at least one candidate word group from the voice recognition candidates WV and at least one candidate word group from the image recognition candidates WI.
  • the common candidate word detection unit 25 detects, as common candidate words WC, candidate words common to at least one period and at least one region in the combination selected in the process of S31A (S32A).
  • the evaluation value calculation unit 26 calculates the evaluation value ⁇ for the common candidate word WC detected in the process of S32A based on the ranking in each of the corresponding periods and regions (S40A).
  • the evaluation value ⁇ is, for example, an integer of 0 or more.
  • the larger the evaluation value ⁇ the higher the possibility that the common candidate word WC is the common word W.
  • a larger value is added to the evaluation value ⁇ as the rank of the common candidate word WC in the speech recognition candidates WV is higher.
  • a larger value is added to the evaluation value ⁇ as the rank of the common candidate word WC in the image recognition candidates WI is higher.
  • the determination unit 27 determines whether or not all combinations of the voice recognition candidates WV and image recognition candidates WI have been selected (S51A). If all combinations have not been selected (S51A; no), the determination unit 27 determines to detect common candidate words WC and calculate evaluation values ⁇ for combinations that have not been selected. That is, the common candidate word detection unit 25 and the evaluation value calculation unit 26 repeat the processes of S31A, S32A, and S40A until it is determined that all combinations have been selected in the process of S51A.
  • the determination unit 27 determines that the common candidate word WC detected for the combination with the maximum evaluation value ⁇ is the common word W (S52A).
  • FIG. 7 is a diagram showing how to combine speech recognition candidates and image recognition candidates in the first method of common word extraction operation in the information processing apparatus according to the embodiment.
  • the voice information Va has two periods "a” and "i".
  • Speech recognition candidates WV-1 and WV-2 are generated corresponding to the periods "a” and "i", respectively.
  • the speech recognition candidate WV-1 includes candidate words “consultation” and “shading” associated with the ranks (1) and (2), respectively, as a candidate word group.
  • the speech recognition candidate WV-2 includes the candidate words “intensity” and “consultation” associated with the ranks (1) and (2), respectively, as candidate word groups.
  • the image information Ia has two areas "A” and "B”.
  • Image recognition candidates WI-1 and WI-2 are generated corresponding to regions "A" and "B", respectively.
  • the image recognition candidate WI-1 includes candidate words “consultation” and “kime dan” associated with the ranks (1) and (2), respectively, as a candidate word group.
  • the image recognition candidate WI-2 includes candidate words “shading” and “shinoshinen” associated with the ranks (1) and (2), respectively, as candidate word groups.
  • the elements P ij of the matrix P correspond to whether or not to select a combination of one period and one region (1 ⁇ i ⁇ M, 1 ⁇ j ⁇ N). That is, when the element Pij of the matrix P is "1", the set of the image recognition candidate WI-i and the voice recognition candidate WV-j is selected. When the element P ij of the matrix P is "0", the set of image recognition candidate WI-i and voice recognition candidate WV-j is not selected.
  • any case of selecting at least one period and at least one region can be uniquely specified.
  • FIG. 8 is a diagram showing how to calculate the evaluation value in the first method of common word extraction operation in the information processing apparatus according to the embodiment.
  • the common candidate word detection unit 25 can set the following constraint conditions. • The common candidate words WC detected from one period and set of regions must be identical to each other. - The common candidate words WC detected from a region and a set of periods must be identical to each other.
  • the ranks (1) and (1) are given for region “A” and period “A”, respectively. is detected as a common candidate word WC.
  • the region “B” and period “A” are associated with ranks (1) and (2), respectively.
  • a candidate word “shading” is detected as a common candidate word WC.
  • the regions "A" and period "A” are associated with ranks (1) and (1), respectively.
  • the candidate word "consultation” is detected as the common candidate word WC.
  • the candidate word “shading” associated with ranks (1) and (1) for region “B” and period “i”, respectively, is further detected as a common candidate word WC.
  • the region “A” and period “I” are associated with ranks (1) and (2), respectively.
  • the candidate word "consultation” is detected as the common candidate word WC.
  • the candidate word “shading” associated with the ranks (1) and (2) for the region “B” and the period “a”, respectively, is further detected as the common candidate word WC.
  • the determination unit 27 may set a threshold value for the evaluation value ⁇ with which the common word W can be extracted.
  • the determination unit 27 is configured to extract the common word W when the maximum evaluation value ⁇ is 5 or more. As a result, it is possible to suppress extraction of the common candidate word WC with extremely low recognition accuracy as the common word W.
  • the second method is a method of extracting the common word W while suppressing the extraction load by limiting the search procedure.
  • FIG. 9 is a flowchart showing a second method of common word extraction operation in the information processing apparatus according to the embodiment.
  • FIG. 9 shows details of the processes of S30, S40, and S50 among the various processes shown in FIG. More specifically, the processes of S31B, S32B, S33B, and S34B shown in FIG. 9 correspond to the process of S30 shown in FIG.
  • the processing of S40B shown in FIG. 9 corresponds to the processing of S40 shown in FIG.
  • the processes of S51B, S52B, S53B, and S54B shown in FIG. 9 correspond to the process of S50 shown in FIG.
  • the common candidate word detection unit 25 selects one region (S31B). That is, the common candidate word detection unit 25 selects one candidate word group from the image recognition candidates WI.
  • the common candidate word detection unit 25 further selects at least one period having candidate words common to the candidate words in the area selected in the process of S31B (S32B). As a result, a combination of one period and at least one region (hereinafter also simply referred to as "combination" in the second method) is selected.
  • the common candidate word detection unit 25 detects candidate words common to the combinations selected in the processing of S31B and S32B as common candidate words WC (S33B).
  • the common candidate word detection unit 25 deletes candidate words other than the common candidate word WC detected in the process of S33B in the combinations selected in the processes of S31B and S32B (S34B).
  • the evaluation value calculation unit 26 calculates the evaluation value ⁇ for the common candidate word WC detected in the process of S33B based on the ranking in each of the corresponding periods and regions (S40B).
  • the evaluation value ⁇ is, for example, a real number equal to or greater than 0.
  • the evaluation value ⁇ is calculated by the following formula.
  • the determination unit 27 determines whether or not all areas have been selected for the image recognition candidate WI (S51B). If all regions have not been selected (S51B; no), the determination unit 27 determines to detect the common candidate word WC and calculate the evaluation value ⁇ for the regions that have not been selected. That is, the common candidate word detection unit 25 and the evaluation value calculation unit 26 repeat the processes of S31B, S32B, S33B, S34B, and S40B until it is determined that all regions have been selected in the process of S51B.
  • the determination unit 27 determines whether the same common candidate word WC has been detected multiple times (S52B).
  • the determination unit 27 selects all common candidate words WC other than those with the smallest evaluation value ⁇ . Delete (S53B).
  • the determination unit 27 determines that the detected common candidate word WC is the common word W. (S54B).
  • FIG. 10 is a diagram showing speech recognition candidates and image recognition candidates in the second method of common word extraction operation in the information processing apparatus according to the embodiment.
  • Image recognition candidates WI are shown in the left part (A) of FIG.
  • the right part (B) of FIG. 10 shows speech recognition candidates WV.
  • the audio information Va has six areas.
  • Image recognition candidates WI-1, WI-2, WI-3, WI-4, WI-5, and WI-6 are generated corresponding to the six regions, respectively.
  • Image recognition candidate WI-1 includes candidate words “consult”, “kime dan”, and “kime gonen” associated with ranks (1), (2), and (3), respectively, as candidate word groups.
  • the image recognition candidate WI-2 includes the candidate word "pairing" associated with the rank (1) as a candidate word group.
  • the image recognition candidate WI-3 includes the candidate word "technology" associated with the rank (1) as a candidate word group.
  • the image recognition candidate WI-4 uses the candidate words “Yaguchi Shiki”, “Knowledge”, and “Yaguchi language sound” associated with the ranks (1), (2), and (3), respectively, as a candidate word group.
  • the image recognition candidate WI-5 includes the candidate words “Kimedan”, “Consultation”, and “Kimegonen” associated with the ranks (1), (2), and (3), respectively, as candidate word groups.
  • the image recognition candidate WI-6 includes candidate words “knowledge”, “arrowhead”, and “yaguchishiki” associated with ranks (1), (2), and (3), respectively, as a candidate word group. .
  • the voice information Va has seven periods. Speech recognition candidates WV-1, WV-2, WV-3, WV-4, WV-5, WV-6, and WV-7 are generated corresponding to the seven periods, respectively.
  • the speech recognition candidate WV-1 includes candidate words “consultation” and “crossing” associated with ranks (1) and (2), respectively, as candidate word groups.
  • the speech recognition candidate WV-2 includes the candidate word “do when” associated with the rank (1) as a candidate word group.
  • Speech recognition candidate WV-3 includes candidate words “pairing” and “bearing” associated with ranks (1) and (2), respectively, as candidate word groups.
  • the speech recognition candidate WV-4 includes candidate words "technique", “magic”, and "previous” associated with the ranks (1), (2), and (3), respectively, as candidate word groups.
  • the speech recognition candidate WV-5 includes the candidate words “regarding” and “regarding” associated with the ranks (1) and (2), respectively, as candidate word groups.
  • the speech recognition candidate WV-6 includes candidate words “consciousness” and “knowledge” associated with the ranks (1) and (2), respectively, as candidate word groups.
  • Speech recognition candidate WV-7 selects the candidate words “consultation”, “stage”, “shading”, and “cannonball” that are associated with ranks (1), (2), (3), and (4), respectively. Include as a candidate word group.
  • 11, 12, and 13 are diagrams showing how the evaluation value is calculated in the second method of common word extraction operation in the information processing apparatus according to the embodiment.
  • FIG. 11 corresponds to the processing of S31B, S32B, S33B, S34B, and S40B until the evaluation value ⁇ is calculated for the first region.
  • FIG. 12 corresponds to the process until it is determined that all areas have been selected in the process of S51B.
  • FIG. 13 corresponds to the process until the common word W is determined in the process of S54B.
  • Image recognition candidates WI are shown in the upper left (A) of FIGS. 11, 12 and 13 .
  • Voice recognition candidates WV are shown in the upper right portion (B) of FIGS. 11, 12 and 13 .
  • Lower portions (C) of FIGS. 11, 12, and 13 show the evaluation value ⁇ and parameters related to the calculation of the evaluation value ⁇ .
  • the common candidate word detection unit 25 selects the image recognition candidate WI-1 corresponding to the first area.
  • the common candidate word detection unit 25 searches the voice recognition candidates WV to find voice recognition candidates WV-1 and WV-7 that include the same candidate word as the candidate word “consultation” in the image recognition candidate WI-1. Select further.
  • the common candidate word detection unit 25 detects the candidate word “consultation” as the common candidate word WC when the image recognition candidate WI-1 is selected. Further, the common candidate word detection unit 25 deletes candidate words other than the common candidate word “consultation” from the image recognition candidate WI-1 and the voice recognition candidates WV-1 and WV-7.
  • the common candidate word detection unit 25 selects the image recognition candidate WI-2 corresponding to the second region.
  • the common candidate word detection unit 25 further selects a speech recognition candidate WV-3 that includes the same candidate word as the candidate word “pairing” in the image recognition candidate WI-2 by searching the speech recognition candidate WV. , find the candidate word “pairing” as the common candidate word WC.
  • the common candidate word detection unit 25 deletes candidate words other than the common candidate word “pairing” from the image recognition candidate WI-2 and the voice recognition candidate WV-3.
  • the common candidate word detection unit 25 selects the image recognition candidate WI-3 corresponding to the third area.
  • the common candidate word detection unit 25 further selects a speech recognition candidate WV-4 containing the same candidate word as the candidate word “technology” in the image recognition candidate WI-3 by searching the speech recognition candidate WV, Detect the candidate word "technology" as the common candidate word WC. Further, the common candidate word detection unit 25 deletes candidate words other than the common candidate word “technology” from the image recognition candidate WI-3 and the voice recognition candidate WV-4.
  • the common candidate word detection unit 25 selects the image recognition candidate WI-4 corresponding to the fourth area.
  • the common candidate word detection unit 25 further selects a speech recognition candidate WV-6 containing the same candidate word as the candidate word “knowledge” in the image recognition candidate WI-4 by searching the speech recognition candidate WV, Detect the candidate word “knowledge” as the common candidate word WC. Further, the common candidate word detection unit 25 deletes candidate words other than the common candidate word “knowledge” from the image recognition candidate WI-4 and the voice recognition candidate WV-6.
  • the common candidate word detection unit 25 selects the image recognition candidate WI-5 corresponding to the fifth area.
  • the common candidate word detection unit 25 searches the voice recognition candidates WV to find voice recognition candidates WV-1 and WV-7 containing the same candidate word as the candidate word “consultation” in the image recognition candidate WI-5. Further selection is made to detect the candidate word “consultation” as the common candidate word WC. Further, the common candidate word detection unit 25 deletes candidate words other than the common candidate word “consultation” from the image recognition candidate WI-5 and the voice recognition candidates WV-1 and WV-7.
  • the common candidate word detection unit 25 selects the image recognition candidate WI-6 corresponding to the sixth area.
  • the common candidate word detection unit 25 further selects a speech recognition candidate WV-6 containing the same candidate word as the candidate word “knowledge” in the image recognition candidate WI-6 by searching the speech recognition candidate WV, Detect the candidate word “knowledge” as the common candidate word WC. Further, the common candidate word detection unit 25 deletes candidate words other than the common candidate word “knowledge” from the image recognition candidate WI-6 and the voice recognition candidate WV-6.
  • the common candidate word detection unit 25 may delete the candidate word group. .
  • speech recognition candidates WV-2 and WV-5 are deleted.
  • the determination unit 27 determines that the common candidate words "consultation” and “knowledge” have been detected multiple times through a series of detection operations. By comparing the image recognition candidates WI-1 and WI-5, the determination unit 27 deletes the common candidate word “consultation” in the image recognition candidate WI-5 whose evaluation value ⁇ is not the smallest. Similarly, by comparing the image recognition candidates WI-4 and WI-6, the determination unit 27 deletes the common candidate word “knowledge” in the image recognition candidate WI-4 whose evaluation value ⁇ is not the smallest.
  • the determination unit 27 determines that the common candidate word WC detected by selecting the image recognition candidates WI-1, WI-2, WI-3, and WI-6 is the common word W.
  • the determination unit 27 may set a threshold value for the evaluation value ⁇ with which the common word W can be extracted.
  • the determination unit 27 is configured to extract the common word W when the minimum evaluation value ⁇ is 3 or less. As a result, it is possible to suppress extraction of the common candidate word WC with extremely low recognition accuracy as the common word W.
  • the speech recognition unit 23 recognizes the speech recognition candidates WV-1 associated with the first word in different ranks from the speech information Va including the first word.
  • the image recognition unit 24 recognizes image recognition candidates WI-1 associated with different ranks with respect to the second word from the image information Ia including the second word.
  • the common candidate word detection unit 25 detects common candidate words commonly included in the voice recognition candidate WV-1 and the image recognition candidate WI-1. Detect WC-1.
  • the evaluation value calculation unit 26 ranks the voice recognition candidate WV-1 in the first order associated with the common candidate word WC-1 and the image recognition candidate WI-1 in the second order associated with the common candidate word WC-1.
  • the determination unit 27 determines whether or not both the first word and the second word match the common candidate word WC-1 based on the first evaluation value. As a result, when extracting the common word W, both the recognition accuracy of the speech recognition process and the recognition accuracy of the image recognition process can be taken into consideration. Therefore, the common word W can be extracted with high recognition accuracy.
  • the voice information Va includes the third word in a period different from that of the first word.
  • the speech recognition unit 23 recognizes speech recognition candidates WV-2 associated with different ranks with respect to the third word.
  • the common candidate word detection unit 25 selects a set of the speech recognition candidates WV-1 and WV-2 and the image recognition candidate WI-1
  • the common candidate word detection unit 25 detects the speech recognition candidates WV-1 and WV-2 and the image recognition candidate WI- 1 is detected.
  • the evaluation value calculation unit 26 calculates the third and fourth ranks associated with the common candidate word WC-2 in the speech recognition candidates WV-1 and WV-2, respectively, and the common candidate word WC- in the image recognition candidate WI-1.
  • a second evaluation value is calculated based on the fifth ranking associated with 2.
  • the determination unit 27 determines whether or not the first word, the second word, and the third word match the common candidate word WC-2 based on the first evaluation value and the second evaluation value. This allows consideration of the case of a combination of one region and multiple periods. Therefore, the common word W can be extracted with high recognition accuracy.
  • the image information Ia includes the fourth word in a region different from the second word.
  • the image recognition unit 24 recognizes image recognition candidates WI-2 associated with different ranks with respect to the fourth word.
  • the common candidate word detection unit 25 selects the set of the voice recognition candidate WV-1 and the image recognition candidates WI-1 and WI-2
  • the common candidate word detection unit 25 detects the voice recognition candidate WV-1 and the image recognition candidates WI-1 and WI- 2
  • the common candidate word WC-3 is detected.
  • the evaluation value calculation unit 26 calculates the sixth rank associated with the common candidate word WC-3 in the voice recognition candidate WV-1, the seventh rank associated with the common candidate word WC-3 in the image recognition candidate WI-1, and A third evaluation value is calculated based on the eighth rank associated with the common candidate word WC-3 in the image recognition candidate WI-2.
  • the determination unit 27 determines whether or not the first word, the second word, and the fourth word match the common candidate word WC-3 based on the first evaluation value and the third evaluation value. This allows consideration of the case of a combination of one period and multiple regions. Therefore, the common word W can be extracted with high recognition accuracy.
  • the common candidate word detection unit 25 selects the set of the voice recognition candidate WV-1 and the image recognition candidate WI-1 and the set of the voice recognition candidate WV-2 and the image recognition candidate WI-2
  • the voice recognition candidate Common candidate word WC-4 included in both WV-1 and image recognition candidate WI-1 and common candidate word WC-5 included in both speech recognition candidate WV-2 and image recognition candidate WI-2 are detected. do.
  • the evaluation value calculation unit 26 ranks the ninth rank associated with the common candidate word WC-4 in the voice recognition candidate WV-1 and the tenth rank associated with the common candidate word WC-4 in the image recognition candidate WI-1. Based on this, the fourth evaluation value is calculated.
  • the evaluation value calculation unit 26 ranks the 11th rank associated with the common candidate word WC-5 in the voice recognition candidate WV-2 and the 12th rank associated with the common candidate word WC-5 in the image recognition candidate WI-2. Based on this, the fifth evaluation value is calculated.
  • the evaluation value calculator 26 calculates a sixth evaluation value based on the fourth evaluation value and the fifth evaluation value. Based on the sixth evaluation value, the determination unit 27 determines whether the first word and the second word match the common candidate word WC-4 and the third word and the fourth word match the common candidate word WC-5. determine whether This makes it possible to consider a combination including a plurality of sets that are different from each other. Therefore, the common word W can be extracted with high recognition accuracy.
  • the determination unit 27 executes various determination operations based on whether or not the above-described first to fifth evaluation values reach the threshold. As a result, it is possible to suppress extraction of the common candidate word WC with extremely low recognition accuracy as the common word W.
  • FIG. 1
  • the evaluation value calculation unit 26 can apply the evaluation value ⁇ or ⁇ as the above-described first to fifth evaluation values. Accordingly, an appropriate evaluation value can be selected according to various conditions such as the number of words included in the audio information Va and the image information Ia and the required recognition accuracy.
  • the information processing apparatus 100 uses the speech recognition candidate WV and the image recognition candidate WI independently of time. As a result, the accuracy of word recognition can be improved without requiring simultaneous input of the voice information Va and the image information Ia.
  • the common candidate word detection unit 25 selects at least one period including the common candidate word WC for one selected region. do not have.
  • the common candidate word detection unit 25 may select at least one region containing the common candidate word WC for one selected period.
  • the program for executing the correction operation is executed by the information processing device 100 in the information processing system 1
  • the present invention is not limited to this.
  • a program that performs corrective actions may run on computing resources on the cloud.
  • the present invention is not limited to the above-described embodiments, and can be variously modified in the implementation stage without departing from the gist of the present invention. Further, each embodiment may be implemented in combination as appropriate, in which case the combined effect can be obtained. Furthermore, various inventions are included in the above embodiments, and various inventions can be extracted by combinations selected from a plurality of disclosed constituent elements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiments, if the problem can be solved and effects can be obtained, the configuration with the constituent elements deleted can be extracted as an invention.

Abstract

情報処理装置(100)は、複数の音声内単語を含む音声から複数の音声内単語の各々に関して互いに異なる順位に関連づけられた複数の音声内候補単語を認識する音声認識部(23)、複数の画像内単語を含む画像から複数の画像内単語の各々に関して互いに異なる順位に関連づけられた複数の画像内候補単語を認識する画像認識部(24)、複数の組合せの各々について複数の音声内候補単語と複数の画像内候補単語とに共通して含まれる共通候補単語を検出する検出部(26)、複数の組合せの各々について複数の音声内候補単語において共通候補単語に関連づけられた音声内順位及び複数の画像内候補単語において共通候補単語に関連づけられた画像内順位に基づき評価値を算出する算出部(26)、並びに複数の組合せ毎の評価値に基づき複数の組合せから音声内単語及び画像内単語が共に共通候補単語と一致する組合せを判定する判定部(27)を備える。

Description

情報処理装置、情報処理方法、及びプログラム
 実施形態は、情報処理装置、情報処理方法、及びプログラムに関する。
 端末の操作によって蓄積されたログを活用する技術が知られている。例えば、ペアリング技術は、蓄積されたログに基づいて、相談者に対する最適な被相談者をペアリングする。
 ログを蓄積する技術として、音声認識技術及び画像認識技術が知られている。音声認識技術は、音声に含まれる単語をログとして抽出する。画像認識技術は、画像に含まれる単語をログとして抽出する。音声認識技術及び画像認識技術により、異なる形式の情報から抽出された単語を、共通の形式で取り扱うことができる。
 例えば、同時入力される音声及びペン入力を処理することにより、単語の認識精度を向上させる手法が提案されている。
渡邉 康司、外4名、「音声とペン入力の同時入力に対する認識方式の検討」、電子情報通信学会技術研究報告、音声、2006年6月16日、vol.106、no.123、p.49-54
 しかしながら、オンライン会議等のネットワーク通信では、共通の単語を含む音声及び画像が同時に入力されない場合が多い。そして、同時入力されない音声及び画像を組み合わせることによって単語の認識精度を向上させるための手法は、少ない。
 本発明は、上記事情に着目してなされたもので、その目的とするところは、音声及び画像からの単語の認識精度を向上させる手段を提供することにある。
 一態様の情報処理装置は、音声認識部と、画像認識部と、選択部と、検出部と、算出部と、判定部と、を備える。音声認識部は、複数の期間にそれぞれ対応づけられた複数の音声内単語を含む音声から、上記複数の音声内単語の各々に関して、互いに異なる順位に関連づけられた複数の音声内候補単語を認識する。上記画像認識部は、複数の領域にそれぞれ対応づけられた複数の画像内単語を含む画像から、上記複数の画像内単語の各々に関して、互いに異なる順位に関連づけられた複数の画像内候補単語を認識する。上記選択部は、複数の組合せを選択する。上記複数の組合せの各々は、上記複数の期間のうちの1つの期間及び上記複数の領域のうちの1つの領域の組を少なくとも1つ含む。上記検出部は、上記複数の組合せの各々について、上記複数の音声内候補単語と上記複数の画像内候補単語とに共通して含まれる共通候補単語を検出する。上記算出部は、上記複数の組合せの各々について、上記複数の音声内候補単語において上記共通候補単語に関連づけられた音声内順位、及び上記複数の画像内候補単語において上記共通候補単語に関連づけられた画像内順位に基づき、評価値を算出する。上記判定部は、上記複数の組合せ毎の上記評価値に基づき、上記複数の組合せから、上記音声内単語及び上記画像内単語が共に上記共通候補単語と一致する組合せを判定する。
 実施形態によれば、音声及び画像からの単語の認識精度を向上させる手段を提供することができる。
図1は、実施形態に係る情報処理システムの構成の一例を示すブロック図である。 図2は、実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。 図3は、実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。 図4は、実施形態に係る音声情報及び音声認識候補、並びに画像情報及び画像認識候補の一例を示す図である。 図5は、実施形態に係る情報処理装置における共通単語抽出動作の概要を示すフローチャートである。 図6は、実施形態に係る情報処理装置における共通単語抽出動作の第1手法を示すフローチャートである。 図7は、実施形態に係る情報処理装置における共通単語抽出動作の第1手法での音声認識候補及び画像認識候補の組合せ方を示す図である。 図8は、実施形態に係る情報処理装置における共通単語抽出動作の第1手法での評価値の算出の仕方を示す図である。 図9は、実施形態に係る情報処理装置における共通単語抽出動作の第2手法を示すフローチャートである。 図10は、実施形態に係る情報処理装置における共通単語抽出動作の第2手法での音声認識候補及び画像認識候補を示す図である。 図11は、実施形態に係る情報処理装置における共通単語抽出動作の第2手法での評価値の算出の仕方を示す図である。 図12は、実施形態に係る情報処理装置における共通単語抽出動作の第2手法での評価値の算出の仕方を示す図である。 図13は、実施形態に係る情報処理装置における共通単語抽出動作の第2手法での評価値の算出の仕方を示す図である。
 以下、図面を参照して実施形態について説明する。なお、以下の説明において、同一の機能及び構成を有する構成要素については、共通する参照符号を付す。
 1. 実施形態の構成
 1.1 情報処理システム
 まず、実施形態に係る情報処理システムの構成について説明する。図1は、実施形態に係る情報処理システムの構成の一例を示すブロック図である。
 図1に示すように、情報処理システム1は、ネットワークNWを介して接続されたコンピュータネットワークである。ネットワークNWは、WAN(Wide Area Network)、LAN(Local Area Network)、又はインターネットである。情報処理システム1は、情報処理装置100、並びに端末200及び300を含む。
 情報処理装置100は、例えば、データサーバである。情報処理装置100は、ネットワークNWを介して、端末200と端末300との間で共有されるメディア情報を保存する。メディア情報は、例えば、音声情報及び画像情報を含む。
 端末200及び300は、例えば、パーソナルコンピュータ又はスマートフォンである。端末200及び300は、ネットワークNWを介して情報を共有する。
 1.2 情報処理装置
 次に、実施形態に係る情報処理装置の内部構成について説明する。
 1.2.1 ハードウェア構成
 図2は、実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。図2に示すように、情報処理装置100は、制御回路11、ストレージ12、通信モジュール13、及びドライブ14を含む。
 制御回路11は、情報処理装置100の各構成要素を全体的に制御する回路である。制御回路11は、CPU(Central Processing Unit)、RAM(Random Access Memory)、及びROM(Read Only Memory)等を含む。
 ストレージ12は、情報処理装置10の補助記憶装置である。ストレージ12は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又はメモリカード等である。ストレージ12は、端末200及び300から受信したメディア情報を記憶する。また、ストレージ12は、プログラムを記憶してもよい。
 通信モジュール13は、ネットワークNWを介したメディア情報の送受信に使用される回路である。通信モジュール13は、端末200及び300から受信したメディア情報をストレージ12に転送する。
 ドライブ14は、記憶媒体15に記憶されたソフトウェアを読み込むための機器である。ドライブ14は、例えば、CD(Compact Disk)ドライブ、及びDVD(Digital Versatile Disk)ドライブ等を含む。
 記憶媒体15は、ソフトウェアを、電気的、磁気的、光学的、機械的又は化学的作用によって記憶する媒体である。記憶媒体15は、プログラムを記憶してもよい。
 1.2.2 機能構成
 図3は、実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。
 制御回路11のCPUは、ストレージ12又は記憶媒体15に記憶されたプログラムをRAMに展開する。そして、制御回路11のCPUは、RAMに展開されたプログラムを解釈及び実行する。これにより、情報処理装置100は、音声受信部21、画像受信部22、音声認識部23、画像認識部24、共通候補単語検出部25、評価値算出部26、及び判定部27を備えるコンピュータとして機能する。
 音声受信部21は、ネットワークNWを介して音声情報Vaを受信する。音声受信部21は、音声情報Vaを音声認識部23に送信する。
 音声情報Vaは、音声を含むメディア情報である。音声情報Va内の音声は、複数の単語に対応する。音声情報Va内の音声のうち、1つの単語に対応する部分は、或る期間内に発声される。1つの単語に対応する期間の長さは、単語毎に任意の長さとなり得る。なお、音声情報Vaには、音声に対応する複数の単語を識別する情報は含まれない。
 画像受信部22は、ネットワークNWを介して画像情報Iaを受信する。画像受信部22は、画像情報Iaを画像認識部24に送信する。
 画像情報Iaは、画像を含むメディア情報である。画像情報Ia内の画像は、複数の単語に対応する。画像情報Ia内の画像のうち、1つの単語に対応する部分は、或る領域内に表示される。1つの単語に対応する領域の広さは、単語毎に任意の広さとなり得る。なお、画像情報Iaには、画像に対応する複数の単語を識別する情報は含まれない。
 音声認識部23は、音声情報Vaに基づき、音声認識候補WVを生成する。具体的には、音声認識部23は、音声認識処理により、音声情報Va内の音声を文字列に変換する。音声認識処理には、例えば、音響分析や音響モデル等、種々の手法が適用され得る。また、音声認識部23は、形態素解析により、文字列を複数の単語に分類する。音声の文字列への変換、及び文字列の単語への分類に際して、音声認識部23は、複数の単語を最終的に決定する前に、複数の単語の各々について、少なくとも1つの候補単語(候補単語群)を生成する。音声認識部23は、複数の単語の各々について生成された候補単語群を、音声認識候補WVとして共通候補単語検出部25に送信する。すなわち、音声認識候補WVは、音声情報Vaに対する音声認識処理における中間生成物である。
 画像認識部24は、画像情報Iaに基づき、画像認識候補WIを生成する。具体的には、画像認識部24は、画像認識処理により、画像情報Ia内の画像を文字列に変換する。画像認識処理には、例えば、光学文字認識(OCR:Optical Character Recognition)等、種々の手法が適用され得る。また、画像認識部24は、形態素解析により、文字列を複数の単語に分類する。画像の文字列への変換、及び文字列の単語への分類に際して、画像認識部24は、複数の単語を最終的に決定する前に、複数の単語の各々について、少なくとも1つの候補単語(候補単語群)を生成する。画像認識部24は、複数の単語の各々について生成された候補単語群を、画像認識候補WIとして共通候補単語検出部25に送信する。すなわち、画像認識候補WIは、画像情報Iaに対する画像認識処理における中間生成物である。
 図4は、実施形態に係る音声情報及び音声認識候補、並びに画像情報及び画像認識候補の一例を示す図である。図4では、音声情報Vaが12個の期間“あ”、“い”、“う”、…によって構成され、かつ画像情報Iaが20個の領域“A”、“B”、“C”、…によって構成される場合が示される。
 図4に示すように、音声認識候補WVのうち、或る単語に関する候補単語群は、当該或る単語が発声された期間に関連づけられる。また、音声認識候補WVのうち、或る単語に関する候補単語群は、例えば、音声認識精度によって互いに順位づけられる。すなわち、音声認識候補WV内の或る候補単語群において、音声認識精度が高い候補単語は、音声認識精度が低い候補単語よりも、高い順位が割り当てられる。具体的には、図4の例では、或る期間において、音声認識部23は、4個の候補単語を含む候補単語群(相談、濃淡、登壇、砲弾)を生成する。4個の候補単語のうち、最も音声認識精度が高い候補単語“相談”に最も高い順位(1)が割り当てられる。続いて、音声認識精度が高い順に、候補単語“濃淡”、“登壇”、及び“砲弾”にそれぞれ順位(2)、(3)、及び(4)が割り当てられる。
 同様に、画像認識候補WIのうち、或る単語に関する候補単語群は、当該或る単語が表示された領域に関連づけられる。また、画像認識候補WIのうち、或る単語に関する候補単語群は、例えば、画像認識精度によって互いに順位づけられる。すなわち、画像認識候補WI内の或る候補単語群において、画像認識精度が高い候補単語は、画像認識精度が低い候補単語よりも、高い順位が割り当てられる。具体的には、図4の例では、或る領域において、画像認識部24は、4個の候補単語を含む候補単語群(相談、木目談、相言炎、木目言炎)を生成する。4個の候補単語のうち、最も画像認識精度が高い候補単語“相談”に最も高い順位(1)が割り当てられる。続いて、画像認識精度が高い順に、候補単語“木目談”、“相言炎”、及び“木目言炎”にそれぞれ順位(2)、(3)、及び(4)が割り当てられる。
 再び図3に戻って、情報処理装置100の機能構成について説明する。
 共通候補単語検出部25は、音声認識候補WV及び画像認識候補WIに基づき、共通候補単語WCを生成する。具体的には、共通候補単語検出部25は、音声認識候補WV及び画像認識候補WIのいずれにも含まれる少なくとも1つの候補単語を、共通候補単語WCとして検出する。共通候補単語検出部25は、共通候補単語WCを評価値算出部26に送信する。
 なお、音声認識候補WV及び画像認識候補WIは、時間に関して独立した情報である。このため、共通候補単語検出部25における共通候補単語WCの検出処理は、音声認識候補WV及び画像認識候補WIが同時に入力されることを要しない。
 評価値算出部26は、共通候補単語WCについて、音声認識候補WVとして関連づけられた順位及び画像認識候補WIとして関連づけられた順位に基づき、評価値EVを算出する。評価値算出部26は、評価値EVを判定部27に送信する。
 判定部27は、評価値EVに基づいて、共通候補単語WCが音声情報Va及び画像情報Iaのいずれにも含まれるか否かを判定する。判定部27は、判定の結果、音声情報Va及び画像情報Iaのいずれにも含まれると判定された共通候補単語WCを、共通単語Wとしてストレージ12に記憶させる。
 以上のように構成することにより、情報処理装置100は、音声情報Vaから認識された候補単語及び画像情報Iaから認識された候補単語から、音声情報Va及び画像情報Iaのいずれにも含まれる可能性が高い共通単語Wを抽出することができる。
 2. 実施形態の動作
 次に、実施形態に係る情報処理装置の動作について説明する。
 2.1 共通単語抽出動作の概要
 まず、実施形態に係る情報処理装置における共通単語抽出動作の概要について説明する。図5は、実施形態に係る情報処理装置における共通単語抽出動作の概要を示すフローチャートである。図5の例では、音声情報Va及び画像情報Iaは、共通の議題に関して端末200及び300の間で共有されたメディア情報である場合を想定する。
 図5に示すように、音声情報Va及び画像情報Iaを受信すると(開始)、音声認識部23は、音声情報Vaから、期間ごとに順位付けされた音声認識候補WVを生成する(S10)。
 画像認識部24は、画像情報Iaから、領域ごとに順位付けされた画像認識候補WIを生成する(S20)。
 共通候補単語検出部25は、S10の処理で生成された音声認識候補WV及びS20の処理で生成された画像認識候補WIから、少なくとも1つの期間及び少なくとも1つの領域に共通して関連づけられた候補単語を、共通候補単語WCとして検出する(S30)。
 評価値算出部26は、S30の処理で検出された共通候補単語WCについて、対応する期間及び領域の各々における順位に基づいて、評価値EVを算出する(S40)。すなわち、評価値算出部26は、共通候補単語WCについて、音声認識候補WVとして関連づけられた順位及び画像認識候補WIとして関連づけられた順位に基づいて、評価値EVを算出する。
 判定部27は、S40の処理で算出された評価値EVに基づいて、共通候補単語WCが共通単語Wであるか否かを判定する(S50)。S50の処理の結果、共通候補単語WCから共通単語Wが抽出され、ストレージ12に記憶される。
 S50の処理が終了すると、共通単語抽出動作は終了となる(終了)。
 なお、図5の例では、S10の処理の後にS20の処理が実行される場合について説明したが、これに限られない。例えば、S20の処理は、S10の処理の前に実行されてもよい。
 2.2 共通単語抽出動作の詳細
 次に、実施形態に係る情報処理装置における共通単語抽出動作の詳細について説明する。共通単語抽出動作のうち、特に図5におけるS30、S40、及びS50処理は、種々の手法が適用可能である。
 2.2.1 第1手法
 共通単語抽出動作の第1手法について説明する。第1手法は、網羅的な探索によって高精度に共通単語Wを抽出する手法である。
 (フローチャート)
 まず、第1手法のフローチャートについて説明する。
 図6は、実施形態に係る情報処理装置における共通単語抽出動作の第1手法を示すフローチャートである。図6では、図5に示される各種処理のうち、S30、S40、及びS50の処理の詳細が示される。より具体的には、図6に示されるS31A及びS32Aの処理は、図5に示されるS30の処理に対応する。図6に示されるS40Aの処理は、図5に示されるS40の処理に対応する。図6に示されるS51A及びS52Aの処理は、図5に示されるS50の処理に対応する。
 図6に示すように、音声認識候補WV及び画像認識候補WIが生成されると(開始)、共通候補単語検出部25は、少なくとも1つの期間及び少なくとも1つの領域の組合せ(以下、第1手法において、単に「組合せ」とも呼ぶ)を選択する(S31A)。すなわち、共通候補単語検出部25は、音声認識候補WVから少なくとも1つの候補単語群を選択し、かつ画像認識候補WIから少なくとも1つの候補単語群を選択する。
 共通候補単語検出部25は、S31Aの処理で選択された組合せにおいて、少なくとも1つの期間と少なくとも1つの領域とで共通する候補単語を、共通候補単語WCとして検出する(S32A)。
 評価値算出部26は、S32Aの処理で検出された共通候補単語WCについて、対応する期間及び領域の各々における順位に基づいて、評価値δを算出する(S40A)。評価値δは、例えば、0以上の整数である。評価値δは、値が大きいほど、共通候補単語WCが共通単語Wである可能性が高いことを示す。具体的には、例えば、評価値δには、共通候補単語WCの音声認識候補WVにおける順位が高いほど、大きな値が加算される。同様に、評価値δには、共通候補単語WCの画像認識候補WIにおける順位が高いほど、大きな値が加算される。より具体的には、順位(1)に対応づけられる場合、評価値δには“2”が加算され、順位(2)に対応づけられる場合、評価値δには“1”が加算される。順位(3)以降に対応づけられる場合、評価値δは加算されない。また、評価値δには、組合せ内において共通候補単語が存在する期間及び領域の総数に応じて、大きな値が加算される。より具体的には、1つの期間及び1つの領域について共通候補単語が存在するたびに、評価値δには“2”が加算される。
 判定部27は、音声認識候補WV及び画像認識候補WIについて、全ての組合せが選択されたか否かを判定する(S51A)。全ての組合せを選択済みでない場合(S51A;no)、判定部27は、選択されていない組合せについて、共通候補単語WCの検出及び評価値δの算出をすると判定する。つまり、共通候補単語検出部25及び評価値算出部26は、S51Aの処理において全ての組合せが選択済みと判定されるまで、S31A、S32A、及びS40Aの処理を繰り返す。
 全ての組合せを選択済みの場合(S51A;yes)、判定部27は、評価値δが最大となる組合せについて検出された共通候補単語WCが、共通単語Wであると判定する(S52A)。
 S52Aの処理が終了すると、共通単語抽出動作の第1手法は終了となる(終了)。
 (具体例)
 次に、第1手法の具体例について説明する。
 図7は、実施形態に係る情報処理装置における共通単語抽出動作の第1手法での音声認識候補及び画像認識候補の組合せ方を示す図である。
 図7の例では、音声情報Vaは、2つの期間“あ”及び“い”を有する。期間“あ”及び“い”にそれぞれ対応して、音声認識候補WV-1及びWV-2が生成される。音声認識候補WV-1は、順位(1)及び(2)にそれぞれ対応づけられた候補単語“相談”及び“濃淡”を候補単語群として含む。音声認識候補WV-2は、順位(1)及び(2)にそれぞれ対応づけられた候補単語“濃淡”及び“相談”を候補単語群として含む。
 画像情報Iaは、2つの領域“A”及び“B”を有する。領域“A”及び“B”にそれぞれ対応して、画像認識候補WI-1及びWI-2が生成される。画像認識候補WI-1は、順位(1)及び(2)にそれぞれ対応づけられた候補単語“相談”及び“木目談”を候補単語群として含む。画像認識候補WI-2は、順位(1)及び(2)にそれぞれ対応づけられた候補単語“濃淡”及び“シ農シ炎”を候補単語群として含む。
 図7に示すように、音声認識候補WV及び画像認識候補WIの全ての組合せは、領域数を行数M(=2)とし、かつ期間数を列数N(=2)とする行列Pとして表される。行列Pの要素Pijは、1つの期間と1つの領域との組合せを選択するか否かに対応する(1≦i≦M、1≦j≦N)。すなわち、行列Pの要素Pijが“1”の場合、画像認識候補WI-i及び音声認識候補WV-jの組は、選択される。行列Pの要素Pijが“0”の場合、画像認識候補WI-i及び音声認識候補WV-jの組は、選択されない。
 以上のような行列Pを定義することにより、少なくとも1つの期間及び少なくとも1つの領域を選択する任意の場合を、一意に指定することができる。
 図8は、実施形態に係る情報処理装置における共通単語抽出動作の第1手法での評価値の算出の仕方を示す図である。
 図8に示すように、図7に示した2×2の行列Pの場合、組合せは、15通り考えられる。ここで、共通候補単語WCの検出に際して、共通候補単語検出部25は、以下の制約条件を設け得る。
・1つの期間及び複数の領域の組から検出される共通候補単語WCは、互いに同一でなければならない。
・1つの領域及び複数の期間の組から検出される共通候補単語WCは、互いに同一でなければならない。
 これにより、1つの期間に対応する候補単語群から、複数の共通候補単語WCを検出することが禁止される。また、1つの領域に対応する候補単語群から、複数の共通候補単語WCを検出することが禁止される。
 上述の制約条件に照らすと、行列Pに関する15通りの組合せのうち、{P11,P12,P21,P22}={1,1,1,0}、{1,1,0,1}、{1,0,1,1}、{0,1,1,1}、{1,0,1,0}、{0,1,0,1}、及び{1,1,1,1}の7通りは、制約条件を満たさない。特に、{P11,P12,P21,P22}={1,1,1,0}、{1,1,0,1}、{1,0,1,1}、及び{0,1,1,1}の4通りは、各領域及び各期間に対して作成される候補単語に関わらず、起こり得ない対応付けである。このため、上述した7通りについては、評価値δの算出動作は実行されない。そして、残りの8通りについて、評価値δの算出動作が実行される。
 具体的には、{P11,P12,P21,P22}={1,0,0,0}の場合、領域“A”及び期間“あ”についてそれぞれ順位(1)及び(1)に対応づけられた候補単語“相談”が共通候補単語WCとして検出される。この場合、評価値δは、2+2+2=6となる。
 {P11,P12,P21,P22}={0,1,0,0}の場合、領域“A”及び期間“い”についてそれぞれ順位(1)及び(2)に対応づけられた候補単語“相談”が共通候補単語WCとして検出される。この場合、評価値δは、2+2+1=5となる。
 {P11,P12,P21,P22}={0,0,1,0}の場合、領域“B”及び期間“あ”についてそれぞれ順位(1)及び(2)に対応づけられた候補単語“濃淡”が共通候補単語WCとして検出される。この場合、評価値δは、2+2+1=5となる。
 {P11,P12,P21,P22}={0,0,0,1}の場合、領域“B”及び期間“い”についてそれぞれ順位(1)及び(1)に対応づけられた候補単語“濃淡”が共通候補単語WCとして検出される。この場合、評価値δは、2+2+2=6となる。
 {P11,P12,P21,P22}={1,1,0,0}の場合、領域“A”並びに期間“あ”及び“い”についてそれぞれ順位(1)並びに(1)及び(2)に対応づけられた候補単語“相談”が共通候補単語WCとして検出される。この場合、評価値δは、(2+2+2)+(2+2+1)=11となる。
 {P11,P12,P21,P22}={0,0,1,1}の場合、領域“B”並びに期間“あ”及び“い”についてそれぞれ順位(1)並びに(2)及び(1)に対応づけられた候補単語“濃淡”が共通候補単語WCとして検出される。この場合、評価値δは、(2+2+1)+(2+2+2)=11となる。
 {P11,P12,P21,P22}={1,0,0,1}の場合、領域“A”及び期間“あ”についてそれぞれ順位(1)及び(1)に対応づけられた候補単語“相談”が共通候補単語WCとして検出される。加えて、領域“B”及び期間“い”についてそれぞれ順位(1)及び(1)に対応づけられた候補単語“濃淡”が共通候補単語WCとして更に検出される。この場合、評価値δは、(2+2+2)+(2+2+2)=12となる。
 {P11,P12,P21,P22}={0,1,1,0}の場合、領域“A”及び期間“い”についてそれぞれ順位(1)及び(2)に対応づけられた候補単語“相談”が共通候補単語WCとして検出される。加えて、領域“B”及び期間“あ”についてそれぞれ順位(1)及び(2)に対応づけられた候補単語“濃淡”が共通候補単語WCとして更に検出される。この場合、評価値δは、(2+2+1)+(2+2+1)=10となる。
 判定部27は、評価値δの値が最大(=12)となる{P11,P12,P21,P22}={1,0,0,1}の組合せにおいて検出された共通候補単語WCが共通単語Wであると判定する。
 以上のような動作により、共通候補単語“相談”及び“濃淡”が、共通単語Wとして抽出される。
 なお、判定部27は、共通単語Wを抽出可能な評価値δの値に閾値を設けてもよい。例えば、判定部27は、評価値δの最大値が5以上の場合に、共通単語Wを抽出するように構成される。これにより、認識精度が極端に低い共通候補単語WCを共通単語Wとして抽出することを抑制できる。
 2.2.2 第2手法
 共通単語抽出動作の第2手法について説明する。第2手法は、探索の手順を限定することによって抽出の負荷を抑制しつつ、共通単語Wを抽出する手法である。
 (フローチャート)
 まず、第2手法のフローチャートについて説明する。
 図9は、実施形態に係る情報処理装置における共通単語抽出動作の第2手法を示すフローチャートである。図9では、図5に示される各種処理のうち、S30、S40、及びS50の処理の詳細が示される。より具体的には、図9に示されるS31B、S32B、S33B、及びS34Bの処理は、図5に示されるS30の処理に対応する。図9に示されるS40Bの処理は、図5に示されるS40の処理に対応する。図9に示されるS51B、S52B、S53B、及びS54Bの処理は、図5に示されるS50の処理に対応する。
 図9に示すように、音声認識候補WV及び画像認識候補WIが生成されると(開始)、共通候補単語検出部25は、1つの領域を選択する(S31B)。すなわち、共通候補単語検出部25は、画像認識候補WIから1つの候補単語群を選択する。
 共通候補単語検出部25は、S31Bの処理で選択された領域の候補単語と共通する候補単語を有する少なくとも1つの期間を更に選択する(S32B)。これにより、1つの期間及び少なくとも1つの領域の組合せ(以下、第2手法において、単に「組合せ」とも呼ぶ)が選択される。
 共通候補単語検出部25は、S31B及びS32Bの処理で選択された組合せに共通する候補単語を、共通候補単語WCとして検出する(S33B)。
 共通候補単語検出部25は、S31B及びS32Bの処理で選択された組合せにおいて、S33Bの処理で検出された共通候補単語WC以外の候補単語を削除する(S34B)。
 評価値算出部26は、S33Bの処理で検出された共通候補単語WCについて、対応する期間及び領域の各々における順位に基づいて、評価値εを算出する(S40B)。評価値εは、例えば、0以上の実数である。評価値εは、値が小さいほど、共通候補単語WCが共通単語Wである可能性が高いことを示す。具体的には、例えば、評価値εは、以下の式で算出される。
 ε=(共通候補単語WCに対応する期間及び領域の各々における順位の総和)/(共通候補単語WCに対応する期間の数)
 判定部27は、画像認識候補WIについて、全ての領域が選択されたか否かを判定する(S51B)。全ての領域を選択済みでない場合(S51B;no)、判定部27は、選択されていない領域について、共通候補単語WCの検出及び評価値εの算出をすると判定する。つまり、共通候補単語検出部25及び評価値算出部26は、S51Bの処理において全ての領域が選択済みと判定されるまで、S31B、S32B、S33B、S34B、及びS40Bの処理を繰り返す。
 全ての領域を選択済みの場合(S51B;yes)、判定部27は、同一の共通候補単語WCが複数回検出されたか否かを判定する(S52B)。
 同一の共通候補単語WCが複数回検出されていた場合(S52B;yes)、判定部27は、同一の共通候補単語WCのうち、評価値εが最小の場合を除く全ての共通候補単語WCを削除する(S53B)。
 同一の共通候補単語WCが複数回検出されていなかった場合(S52B;yes)、又はS53Bの処理が終了すると、判定部27は、検出された共通候補単語WCが共通単語Wであると判定する(S54B)。
 S54Bの処理が終了すると、共通単語抽出動作の第2手法は終了となる(終了)。
 (具体例)
 次に、第2手法の具体例について説明する。
 図10は、実施形態に係る情報処理装置における共通単語抽出動作の第2手法での音声認識候補及び画像認識候補を示す図である。図10の左部(A)には、画像認識候補WIが示される。図10の右部(B)には、音声認識候補WVが示される。
 図10の例では、音声情報Vaは、6つの領域を有する。当該6つの領域にそれぞれ対応して、画像認識候補WI-1、WI-2、WI-3、WI-4、WI-5、及びWI-6が生成される。画像認識候補WI-1は、順位(1)、(2)、及び(3)にそれぞれ対応づけられた候補単語“相談”、“木目談”、及び“木目言炎”を候補単語群として含む。画像認識候補WI-2は、順位(1)に対応づけられた候補単語“ペアリング”を候補単語群として含む。画像認識候補WI-3は、順位(1)に対応づけられた候補単語“技術”を候補単語群として含む。画像認識候補WI-4は、順位(1)、(2)、及び(3)にそれぞれ対応づけられた候補単語“矢口識”、“知識”、及び“矢口言音戈”を候補単語群として含む。画像認識候補WI-5は、順位(1)、(2)、及び(3)にそれぞれ対応づけられた候補単語“木目談”、“相談”、及び“木目言炎”を候補単語群として含む。画像認識候補WI-6は、順位(1)、(2)、及び(3)にそれぞれ対応づけられた候補単語“知識”、“矢暗戈”、及び“矢口識”を候補単語群として含む。
 音声情報Vaは、7つの期間を有する。当該7つの期間にそれぞれ対応して、音声認識候補WV-1、WV-2、WV-3、WV-4、WV-5、WV-6、及びWV-7が生成される。音声認識候補WV-1は、順位(1)及び(2)にそれぞれ対応づけられた候補単語“相談”及び“横断”を候補単語群として含む。音声認識候補WV-2は、順位(1)に対応づけられた候補単語“する際の”を候補単語群として含む。音声認識候補WV-3は、順位(1)及び(2)にそれぞれ対応づけられた候補単語“ペアリング”及び“ベアリング”を候補単語群として含む。音声認識候補WV-4は、順位(1)、(2)、及び(3)にそれぞれ対応づけられた候補単語“技術”、“奇術”、及び“既出”を候補単語群として含む。音声認識候補WV-5は、順位(1)及び(2)にそれぞれ対応づけられた候補単語“に関して”及び“に関する”を候補単語群として含む。音声認識候補WV-6は、順位(1)及び(2)にそれぞれ対応づけられた候補単語“意識”及び“知識”を候補単語群として含む。音声認識候補WV-7は、順位(1)、(2)、(3)、及び(4)にそれぞれ対応づけられた候補単語“相談”、“登壇”、“濃淡”、及び“砲弾”を候補単語群として含む。
 図11、図12、及び図13は、実施形態に係る情報処理装置における共通単語抽出動作の第2手法での評価値の算出の仕方を示す図である。
 図11は、1つ目の領域について評価値εが算出されるまでのS31B、S32B、S33B、S34B、及びS40Bの処理に対応する。図12は、S51Bの処理において全ての領域が選択されたと判定されるまでの処理に対応する。図13は、S54Bの処理において共通単語Wが判定されるまでの処理に対応する。図11、図12、及び図13の左上部(A)には、画像認識候補WIが示される。図11、図12、及び図13の右上部(B)には、音声認識候補WVが示される。図11、図12、及び図13の下部(C)には、評価値ε及び評価値εの算出に関わるパラメタが示される。
 まず、1つ目の領域に関する動作について、図11を用いて説明する。
 図11に示すように、共通候補単語検出部25は、1つ目の領域に対応する画像認識候補WI-1を選択する。共通候補単語検出部25は、音声認識候補WV内を探索することにより、画像認識候補WI-1内の候補単語“相談”と同一の候補単語を含む音声認識候補WV-1及びWV-7を更に選択する。共通候補単語検出部25は、画像認識候補WI-1を選択した場合の共通候補単語WCとして、候補単語“相談”を検出する。また、共通候補単語検出部25は、画像認識候補WI-1並びに音声認識候補WV-1及びWV-7から、共通候補単語“相談”以外の候補単語を削除する。候補単語“相談”は、画像認識候補WI-1並びに音声認識候補WV-1及びWV-7においてそれぞれ順位(1)並びに(1)及び(1)に対応づけられる。このため、評価値算出部26は、評価値ε=(1+1+1)/2=1.5を算出する。
 続いて、2つ目以降の領域に関する動作について、図12を用いて説明する。
 図12に示すように、2つ目以降の領域についても、1つ目の領域の場合と同様の動作が実行される。具体的には、共通候補単語検出部25は、2つ目の領域に対応する画像認識候補WI-2を選択する。共通候補単語検出部25は、音声認識候補WV内を探索することにより、画像認識候補WI-2内の候補単語“ペアリング”と同一の候補単語を含む音声認識候補WV-3を更に選択し、共通候補単語WCとして候補単語“ペアリング”を検出する。また、共通候補単語検出部25は、画像認識候補WI-2及び音声認識候補WV-3から、共通候補単語“ペアリング”以外の候補単語を削除する。候補単語“ペアリング”は、画像認識候補WI-2及び音声認識候補WV-3においてそれぞれ順位(1)及び(1)に対応づけられる。このため、評価値算出部26は、評価値ε=(1+1)/1=2を算出する。
 共通候補単語検出部25は、3つ目の領域に対応する画像認識候補WI-3を選択する。共通候補単語検出部25は、音声認識候補WV内を探索することにより、画像認識候補WI-3内の候補単語“技術”と同一の候補単語を含む音声認識候補WV-4を更に選択し、共通候補単語WCとして候補単語“技術”を検出する。また、共通候補単語検出部25は、画像認識候補WI-3及び音声認識候補WV-4から、共通候補単語“技術”以外の候補単語を削除する。候補単語“技術”は、画像認識候補WI-3及び音声認識候補WV-4においてそれぞれ順位(1)及び(1)に対応づけられる。このため、評価値算出部26は、評価値ε=(1+1)/1=2を算出する。
 共通候補単語検出部25は、4つ目の領域に対応する画像認識候補WI-4を選択する。共通候補単語検出部25は、音声認識候補WV内を探索することにより、画像認識候補WI-4内の候補単語“知識”と同一の候補単語を含む音声認識候補WV-6を更に選択し、共通候補単語WCとして候補単語“知識”を検出する。また、共通候補単語検出部25は、画像認識候補WI-4及び音声認識候補WV-6から、共通候補単語“知識”以外の候補単語を削除する。候補単語“知識”は、画像認識候補WI-4及び音声認識候補WV-6においてそれぞれ順位(2)及び(2)に対応づけられる。このため、評価値算出部26は、評価値ε=(2+2)/1=4を算出する。
 共通候補単語検出部25は、5つ目の領域に対応する画像認識候補WI-5を選択する。共通候補単語検出部25は、音声認識候補WV内を探索することにより、画像認識候補WI-5内の候補単語“相談”と同一の候補単語を含む音声認識候補WV-1及びWV-7を更に選択し、共通候補単語WCとして候補単語“相談”を検出する。また、共通候補単語検出部25は、画像認識候補WI-5並びに音声認識候補WV-1及びWV-7から、共通候補単語“相談”以外の候補単語を削除する。候補単語“相談”は、画像認識候補WI-5並びに音声認識候補WV-1及びWV-7においてそれぞれ順位(2)並びに(1)及び(1)に対応づけられる。このため、評価値算出部26は、評価値ε=(2+1+1)/2=2を算出する。
 共通候補単語検出部25は、6つ目の領域に対応する画像認識候補WI-6を選択する。共通候補単語検出部25は、音声認識候補WV内を探索することにより、画像認識候補WI-6内の候補単語“知識”と同一の候補単語を含む音声認識候補WV-6を更に選択し、共通候補単語WCとして候補単語“知識”を検出する。また、共通候補単語検出部25は、画像認識候補WI-6及び音声認識候補WV-6から、共通候補単語“知識”以外の候補単語を削除する。候補単語“知識”は、画像認識候補WI-6及び音声認識候補WV-6においてそれぞれ順位(1)及び(2)に対応づけられる。このため、評価値算出部26は、評価値ε=(1+2)/1=3を算出する。
 なお、全ての領域が選択された状態で、音声認識候補WV内に1度も選択されなかった候補単語群がある場合、共通候補単語検出部25は、当該候補単語群を削除してもよい。図12の例では、音声認識候補WV-2及びWV-5が削除される。
 続いて、共通単語Wを判定する動作について、図13を用いて説明する。
 図13に示すように、判定部27は、一連の検出動作によって、共通候補単語“相談”及び“知識”が複数回検出されたと判定する。そして、判定部27は、画像認識候補WI-1及びWI-5を比較することによって、評価値εが最小ではない画像認識候補WI-5における共通候補単語“相談”を削除する。同様に、判定部27は、画像認識候補WI-4及びWI-6を比較することによって、評価値εが最小ではない画像認識候補WI-4における共通候補単語“知識”を削除する。
 判定部27は、画像認識候補WI-1、WI-2、WI-3、及びWI-6を選択することによってそれぞれ検出された共通候補単語WCが共通単語Wであると判定する。
 以上のような動作により、共通候補単語“相談”、“ペアリング”、“技術”、及び“知識”が、共通単語Wとして抽出される。
 なお、判定部27は、共通単語Wを抽出可能な評価値εの値に閾値を設けてもよい。例えば、判定部27は、評価値εの最小値が3以下の場合に、共通単語Wを抽出するように構成される。これにより、認識精度が極端に低い共通候補単語WCを共通単語Wとして抽出することを抑制できる。
 3. 実施形態に係る効果
 実施形態によれば、音声認識部23は、第1単語を含む音声情報Vaから、第1単語に関して互いに異なる順位に関連づけられた音声認識候補WV-1を認識する。画像認識部24は、第2単語を含む画像情報Iaから、第2単語に関して互いに異なる順位に関連づけられた画像認識候補WI-1を認識する。共通候補単語検出部25は、音声認識候補WV-1及び画像認識候補WI-1の組を選択した場合、音声認識候補WV-1及び画像認識候補WI-1に共通して含まれる共通候補単語WC-1を検出する。評価値算出部26は、音声認識候補WV-1において共通候補単語WC-1に関連づけられた第1順位、及び画像認識候補WI-1において共通候補単語WC-1に関連づけられた第2順位に基づき、第1評価値を算出する。判定部27は、第1評価値に基づき、第1単語及び第2単語が共に共通候補単語WC-1と一致するか否かを判定する。これにより、共通単語Wの抽出に際して、音声認識処理の認識精度と、画像認識処理の認識精度と、のいずれをも考慮することができる。このため、共通単語Wを高い認識精度で抽出することができる。
 また、音声情報Vaは、第1単語とは異なる期間において第3単語を含む。音声認識部23は、第3単語に関して、互いに異なる順位に関連づけられた音声認識候補WV-2を認識する。共通候補単語検出部25は、音声認識候補WV-1及びWV-2、並びに画像認識候補WI-1の組を選択した場合、音声認識候補WV-1及びWV-2、並びに画像認識候補WI-1に共通して含まれる共通候補単語WC-2を検出する。評価値算出部26は、音声認識候補WV-1及びWV-2において共通候補単語WC-2にそれぞれ関連づけられた第3順位及び第4順位、並びに画像認識候補WI-1において共通候補単語WC-2に関連づけられた第5順位に基づき、第2評価値を算出する。判定部27は、第1評価値及び第2評価値に基づき、第1単語、第2単語、及び第3単語が共通候補単語WC-2と一致するか否かを判定する。これにより、1つの領域と複数の期間との組合せの場合を考慮することができる。このため、共通単語Wを高い認識精度で抽出することができる。
 また、画像情報Iaは、第2単語とは異なる領域において第4単語を含む。画像認識部24は、第4単語に関して、互いに異なる順位に関連づけられた画像認識候補WI-2を認識する。共通候補単語検出部25は、音声認識候補WV-1、並びに画像認識候補WI-1及びWI-2の組を選択した場合、音声認識候補WV-1、並びに画像認識候補WI-1及びWI-2に共通して含まれる共通候補単語WC-3を検出する。評価値算出部26は、音声認識候補WV-1において共通候補単語WC-3に関連づけられた第6順位、画像認識候補WI-1において共通候補単語WC-3に関連づけられた第7順位、及び画像認識候補WI-2において共通候補単語WC-3に関連づけられた第8順位に基づき、第3評価値を算出する。判定部27は、第1評価値及び第3評価値に基づき、第1単語、第2単語、及び第4単語が共通候補単語WC-3と一致するか否かを判定する。これにより、1つの期間と複数の領域との組合せの場合を考慮することができる。このため、共通単語Wを高い認識精度で抽出することができる。
 また、共通候補単語検出部25は、音声認識候補WV-1及び画像認識候補WI-1の組、及び音声認識候補WV-2及び画像認識候補WI-2の組を選択した場合、音声認識候補WV-1及び画像認識候補WI-1に共通して含まれる共通候補単語WC-4及び音声認識候補WV-2及び画像認識候補WI-2に共通して含まれる共通候補単語WC-5を検出する。評価値算出部26は、音声認識候補WV-1において共通候補単語WC-4に関連づけられた第9順位、及び画像認識候補WI-1において共通候補単語WC-4に関連づけられた第10順位に基づき、第4評価値を算出する。評価値算出部26は、音声認識候補WV-2において共通候補単語WC-5に関連づけられた第11順位、及び画像認識候補WI-2において共通候補単語WC-5に関連づけられた第12順位に基づき、第5評価値を算出する。評価値算出部26は、第4評価値及び第5評価値に基づき、第6評価値を算出する。判定部27は、第6評価値に基づき、第1単語及び第2単語が共通候補単語WC-4と一致し、かつ第3単語及び第4単語が共通候補単語WC-5と一致するか否かを判定する。これにより、互いに異なる複数の組を含む組合せの場合を考慮することができる。このため、共通単語Wを高い認識精度で抽出することができる。
 また、判定部27は、上述の第1乃至第5評価値が閾値に達するか否かに基づいて、各種判定動作を実行する。これにより、認識精度が極端に低い共通候補単語WCを共通単語Wとして抽出することを抑制できる。
 また、評価値算出部26は、上述の第1乃至第5評価値として、評価値δ又はεを適用することができる。これにより、音声情報Va及び画像情報Iaに含まれる単語の数や、要求される認識精度等の諸条件に応じて、適当な評価値を選択することができる。
 また、情報処理装置100は、音声認識候補WV及び画像認識候補WIを、時間に関して独立に使用する。これにより、音声情報Va及び画像情報Iaの同時入力を要することなく、単語の認識精度を向上させることができる。
 4. その他
 なお、上述した実施形態には、種々の変形が適用可能である。
 上述した実施形態の第2手法では、共通候補単語検出部25が、選択した1つの領域に対して、共通候補単語WCを含む少なくとも1つの期間を選択する場合について説明したが、これに限られない。例えば、共通候補単語検出部25は、選択した1つの期間に対して、共通候補単語WCを含む少なくとも1つの領域を選択してもよい。
 また、上述した実施形態では、補正動作を実行するプログラムが、情報処理システム1内の情報処理装置100で実行される場合について説明したが、これに限られない。例えば、補正動作を実行するプログラムは、クラウド上の計算リソースで実行されてもよい。
 なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
 1…情報処理システム
 11…制御回路
 12…ストレージ
 13…通信モジュール
 14…ドライブ
 15…記憶媒体
 21…音声受信部
 22…画像受信部
 23…音声認識部
 24…画像認識部
 25…共通候補単語検出部
 26…評価値算出部
 27…判定部
 100…情報処理装置
 200,300…端末
 

Claims (8)

  1.  複数の期間にそれぞれ対応づけられた複数の音声内単語を含む音声から、前記複数の音声内単語の各々に関して、互いに異なる順位に関連づけられた複数の音声内候補単語を認識する音声認識部と、
     複数の領域にそれぞれ対応づけられた複数の画像内単語を含む画像から、前記複数の画像内単語の各々に関して、互いに異なる順位に関連づけられた複数の画像内候補単語を認識する画像認識部と、
     複数の組合せを選択する選択部と、ここで、前記複数の組合せの各々は、前記複数の期間のうちの1つの期間及び前記複数の領域のうちの1つの領域の組を少なくとも1つ含む、
     前記複数の組合せの各々について、前記複数の音声内候補単語と前記複数の画像内候補単語とに共通して含まれる共通候補単語を検出する検出部と、
     前記複数の組合せの各々について、前記複数の音声内候補単語において前記共通候補単語に関連づけられた音声内順位、及び前記複数の画像内候補単語において前記共通候補単語に関連づけられた画像内順位に基づき、評価値を算出する算出部と、
     前記複数の組合せ毎の前記評価値に基づき、前記複数の組合せから、前記音声内単語及び前記画像内単語が共に前記共通候補単語と一致する組合せを判定する判定部と、
     を備えた、
     情報処理装置。
  2.  前記複数の組合せのうちの第1組合せが、第1期間及び第1領域の組を含む場合、前記第1組合せについて、
     前記検出部は、前記第1期間に対応する第1音声内単語に関する複数の第1音声内候補単語と、前記第1領域に対応する第1画像内単語に関する複数の第1画像内候補単語と、に共通して含まれる第1共通候補単語を検出し、
     前記算出部は、前記複数の第1音声内候補単語において前記第1共通候補単語に関連づけられた第1音声内順位、及び前記複数の第1画像内候補単語において前記第1共通候補単語に関連づけられた第1画像内順位に基づき、前記第1組合せに対応する第1評価値を算出する、
     請求項1記載の情報処理装置。
  3.  前記複数の組合せのうちの第2組合せが、第2期間及び第2領域の組、並びに第3期間及び前記第2領域の組を含む場合、前記第2組合せについて、
     前記検出部は、前記第2期間に対応する第2音声内単語に関する複数の第2音声内候補単語と、前記第3期間に対応する第3音声内単語に関する複数の第3音声内候補単語と、前記第2領域に対応する第2画像内単語に関する複数の第2画像内候補単語と、に共通して含まれる第2共通候補単語を検出し、
     前記算出部は、前記複数の第2音声内候補単語において前記第2共通候補単語に関連づけられた第2音声内順位、前記複数の第3音声内候補単語において前記第2共通候補単語に関連づけられた第3音声内順位、及び前記複数の第2画像内候補単語において前記第2共通候補単語に関連づけられた第2画像内順位に基づき、前記第2組合せに対応する第2評価値を算出する、
     請求項1記載の情報処理装置。
  4.  前記複数の組合せのうちの第3組合せが、第4期間及び第3領域の組、並びに前記第4期間及び第4領域の組を含む場合、前記第3組合せについて、
     前記検出部は、前記第4期間に対応する第4音声内単語に関する複数の第4音声内候補単語と、前記第3領域に対応する第3画像内単語に関する複数の第3画像内候補単語と、前記第4領域に対応する第4画像内単語に関する複数の第4画像内候補単語と、に共通して含まれる第3共通候補単語を検出し、
     前記算出部は、前記複数の第4音声内候補単語において前記第3共通候補単語に関連づけられた第4音声内順位、前記複数の第3画像内候補単語において前記第3共通候補単語に関連づけられた第3画像内順位、及び前記複数の第4画像内候補単語において前記第3共通候補単語に関連づけられた第4画像内順位に基づき、前記第3組合せに対応する第3評価値を算出する、
     請求項1記載の情報処理装置。
  5.  前記複数の組合せのうちの第4組合せが、第5期間及び第5領域の組、並びに第6期間及び第6領域の組を含む場合、前記第4組合せについて、
     前記検出部は、
      前記第5期間に対応する第5音声内単語に関する複数の第5音声内候補単語と、前記第5領域に対応する第5画像内単語に関する複数の第5画像内候補単語と、に共通して含まれる第4共通候補単語を検出し、
      前記第6期間に対応する第6音声内単語に関する複数の第6音声内候補単語と、前記第6領域に対応する第6画像内単語に関する複数の第6画像内候補単語と、に共通して含まれる第5共通候補単語を検出し、
     前記算出部は、
      前記複数の第5音声内候補単語において前記第4共通候補単語に関連づけられた第5音声内順位、及び前記複数の第5画像内候補単語において前記第4共通候補単語に関連づけられた第5画像内順位に基づき、第4評価値を算出し、
      前記複数の第6音声内候補単語において前記第5共通候補単語に関連づけられた第6音声内順位、及び前記複数の第6画像内候補単語において前記第5共通候補単語に関連づけられた第6画像内順位に基づき、第5評価値を算出し、
      前記第4評価値及び前記第5評価値に基づいて前記第4組合せに対応する第6評価値を算出する、
     請求項1記載の情報処理装置。
  6.  前記判定部は、前記評価値が閾値に達するか否かに基づいて、前記組合せを判定する、
     請求項1記載の情報処理装置。
  7.  情報処理装置によって実行される情報処理方法であって、
     複数の期間にそれぞれ対応づけられた複数の音声内単語を含む音声から、前記複数の音声内単語の各々に関して、互いに異なる順位に関連づけられた複数の音声内候補単語を認識することと、
     複数の領域にそれぞれ対応づけられた複数の画像内単語を含む画像から、前記複数の画像内単語の各々に関して、互いに異なる順位に関連づけられた複数の画像内候補単語を認識することと、
     複数の組合せを選択することと、ここで、前記複数の組合せの各々は、前記複数の期間のうちの1つの期間及び前記複数の領域のうちの1つの領域の組を少なくとも1つ含む、
     前記複数の組合せの各々について、前記複数の音声内候補単語と前記複数の画像内候補単語とに共通して含まれる共通候補単語を検出することと、
     前記複数の組合せの各々について、前記複数の音声内候補単語において前記共通候補単語に関連づけられた音声内順位、及び前記複数の画像内候補単語において前記共通候補単語に関連づけられた画像内順位に基づき、評価値を算出することと、
     前記複数の組合せ毎の前記評価値に基づき、前記複数の組合せから、前記音声内単語及び前記画像内単語が共に前記共通候補単語と一致する組合せを判定することと、
     を備えた、
     情報処理方法。
  8.  コンピュータを、請求項1乃至請求項6のいずれか1項に記載の情報処理装置が備える各部として機能させるためのプログラム。
PCT/JP2021/030174 2021-06-07 2021-08-18 情報処理装置、情報処理方法、及びプログラム WO2022259564A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023526844A JPWO2022259564A1 (ja) 2021-06-07 2021-08-18

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPPCT/JP2021/021551 2021-06-07
PCT/JP2021/021551 WO2022259304A1 (ja) 2021-06-07 2021-06-07 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2022259564A1 true WO2022259564A1 (ja) 2022-12-15

Family

ID=84424492

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2021/021551 WO2022259304A1 (ja) 2021-06-07 2021-06-07 情報処理装置、情報処理方法、及びプログラム
PCT/JP2021/030174 WO2022259564A1 (ja) 2021-06-07 2021-08-18 情報処理装置、情報処理方法、及びプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/021551 WO2022259304A1 (ja) 2021-06-07 2021-06-07 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
JP (1) JPWO2022259564A1 (ja)
WO (2) WO2022259304A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181481A (ja) * 1998-10-09 2000-06-30 Sony Corp 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
JP2005150841A (ja) * 2003-11-11 2005-06-09 Canon Inc 情報処理方法及び情報処理装置
JP2006126342A (ja) * 2004-10-27 2006-05-18 Honda Motor Co Ltd 音声認識システム、この音声認識システムを備える移動体及び車両

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002115956A (ja) * 2000-10-11 2002-04-19 Matsushita Electric Ind Co Ltd 在庫管理冷蔵庫

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181481A (ja) * 1998-10-09 2000-06-30 Sony Corp 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
JP2005150841A (ja) * 2003-11-11 2005-06-09 Canon Inc 情報処理方法及び情報処理装置
JP2006126342A (ja) * 2004-10-27 2006-05-18 Honda Motor Co Ltd 音声認識システム、この音声認識システムを備える移動体及び車両

Also Published As

Publication number Publication date
JPWO2022259564A1 (ja) 2022-12-15
WO2022259304A1 (ja) 2022-12-15

Similar Documents

Publication Publication Date Title
JP6629678B2 (ja) 機械学習装置
US9412077B2 (en) Method and apparatus for classification
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP2018045559A (ja) 情報処理装置、情報処理方法およびプログラム
US8812503B2 (en) Information processing device, method and program
CN111145733B (zh) 语音识别方法、装置、计算机设备和计算机可读存储介质
JP2009539181A (ja) 手書き文字認識改善用コンバイナ
JP2010044637A (ja) データ処理装置、方法、及びプログラム
WO2014118978A1 (ja) 学習方法、情報処理装置および学習プログラム
US20180005087A1 (en) Pattern recognition device, pattern recognition method, and computer program product
WO2022259564A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2007132564A1 (ja) データ処理装置及び方法
JP2005222445A (ja) データマイニングにおける情報処理方法及び解析装置
CN115035890A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
US7933853B2 (en) Computer-readable recording medium, apparatus and method for calculating scale-parameter
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
JP6927905B2 (ja) 決定装置、決定方法、決定プログラム及びプログラム
JP2007199876A (ja) 質問応答システム、質問応答処理方法及び質問応答プログラム
JP5458640B2 (ja) 規則処理方法及び装置
WO2019171538A1 (ja) 意味推定システム、方法およびプログラム
WO2019171537A1 (ja) 意味推定システム、方法およびプログラム
JP5888222B2 (ja) 情報処理装置及び情報処理プログラム
WO2020202324A1 (ja) 文書解析装置、文書解析方法、及びコンピュータ読み取り可能な記録媒体
JP7485057B2 (ja) 相関索引構築装置、相関テーブル探索装置、方法およびプログラム
US20230290168A1 (en) Selecting files for intensive text extraction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21945233

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023526844

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE