JPWO2008126355A1 - Keyword extractor - Google Patents

Keyword extractor Download PDF

Info

Publication number
JPWO2008126355A1
JPWO2008126355A1 JP2009508884A JP2009508884A JPWO2008126355A1 JP WO2008126355 A1 JPWO2008126355 A1 JP WO2008126355A1 JP 2009508884 A JP2009508884 A JP 2009508884A JP 2009508884 A JP2009508884 A JP 2009508884A JP WO2008126355 A1 JPWO2008126355 A1 JP WO2008126355A1
Authority
JP
Japan
Prior art keywords
utterance
keyword
voice
unit
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009508884A
Other languages
Japanese (ja)
Other versions
JP4838351B2 (en
Inventor
遠藤 充
充 遠藤
麻紀 山田
麻紀 山田
森井 景子
景子 森井
小沼 知浩
知浩 小沼
野村 和也
和也 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2009508884A priority Critical patent/JP4838351B2/en
Publication of JPWO2008126355A1 publication Critical patent/JPWO2008126355A1/en
Application granted granted Critical
Publication of JP4838351B2 publication Critical patent/JP4838351B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

本発明は、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することを目的とする。本発明のキーワード抽出装置は、発話者の発話音声を入力する音声入力部101と、上記入力された発話音声について、発話者ごとの発話区間を判定する発話区間判定部102と、上記判定された発話区間の発話音声を発話者ごとに認識する音声認識部103と、各発話者の発話音声に対する他の発話者の応答に基づいて、キーワードの存在を示唆する発話応答の特徴、すなわち先行発話と後行発話とが重なる割り込みを検出する割込検出部104と、上記割り込みに基づいて特定した発話区間の発話からキーワードを抽出するキーワード抽出部105と、当該キーワードによるキーワード検索を行うキーワード検索部106と、キーワード検索結果を表示する表示部107とを含む。An object of the present invention is to extract keywords in a conversation without predicting and preparing the keywords in the conversation in advance. The keyword extraction device of the present invention includes a voice input unit 101 that inputs a utterance voice of a utterer, an utterance section determination unit 102 that determines a utterance section for each utterer with respect to the input utterance voice, and the above determination. Based on the speech recognition unit 103 that recognizes the utterance speech of the utterance section for each utterer, and the feature of the utterance response that suggests the presence of the keyword based on the response of the other utterers to the utterance speech of each utterer, An interrupt detection unit 104 that detects an interrupt that overlaps a subsequent utterance, a keyword extraction unit 105 that extracts a keyword from an utterance in an utterance section specified based on the interrupt, and a keyword search unit 106 that performs a keyword search using the keyword And a display unit 107 that displays the keyword search result.

Description

本発明は、キーワード抽出装置に係り、特に会話内に含まれるキーワードを抽出するキーワード抽出装置に関するものである。   The present invention relates to a keyword extraction device, and more particularly to a keyword extraction device that extracts keywords included in a conversation.

従来のキーワード抽出装置は、あらかじめ、電子レンジ等のキーワードとURLへのアクセス等のアクション情報との対応関係を示した対応データを保持している。そして、キーワード抽出装置は、上記対応データに基づいて、ある会話の中からキーワードを検出し、そのキーワードに対応するアクション情報に基づく処理を実行する。このようにして、音声認識による情報の提示が行われていた(例えば、特許文献1)。   A conventional keyword extracting device holds correspondence data indicating a correspondence relationship between a keyword such as a microwave oven and action information such as access to a URL in advance. Then, the keyword extraction device detects a keyword from a certain conversation based on the correspondence data, and executes processing based on action information corresponding to the keyword. In this way, information is presented by voice recognition (for example, Patent Document 1).

特開2005−215726号公報(段落0021〜段落0036、図2〜図3参照)JP 2005-215726 A (see paragraphs 0021 to 0036 and FIGS. 2 to 3)

しかしながら、特許文献1に記載の装置においては、想定される場面別に上記対応データを準備しなければならないため、利用しにくいという問題があった。
本発明は、上記の状況に対処するためになされたものであり、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することができるキーワード抽出装置を提供することを目的とする。
However, the apparatus described in Patent Document 1 has a problem that it is difficult to use the correspondence data because the corresponding data must be prepared for each possible scene.
The present invention has been made to cope with the above-described situation, and provides a keyword extraction device that can extract a keyword in a conversation without predicting and preparing the keyword in the conversation in advance. With the goal.

上記従来の課題を解決するために、本発明は、発話者の発話音声を入力する音声入力部と、上記入力された発話音声について、上記発話者ごとの発話区間を判定する発話区間判定部と、上記判定された発話区間の発話音声を上記発話者ごとに認識する音声認識部と、上記各発話者の発話音声に対する他の発話者の応答に基づいて、キーワードの存在を示唆する発話応答の特徴を抽出する発話応答特徴抽出部と、上記抽出された発話応答の特徴に基づいて特定した発話区間の発話音声から前記キーワードを抽出するキーワード抽出部と、を含む。   In order to solve the above-described conventional problems, the present invention includes a voice input unit that inputs a utterance voice of a speaker, a utterance section determination unit that determines a utterance section for each utterer with respect to the input utterance voice, and A speech recognition unit that recognizes the speech of the determined speech section for each speaker, and a speech response that suggests the presence of a keyword based on the responses of other speakers to the speech of each speaker An utterance response feature extraction unit that extracts features, and a keyword extraction unit that extracts the keywords from the utterance speech of the utterance section specified based on the extracted utterance response features.

本発明によれば、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することができる。   According to the present invention, it is possible to extract a keyword in a conversation without predicting and preparing the keyword in the conversation in advance.

本発明の実施の形態1におけるキーワード抽出装置を含むシステム全体の構成例を示すブロック図。1 is a block diagram showing a configuration example of an entire system including a keyword extraction device in Embodiment 1 of the present invention. 本発明の実施の形態1における発話区間の例を示す図。The figure which shows the example of the speech area in Embodiment 1 of this invention. 図1のキーワード抽出装置の動作を示すフローチャート。The flowchart which shows operation | movement of the keyword extraction apparatus of FIG. 本発明の実施の形態2におけるキーワード抽出装置の構成例を示すブロック図。The block diagram which shows the structural example of the keyword extraction apparatus in Embodiment 2 of this invention. 本発明の実施の形態2におけるピッチパターンの例を示す図。The figure which shows the example of the pitch pattern in Embodiment 2 of this invention. 図4のキーワード抽出装置の動作を示すフローチャート。5 is a flowchart showing the operation of the keyword extraction device in FIG. 4. 本発明の実施の形態3におけるキーワード抽出装置の構成例を示すブロック図。The block diagram which shows the structural example of the keyword extraction apparatus in Embodiment 3 of this invention. 図7のキーワード抽出装置の動作を示すフローチャート。The flowchart which shows operation | movement of the keyword extraction apparatus of FIG. 本発明の実施の形態4におけるキーワード抽出装置の構成例を示すブロック図。The block diagram which shows the structural example of the keyword extraction apparatus in Embodiment 4 of this invention. 本発明の実施の形態4における発話区間、発話内容および表情認識結果の例を示す図。The figure which shows the example of the speech area in the Embodiment 4 of this invention, speech content, and a facial expression recognition result. 図9のキーワード抽出装置の動作を示すフローチャート。10 is a flowchart showing the operation of the keyword extraction device of FIG. 本発明の実施の形態5におけるキーワード抽出装置の構成例を示すブロック図。The block diagram which shows the structural example of the keyword extraction apparatus in Embodiment 5 of this invention. 図12のキーワード抽出装置の動作を示すフローチャート。The flowchart which shows operation | movement of the keyword extraction apparatus of FIG.

符号の説明Explanation of symbols

100、100A、100B、100C、100D キーワード抽出装置
101 音声入力部
102 発話区間判定部
103 音声認識部
104 割込検出部
105、105A、105B、105C、105D キーワード抽出部
106 キーワード検索部
107 表示部
201 ピッチ判定部
202 ピッチパターン判定部
301 機能フレーズ抽出部
302 機能フレーズ記憶部
401 映像入力部
402 表情認識部
501 盛り上がり反応検出部
100, 100A, 100B, 100C, 100D Keyword extraction device 101 Voice input unit 102 Speech segment determination unit 103 Speech recognition unit 104 Interrupt detection unit 105, 105A, 105B, 105C, 105D Keyword extraction unit 106 Keyword search unit 107 Display unit 201 Pitch determination unit 202 Pitch pattern determination unit 301 Function phrase extraction unit 302 Function phrase storage unit 401 Video input unit 402 Expression recognition unit 501 Swell reaction detection unit

以下、本発明の実施の形態1〜5について図面を参照しながら説明する。実施の形態1〜5は、例えば、2人の発話者A、Bが、携帯電話等の情報端末を用いて会話している場面を想定して説明する。
(実施の形態1)
図1は、本発明の実施の形態1におけるキーワード抽出装置を含むシステム全体の構成例を示すブロック図である。
図1において、キーワード抽出装置100は、ある発話者Aの情報端末であり、インターネット等のネットワーク400へ接続できるように構成されている。ネットワーク400には、別の発話者Bの情報端末200や検索サーバ300が接続されるように構成されている。キーワード抽出装置100および情報端末200は、携帯電話、ノート型パソコン、携帯情報端末等の情報端末である。検索サーバ300は、公知の検索エンジンを搭載したサーバである。
Embodiments 1 to 5 of the present invention will be described below with reference to the drawings. In the first to fifth embodiments, for example, a case where two speakers A and B are talking using an information terminal such as a mobile phone will be described.
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration example of the entire system including a keyword extracting device according to Embodiment 1 of the present invention.
In FIG. 1, a keyword extraction device 100 is an information terminal of a certain speaker A, and is configured to be connected to a network 400 such as the Internet. The network 400 is configured to be connected to the information terminal 200 and the search server 300 of another speaker B. The keyword extraction device 100 and the information terminal 200 are information terminals such as a mobile phone, a notebook personal computer, and a mobile information terminal. The search server 300 is a server equipped with a known search engine.

キーワード抽出装置100は、音声入力部101、発話区間判定部102、音声認識部103、割込検出部104、キーワード抽出部105、キーワード検索部106および表示部107を有する。
音声入力部101は、発話者の音声(以下、発話音声という)を入力するためのものである。音声入力部101は、例えば、マイクロフォン、ネットワーク400との通信インターフェース等が該当する。
The keyword extraction device 100 includes a voice input unit 101, a speech segment determination unit 102, a voice recognition unit 103, an interrupt detection unit 104, a keyword extraction unit 105, a keyword search unit 106, and a display unit 107.
The voice input unit 101 is for inputting a voice of a speaker (hereinafter referred to as “speech voice”). The voice input unit 101 corresponds to, for example, a microphone, a communication interface with the network 400, or the like.

発話区間判定部102は、上記入力された発話音声について、発話者ごとの発話区間を判定する。発話区間とは、発話者が会話を開始し初めてから終了するまでの区間をいう。
例えば、発話者Aと発話者Bの会話が、図2(a)または図2(b)に示すような場合、発話区間判定部102は、発話者Aの会話の開始時間ts1から終了時間te1までの区間、すなわちts1−te1を発話者Aの発話区間1として判定する。さらに、発話区間判定部102は、発話者Bの会話の開始時間ts2から終了時間te2までの区間、すなわちts2−te2の区間を発話者Bの発話区間2として判定する。
The utterance section determination unit 102 determines an utterance section for each speaker with respect to the input utterance voice. The utterance section refers to a section from the beginning to the end of the conversation by the speaker.
For example, when the conversation between the speaker A and the speaker B is as shown in FIG. 2 (a) or FIG. 2 (b), the speech segment determination unit 102 determines the end time te1 from the conversation start time ts1 of the speaker A. The section up to that time, that is, ts1-te1 is determined as the utterance section 1 of the speaker A. Furthermore, the utterance section determination unit 102 determines the section from the start time ts2 to the end time te2 of the conversation of the speaker B, that is, the section of ts2-te2 as the speech section 2 of the speaker B.

図1に戻って、音声認識部103は、上記判定された発話区間の発話音声を発話者ごとに認識する。具体的には、音声認識部103は、すべての発話者の会話音声について、公知の音声認識技術によりテキスト文字化する。さらに、音声認識部103は、個々の発話者の会話音声について、その開始時間(開始点)および終了時間(終了点)を対応づける。   Returning to FIG. 1, the voice recognition unit 103 recognizes the uttered voice of the determined utterance section for each speaker. More specifically, the voice recognition unit 103 converts the conversation voices of all the speakers into text characters using a known voice recognition technique. Furthermore, the voice recognition unit 103 associates the start time (start point) and the end time (end point) of the conversation voice of each speaker.

割込検出部104(発話応答特徴抽出部)は、上記判定された発話区間について、各発話者の発話音声に基づいて発話の特徴、すなわち先行発話と後行発話とが重なる割り込みを検出する。例えば、発話者Aと発話者Bの会話が、図2(b)に示した会話の場合、割込検出部104は、発話者Aの先行発話の途中、すなわちts1で発話者Bの後行発話が開始されているので、上記割り込みを検出する。この検出方法は次のとおりである。
すなわち、割込検出部104は、まず、後行発話の開始時間からその直前の先行発話の終了時間までの区間(以下、発話間隔という)を計測する。例えば、図2(a)(b)の場合、割込検出部104は、発話間隔=図2(a)(b)のts2−te1の算出式を用いて、発話間隔を計算する。次に、割込検出部104は、上記計算の結果、発話間隔がマイナスの値(図2(b)参照)になるかどうかを判断する。そして、割込検出部104は、当該発話間隔がマイナスの値の場合(図2(b)参照)、割り込みがあるものとして検出することとなる。
The interrupt detection unit 104 (speech response feature extraction unit) detects an interrupt in which the utterance feature, that is, the preceding utterance and the subsequent utterance overlap, based on the utterance voice of each utterer for the determined utterance period. For example, when the conversation between the speaker A and the speaker B is the conversation shown in FIG. 2B, the interrupt detection unit 104 follows the speaker B in the middle of the preceding speech of the speaker A, that is, at ts1. Since the utterance has been started, the interrupt is detected. This detection method is as follows.
That is, the interrupt detection unit 104 first measures a section (hereinafter referred to as an utterance interval) from the start time of the subsequent utterance to the end time of the immediately preceding utterance. For example, in the case of FIGS. 2A and 2B, the interrupt detection unit 104 calculates the speech interval using the calculation formula of utterance interval = ts2-te1 in FIGS. 2A and 2B. Next, the interrupt detection unit 104 determines whether the utterance interval becomes a negative value (see FIG. 2B) as a result of the above calculation. When the speech interval is a negative value (see FIG. 2B), the interrupt detection unit 104 detects that there is an interrupt.

キーワード抽出部105は、上記抽出された発話の特徴、すなわち先行発話と後行発話とが重なる割り込みに基づいて、音声認識部102で認識された発話音声の中から、その発話音声の会話内で話題になっている語(以下、キーワードという)を抽出する。具体的には、キーワード抽出部105は、音声認識部102から、音声認識部102で認識された会話音声を取得する。この会話音声には、各発話者の開始時間および終了時間が対応付けられている。また、キーワード抽出部105は、割込検出部104から、割込検出部104で割り込みが検出された発話区間(例えば、図2(b)の発話者Bの発話区間2)と、割り込まれた発話区間(例えば、図2の発話者Aの発話区間1)とを取得する。これら各発話区間は、開始時間および終了時間により対応づけられている。   Based on the extracted utterance feature, that is, the interruption in which the preceding utterance and the succeeding utterance overlap, the keyword extraction unit 105 selects the utterance voice recognized by the voice recognition unit 102 within the conversation of the utterance voice. Extract a topic word (hereinafter referred to as a keyword). Specifically, the keyword extraction unit 105 acquires the conversation voice recognized by the voice recognition unit 102 from the voice recognition unit 102. This conversation voice is associated with the start time and end time of each speaker. In addition, the keyword extraction unit 105 is interrupted by the interrupt detection unit 104 and the utterance interval (for example, the utterance interval 2 of the speaker B in FIG. 2B) in which the interruption is detected by the interrupt detection unit 104. The utterance section (for example, the utterance section 1 of the speaker A in FIG. 2) is acquired. Each of these utterance sections is associated with a start time and an end time.

さらに、キーワード抽出部105は、上記キーワードを抽出する場合、例えば、割り込まれた先行発話内の末尾(最後)の構成素(例えば名詞)をキーワードとして抽出する。ここで、先行発話内の末尾とは、割り込み時(例えば、図2(b)のts2の時間)よりも前の発話区間(例えば、図2(b)のts1−ts2)内をいう。
具体的には、まず、キーワード抽出部105は、上記取得した各発話者の発話区間(例えば、図2(b)の発話区間1、2)のうち、開始時間の早い発話者の発話区間(例えば、図2(b)の発話区間1)を選定する。次に、キーワード抽出部105は、上記選定した発話区間(例えば、図2(b)の発話区間1)において、上記取得した他の発話区間の開始時間(つまり割り込み時間、例えば図2(b)のts2)の直前の構成素(例えば名詞)を検出する。次に、キーワード抽出部105は、上記検出した構成素(例えば名詞)をキーワードとして抽出する。
Furthermore, when extracting the said keyword, the keyword extraction part 105 extracts the last component (for example, noun) in the preceding utterance interrupted as a keyword, for example. Here, the end in the preceding utterance refers to the inside of the utterance section (for example, ts1-ts2 in FIG. 2B) before the interruption (for example, the time of ts2 in FIG. 2B).
Specifically, first, the keyword extracting unit 105 selects the utterance section (for example, the utterance section of the utterer with the earlier start time from the utterance sections of the respective utterers (for example, the utterance sections 1 and 2 in FIG. 2B). For example, the utterance section 1) in FIG. 2 (b) is selected. Next, in the selected utterance section (for example, utterance section 1 in FIG. 2B), the keyword extraction unit 105 starts the other acquired utterance section (that is, interrupt time, for example, FIG. 2B). The component (for example, noun) immediately before ts2) is detected. Next, the keyword extraction unit 105 extracts the detected constituents (for example, nouns) as keywords.

キーワード検索部106は、上記抽出されたキーワードを用いて、キーワード検索を行う。具体的には、まず、キーワード検索部106は、ネットワーク400を介して、検索サーバ300へ接続する。すると、検索サーバ300は、キーワード検索部106から、上記キーワード検索の要求を受け、そのキーワード検索の検索結果を、ネットワーク400を介して、キーワード抽出装置100のキーワード検索部106に返送する。キーワード検索部106は、上記返送により、検索サーバ300から、キーワード検索の検索結果を受信する。   The keyword search unit 106 performs a keyword search using the extracted keyword. Specifically, first, the keyword search unit 106 connects to the search server 300 via the network 400. Then, the search server 300 receives the keyword search request from the keyword search unit 106, and returns the search result of the keyword search to the keyword search unit 106 of the keyword extracting device 100 via the network 400. The keyword search unit 106 receives the search result of the keyword search from the search server 300 by the return.

表示部107は、キーワード検索部106により検索された結果、すなわち検索サーバ300の検索結果を表示する。表示部107は、ディスプレイや表示パネル等の表示装置である。   The display unit 107 displays the search result by the keyword search unit 106, that is, the search result of the search server 300. The display unit 107 is a display device such as a display or a display panel.

なお、本実施の形態において、発話区間判定部102、音声認識部103、割込検出部104、キーワード抽出部105およびキーワード検索部106は、CPU等の処理装置が該当する。その他、キーワード抽出装置100は、メモリ等の記憶装置(不図示)を含む公知の構成を備えているものとする。   In the present embodiment, the speech segment determination unit 102, the speech recognition unit 103, the interrupt detection unit 104, the keyword extraction unit 105, and the keyword search unit 106 correspond to a processing device such as a CPU. In addition, the keyword extraction device 100 is assumed to have a known configuration including a storage device (not shown) such as a memory.

次に、キーワード抽出装置100の動作について図3を参照して説明する。図3では、例えば、2人の発話者A、Bが、キーワード抽出装置100や情報端末200を用いて会話していることを前提にして説明する。
まず、キーワード抽出装置100(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間を判定する(ステップS101)。この判定の際、発話区間判定部102は、各発話者の発話音声の大きさがしきい値以上であるかどうかを判断し、しきい値以上である区間を発話区間として判定する。
例えば、発話者Aと発話者Bの会話が、図2(a)または図2(b)に示すような場合、発話区間判定部102は、発話者Aの会話の開始時間ts1から終了時間te1までの区間、すなわちts1−te2を発話者Aの発話区間1として判定する。さらに、発話区間判定部103は、発話者Bの会話の開始時間ts2から終了時間te2までの区間、ts2−te2の区間を発話者Bの発話区間2として判定する。
Next, the operation of the keyword extracting device 100 will be described with reference to FIG. In FIG. 3, for example, it is assumed that two speakers A and B are having a conversation using the keyword extraction device 100 and the information terminal 200.
First, the keyword extraction device 100 (the utterance section determination unit 102) determines an utterance section for each speaker with respect to the utterance voices input from the voice input unit 100 and the information terminal 200 (step S101). At the time of this determination, the utterance section determination unit 102 determines whether or not the volume of the uttered voice of each speaker is equal to or greater than a threshold value, and determines a section that is equal to or greater than the threshold value as the utterance section.
For example, when the conversation between the speaker A and the speaker B is as shown in FIG. 2 (a) or FIG. 2 (b), the speech segment determination unit 102 determines the end time te1 from the conversation start time ts1 of the speaker A. The section up to that time, that is, ts1-te2 is determined as the utterance section 1 of the speaker A. Further, the utterance section determination unit 103 determines the section from the start time ts2 to the end time te2 of the conversation of the speaker B, and the section ts2-te2 as the speech section 2 of the speaker B.

次に、キーワード抽出装置100(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。この認識は、例えば、周波数帯域による特徴分析により行われるものとする。さらに、音声認識部103は、上記認識を行う際に、すべての発話者の会話音声について、公知の音声認識技術によりテキスト文字化する。   Next, the keyword extraction device 100 (voice recognition unit 103) recognizes the utterance voice of the determined utterance section for each speaker (step S102). This recognition shall be performed by the feature analysis by a frequency band, for example. Furthermore, when performing the above recognition, the speech recognition unit 103 converts the conversation speech of all the speakers into text characters using a known speech recognition technique.

次に、キーワード抽出装置100(割込検出部104)は、上記判定された発話区間により割り込みを検出する(ステップS103)。具体的には、割込検出部104は、後行発話の開始時間からその直前の先行発話の終了時間を差し引いた間隔、すなわち発話間隔(例えば、図2(a)(b)のte1−ts2)を計算する。そして、この計算の結果、発話間隔の値(例えば、図2(b)のte1−ts2=発話間隔)がマイナスであれば、割込検出部104は、後行発話の割り込みがあったと判断する。   Next, the keyword extraction device 100 (interrupt detection unit 104) detects an interrupt based on the determined speech period (step S103). Specifically, the interrupt detection unit 104 subtracts the end time of the immediately preceding utterance from the start time of the subsequent utterance, that is, the utterance interval (for example, te1-ts2 in FIGS. 2A and 2B). ). As a result of this calculation, if the value of the speech interval (for example, te1-ts2 = speech interval in FIG. 2B) is negative, the interrupt detection unit 104 determines that there is an interruption of the subsequent speech. .

次に、キーワード抽出装置100(キーワード抽出部105)は、上記検出された割り込みのあった音声会話(ステップS102で認識された音声会話)内のキーワードを抽出して決定する(ステップS104)。具体的には、キーワード抽出部105は、後行発話の直前にある先行発話内の名詞を抽出し、この名詞を当該発話内のキーワードとして決定する。
例えば、図2(b)のts1の時点において、発話者Aが「今度、新東京タワーが…」と話し始めたときに、図2(b)のts2の時点において、発話者Bが「ああ、それってどこにできるんですか?」と会話を始めた場合、キーワード抽出部105は、ts2の直前にある発話者Aの「新東京タワー」という名詞をキーワードとして決定する。これにより、キーワード抽出部105は、事前に予想したキーワードを登録したデータベースから「新東京タワー」のキーワードを抽出することなく、「新東京タワー」を会話内で話題になっている語として決定することができる。
Next, the keyword extraction device 100 (keyword extraction unit 105) extracts and determines the keywords in the detected voice conversation (interactive voice recognition recognized in step S102) with the interruption (step S104). Specifically, the keyword extraction unit 105 extracts a noun in the preceding utterance immediately before the subsequent utterance, and determines this noun as a keyword in the utterance.
For example, when utterer A starts to speak “This time, New Tokyo Tower ...” at the time ts1 in FIG. 2B, the utterer B is “oh” at the time ts2 in FIG. When the conversation begins, “Where is it possible?”, The keyword extraction unit 105 determines the noun “Shin Tokyo Tower” of the speaker A immediately before ts2 as a keyword. As a result, the keyword extraction unit 105 determines “New Tokyo Tower” as a topic in the conversation without extracting the keyword of “New Tokyo Tower” from the database in which keywords predicted in advance are registered. be able to.

なお、キーワード抽出部105は、上記発話間隔がプラスの値を示す場合(図2(a)参照)、発話中のキーワードがないものと判断し、キーワードを抽出しない。   Note that when the utterance interval shows a positive value (see FIG. 2A), the keyword extraction unit 105 determines that there is no keyword being uttered, and does not extract the keyword.

次に、キーワード抽出装置100(キーワード検索部106)は、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。具体的には、まず、キーワード検索部106は、ネットワーク400を介して、検索サーバ300に対し、上記キーワード検索を要求する。すると、検索サーバ300は、上記要求を受けたキーワード検索を行い、その検索結果をキーワード検索部106に送信する。次に、キーワード検索部106は、検索サーバ300から送信された検索結果を受信する。   Next, the keyword extraction device 100 (keyword search unit 106) performs keyword search for the determined keyword (step S105). Specifically, the keyword search unit 106 first requests the search server 300 for the keyword search via the network 400. Then, the search server 300 performs a keyword search in response to the request, and transmits the search result to the keyword search unit 106. Next, the keyword search unit 106 receives the search result transmitted from the search server 300.

次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、会話内のキーワード(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。   Next, the keyword search unit 106 displays the received search result on the display unit 107 (step S106). Thereby, the speaker can grasp the information (search result) related to the keyword (for example, New Tokyo Tower) in the conversation.

また、割込検出部104の代わりに、発話間隔が予め設定した閾値(例えば3秒)以上である沈黙を検出する沈黙検出部を動作させることも、キーワードの存在を示唆する発話応答の特徴を抽出する上で有用である。   Also, in place of the interrupt detection unit 104, operating a silence detection unit that detects silence whose utterance interval is greater than or equal to a predetermined threshold (for example, 3 seconds) can also be characterized by an utterance response that suggests the presence of a keyword. Useful for extraction.

以上説明したように、本実施の形態によると、キーワード抽出装置100は、キーワードの存在を示唆する発話応答の特徴としての割り込みを検出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100においては、会話内のキーワードを事前に予想してデータベース等に登録する準備を行うことなく、発話者の割り込みの有無から、会話内のキーワードを抽出することができる。   As described above, according to the present embodiment, the keyword extraction device 100 detects an interrupt as a feature of an utterance response that suggests the presence of a keyword, and extracts a keyword in the conversation. For this reason, the keyword extraction apparatus 100 can extract a keyword in a conversation based on the presence or absence of a speaker's interruption without predicting the keyword in the conversation in advance and registering it in a database or the like.

なお、実施の形態1において、キーワード抽出装置100は、図3のステップS101〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100は、図3の各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。   In the first embodiment, the keyword extracting apparatus 100 has been described with respect to the case where the processes of steps S101 to S106 in FIG. 3 are sequentially performed, but the present invention is not limited to this. For example, the keyword extraction device 100 may execute the steps in FIG. 3 by changing the order of the steps, or may execute the steps in parallel.

(実施の形態2)
実施の形態2のキーワード抽出装置は、発話応答の特徴であるピッチ(音の高さ)のパターンに基づいて、会話内のキーワードを抽出するものである。
図4は、本発明の実施の形態2におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態2においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
図4において、キーワード抽出装置100Aは、図1の実施の形態1の割込検出部104に代えて、ピッチ判定部201およびピッチパターン判定部202を有する。さらに、キーワード抽出装置100Aは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Aを有する点が、実施の形態1と異なる。ピッチ判定部201、ピッチパターン判定部202およびキーワード抽出部105Aは、CPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
(Embodiment 2)
The keyword extracting apparatus according to the second embodiment extracts keywords in a conversation based on a pitch (sound pitch) pattern that is a feature of an utterance response.
FIG. 4 is a block diagram illustrating a configuration example of the keyword extracting device according to the second embodiment of the present invention. In the second embodiment, the same parts as those in the first embodiment are denoted by the same reference numerals and terms as those in the first embodiment, and redundant description is omitted.
In FIG. 4, the keyword extraction device 100 </ b> A includes a pitch determination unit 201 and a pitch pattern determination unit 202 instead of the interrupt detection unit 104 of the first embodiment in FIG. 1. Furthermore, the keyword extraction device 100A is different from the first embodiment in that it includes a keyword extraction unit 105A instead of the keyword extraction unit 105 of the first embodiment in FIG. The pitch determination unit 201, the pitch pattern determination unit 202, and the keyword extraction unit 105A are processing devices such as a CPU. In addition, the configuration of the entire system including the information terminal 200 is the same as that of FIG.

ピッチ判定部201およびピッチパターン判定部202(これらを併せて発話応答特徴抽出部ともいう)は、発話区間判定部102により判定された発話区間について、各発話者の発話音声に基づいて、発話の特徴であるピッチパターンを抽出する。具体的には、ピッチ判定部201は、発話音声のピッチを判定する。本実施の形態のピッチ判定部201は、例えば、10msごとに発話音声を分割してピッチを判定する。   The pitch determination unit 201 and the pitch pattern determination unit 202 (also collectively referred to as an utterance response feature extraction unit) perform the utterance of the utterance interval determined by the utterance interval determination unit 102 based on the utterance speech of each speaker. A pitch pattern that is a feature is extracted. Specifically, the pitch determination unit 201 determines the pitch of the speech voice. The pitch determination unit 201 of the present embodiment determines the pitch by dividing the uttered speech every 10 ms, for example.

ピッチパターン判定部202は、上記判定されたピッチに基づいて、先行発話の末尾が下降ピッチ(図5のtc1−te1間参照)で、かつ、その先行発話の直後の後行発話が上昇ピッチ(図5のtc2−te2間参照)となるピッチパターン(発話の特徴)を判定する。この判定例を図5に示す。図5の横軸は時間を表し、縦軸は周波数を表す。
図5の発話区間ts1−te1には、「新東京タワーが」という先行発話があり、発話区間ts2−te2には、「それって・・・ですか?」という後行発話がある。そして、「新東京タワーが」の先行発話の末尾には下降ピッチが判定され、「それって・・・ですか?」の後行発話には上昇ピッチが判定されている。このように判定されるのは、ピッチパターン判定部202が次のように判定したからである。
Based on the determined pitch, the pitch pattern determination unit 202 has a descending pitch at the end of the preceding utterance (see tc1-te1 in FIG. 5), and a succeeding utterance immediately after the preceding utterance is an ascending pitch ( The pitch pattern (characteristic of the utterance) to be determined (see between tc2 and te2 in FIG. 5) is determined. An example of this determination is shown in FIG. The horizontal axis in FIG. 5 represents time, and the vertical axis represents frequency.
In the utterance section ts1-te1, there is a preceding utterance “New Tokyo Tower”, and in the utterance section ts2-te2, there is a subsequent utterance “Is that? A descending pitch is determined at the end of the preceding utterance of “New Tokyo Tower”, and an ascending pitch is determined for the subsequent utterance of “Is that ...?”. This determination is made because the pitch pattern determination unit 202 determines as follows.

すなわち、ピッチパターン判定部202は、図5の「新東京タワーが」の発話区間ts1−te1において、その中点tc1の周波数fよりも、発話区間の末尾(終了時)の周波数fが高いので上昇ピッチと判定したからである。また、ピッチパターン判定部202は、図5の「なんですか?」の発話区間ts2−te2において、その中点tc2の周波数fよりも、発話区間の末尾(終了時)の周波数fが低いので下降ピッチと判定したからである。   That is, the pitch pattern determination unit 202 has a higher frequency f at the end (at the end) of the utterance section than the frequency f at the midpoint tc1 in the utterance section ts1-te1 of “New Tokyo Tower is” in FIG. This is because it is determined that the pitch is rising. In addition, the pitch pattern determination unit 202 decreases in the utterance interval ts2-te2 of “What?” In FIG. 5 because the frequency f at the end (at the end) of the utterance interval is lower than the frequency f at the midpoint tc2. This is because the pitch is determined.

なお、本実施の形態のピッチパターン判定部202は、発話区間の中点の周波数を基準にして上昇ピッチまたは下降ピッチを判定する場合について説明するが、これに限られない。例えば、ピッチ判定部201は、発話区間の終了時(例えば図5のte1、te2)から、あらかじめ定められた区間(例えば時間T)遡った時点を基準にして判定してもよい。   In addition, although the pitch pattern determination part 202 of this Embodiment demonstrates the case where a raise pitch or a fall pitch is determined on the basis of the frequency of the middle point of an utterance area, it is not restricted to this. For example, the pitch determination unit 201 may perform determination based on a time point that is a predetermined period (for example, time T) from the end of the utterance period (for example, te1 and te2 in FIG. 5).

キーワード抽出部105Aは、上記判定されたピッチパターンに示された先行発話の中から、キーワードを抽出する。この抽出に際し、キーワード抽出部105Aは、例えば、上記ピッチパターンに示された先行発話内の末尾の構成素(例えば名詞)をキーワードとして抽出する。   The keyword extraction unit 105A extracts keywords from the preceding utterances shown in the determined pitch pattern. In this extraction, the keyword extraction unit 105A extracts, for example, the last constituent (for example, a noun) in the preceding utterance shown in the pitch pattern as a keyword.

次に、キーワード抽出装置100Aの動作について図6を参照して説明する。図6では、例えば、発話者Aが、キーワード抽出装置100Aを用いて「今度、新東京タワーが・・・」と言った後、発話者Bが、情報端末200を用いて「それって・・・ですか?」と言うことを前提にして説明する。なお、図7のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。   Next, the operation of the keyword extracting device 100A will be described with reference to FIG. In FIG. 6, for example, the speaker A uses the keyword extraction device 100A to say “Now, Tokyo Tower ...”, and then the speaker B uses the information terminal 200 to say “ Explain on the premise of saying "...?" 7 are the same as steps S101 to S102 and S105 to S106 in FIG. 3, and will be omitted as appropriate.

まず、キーワード抽出装置100A(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間(図2(a)の発話区間1、図2(b)の発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100A(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。   First, the keyword extraction device 100A (the utterance section determination unit 102) uses the utterance section for each utterer (the utterance section 1 in FIG. 2A, FIG. 2) for the utterance speech input from the voice input section 100 and the information terminal 200. (See utterance section 2 in (b)) (step S101). Next, the keyword extraction device 100A (voice recognition unit 103) recognizes the utterance voice of the determined utterance section for each speaker (step S102).

次に、キーワード抽出装置100A(ピッチ判定部201)は、例えば発話者Aの先行発話の発話区間1(図2(a)参照)および発話者Bの後行発話の発話区間2(図2(b)参照)の発話音声に基づいて、発話音声のピッチを判定する(ステップS103A)。   Next, the keyword extraction device 100A (pitch determination unit 201), for example, the utterance section 1 of the preceding utterance of the speaker A (see FIG. 2A) and the utterance section 2 of the subsequent utterance of the speaker B (FIG. 2 ( Based on the uttered voice of (b), the pitch of the uttered voice is determined (step S103A).

次に、キーワード抽出装置100A(ピッチパターン判定部202)は、上記判定されたピッチに基づいて、先行発話から後行発話へ移行した場合に、下降ピッチから上昇ピッチとなるピッチパターンがあるかを判定する(ステップS103B)。具体的には、ピッチパターン判定部202は、先行発話の末尾が下降ピッチ(図5のtc1−te1間参照)で、かつ、その先行発話の直後の後行発話が上昇ピッチ(図5のtc2−te2間参照)となるピッチパターンを判定する。   Next, the keyword extraction device 100A (pitch pattern determination unit 202) determines whether there is a pitch pattern that changes from the descending pitch to the ascending pitch when the preceding utterance is shifted to the succeeding utterance based on the determined pitch. Determination is made (step S103B). Specifically, the pitch pattern determination unit 202 determines that the end of the preceding utterance is the descending pitch (see tc1-te1 in FIG. 5), and the succeeding utterance immediately after the preceding utterance is the ascending pitch (tc2 in FIG. 5). The pitch pattern is determined.

次に、キーワード抽出装置100A(キーワード抽出部105A)は、上記判定されたピッチパターンに示された発話音声(ステップS102で認識されたもの)の先行発話(例えば、図5の「新東京タワーが」)の中から、キーワードを抽出する(ステップS104A)。この抽出に際し、キーワード抽出部105Aは、例えば、上記ピッチパターンに示された先行発話内の末尾の名詞である「新東京タワー」をキーワードとして抽出する。   Next, the keyword extraction device 100A (keyword extraction unit 105A) determines the preceding utterance of the utterance voice (recognized in step S102) indicated in the determined pitch pattern (for example, “New Tokyo Tower ]), Keywords are extracted (step S104A). In this extraction, the keyword extraction unit 105A extracts, for example, “Shin Tokyo Tower”, which is the last noun in the preceding utterance shown in the pitch pattern, as a keyword.

次に、キーワード抽出装置100A(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。   Next, the keyword extraction device 100A (keyword search unit 106) performs keyword search for the determined keyword on the search server 300 via the network 400 (step S105). Next, the keyword search unit 106 displays the received search result on the display unit 107 (step S106). Thereby, the speaker can grasp information (search result) related to the topic word (for example, New Tokyo Tower).

以上説明したように、本実施の形態によると、キーワード抽出装置100Aは、キーワードの存在を示唆する発話応答の特徴であるピッチパターンを判定して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Aにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、ピッチパターンの有無から、会話内のキーワードを抽出することができる。   As described above, according to the present embodiment, keyword extracting apparatus 100A determines a pitch pattern that is a feature of an utterance response that suggests the presence of a keyword, and extracts a keyword in a conversation. For this reason, the keyword extraction device 100A can extract keywords in a conversation from the presence or absence of a pitch pattern without preparing in advance for registering the keywords used in the conversation in a database or the like. .

なお、実施の形態2において、キーワード抽出装置100Aは、図7のステップS101〜S102、S103A〜S103B、S104A、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Aは、図7の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。   In the second embodiment, the keyword extraction apparatus 100A has been described with respect to the case where the processes of steps S101 to S102, S103A to S103B, S104A, and S105 to S106 in FIG. 7 are sequentially performed, but the present invention is not limited thereto. For example, the keyword extracting device 100A may execute the steps in FIG. 7 by changing the order of the steps, or may execute the steps in parallel.

(実施の形態3)
実施の形態3のキーワード抽出装置は、発話応答の特徴である機能フレーズに基づいて、会話内のキーワードを抽出するものである。
図7は、本発明の実施の形態3におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態3においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
図7において、キーワード抽出装置100Bは、図1の実施の形態1の割込検出部104に代えて、機能フレーズ抽出部301(発話応答特徴抽出部)を有する。さらに、キーワード抽出装置100Bは、機能フレーズ記憶部302を有する。また、キーワード抽出装置100Bは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Bを有する点が、実施の形態1と異なる。なお、機能フレーズ抽出部301は、CPU等の処理装置であり、機能フレーズ記憶部302は、メモリ等の記憶装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
(Embodiment 3)
The keyword extraction device according to the third embodiment extracts keywords in a conversation based on a function phrase that is a feature of an utterance response.
FIG. 7 is a block diagram illustrating a configuration example of the keyword extraction device according to Embodiment 3 of the present invention. In the third embodiment, the same reference numerals and terms as those in the first embodiment are assigned to the same parts as those in the first embodiment, and the duplicate description is omitted.
In FIG. 7, the keyword extraction device 100B has a function phrase extraction unit 301 (utterance response feature extraction unit) instead of the interrupt detection unit 104 of the first embodiment in FIG. Furthermore, the keyword extraction device 100B includes a function phrase storage unit 302. Further, the keyword extraction device 100B is different from the first embodiment in that it includes a keyword extraction unit 105B instead of the keyword extraction unit 105 of the first embodiment in FIG. The function phrase extraction unit 301 is a processing device such as a CPU, and the function phrase storage unit 302 is a storage device such as a memory. In addition, the configuration of the entire system including the information terminal 200 is the same as that of FIG.

機能フレーズ記憶部302は、あらかじめ定められた機能フレーズを記憶する。この機能フレーズは、応答の種類を表す語であり、種々の異なる会話内容にかかわらず、会話共通に使用されるものである。例えば、機能フレーズとして、「ですか?」等の疑問文、「いいね」「なるほど」「それだ」等の同意文、「違う」等の否定文、「お願いします」等の依頼文、「ああ」などの感嘆文、「なんでやねん」等の突っ込み文などが該当する。   The function phrase storage unit 302 stores a predetermined function phrase. This function phrase is a word representing the type of response, and is used in common with conversations regardless of various different conversation contents. For example, as a functional phrase, a question sentence such as “Is it?”, An agreement sentence such as “Like” or “I see” or “It is”, a negative sentence such as “No”, a request sentence such as “Please” Exclamation sentences such as “Oh” and indentation sentences such as “Nadeyanen” are applicable.

機能フレーズ抽出部301は、発話音声の中から、当該発話音声の特徴である上記機能フレーズを抽出する。具体的には、機能フレーズ抽出部301は、抽出対象となる発話音声に含まれる語と、機能フレーズ記憶部302の機能フレーズとを比較し、当該発話音声に含まれる機能フレーズを抽出する。   The functional phrase extraction unit 301 extracts the functional phrase that is a feature of the uttered voice from the uttered voice. Specifically, the functional phrase extraction unit 301 compares a word included in the speech to be extracted with a functional phrase in the functional phrase storage unit 302, and extracts a functional phrase included in the speech.

次に、キーワード抽出装置100Bの動作について図8を参照して説明する。図8では、例えば、発話者Aが、キーワード抽出装置100Bを用いて「今度、新東京タワーができるんだって。」と言った後に、発話者Bが、情報端末200を用いて「ああ、それってどこにできるんですか?」と言うことを前提にして説明する。なお、図8のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略する。   Next, the operation of the keyword extracting device 100B will be described with reference to FIG. In FIG. 8, for example, after the speaker A uses the keyword extraction device 100 </ b> B to say “This time, New Tokyo Tower can be created.”, The speaker B uses the information terminal 200 to say “Oh, it "Where can I do that?" Note that the processes in steps S101 to S102 and S105 to S106 in FIG. 8 are the same as the processes in steps S101 to S102 and S105 to S106 in FIG.

まず、キーワード抽出装置100B(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間(図2(a)の発話区間1、図2(b)の発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100B(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。   First, the keyword extraction device 100B (the utterance section determination unit 102) uses the utterance section for each utterer (the utterance section 1 in FIG. 2A, FIG. 2) for the speech input from the voice input section 100 and the information terminal 200. (See utterance section 2 in (b)) (step S101). Next, the keyword extraction device 100B (voice recognition unit 103) recognizes the utterance voice in the determined utterance section for each speaker (step S102).

次に、キーワード抽出装置100B(機能フレーズ抽出部301)は、例えば発話者Aの先行発話の発話区間1(図2(a)参照)および発話者Bの後行発話の発話区間2(図2(b)参照)の発話音声から、疑問文等を表す機能フレーズを抽出する。具体的には、機能フレーズ抽出部301は、抽出対象となる当該発話音声に含まれる語の系列と、機能フレーズ記憶部302の機能フレーズとを比較し、当該発話音声に含まれる機能フレーズを抽出する。本実施の形態では、機能フレーズ抽出部301は、「ああ、それってどこにできるんですか?」の発話音声の中から、「ですか?」という疑問文の機能フレーズを抽出する。ここで、発話音声に含まれる語の系列は、上記音声の認識結果を利用してもよい。   Next, the keyword extraction device 100B (functional phrase extraction unit 301), for example, the utterance section 1 of the preceding utterance of the speaker A (see FIG. 2A) and the utterance section 2 of the subsequent utterance of the speaker B (FIG. 2). A functional phrase representing a question sentence or the like is extracted from the uttered voice of (b). Specifically, the functional phrase extraction unit 301 compares a sequence of words included in the uttered speech to be extracted with the functional phrase in the functional phrase storage unit 302, and extracts a functional phrase included in the uttered speech. To do. In the present embodiment, the functional phrase extraction unit 301 extracts the functional phrase of the question sentence “Is it?” From the utterance voice of “Oh, where can I do it?”. Here, the speech recognition result may be used for the word sequence included in the speech voice.

次に、キーワード抽出装置100B(キーワード抽出部105B)は、上記抽出された機能フレーズを含む発話の直前の発話音声(ステップS102で認識されたもの)から、キーワードを抽出する(ステップS104B)。このキーワードの抽出に際し、キーワード抽出部105Bは、例えば、上記直前の発話である「今度、新東京タワーができるんだって。」から、その末尾(割り込み直前)の名詞である「新東京タワー」をキーワードとして抽出する。   Next, the keyword extraction device 100B (keyword extraction unit 105B) extracts a keyword from the utterance voice immediately before the utterance including the extracted functional phrase (recognized in step S102) (step S104B). When extracting this keyword, the keyword extraction unit 105B, for example, from the previous utterance "Now, you can make New Tokyo Tower." Extract as keywords.

次に、キーワード抽出装置100B(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記抽出されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、会話内で話題になっているキーワード(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。   Next, the keyword extraction device 100B (keyword search unit 106) performs keyword search for the extracted keyword on the search server 300 via the network 400 (step S105). Next, the keyword search unit 106 displays the received search result on the display unit 107 (step S106). Thereby, the speaker can grasp information (search result) related to a keyword (for example, New Tokyo Tower) which is a topic in the conversation.

また本実施の形態によると、発話者Aが「あれって何だっけ?」と質問して、発話者Bが「新東京タワーのことかな。」と答える場合のように、先行発話から疑問文の機能フレーズ(「何だっけ?」)を抽出した場合に、その直後の後行発話から、キーワード(「新東京タワー」)を抽出するようにキーワード抽出部105Bを動作させることも可能である。その際、直前の発話音声からキーワードを抽出するか、直後の発話音声からキーワードを抽出するかは、以下の通り切り替えることができる。すなわち、指示代名詞「それ」を含む場合には直前の発話から、指示代名詞「あれ」を含む場合には直後の発話から、その他の場合には直後の発話からと切り替えて使うことができる。その際、実施の形態2と同様の方法で、先行発話が上昇ピッチ、後行発話が下降ピッチとなるピッチパターンを利用(併用)することで、発話応答の特徴を捉えても良い。   In addition, according to the present embodiment, a question from a previous utterance, such as when utterer A asks "What is that?" And utterer B answers "What is New Tokyo Tower?" When the functional phrase of the sentence (“What was it?”) Is extracted, the keyword extraction unit 105B can be operated so as to extract the keyword (“New Tokyo Tower”) from the subsequent utterance. is there. At this time, whether the keyword is extracted from the immediately preceding utterance speech or the keyword is extracted from the immediately following utterance speech can be switched as follows. That is, it can be used by switching from the immediately preceding utterance when the pronoun pronoun “it” is included, from the immediately following utterance when including the indicating pronoun “that”, and from the immediately following utterance in other cases. At that time, the feature of the utterance response may be captured by using (using in combination) a pitch pattern in which the preceding utterance is the rising pitch and the subsequent utterance is the descending pitch in the same manner as in the second embodiment.

以上説明したように、本実施の形態によると、キーワード抽出装置100Bは、会話内容(ジャンル)にかかわらず共通に使用される機能フレーズ(疑問文等)を抽出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Bにおいては、会話文から、共通に使用される機能フレーズを抽出してキーワードを抽出することができる。よって、キーワード抽出装置100Bにおいては、個々のジャンルの会話に応じたキーワードを事前に予想してデータベース等に登録する準備を行うことなく、キーワードを抽出することができるので、有益である。   As described above, according to the present embodiment, the keyword extraction device 100B extracts functional phrases (question sentences, etc.) that are commonly used regardless of the conversation content (genre), and extracts keywords in the conversation. To do. For this reason, in the keyword extracting device 100B, it is possible to extract a keyword by extracting a commonly used function phrase from the conversation sentence. Therefore, the keyword extraction device 100B is useful because it can extract keywords without preparing in advance a keyword corresponding to each genre conversation and registering it in a database or the like.

なお、実施の形態3において、キーワード抽出装置100Bは、図8のステップS101〜S102、S103C、S104B、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Bは、図9の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。   In the third embodiment, the keyword extraction apparatus 100B has been described with respect to the case where the processes of steps S101 to S102, S103C, S104B, and S105 to S106 in FIG. 8 are sequentially performed. However, the present invention is not limited to this. For example, the keyword extracting device 100B may execute the steps in FIG. 9 by changing the order of the steps, or may execute the steps in parallel.

(実施の形態4)
実施の形態4のキーワード抽出装置は、発話音声を聞いた人の表情の変化に基づいて、会話内のキーワードを抽出するものである。
図9は、本発明の実施の形態4におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態4においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
(Embodiment 4)
The keyword extraction device according to the fourth embodiment extracts keywords in a conversation based on changes in the facial expression of a person who has heard spoken speech.
FIG. 9 is a block diagram illustrating a configuration example of the keyword extracting device according to the fourth embodiment of the present invention. In the fourth embodiment, the same reference numerals and terms as those in the first embodiment are assigned to the same parts as those in the first embodiment, and the duplicate description is omitted.

図9において、キーワード抽出装置100Cは、図1の実施の形態1の割込検出部104に代えて、映像入力部401および表情認識部402(これらを併せて発話応答特徴抽出部ともいう)を有する。さらに、キーワード抽出装置100Cは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Cを有する点が、実施の形態1と異なる。なお、画像入力部401は、カメラであり、表情認識部402はCPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。   In FIG. 9, the keyword extraction device 100 </ b> C includes a video input unit 401 and a facial expression recognition unit 402 (also collectively referred to as an utterance response feature extraction unit) instead of the interrupt detection unit 104 of the first embodiment in FIG. 1. Have. Further, the keyword extraction apparatus 100C is different from the first embodiment in that it includes a keyword extraction unit 105C instead of the keyword extraction unit 105 of the first embodiment in FIG. The image input unit 401 is a camera, and the facial expression recognition unit 402 is a processing device such as a CPU. In addition, the configuration of the entire system including the information terminal 200 is the same as that of FIG.

映像入力部401は、ユーザの顔部分を含む画像データを入力するためのものである。表情認識部402は、該画像データをユーザの表情推定処理が可能なディジタルデータの元画像データに変換すると、元画像データに含まれるユーザの顔領域を抽出し、抽出された顔領域から、ユーザの顔を構成する目や口などの少なくとも一つ以上の顔器官の輪郭位置を抽出する。そして、表情認識部402は、複数の映像フレームに亘って取得した顔器官の上端及び下端の輪郭を抽出して、顔器官の輪郭の開き具合や曲がり具合からユーザの表情(例えば、中立、驚き、喜び、怒りなど)を認識する。
その際、表情認識部402は、発話区間判定部102から得た発話者ごとの発話区間内の時刻と、発話者以外の人の表情の認識結果とを結びつける。さらに、表情認識部402は、該表情の認識結果から表情の変化点を抽出する。
例えば、図10において、t10は発話者Aによる発話区間1の発話開始時刻、t11、t12はt10に続く等間隔の時刻であり、t20は発話者Bによる発話区間2の発話開始時刻、t21、t22はt20に続く等間隔の時刻である。ここで、表情認識部402は、時刻t10、t11、t12のそれぞれにおける発話者Bの表情、および、時刻t20、t21、t22のそれぞれにおける発話者Aの表情とを結びつけて認識する。この例では、時刻t11における発話者Bの表情が驚きの表情であり、その他の時刻では話者によらず中立の表情となっている。すなわち、表情認識部402は、時刻t11を表情の変化点として抽出する。
The video input unit 401 is for inputting image data including a user's face portion. When the facial expression recognition unit 402 converts the image data into digital original image data that can be used to estimate the facial expression of the user, the facial expression recognition unit 402 extracts the face area of the user included in the original image data, and extracts the user's face area from the extracted face area. The contour position of at least one facial organ such as eyes and mouth constituting the face is extracted. Then, the facial expression recognition unit 402 extracts the contours of the upper and lower ends of the facial organ acquired over a plurality of video frames, and determines the facial expression of the user (for example, neutrality, surprise, etc.) based on how the facial organ contour is opened or bent. , Joy, anger, etc.).
At that time, the facial expression recognition unit 402 associates the time in the utterance section for each speaker obtained from the utterance section determination unit 102 with the recognition result of the facial expression of a person other than the speaker. Further, the facial expression recognition unit 402 extracts facial expression change points from the facial expression recognition result.
For example, in FIG. 10, t10 is the utterance start time of the utterance section 1 by the speaker A, t11 and t12 are equally spaced times following t10, t20 is the utterance start time of the utterance section 2 by the speaker B, t21, t22 is an equally spaced time following t20. Here, the facial expression recognition unit 402 recognizes the facial expression of the speaker B at each of the times t10, t11, and t12 and the facial expression of the speaker A at each of the times t20, t21, and t22. In this example, the expression of the speaker B at time t11 is a surprised expression, and at other times, the expression is neutral regardless of the speaker. That is, the facial expression recognition unit 402 extracts time t11 as a facial expression change point.

キーワード抽出部105Cは、上記認識された表情が、発話開始時に中立の表情であり、かつ、発話の途中で他の表情に変化したと、表情認識部402によって認識された場合に、表情の変化点に対応した時刻に発声された単語をキーワードとして抽出する。その際、キーワード抽出部105Cは、音声認識結果中の単語ごとの区間情報から表情に対応した時刻の単語を求めてもいいし、発話音声に含まれる音節数などから推定してもよい。ここでいう対応した時刻とは、単語を知覚してからその反応が表情に現れるまでの時間(例えば0.1秒)を考慮して、単語の言い終わりと表情の表出とを対応させた時刻である。   When the facial expression recognition unit 402 recognizes that the recognized facial expression is a neutral facial expression at the start of the utterance and changes to another facial expression during the utterance, the keyword extraction unit 105C changes the facial expression. A word uttered at the time corresponding to the point is extracted as a keyword. At that time, the keyword extraction unit 105C may obtain the word at the time corresponding to the facial expression from the section information for each word in the speech recognition result, or may estimate it from the number of syllables included in the uttered speech. The corresponding time here refers to the time from when a word is perceived until the reaction appears in the facial expression (for example, 0.1 seconds), and the end of the word and the expression of the facial expression are associated with each other. It's time.

次に、キーワード抽出装置100Cの動作について図11を参照して説明する。図11では、例えば、発話者Aが、キーワード抽出装置100Cを用いて「新東京タワーが今度できる」と言った後、発話者Bが、情報端末200を用いて「それって何ですか?」と言うことを前提にして説明する。なお、図11のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。発話者Bの音声および映像は情報端末200を用いて入力されることになるが、便宜上、入力は発話者Aと同様に、音声入力部101および映像入力部401から入力されるものとして説明する。   Next, the operation of the keyword extracting device 100C will be described with reference to FIG. In FIG. 11, for example, the speaker A uses the keyword extraction device 100C to say “New Tokyo Tower can be done next”, and then the speaker B uses the information terminal 200 to say “What is that? ”On the assumption that“ Note that the processes in steps S101 to S102 and S105 to S106 in FIG. 11 are the same processes as steps S101 to S102 and S105 to S106 in FIG. The voice and video of the speaker B are input using the information terminal 200. For the sake of convenience, the input will be described as being input from the audio input unit 101 and the video input unit 401 in the same manner as the speaker A. .

まず、キーワード抽出装置100C(発話区間判定部102)は、音声入力部101から入力された発話音声について、発話者ごとの発話区間(図10の発話区間1、発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100C(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。   First, the keyword extraction device 100C (the utterance section determination unit 102) determines the utterance section for each speaker (see the utterance section 1 and the utterance section 2 in FIG. 10) for the uttered speech input from the speech input section 101 (see FIG. 10). Step S101). Next, the keyword extracting device 100C (voice recognition unit 103) recognizes the uttered voice of the determined utterance section for each speaker (step S102).

一方、キーワード抽出装置100C(映像入力部401および表情認識部402)は、例えば発話者Aが発声した先行発話である発話区間1の発話音声(図10参照)に対応する時刻の発話者Bの表情を認識し、発話者Bが発声した後行発話である発話区間2の発話音声(図10参照)に対応する時刻の発話者Aの表情を認識する。つまり、発話者の表情を認識するのではなく、発話音声を聞いている人の表情、すなわち発話者の発話音声に対する他の発話者の表情を認識する(ステップS103D)。   On the other hand, the keyword extraction device 100C (the video input unit 401 and the facial expression recognition unit 402), for example, of the speaker B at the time corresponding to the utterance voice (see FIG. 10) in the utterance section 1 which is the preceding utterance uttered by the speaker A. The facial expression is recognized, and the facial expression of the speaker A at the time corresponding to the utterance voice (see FIG. 10) in the utterance section 2 which is the subsequent utterance uttered by the speaker B is recognized. That is, rather than recognizing the facial expression of the speaker, the facial expression of the person who is listening to the speech, that is, the facial expression of another speaker relative to the speech of the speaker is recognized (step S103D).

次に、キーワード抽出装置100A(キーワード抽出部105C)は、上記認識された表情が、発話開始時に中立の表情であり、かつ、発話の途中で他の表情に変化したと認識された場合に、表情の変化点に対応した時刻に発声された単語をキーワードとして抽出する(ステップS104C)。前述の例では、表情が中立から驚きの表情に変化した時刻に対応する単語として「新東京タワー」が抽出される。   Next, the keyword extracting device 100A (keyword extracting unit 105C) recognizes that the recognized facial expression is a neutral facial expression at the start of utterance and has changed to another facial expression during the utterance. A word uttered at the time corresponding to the facial expression change point is extracted as a keyword (step S104C). In the above example, “New Tokyo Tower” is extracted as a word corresponding to the time when the expression changes from neutral to a surprising expression.

次に、キーワード抽出装置100C(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。   Next, the keyword extraction device 100C (keyword search unit 106) performs keyword search for the determined keyword to the search server 300 via the network 400 (step S105). Next, the keyword search unit 106 displays the received search result on the display unit 107 (step S106). Thereby, the speaker can grasp information (search result) related to the topic word (for example, New Tokyo Tower).

以上説明したように、本実施の形態によると、キーワード抽出装置100Cは、発話音声を聞いている他の人の表情の認識結果に基づいて、会話内のキーワードを抽出する。このため、キーワード抽出装置100Cにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、表情の変化として捉えられる発話応答の特徴から、会話内のキーワードを抽出することができる。   As described above, according to the present embodiment, the keyword extraction device 100C extracts keywords in a conversation based on the recognition result of the facial expression of another person who is listening to the uttered voice. For this reason, in the keyword extraction device 100C, the keyword in the conversation is obtained from the feature of the utterance response that is captured as a change in facial expression without preparing the keyword used in the conversation in advance and registering it in the database or the like. Can be extracted.

なお、表情認識部402の代わりに、目の開き具合や口の開き具合などを数値化し、それらの変化の大きさのみで表情の変化を検出しても同様の効果が得られる。   It should be noted that the same effect can be obtained by converting the expression of the eyes and the degree of opening of the mouth into numerical values instead of the facial expression recognition unit 402, and detecting changes in facial expressions based only on the magnitudes of those changes.

なお、実施の形態4において、キーワード抽出装置100Cは、図11のステップS101〜S102、S103D、S104C、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Cは、図11の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。   In the fourth embodiment, the keyword extraction device 100C has been described with respect to the case where the processes of steps S101 to S102, S103D, S104C, and S105 to S106 in FIG. 11 are sequentially performed. However, the present invention is not limited to this. For example, the keyword extraction device 100C may execute the steps in FIG. 11 by changing the order of the steps, or may execute the steps in parallel.

(実施の形態5)
実施の形態5のキーワード抽出装置は、発話音声を聞いた人の盛り上がり反応に基づいて、会話内のキーワードを抽出するものである。
図12は、本発明の実施の形態5におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態5においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
(Embodiment 5)
The keyword extraction device according to the fifth embodiment extracts keywords in a conversation based on an excitement reaction of a person who has heard an uttered voice.
FIG. 12 is a block diagram illustrating a configuration example of the keyword extracting device according to the fifth embodiment of the present invention. In the fifth embodiment, the same parts as those in the first embodiment are denoted by the same reference numerals and terms as those in the first embodiment, and redundant description is omitted.

図12において、キーワード抽出装置100Dは、図1の実施の形態1の割込検出部104に代えて、盛り上がり反応検出部501(発話応答特徴抽出部ともいう)を有する。さらに、キーワード抽出装置100Dは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Dを有する点が、実施の形態1と異なる。なお、盛り上がり反応検出部501はCPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。   In FIG. 12, the keyword extraction device 100D includes a climax reaction detection unit 501 (also referred to as an utterance response feature extraction unit) instead of the interrupt detection unit 104 of the first embodiment in FIG. Further, the keyword extraction device 100D is different from the first embodiment in that it includes a keyword extraction unit 105D instead of the keyword extraction unit 105 of the first embodiment in FIG. The swell reaction detection unit 501 is a processing device such as a CPU. In addition, the configuration of the entire system including the information terminal 200 is the same as that of FIG.

盛り上がり反応検出部501は、音声や音から盛り上がり反応を検出する。具体的には、笑い声の検出や、興奮度の高い音声の検出、拍手や膝を打つ音の検出、などにより、盛り上がり反応を検出する。盛り上がり反応検出部501は、笑い声や、拍手、膝を打つ音については、予め学習サンプルを容易して、GMM(ガンマー・ミクスチャー・モデル)を作成しておき、入力に対する尤度を求めて閾値処理することで検出する。また、盛り上がり反応検出部501は、興奮度の高い音声については、音量の大きさ、ピッチの高さ、発話速度の速さのそれぞれを話者の平均値で正規化した量を線形結合して数値化し、閾値処理することで検出する。
その際、盛り上がり反応検出部501は、発話区間判定部102で判定された発話区間の終端付近で検出された盛り上がり反応を、その発話に対応した盛り上がり反応とみなす。
The swell response detector 501 detects a sway response from voice and sound. Specifically, a swell response is detected by detecting a laughing voice, detecting a voice with a high degree of excitement, or detecting a sound of clapping or kneeling. For the laughing voice, applause, and kneeling sound, the climax reaction detection unit 501 facilitates a learning sample in advance, creates a GMM (gamma mixture model), obtains a likelihood for the input, and performs threshold processing. To detect. The excitement reaction detection unit 501 linearly combines amounts obtained by normalizing the loudness level, the pitch height, and the speaking speed with the average value of the speaker for a highly excited sound. It is detected by digitizing and threshold processing.
At this time, the climax reaction detection unit 501 regards the climax reaction detected near the end of the utterance interval determined by the utterance interval determination unit 102 as an excitement response corresponding to the utterance.

キーワード検出部105Dは、前記盛り上がり反応に対応する発話の中から、キーワードを抽出する。   The keyword detection unit 105D extracts a keyword from the utterance corresponding to the excitement reaction.

次に、キーワード抽出装置100Dの動作について図13を参照して説明する。図13では、例えば、発話者Aが、キーワード抽出装置100Cを用いて「今度、新東京タワーが・・・」と言った後、発話者Bが、情報端末200を用いて「あはは」と言って笑ったことを前提にして説明する。なお、図13のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。   Next, the operation of the keyword extracting device 100D will be described with reference to FIG. In FIG. 13, for example, the speaker A uses the keyword extraction device 100 </ b> C to say “Now, Tokyo Tower ...”, and then the speaker B uses the information terminal 200 to say “Ahaha”. I will explain on the assumption that I laughed. The processes in steps S101 to S102 and S105 to S106 in FIG. 13 are the same processes as steps S101 to S102 and S105 to S106 in FIG.

まず、キーワード抽出装置100D(発話区間判定部102)は、音声入力部101および情報端末200から入力された発話音声について、発話者ごとの発話区間を判定する(ステップS101)。次に、キーワード抽出装置100D(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。   First, the keyword extraction device 100D (the utterance section determination unit 102) determines an utterance section for each speaker from the speech input from the voice input unit 101 and the information terminal 200 (step S101). Next, the keyword extraction device 100D (voice recognition unit 103) recognizes the utterance voice in the determined utterance section for each speaker (step S102).

次に、キーワード抽出装置100D(盛り上がり反応検出501)は、例えば発話者Aが発声した発話区間の近傍で盛り上がり反応の存在を検出する(ステップS103E)。結果として、前述の発話例では、発話者Aの発話区間の直後で、笑い声のGMMが高い尤度で照合されるため、盛り上がり反応として検出される。   Next, the keyword extraction device 100D (exciting reaction detection 501) detects the presence of an enlarging reaction, for example, in the vicinity of the utterance section uttered by the speaker A (step S103E). As a result, in the above-described utterance example, the laughter voice GMM is collated with high likelihood immediately after the utterance section of the speaker A, so that it is detected as an excitement reaction.

次に、キーワード抽出装置100A(キーワード抽出部105D)は、上記盛り上がり反応に対応する発話区間内で発声された単語(例えば、「新東京タワー」)をキーワードとして抽出する(ステップS104D)。   Next, the keyword extraction device 100A (keyword extraction unit 105D) extracts, as a keyword, a word (for example, “New Tokyo Tower”) uttered in the utterance section corresponding to the excitement reaction (step S104D).

次に、キーワード抽出装置100D(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。   Next, the keyword extraction device 100D (keyword search unit 106) performs keyword search of the determined keyword to the search server 300 via the network 400 (step S105). Next, the keyword search unit 106 displays the received search result on the display unit 107 (step S106). Thereby, the speaker can grasp information (search result) related to the topic word (for example, New Tokyo Tower).

以上説明したように、本実施の形態によると、キーワード抽出装置100Dは、発話音声を聞いた人の盛り上がり反応を検出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Dにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、笑い声や拍手などの盛り上がりとして捉えられる発話応答の特徴から、会話内のキーワードを抽出することができる。   As described above, according to the present embodiment, the keyword extracting device 100D detects the excitement reaction of the person who has heard the uttered voice and extracts the keywords in the conversation. For this reason, in the keyword extraction apparatus 100D, it is possible to predict the keyword used in the conversation in advance from the characteristics of the utterance response that can be regarded as a swell and applause without preparing to register it in a database or the like. The keywords in can be extracted.

なお、実施の形態5において、キーワード抽出装置100Dは、図13のステップS101〜S102、S103E、S104D、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Dは、図13の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。   In the fifth embodiment, the keyword extraction device 100D has been described with respect to the case where the processes of steps S101 to S102, S103E, S104D, and S105 to S106 in FIG. 13 are sequentially performed. However, the present invention is not limited to this. For example, the keyword extracting device 100D may execute the steps in FIG. 13 by changing the order of the steps, or may execute the steps in parallel.

また、実施の形態1〜3および5において、キーワード抽出装置(キーワード抽出部)は、発話区間内の末尾(割り込み直前)の名詞をキーワードとして抽出する場合について説明したが、これに限られない。例えば、キーワード抽出部は、検索対象の先行発話に含まれる複数の名詞のうち、概念上の最下位の名詞をキーワードとして検索するようにしてもよい。この場合、キーワード抽出装置は、メモリ等の辞書情報記憶部(不図示)をさらに有し、この辞書情報記憶部が、概念上の上位(例えば、イタリア料理)および概念上の下位(例えば、パスタ)の名詞の関係を分類して体系づけた辞書情報を記憶する。そして、キーワード抽出部は、抽出対象の発話に含まれる名詞の中から、辞書情報記憶部(不図示)の辞書情報に含まれる概念上の最下位の名詞をキーワードとして抽出する。これにより、下位概念の名詞がキーワードとして抽出される。   In Embodiments 1 to 3 and 5, the keyword extraction device (keyword extraction unit) has described the case where the noun at the end (immediately before interruption) in the utterance section is extracted as a keyword. However, the present invention is not limited to this. For example, the keyword extraction unit may search for a noun that is conceptually lowest among a plurality of nouns included in the preceding utterance to be searched as a keyword. In this case, the keyword extraction device further includes a dictionary information storage unit (not shown) such as a memory, and the dictionary information storage unit includes a conceptual upper level (for example, Italian cuisine) and a conceptual lower level (for example, pasta). ) Is used to store dictionary information organized and organized. Then, the keyword extraction unit extracts, as keywords, the conceptually lowest nouns included in the dictionary information of the dictionary information storage unit (not shown) from the nouns included in the utterance to be extracted. Thereby, the noun of a low-order concept is extracted as a keyword.

また、実施の形態1〜3および5において、キーワード抽出部は、抽出対象の発話に含まれる名詞のうち、ピッチの最も高い名詞をキーワードとして抽出するようにしてもよいし、使用回数の最も多い名詞をキーワードとして抽出するようにしてもよい。あるいは、キーワード抽出部は、抽出対象の発話に含まれる名詞の中から、各名詞のピッチや使用回数を示す各種パラメータの組み合わせが最適(事前に定められたパラメータのパターン)となる名詞をキーワードとして抽出するようにしてもよい。   In Embodiments 1 to 3 and 5, the keyword extraction unit may extract the noun with the highest pitch among the nouns included in the utterance to be extracted as the keyword, or the most frequently used. You may make it extract a noun as a keyword. Alternatively, the keyword extraction unit uses, as a keyword, a noun in which a combination of various parameters indicating the pitch and the number of times of use of each noun is optimal (a predetermined parameter pattern) from the nouns included in the utterance to be extracted. You may make it extract.

本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。
本出願は、2007年3月29日出願の日本特許出願(特願2007−088321)に基づくものであり、その内容はここに参照として取り込まれる。
Although the present invention has been described in detail and with reference to specific embodiments, it will be apparent to those skilled in the art that various changes and modifications can be made without departing from the spirit and scope of the invention.
This application is based on a Japanese patent application filed on March 29, 2007 (Japanese Patent Application No. 2007-088321), the contents of which are incorporated herein by reference.

本発明のキーワード抽出装置は、会話内に含まれる重要なキーワードを抽出するのに有用である。キーワード抽出装置は、電話、車載端末、テレビ、会議システム、コールセンターシステム、パソコン等の用途に適用することができる。   The keyword extracting device of the present invention is useful for extracting important keywords included in a conversation. The keyword extraction device can be applied to uses such as a telephone, an in-vehicle terminal, a television, a conference system, a call center system, and a personal computer.

本発明は、キーワード抽出装置に係り、特に会話内に含まれるキーワードを抽出するキーワード抽出装置に関するものである。   The present invention relates to a keyword extraction device, and more particularly to a keyword extraction device that extracts keywords included in a conversation.

従来のキーワード抽出装置は、あらかじめ、電子レンジ等のキーワードとURLへのアクセス等のアクション情報との対応関係を示した対応データを保持している。そして、キーワード抽出装置は、上記対応データに基づいて、ある会話の中からキーワードを検出し、そのキーワードに対応するアクション情報に基づく処理を実行する。このようにして、音声認識による情報の提示が行われていた(例えば、特許文献1)。   A conventional keyword extracting device holds correspondence data indicating a correspondence relationship between a keyword such as a microwave oven and action information such as access to a URL in advance. Then, the keyword extraction device detects a keyword from a certain conversation based on the correspondence data, and executes processing based on action information corresponding to the keyword. In this way, information is presented by voice recognition (for example, Patent Document 1).

特開2005−215726号公報(段落0021〜段落0036、図2〜図3参照)JP 2005-215726 A (see paragraphs 0021 to 0036 and FIGS. 2 to 3)

しかしながら、特許文献1に記載の装置においては、想定される場面別に上記対応データを準備しなければならないため、利用しにくいという問題があった。
本発明の目的は、上記の状況に対処するためになされたものであり、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することができるキーワード抽出装置を提供することである。
However, the apparatus described in Patent Document 1 has a problem that it is difficult to use the correspondence data because the corresponding data must be prepared for each possible scene.
An object of the present invention is to cope with the above situation, and provides a keyword extraction device that can extract keywords in a conversation without predicting and preparing the keywords in the conversation in advance. It is to be.

上記従来の課題を解決するために、本発明は、発話者の発話音声を入力する音声入力部と、上記入力された発話音声について、上記発話者ごとの発話区間を判定する発話区間判定部と、上記判定された発話区間の発話音声を上記発話者ごとに認識する音声認識部と、上記各発話者の発話音声に対する他の発話者の応答に基づいて、キーワードの存在を示唆する発話応答の特徴を抽出する発話応答特徴抽出部と、上記抽出された発話応答の特徴に基づいて特定した発話区間の発話音声から前記キーワードを抽出するキーワード抽出部と、を含む。   In order to solve the above-described conventional problems, the present invention includes a voice input unit that inputs a utterance voice of a speaker, a utterance section determination unit that determines a utterance section for each utterer with respect to the input utterance voice, and A speech recognition unit that recognizes the speech of the determined speech section for each speaker, and a speech response that suggests the presence of a keyword based on the responses of other speakers to the speech of each speaker An utterance response feature extraction unit that extracts features, and a keyword extraction unit that extracts the keywords from the utterance speech of the utterance section specified based on the extracted utterance response features.

本発明に係るキーワード抽出装置によれば、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することができる。   According to the keyword extracting device of the present invention, it is possible to extract a keyword in a conversation without predicting and preparing the keyword in the conversation in advance.

以下、本発明の実施の形態1〜5について図面を参照しながら説明する。実施の形態1〜5は、例えば、2人の発話者A、Bが、携帯電話等の情報端末を用いて会話している場面を想定して説明する。
(実施の形態1)
図1は、本発明の実施の形態1におけるキーワード抽出装置を含むシステム全体の構成例を示すブロック図である。
図1において、キーワード抽出装置100は、ある発話者Aの情報端末であり、インターネット等のネットワーク400へ接続できるように構成されている。ネットワーク400には、別の発話者Bの情報端末200や検索サーバ300が接続されるように構成されている。キーワード抽出装置100および情報端末200は、携帯電話、ノート型パソコン、携帯情報端末等の情報端末である。検索サーバ300は、公知の検索エンジンを搭載したサーバである。
Embodiments 1 to 5 of the present invention will be described below with reference to the drawings. In the first to fifth embodiments, for example, a case where two speakers A and B are talking using an information terminal such as a mobile phone will be described.
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration example of the entire system including a keyword extracting device according to Embodiment 1 of the present invention.
In FIG. 1, a keyword extraction device 100 is an information terminal of a certain speaker A, and is configured to be connected to a network 400 such as the Internet. The network 400 is configured to be connected to the information terminal 200 and the search server 300 of another speaker B. The keyword extraction device 100 and the information terminal 200 are information terminals such as a mobile phone, a notebook personal computer, and a mobile information terminal. The search server 300 is a server equipped with a known search engine.

キーワード抽出装置100は、音声入力部101、発話区間判定部102、音声認識部103、割込検出部104、キーワード抽出部105、キーワード検索部106および表示部107を有する。
音声入力部101は、発話者の音声(以下、発話音声という)を入力するためのものである。音声入力部101は、例えば、マイクロフォン、ネットワーク400との通信インターフェース等が該当する。
The keyword extraction device 100 includes a voice input unit 101, a speech segment determination unit 102, a voice recognition unit 103, an interrupt detection unit 104, a keyword extraction unit 105, a keyword search unit 106, and a display unit 107.
The voice input unit 101 is for inputting a voice of a speaker (hereinafter referred to as “speech voice”). The voice input unit 101 corresponds to, for example, a microphone, a communication interface with the network 400, or the like.

発話区間判定部102は、上記入力された発話音声について、発話者ごとの発話区間を判定する。発話区間とは、発話者が会話を開始し初めてから終了するまでの区間をいう。
例えば、発話者Aと発話者Bの会話が、図2(a)または図2(b)に示すような場合、発話区間判定部102は、発話者Aの会話の開始時間ts1から終了時間te1までの区間、すなわちts1−te1を発話者Aの発話区間1として判定する。さらに、発話区間判定部102は、発話者Bの会話の開始時間ts2から終了時間te2までの区間、すなわちts2−te2の区間を発話者Bの発話区間2として判定する。
The utterance section determination unit 102 determines an utterance section for each speaker with respect to the input utterance voice. The utterance section refers to a section from the beginning to the end of the conversation by the speaker.
For example, when the conversation between the speaker A and the speaker B is as shown in FIG. 2 (a) or FIG. 2 (b), the speech segment determination unit 102 determines the end time te1 from the conversation start time ts1 of the speaker A. The section up to that time, that is, ts1-te1 is determined as the utterance section 1 of the speaker A. Furthermore, the utterance section determination unit 102 determines the section from the start time ts2 to the end time te2 of the conversation of the speaker B, that is, the section of ts2-te2 as the speech section 2 of the speaker B.

図1に戻って、音声認識部103は、上記判定された発話区間の発話音声を発話者ごとに認識する。具体的には、音声認識部103は、すべての発話者の会話音声について、公知の音声認識技術によりテキスト文字化する。さらに、音声認識部103は、個々の発話者の会話音声について、その開始時間(開始点)および終了時間(終了点)を対応づける。   Returning to FIG. 1, the voice recognition unit 103 recognizes the uttered voice of the determined utterance section for each speaker. More specifically, the voice recognition unit 103 converts the conversation voices of all the speakers into text characters using a known voice recognition technique. Furthermore, the voice recognition unit 103 associates the start time (start point) and the end time (end point) of the conversation voice of each speaker.

割込検出部104(発話応答特徴抽出部)は、上記判定された発話区間について、各発話者の発話音声に基づいて発話の特徴、すなわち先行発話と後行発話とが重なる割り込みを検出する。例えば、発話者Aと発話者Bの会話が、図2(b)に示した会話の場合、割込検出部104は、発話者Aの先行発話の途中、すなわちts1で発話者Bの後行発話が開始されているので、上記割り込みを検出する。この検出方法は次のとおりである。
すなわち、割込検出部104は、まず、後行発話の開始時間からその直前の先行発話の終了時間までの区間(以下、発話間隔という)を計測する。例えば、図2(a)(b)の場合、割込検出部104は、発話間隔=図2(a)(b)のts2−te1の算出式を用いて、発話間隔を計算する。次に、割込検出部104は、上記計算の結果、発話間隔がマイナスの値(図2(b)参照)になるかどうかを判断する。そして、割込検出部104は、当該発話間隔がマイナスの値の場合(図2(b)参照)、割り込みがあるものとして検出することとなる。
The interrupt detection unit 104 (speech response feature extraction unit) detects an interrupt in which the utterance feature, that is, the preceding utterance and the subsequent utterance overlap, based on the utterance voice of each utterer for the determined utterance period. For example, when the conversation between the speaker A and the speaker B is the conversation shown in FIG. 2B, the interrupt detection unit 104 follows the speaker B in the middle of the preceding speech of the speaker A, that is, at ts1. Since the utterance has been started, the interrupt is detected. This detection method is as follows.
That is, the interrupt detection unit 104 first measures a section (hereinafter referred to as an utterance interval) from the start time of the subsequent utterance to the end time of the immediately preceding utterance. For example, in the case of FIGS. 2A and 2B, the interrupt detection unit 104 calculates the speech interval using the calculation formula of utterance interval = ts2-te1 in FIGS. 2A and 2B. Next, the interrupt detection unit 104 determines whether the utterance interval becomes a negative value (see FIG. 2B) as a result of the above calculation. When the speech interval is a negative value (see FIG. 2B), the interrupt detection unit 104 detects that there is an interrupt.

キーワード抽出部105は、上記抽出された発話の特徴、すなわち先行発話と後行発話とが重なる割り込みに基づいて、音声認識部102で認識された発話音声の中から、その発話音声の会話内で話題になっている語(以下、キーワードという)を抽出する。具体的には、キーワード抽出部105は、音声認識部102から、音声認識部102で認識された会話音声を取得する。この会話音声には、各発話者の開始時間および終了時間が対応付けられている。また、キーワード抽出部105は、割込検出部104から、割込検出部104で割り込みが検出された発話区間(例えば、図2(b)の発話者Bの発話区間2)と、割り込まれた発話区間(例えば、図2の発話者Aの発話区間1)とを取得する。これら各発話区間は、開始時間および終了時間により対応づけられている。   Based on the extracted utterance feature, that is, the interruption in which the preceding utterance and the succeeding utterance overlap, the keyword extraction unit 105 selects the utterance voice recognized by the voice recognition unit 102 within the conversation of the utterance voice. Extract a topic word (hereinafter referred to as a keyword). Specifically, the keyword extraction unit 105 acquires the conversation voice recognized by the voice recognition unit 102 from the voice recognition unit 102. This conversation voice is associated with the start time and end time of each speaker. In addition, the keyword extraction unit 105 is interrupted by the interrupt detection unit 104 and the utterance interval (for example, the utterance interval 2 of the speaker B in FIG. 2B) in which the interruption is detected by the interrupt detection unit 104. The utterance section (for example, the utterance section 1 of the speaker A in FIG. 2) is acquired. Each of these utterance sections is associated with a start time and an end time.

さらに、キーワード抽出部105は、上記キーワードを抽出する場合、例えば、割り込まれた先行発話内の末尾(最後)の構成素(例えば名詞)をキーワードとして抽出する。ここで、先行発話内の末尾とは、割り込み時(例えば、図2(b)のts2の時間)よりも前の発話区間(例えば、図2(b)のts1−ts2)内をいう。
具体的には、まず、キーワード抽出部105は、上記取得した各発話者の発話区間(例えば、図2(b)の発話区間1、2)のうち、開始時間の早い発話者の発話区間(例えば、図2(b)の発話区間1)を選定する。次に、キーワード抽出部105は、上記選定した発話区間(例えば、図2(b)の発話区間1)において、上記取得した他の発話区間の開始時間(つまり割り込み時間、例えば図2(b)のts2)の直前の構成素(例えば名詞)を検出する。次に、キーワード抽出部105は、上記検出した構成素(例えば名詞)をキーワードとして抽出する。
Furthermore, when extracting the said keyword, the keyword extraction part 105 extracts the last component (for example, noun) in the preceding utterance interrupted as a keyword, for example. Here, the end in the preceding utterance refers to the inside of the utterance section (for example, ts1-ts2 in FIG. 2B) before the interruption (for example, the time of ts2 in FIG. 2B).
Specifically, first, the keyword extracting unit 105 selects the utterance section (for example, the utterance section of the utterer with the earlier start time from the utterance sections of the respective utterers (for example, the utterance sections 1 and 2 in FIG. 2B). For example, the utterance section 1) in FIG. 2 (b) is selected. Next, in the selected utterance section (for example, utterance section 1 in FIG. 2B), the keyword extraction unit 105 starts the other acquired utterance section (that is, interrupt time, for example, FIG. 2B). The component (for example, noun) immediately before ts2) is detected. Next, the keyword extraction unit 105 extracts the detected constituents (for example, nouns) as keywords.

キーワード検索部106は、上記抽出されたキーワードを用いて、キーワード検索を行う。具体的には、まず、キーワード検索部106は、ネットワーク400を介して、検索サーバ300へ接続する。すると、検索サーバ300は、キーワード検索部106から、上記キーワード検索の要求を受け、そのキーワード検索の検索結果を、ネットワーク400を介して、キーワード抽出装置100のキーワード検索部106に返送する。キーワード検索部106は、上記返送により、検索サーバ300から、キーワード検索の検索結果を受信する。   The keyword search unit 106 performs a keyword search using the extracted keyword. Specifically, first, the keyword search unit 106 connects to the search server 300 via the network 400. Then, the search server 300 receives the keyword search request from the keyword search unit 106, and returns the search result of the keyword search to the keyword search unit 106 of the keyword extracting device 100 via the network 400. The keyword search unit 106 receives the search result of the keyword search from the search server 300 by the return.

表示部107は、キーワード検索部106により検索された結果、すなわち検索サーバ300の検索結果を表示する。表示部107は、ディスプレイや表示パネル等の表示装置である。   The display unit 107 displays the search result by the keyword search unit 106, that is, the search result of the search server 300. The display unit 107 is a display device such as a display or a display panel.

なお、本実施の形態において、発話区間判定部102、音声認識部103、割込検出部104、キーワード抽出部105およびキーワード検索部106は、CPU等の処理装置が該当する。その他、キーワード抽出装置100は、メモリ等の記憶装置(不図示)を含む公知の構成を備えているものとする。   In the present embodiment, the speech segment determination unit 102, the speech recognition unit 103, the interrupt detection unit 104, the keyword extraction unit 105, and the keyword search unit 106 correspond to a processing device such as a CPU. In addition, the keyword extraction device 100 is assumed to have a known configuration including a storage device (not shown) such as a memory.

次に、キーワード抽出装置100の動作について図3を参照して説明する。図3では、例えば、2人の発話者A、Bが、キーワード抽出装置100や情報端末200を用いて会話していることを前提にして説明する。
まず、キーワード抽出装置100(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間を判定する(ステップS101)。この判定の際、発話区間判定部102は、各発話者の発話音声の大きさがしきい値以上であるかどうかを判断し、しきい値以上である区間を発話区間として判定する。
例えば、発話者Aと発話者Bの会話が、図2(a)または図2(b)に示すような場合、発話区間判定部102は、発話者Aの会話の開始時間ts1から終了時間te1までの区間、すなわちts1−te2を発話者Aの発話区間1として判定する。さらに、発話区間判定部103は、発話者Bの会話の開始時間ts2から終了時間te2までの区間、ts2−te2の区間を発話者Bの発話区間2として判定する。
Next, the operation of the keyword extracting device 100 will be described with reference to FIG. In FIG. 3, for example, it is assumed that two speakers A and B are having a conversation using the keyword extraction device 100 and the information terminal 200.
First, the keyword extraction device 100 (the utterance section determination unit 102) determines an utterance section for each speaker with respect to the utterance voices input from the voice input unit 100 and the information terminal 200 (step S101). At the time of this determination, the utterance section determination unit 102 determines whether or not the volume of the uttered voice of each speaker is equal to or greater than a threshold value, and determines a section that is equal to or greater than the threshold value as the utterance section.
For example, when the conversation between the speaker A and the speaker B is as shown in FIG. 2 (a) or FIG. 2 (b), the speech segment determination unit 102 determines the end time te1 from the conversation start time ts1 of the speaker A. The section up to that time, that is, ts1-te2 is determined as the utterance section 1 of the speaker A. Further, the utterance section determination unit 103 determines the section from the start time ts2 to the end time te2 of the conversation of the speaker B, and the section ts2-te2 as the speech section 2 of the speaker B.

次に、キーワード抽出装置100(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。この認識は、例えば、周波数帯域による特徴分析により行われるものとする。さらに、音声認識部103は、上記認識を行う際に、すべての発話者の会話音声について、公知の音声認識技術によりテキスト文字化する。   Next, the keyword extraction device 100 (voice recognition unit 103) recognizes the utterance voice of the determined utterance section for each speaker (step S102). This recognition shall be performed by the feature analysis by a frequency band, for example. Furthermore, when performing the above recognition, the speech recognition unit 103 converts the conversation speech of all the speakers into text characters using a known speech recognition technique.

次に、キーワード抽出装置100(割込検出部104)は、上記判定された発話区間により割り込みを検出する(ステップS103)。具体的には、割込検出部104は、後行発話の開始時間からその直前の先行発話の終了時間を差し引いた間隔、すなわち発話間隔(例えば、図2(a)(b)のte1−ts2)を計算する。そして、この計算の結果、発話間隔の値(例えば、図2(b)のte1−ts2=発話間隔)がマイナスであれば、割込検出部104は、後行発話の割り込みがあったと判断する。   Next, the keyword extraction device 100 (interrupt detection unit 104) detects an interrupt based on the determined speech period (step S103). Specifically, the interrupt detection unit 104 subtracts the end time of the immediately preceding utterance from the start time of the subsequent utterance, that is, the utterance interval (for example, te1-ts2 in FIGS. 2A and 2B). ). As a result of this calculation, if the value of the speech interval (for example, te1-ts2 = speech interval in FIG. 2B) is negative, the interrupt detection unit 104 determines that there is an interruption of the subsequent speech. .

次に、キーワード抽出装置100(キーワード抽出部105)は、上記検出された割り込みのあった音声会話(ステップS102で認識された音声会話)内のキーワードを抽出して決定する(ステップS104)。具体的には、キーワード抽出部105は、後行発話の直前にある先行発話内の名詞を抽出し、この名詞を当該発話内のキーワードとして決定する。
例えば、図2(b)のts1の時点において、発話者Aが「今度、新東京タワーが…」と話し始めたときに、図2(b)のts2の時点において、発話者Bが「ああ、それってどこにできるんですか?」と会話を始めた場合、キーワード抽出部105は、ts2の直前にある発話者Aの「新東京タワー」という名詞をキーワードとして決定する。これにより、キーワード抽出部105は、事前に予想したキーワードを登録したデータベースから「新東京タワー」のキーワードを抽出することなく、「新東京タワー」を会話内で話題になっている語として決定することができる。
Next, the keyword extraction device 100 (keyword extraction unit 105) extracts and determines the keywords in the detected voice conversation (interactive voice recognition recognized in step S102) with the interruption (step S104). Specifically, the keyword extraction unit 105 extracts a noun in the preceding utterance immediately before the subsequent utterance, and determines this noun as a keyword in the utterance.
For example, when utterer A starts to speak “This time, New Tokyo Tower ...” at the time ts1 in FIG. 2B, the utterer B is “oh” at the time ts2 in FIG. When the conversation begins, “Where is it possible?”, The keyword extraction unit 105 determines the noun “Shin Tokyo Tower” of the speaker A immediately before ts2 as a keyword. As a result, the keyword extraction unit 105 determines “New Tokyo Tower” as a topic in the conversation without extracting the keyword of “New Tokyo Tower” from the database in which keywords predicted in advance are registered. be able to.

なお、キーワード抽出部105は、上記発話間隔がプラスの値を示す場合(図2(a)参照)、発話中のキーワードがないものと判断し、キーワードを抽出しない。   Note that when the utterance interval shows a positive value (see FIG. 2A), the keyword extraction unit 105 determines that there is no keyword being uttered, and does not extract the keyword.

次に、キーワード抽出装置100(キーワード検索部106)は、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。具体的には、まず、キーワード検索部106は、ネットワーク400を介して、検索サーバ300に対し、上記キーワード検索を要求する。すると、検索サーバ300は、上記要求を受けたキーワード検索を行い、その検索結果をキーワード検索部106に送信する。次に、キーワード検索部106は、検索サーバ300から送信された検索結果を受信する。   Next, the keyword extraction device 100 (keyword search unit 106) performs keyword search for the determined keyword (step S105). Specifically, the keyword search unit 106 first requests the search server 300 for the keyword search via the network 400. Then, the search server 300 performs a keyword search in response to the request, and transmits the search result to the keyword search unit 106. Next, the keyword search unit 106 receives the search result transmitted from the search server 300.

次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、会話内のキーワード(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。   Next, the keyword search unit 106 displays the received search result on the display unit 107 (step S106). Thereby, the speaker can grasp the information (search result) related to the keyword (for example, New Tokyo Tower) in the conversation.

また、割込検出部104の代わりに、発話間隔が予め設定した閾値(例えば3秒)以上である沈黙を検出する沈黙検出部を動作させることも、キーワードの存在を示唆する発話応答の特徴を抽出する上で有用である。   Also, in place of the interrupt detection unit 104, operating a silence detection unit that detects silence whose utterance interval is greater than or equal to a predetermined threshold (for example, 3 seconds) can also be characterized by an utterance response that suggests the presence of a keyword. Useful for extraction.

以上説明したように、本実施の形態によると、キーワード抽出装置100は、キーワードの存在を示唆する発話応答の特徴としての割り込みを検出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100においては、会話内のキーワードを事前に予想してデータベース等に登録する準備を行うことなく、発話者の割り込みの有無から、会話内のキーワードを抽出することができる。   As described above, according to the present embodiment, the keyword extraction device 100 detects an interrupt as a feature of an utterance response that suggests the presence of a keyword, and extracts a keyword in the conversation. For this reason, the keyword extraction apparatus 100 can extract a keyword in a conversation based on the presence or absence of a speaker's interruption without predicting the keyword in the conversation in advance and registering it in a database or the like.

なお、実施の形態1において、キーワード抽出装置100は、図3のステップS101〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100は、図3の各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。   In the first embodiment, the keyword extracting apparatus 100 has been described with respect to the case where the processes of steps S101 to S106 in FIG. 3 are sequentially performed, but the present invention is not limited to this. For example, the keyword extraction device 100 may execute the steps in FIG. 3 by changing the order of the steps, or may execute the steps in parallel.

(実施の形態2)
実施の形態2のキーワード抽出装置は、発話応答の特徴であるピッチ(音の高さ)のパターンに基づいて、会話内のキーワードを抽出するものである。
図4は、本発明の実施の形態2におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態2においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
図4において、キーワード抽出装置100Aは、図1の実施の形態1の割込検出部104に代えて、ピッチ判定部201およびピッチパターン判定部202を有する。さらに、キーワード抽出装置100Aは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Aを有する点が、実施の形態1と異なる。ピッチ判定部201、ピッチパターン判定部202およびキーワード抽出部105Aは、CPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
(Embodiment 2)
The keyword extracting apparatus according to the second embodiment extracts keywords in a conversation based on a pitch (sound pitch) pattern that is a feature of an utterance response.
FIG. 4 is a block diagram illustrating a configuration example of the keyword extracting device according to the second embodiment of the present invention. In the second embodiment, the same parts as those in the first embodiment are denoted by the same reference numerals and terms as those in the first embodiment, and redundant description is omitted.
In FIG. 4, the keyword extraction device 100 </ b> A includes a pitch determination unit 201 and a pitch pattern determination unit 202 instead of the interrupt detection unit 104 of the first embodiment in FIG. 1. Furthermore, the keyword extraction device 100A is different from the first embodiment in that it includes a keyword extraction unit 105A instead of the keyword extraction unit 105 of the first embodiment in FIG. The pitch determination unit 201, the pitch pattern determination unit 202, and the keyword extraction unit 105A are processing devices such as a CPU. In addition, the configuration of the entire system including the information terminal 200 is the same as that of FIG.

ピッチ判定部201およびピッチパターン判定部202(これらを併せて発話応答特徴抽出部ともいう)は、発話区間判定部102により判定された発話区間について、各発話者の発話音声に基づいて、発話の特徴であるピッチパターンを抽出する。具体的には、ピッチ判定部201は、発話音声のピッチを判定する。本実施の形態のピッチ判定部201は、例えば、10msごとに発話音声を分割してピッチを判定する。   The pitch determination unit 201 and the pitch pattern determination unit 202 (also collectively referred to as an utterance response feature extraction unit) perform the utterance of the utterance interval determined by the utterance interval determination unit 102 based on the utterance speech of each speaker. A pitch pattern that is a feature is extracted. Specifically, the pitch determination unit 201 determines the pitch of the speech voice. The pitch determination unit 201 of the present embodiment determines the pitch by dividing the uttered speech every 10 ms, for example.

ピッチパターン判定部202は、上記判定されたピッチに基づいて、先行発話の末尾が下降ピッチ(図5のtc1−te1間参照)で、かつ、その先行発話の直後の後行発話が上昇ピッチ(図5のtc2−te2間参照)となるピッチパターン(発話の特徴)を判定する。この判定例を図5に示す。図5の横軸は時間を表し、縦軸は周波数を表す。
図5の発話区間ts1−te1には、「新東京タワーが」という先行発話があり、発話区間ts2−te2には、「それって・・・ですか?」という後行発話がある。そして、「新東京タワーが」の先行発話の末尾には下降ピッチが判定され、「それって・・・ですか?」の後行発話には上昇ピッチが判定されている。このように判定されるのは、ピッチパターン判定部202が次のように判定したからである。
Based on the determined pitch, the pitch pattern determination unit 202 has a descending pitch at the end of the preceding utterance (see tc1-te1 in FIG. 5), and a succeeding utterance immediately after the preceding utterance is an ascending pitch ( The pitch pattern (characteristic of the utterance) to be determined (see between tc2 and te2 in FIG. 5) is determined. An example of this determination is shown in FIG. The horizontal axis in FIG. 5 represents time, and the vertical axis represents frequency.
In the utterance section ts1-te1, there is a preceding utterance “New Tokyo Tower”, and in the utterance section ts2-te2, there is a subsequent utterance “Is that? A descending pitch is determined at the end of the preceding utterance of “New Tokyo Tower”, and an ascending pitch is determined for the subsequent utterance of “Is that ...?”. This determination is made because the pitch pattern determination unit 202 determines as follows.

すなわち、ピッチパターン判定部202は、図5の「新東京タワーが」の発話区間ts1−te1において、その中点tc1の周波数fよりも、発話区間の末尾(終了時)の周波数fが高いので上昇ピッチと判定したからである。また、ピッチパターン判定部202は、図5の「なんですか?」の発話区間ts2−te2において、その中点tc2の周波数fよりも、発話区間の末尾(終了時)の周波数fが低いので下降ピッチと判定したからである。   That is, the pitch pattern determination unit 202 has a higher frequency f at the end (at the end) of the utterance section than the frequency f at the midpoint tc1 in the utterance section ts1-te1 of “New Tokyo Tower is” in FIG. This is because it is determined that the pitch is rising. In addition, the pitch pattern determination unit 202 decreases in the utterance interval ts2-te2 of “What?” In FIG. 5 because the frequency f at the end (at the end) of the utterance interval is lower than the frequency f at the midpoint tc2. This is because the pitch is determined.

なお、本実施の形態のピッチパターン判定部202は、発話区間の中点の周波数を基準にして上昇ピッチまたは下降ピッチを判定する場合について説明するが、これに限られない。例えば、ピッチ判定部201は、発話区間の終了時(例えば図5のte1、te2)から、あらかじめ定められた区間(例えば時間T)遡った時点を基準にして判定してもよい。   In addition, although the pitch pattern determination part 202 of this Embodiment demonstrates the case where a raise pitch or a fall pitch is determined on the basis of the frequency of the middle point of an utterance area, it is not restricted to this. For example, the pitch determination unit 201 may perform determination based on a time point that is a predetermined period (for example, time T) from the end of the utterance period (for example, te1 and te2 in FIG. 5).

キーワード抽出部105Aは、上記判定されたピッチパターンに示された先行発話の中から、キーワードを抽出する。この抽出に際し、キーワード抽出部105Aは、例えば、上記ピッチパターンに示された先行発話内の末尾の構成素(例えば名詞)をキーワードとして抽出する。   The keyword extraction unit 105A extracts keywords from the preceding utterances shown in the determined pitch pattern. In this extraction, the keyword extraction unit 105A extracts, for example, the last constituent (for example, a noun) in the preceding utterance shown in the pitch pattern as a keyword.

次に、キーワード抽出装置100Aの動作について図6を参照して説明する。図6では、例えば、発話者Aが、キーワード抽出装置100Aを用いて「今度、新東京タワーが・・・」と言った後、発話者Bが、情報端末200を用いて「それって・・・ですか?」と言うことを前提にして説明する。なお、図7のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。   Next, the operation of the keyword extracting device 100A will be described with reference to FIG. In FIG. 6, for example, the speaker A uses the keyword extraction device 100A to say “Now, Tokyo Tower ...”, and then the speaker B uses the information terminal 200 to say “ Explain on the premise of saying "...?" 7 are the same as steps S101 to S102 and S105 to S106 in FIG. 3, and will be omitted as appropriate.

まず、キーワード抽出装置100A(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間(図2(a)の発話区間1、図2(b)の発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100A(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。   First, the keyword extraction device 100A (the utterance section determination unit 102) uses the utterance section for each utterer (the utterance section 1 in FIG. 2A, FIG. 2) for the utterance speech input from the voice input section 100 and the information terminal 200. (See utterance section 2 in (b)) (step S101). Next, the keyword extraction device 100A (voice recognition unit 103) recognizes the utterance voice of the determined utterance section for each speaker (step S102).

次に、キーワード抽出装置100A(ピッチ判定部201)は、例えば発話者Aの先行発話の発話区間1(図2(a)参照)および発話者Bの後行発話の発話区間2(図2(b)参照)の発話音声に基づいて、発話音声のピッチを判定する(ステップS103A)。   Next, the keyword extraction device 100A (pitch determination unit 201), for example, the utterance section 1 of the preceding utterance of the speaker A (see FIG. 2A) and the utterance section 2 of the subsequent utterance of the speaker B (FIG. 2 ( Based on the uttered voice of (b), the pitch of the uttered voice is determined (step S103A).

次に、キーワード抽出装置100A(ピッチパターン判定部202)は、上記判定されたピッチに基づいて、先行発話から後行発話へ移行した場合に、下降ピッチから上昇ピッチとなるピッチパターンがあるかを判定する(ステップS103B)。具体的には、ピッチパターン判定部202は、先行発話の末尾が下降ピッチ(図5のtc1−te1間参照)で、かつ、その先行発話の直後の後行発話が上昇ピッチ(図5のtc2−te2間参照)となるピッチパターンを判定する。   Next, the keyword extraction device 100A (pitch pattern determination unit 202) determines whether there is a pitch pattern that changes from the descending pitch to the ascending pitch when the preceding utterance is shifted to the succeeding utterance based on the determined pitch. Determination is made (step S103B). Specifically, the pitch pattern determination unit 202 determines that the end of the preceding utterance is the descending pitch (see tc1-te1 in FIG. 5), and the succeeding utterance immediately after the preceding utterance is the ascending pitch (tc2 in FIG. 5). The pitch pattern is determined.

次に、キーワード抽出装置100A(キーワード抽出部105A)は、上記判定されたピッチパターンに示された発話音声(ステップS102で認識されたもの)の先行発話(例えば、図5の「新東京タワーが」)の中から、キーワードを抽出する(ステップS104A)。この抽出に際し、キーワード抽出部105Aは、例えば、上記ピッチパターンに示された先行発話内の末尾の名詞である「新東京タワー」をキーワードとして抽出する。   Next, the keyword extraction device 100A (keyword extraction unit 105A) determines the preceding utterance of the utterance voice (recognized in step S102) indicated in the determined pitch pattern (for example, “New Tokyo Tower ]), Keywords are extracted (step S104A). In this extraction, the keyword extraction unit 105A extracts, for example, “Shin Tokyo Tower”, which is the last noun in the preceding utterance shown in the pitch pattern, as a keyword.

次に、キーワード抽出装置100A(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。   Next, the keyword extraction device 100A (keyword search unit 106) performs keyword search for the determined keyword on the search server 300 via the network 400 (step S105). Next, the keyword search unit 106 displays the received search result on the display unit 107 (step S106). Thereby, the speaker can grasp information (search result) related to the topic word (for example, New Tokyo Tower).

以上説明したように、本実施の形態によると、キーワード抽出装置100Aは、キーワードの存在を示唆する発話応答の特徴であるピッチパターンを判定して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Aにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、ピッチパターンの有無から、会話内のキーワードを抽出することができる。   As described above, according to the present embodiment, keyword extracting apparatus 100A determines a pitch pattern that is a feature of an utterance response that suggests the presence of a keyword, and extracts a keyword in a conversation. For this reason, the keyword extraction device 100A can extract keywords in a conversation from the presence or absence of a pitch pattern without preparing in advance for registering the keywords used in the conversation in a database or the like. .

なお、実施の形態2において、キーワード抽出装置100Aは、図7のステップS101〜S102、S103A〜S103B、S104A、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Aは、図7の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。   In the second embodiment, the keyword extraction apparatus 100A has been described with respect to the case where the processes of steps S101 to S102, S103A to S103B, S104A, and S105 to S106 in FIG. 7 are sequentially performed, but the present invention is not limited to this. For example, the keyword extracting device 100A may execute the steps in FIG. 7 by changing the order of the steps, or may execute the steps in parallel.

(実施の形態3)
実施の形態3のキーワード抽出装置は、発話応答の特徴である機能フレーズに基づいて、会話内のキーワードを抽出するものである。
図7は、本発明の実施の形態3におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態3においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
図7において、キーワード抽出装置100Bは、図1の実施の形態1の割込検出部104に代えて、機能フレーズ抽出部301(発話応答特徴抽出部)を有する。さらに、キーワード抽出装置100Bは、機能フレーズ記憶部302を有する。また、キーワード抽出装置100Bは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Bを有する点が、実施の形態1と異なる。なお、機能フレーズ抽出部301は、CPU等の処理装置であり、機能フレーズ記憶部302は、メモリ等の記憶装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
(Embodiment 3)
The keyword extraction device according to the third embodiment extracts keywords in a conversation based on a function phrase that is a feature of an utterance response.
FIG. 7 is a block diagram illustrating a configuration example of the keyword extraction device according to Embodiment 3 of the present invention. In the third embodiment, the same reference numerals and terms as those in the first embodiment are assigned to the same parts as those in the first embodiment, and the duplicate description is omitted.
In FIG. 7, the keyword extraction device 100B has a function phrase extraction unit 301 (utterance response feature extraction unit) instead of the interrupt detection unit 104 of the first embodiment in FIG. Furthermore, the keyword extraction device 100B includes a function phrase storage unit 302. Further, the keyword extraction device 100B is different from the first embodiment in that it includes a keyword extraction unit 105B instead of the keyword extraction unit 105 of the first embodiment in FIG. The function phrase extraction unit 301 is a processing device such as a CPU, and the function phrase storage unit 302 is a storage device such as a memory. In addition, the configuration of the entire system including the information terminal 200 is the same as that of FIG.

機能フレーズ記憶部302は、あらかじめ定められた機能フレーズを記憶する。この機能フレーズは、応答の種類を表す語であり、種々の異なる会話内容にかかわらず、会話共通に使用されるものである。例えば、機能フレーズとして、「ですか?」等の疑問文、「いいね」「なるほど」「それだ」等の同意文、「違う」等の否定文、「お願いします」等の依頼文、「ああ」などの感嘆文、「なんでやねん」等の突っ込み文などが該当する。   The function phrase storage unit 302 stores a predetermined function phrase. This function phrase is a word representing the type of response, and is used in common with conversations regardless of various different conversation contents. For example, as a functional phrase, a question sentence such as “Is it?”, An agreement sentence such as “Like” or “I see” or “It is”, a negative sentence such as “No”, a request sentence such as “Please” Exclamation sentences such as “Oh” and indentation sentences such as “Nadeyanen” are applicable.

機能フレーズ抽出部301は、発話音声の中から、当該発話音声の特徴である上記機能フレーズを抽出する。具体的には、機能フレーズ抽出部301は、抽出対象となる発話音声に含まれる語と、機能フレーズ記憶部302の機能フレーズとを比較し、当該発話音声に含まれる機能フレーズを抽出する。   The functional phrase extraction unit 301 extracts the functional phrase that is a feature of the uttered voice from the uttered voice. Specifically, the functional phrase extraction unit 301 compares a word included in the speech to be extracted with a functional phrase in the functional phrase storage unit 302, and extracts a functional phrase included in the speech.

次に、キーワード抽出装置100Bの動作について図8を参照して説明する。図8では、例えば、発話者Aが、キーワード抽出装置100Bを用いて「今度、新東京タワーができるんだって。」と言った後に、発話者Bが、情報端末200を用いて「ああ、それってどこにできるんですか?」と言うことを前提にして説明する。なお、図8のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略する。   Next, the operation of the keyword extracting device 100B will be described with reference to FIG. In FIG. 8, for example, after the speaker A uses the keyword extraction device 100 </ b> B to say “This time, New Tokyo Tower can be created.”, The speaker B uses the information terminal 200 to say “Oh, it "Where can I do that?" Note that the processes in steps S101 to S102 and S105 to S106 in FIG. 8 are the same as the processes in steps S101 to S102 and S105 to S106 in FIG.

まず、キーワード抽出装置100B(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間(図2(a)の発話区間1、図2(b)の発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100B(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。   First, the keyword extraction device 100B (the utterance section determination unit 102) uses the utterance section for each utterer (the utterance section 1 in FIG. 2A, FIG. 2) for the speech input from the voice input section 100 and the information terminal 200. (See utterance section 2 in (b)) (step S101). Next, the keyword extraction device 100B (voice recognition unit 103) recognizes the utterance voice in the determined utterance section for each speaker (step S102).

次に、キーワード抽出装置100B(機能フレーズ抽出部301)は、例えば発話者Aの先行発話の発話区間1(図2(a)参照)および発話者Bの後行発話の発話区間2(図2(b)参照)の発話音声から、疑問文等を表す機能フレーズを抽出する。具体的には、機能フレーズ抽出部301は、抽出対象となる当該発話音声に含まれる語の系列と、機能フレーズ記憶部302の機能フレーズとを比較し、当該発話音声に含まれる機能フレーズを抽出する。本実施の形態では、機能フレーズ抽出部301は、「ああ、それってどこにできるんですか?」の発話音声の中から、「ですか?」という疑問文の機能フレーズを抽出する。ここで、発話音声に含まれる語の系列は、上記音声の認識結果を利用してもよい。   Next, the keyword extraction device 100B (functional phrase extraction unit 301), for example, the utterance section 1 of the preceding utterance of the speaker A (see FIG. 2A) and the utterance section 2 of the subsequent utterance of the speaker B (FIG. 2). A functional phrase representing a question sentence or the like is extracted from the uttered voice of (b). Specifically, the functional phrase extraction unit 301 compares a sequence of words included in the uttered speech to be extracted with the functional phrase in the functional phrase storage unit 302, and extracts a functional phrase included in the uttered speech. To do. In the present embodiment, the functional phrase extraction unit 301 extracts the functional phrase of the question sentence “Is it?” From the utterance voice of “Oh, where can I do it?”. Here, the speech recognition result may be used for the word sequence included in the speech voice.

次に、キーワード抽出装置100B(キーワード抽出部105B)は、上記抽出された機能フレーズを含む発話の直前の発話音声(ステップS102で認識されたもの)から、キーワードを抽出する(ステップS104B)。このキーワードの抽出に際し、キーワード抽出部105Bは、例えば、上記直前の発話である「今度、新東京タワーができるんだって。」から、その末尾(割り込み直前)の名詞である「新東京タワー」をキーワードとして抽出する。   Next, the keyword extraction device 100B (keyword extraction unit 105B) extracts a keyword from the utterance voice immediately before the utterance including the extracted functional phrase (recognized in step S102) (step S104B). When extracting this keyword, the keyword extraction unit 105B, for example, from the previous utterance "Now, you can make New Tokyo Tower." Extract as keywords.

次に、キーワード抽出装置100B(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記抽出されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、会話内で話題になっているキーワード(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。   Next, the keyword extraction device 100B (keyword search unit 106) performs keyword search for the extracted keyword on the search server 300 via the network 400 (step S105). Next, the keyword search unit 106 displays the received search result on the display unit 107 (step S106). Thereby, the speaker can grasp information (search result) related to a keyword (for example, New Tokyo Tower) which is a topic in the conversation.

また本実施の形態によると、発話者Aが「あれって何だっけ?」と質問して、発話者Bが「新東京タワーのことかな。」と答える場合のように、先行発話から疑問文の機能フレーズ(「何だっけ?」)を抽出した場合に、その直後の後行発話から、キーワード(「新東京タワー」)を抽出するようにキーワード抽出部105Bを動作させることも可能である。その際、直前の発話音声からキーワードを抽出するか、直後の発話音声からキーワードを抽出するかは、以下の通り切り替えることができる。すなわち、指示代名詞「それ」を含む場合には直前の発話から、指示代名詞「あれ」を含む場合には直後の発話から、その他の場合には直後の発話からと切り替えて使うことができる。その際、実施の形態2と同様の方法で、先行発話が上昇ピッチ、後行発話が下降ピッチとなるピッチパターンを利用(併用)することで、発話応答の特徴を捉えても良い。   In addition, according to the present embodiment, the question from the previous utterance, such as when the speaker A asks "What is that?" And the speaker B answers "What is the New Tokyo Tower?" When the functional phrase of the sentence (“What was it?”) Is extracted, the keyword extraction unit 105B can be operated so as to extract the keyword (“New Tokyo Tower”) from the subsequent utterance. is there. At this time, whether the keyword is extracted from the immediately preceding utterance speech or the keyword is extracted from the immediately following utterance speech can be switched as follows. That is, it can be used by switching from the immediately preceding utterance when the pronoun pronoun “it” is included, from the immediately following utterance when including the indicating pronoun “that”, and from the immediately following utterance in other cases. At that time, the feature of the utterance response may be captured by using (using in combination) a pitch pattern in which the preceding utterance is the rising pitch and the subsequent utterance is the descending pitch in the same manner as in the second embodiment.

以上説明したように、本実施の形態によると、キーワード抽出装置100Bは、会話内容(ジャンル)にかかわらず共通に使用される機能フレーズ(疑問文等)を抽出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Bにおいては、会話文から、共通に使用される機能フレーズを抽出してキーワードを抽出することができる。よって、キーワード抽出装置100Bにおいては、個々のジャンルの会話に応じたキーワードを事前に予想してデータベース等に登録する準備を行うことなく、キーワードを抽出することができるので、有益である。   As described above, according to the present embodiment, the keyword extraction device 100B extracts functional phrases (question sentences, etc.) that are commonly used regardless of the conversation content (genre), and extracts keywords in the conversation. To do. For this reason, in the keyword extracting device 100B, it is possible to extract a keyword by extracting a commonly used function phrase from the conversation sentence. Therefore, the keyword extraction device 100B is useful because it can extract keywords without preparing in advance a keyword corresponding to each genre conversation and registering it in a database or the like.

なお、実施の形態3において、キーワード抽出装置100Bは、図8のステップS101〜S102、S103C、S104B、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Bは、図9の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。   In the third embodiment, the keyword extraction apparatus 100B has been described with respect to the case where the processes of steps S101 to S102, S103C, S104B, and S105 to S106 in FIG. 8 are sequentially performed. However, the present invention is not limited to this. For example, the keyword extracting device 100B may execute the steps in FIG. 9 by changing the order of the steps, or may execute the steps in parallel.

(実施の形態4)
実施の形態4のキーワード抽出装置は、発話音声を聞いた人の表情の変化に基づいて、会話内のキーワードを抽出するものである。
図9は、本発明の実施の形態4におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態4においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
(Embodiment 4)
The keyword extraction device according to the fourth embodiment extracts keywords in a conversation based on changes in the facial expression of a person who has heard spoken speech.
FIG. 9 is a block diagram illustrating a configuration example of the keyword extracting device according to the fourth embodiment of the present invention. In the fourth embodiment, the same reference numerals and terms as those in the first embodiment are assigned to the same parts as those in the first embodiment, and the duplicate description is omitted.

図9において、キーワード抽出装置100Cは、図1の実施の形態1の割込検出部104に代えて、映像入力部401および表情認識部402(これらを併せて発話応答特徴抽出部ともいう)を有する。さらに、キーワード抽出装置100Cは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Cを有する点が、実施の形態1と異なる。なお、画像入力部401は、カメラであり、表情認識部402はCPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。   In FIG. 9, the keyword extraction device 100 </ b> C includes a video input unit 401 and a facial expression recognition unit 402 (also collectively referred to as an utterance response feature extraction unit) instead of the interrupt detection unit 104 of the first embodiment in FIG. 1. Have. Further, the keyword extraction apparatus 100C is different from the first embodiment in that it includes a keyword extraction unit 105C instead of the keyword extraction unit 105 of the first embodiment in FIG. The image input unit 401 is a camera, and the facial expression recognition unit 402 is a processing device such as a CPU. In addition, the configuration of the entire system including the information terminal 200 is the same as that of FIG.

映像入力部401は、ユーザの顔部分を含む画像データを入力するためのものである。表情認識部402は、該画像データをユーザの表情推定処理が可能なディジタルデータの元画像データに変換すると、元画像データに含まれるユーザの顔領域を抽出し、抽出された顔領域から、ユーザの顔を構成する目や口などの少なくとも一つ以上の顔器官の輪郭位置を抽出する。そして、表情認識部402は、複数の映像フレームに亘って取得した顔器官の上端及び下端の輪郭を抽出して、顔器官の輪郭の開き具合や曲がり具合からユーザの表情(例えば、中立、驚き、喜び、怒りなど)を認識する。
その際、表情認識部402は、発話区間判定部102から得た発話者ごとの発話区間内の時刻と、発話者以外の人の表情の認識結果とを結びつける。さらに、表情認識部402は、該表情の認識結果から表情の変化点を抽出する。
例えば、図10において、t10は発話者Aによる発話区間1の発話開始時刻、t11、t12はt10に続く等間隔の時刻であり、t20は発話者Bによる発話区間2の発話開始時刻、t21、t22はt20に続く等間隔の時刻である。ここで、表情認識部402は、時刻t10、t11、t12のそれぞれにおける発話者Bの表情、および、時刻t20、t21、t22のそれぞれにおける発話者Aの表情とを結びつけて認識する。この例では、時刻t11における発話者Bの表情が驚きの表情であり、その他の時刻では話者によらず中立の表情となっている。すなわち、表情認識部402は、時刻t11を表情の変化点として抽出する。
The video input unit 401 is for inputting image data including a user's face portion. When the facial expression recognition unit 402 converts the image data into digital original image data that can be used to estimate the facial expression of the user, the facial expression recognition unit 402 extracts the user's face area included in the original image data, and extracts the user's face area from the extracted face area. The contour position of at least one facial organ such as eyes and mouth constituting the face is extracted. Then, the facial expression recognition unit 402 extracts the contours of the upper and lower ends of the facial organ acquired over a plurality of video frames, and determines the facial expression of the user (for example, neutrality, surprise) , Joy, anger, etc.).
At that time, the facial expression recognition unit 402 associates the time in the utterance section for each speaker obtained from the utterance section determination unit 102 with the recognition result of the facial expression of a person other than the speaker. Further, the facial expression recognition unit 402 extracts facial expression change points from the facial expression recognition result.
For example, in FIG. 10, t10 is the utterance start time of the utterance section 1 by the speaker A, t11 and t12 are equally spaced times following t10, t20 is the utterance start time of the utterance section 2 by the speaker B, t21, t22 is an equally spaced time following t20. Here, the facial expression recognition unit 402 recognizes the facial expression of the speaker B at each of the times t10, t11, and t12 and the facial expression of the speaker A at each of the times t20, t21, and t22. In this example, the expression of the speaker B at time t11 is a surprised expression, and at other times, the expression is neutral regardless of the speaker. That is, the facial expression recognition unit 402 extracts time t11 as a facial expression change point.

キーワード抽出部105Cは、上記認識された表情が、発話開始時に中立の表情であり、かつ、発話の途中で他の表情に変化したと、表情認識部402によって認識された場合に、表情の変化点に対応した時刻に発声された単語をキーワードとして抽出する。その際、キーワード抽出部105Cは、音声認識結果中の単語ごとの区間情報から表情に対応した時刻の単語を求めてもいいし、発話音声に含まれる音節数などから推定してもよい。ここでいう対応した時刻とは、単語を知覚してからその反応が表情に現れるまでの時間(例えば0.1秒)を考慮して、単語の言い終わりと表情の表出とを対応させた時刻である。   The keyword extraction unit 105C changes the facial expression when the facial expression recognition unit 402 recognizes that the recognized facial expression is a neutral facial expression at the start of the utterance and changes to another facial expression during the utterance. A word uttered at the time corresponding to the point is extracted as a keyword. At that time, the keyword extraction unit 105C may obtain the word at the time corresponding to the facial expression from the section information for each word in the speech recognition result, or may estimate it from the number of syllables included in the uttered speech. The corresponding time here refers to the time from when a word is perceived until the reaction appears in the facial expression (for example, 0.1 seconds), and the end of the word and the expression of the facial expression are associated with each other. It's time.

次に、キーワード抽出装置100Cの動作について図11を参照して説明する。図11では、例えば、発話者Aが、キーワード抽出装置100Cを用いて「新東京タワーが今度できる」と言った後、発話者Bが、情報端末200を用いて「それって何ですか?」と言うことを前提にして説明する。なお、図11のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。発話者Bの音声および映像は情報端末200を用いて入力されることになるが、便宜上、入力は発話者Aと同様に、音声入力部101および映像入力部401から入力されるものとして説明する。   Next, the operation of the keyword extracting device 100C will be described with reference to FIG. In FIG. 11, for example, the speaker A uses the keyword extraction device 100C to say “New Tokyo Tower can be done next”, and then the speaker B uses the information terminal 200 to say “What is that? ”On the assumption that“ Note that the processes in steps S101 to S102 and S105 to S106 in FIG. 11 are the same processes as steps S101 to S102 and S105 to S106 in FIG. The voice and video of the speaker B are input using the information terminal 200. For the sake of convenience, the input will be described as being input from the audio input unit 101 and the video input unit 401 in the same manner as the speaker A. .

まず、キーワード抽出装置100C(発話区間判定部102)は、音声入力部101から入力された発話音声について、発話者ごとの発話区間(図10の発話区間1、発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100C(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。   First, the keyword extraction device 100C (the utterance section determination unit 102) determines the utterance section for each speaker (see the utterance section 1 and the utterance section 2 in FIG. 10) for the uttered speech input from the speech input section 101 (see FIG. 10). Step S101). Next, the keyword extracting device 100C (voice recognition unit 103) recognizes the uttered voice of the determined utterance section for each speaker (step S102).

一方、キーワード抽出装置100C(映像入力部401および表情認識部402)は、例えば発話者Aが発声した先行発話である発話区間1の発話音声(図10参照)に対応する時刻の発話者Bの表情を認識し、発話者Bが発声した後行発話である発話区間2の発話音声(図10参照)に対応する時刻の発話者Aの表情を認識する。つまり、発話者の表情を認識するのではなく、発話音声を聞いている人の表情、すなわち発話者の発話音声に対する他の発話者の表情を認識する(ステップS103D)。   On the other hand, the keyword extraction device 100C (the video input unit 401 and the facial expression recognition unit 402), for example, of the speaker B at the time corresponding to the utterance voice (see FIG. 10) in the utterance section 1 which is the preceding utterance uttered by the speaker A. The facial expression is recognized, and the facial expression of the speaker A at the time corresponding to the utterance voice (see FIG. 10) in the utterance section 2 which is the subsequent utterance uttered by the speaker B is recognized. That is, rather than recognizing the facial expression of the speaker, the facial expression of the person who is listening to the speech, that is, the facial expression of another speaker relative to the speech of the speaker is recognized (step S103D).

次に、キーワード抽出装置100A(キーワード抽出部105C)は、上記認識された表情が、発話開始時に中立の表情であり、かつ、発話の途中で他の表情に変化したと認識された場合に、表情の変化点に対応した時刻に発声された単語をキーワードとして抽出する(ステップS104C)。前述の例では、表情が中立から驚きの表情に変化した時刻に対応する単語として「新東京タワー」が抽出される。   Next, the keyword extraction device 100A (keyword extraction unit 105C) recognizes that the recognized facial expression is a neutral facial expression at the start of utterance and has changed to another facial expression during the utterance. A word uttered at the time corresponding to the facial expression change point is extracted as a keyword (step S104C). In the above example, “New Tokyo Tower” is extracted as a word corresponding to the time when the expression changes from neutral to a surprising expression.

次に、キーワード抽出装置100C(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。   Next, the keyword extraction device 100C (keyword search unit 106) performs keyword search for the determined keyword to the search server 300 via the network 400 (step S105). Next, the keyword search unit 106 displays the received search result on the display unit 107 (step S106). Thereby, the speaker can grasp information (search result) related to the topic word (for example, New Tokyo Tower).

以上説明したように、本実施の形態によると、キーワード抽出装置100Cは、発話音声を聞いている他の人の表情の認識結果に基づいて、会話内のキーワードを抽出する。このため、キーワード抽出装置100Cにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、表情の変化として捉えられる発話応答の特徴から、会話内のキーワードを抽出することができる。   As described above, according to the present embodiment, the keyword extraction device 100C extracts keywords in a conversation based on the recognition result of the facial expression of another person who is listening to the uttered voice. For this reason, in the keyword extraction device 100C, the keyword in the conversation is obtained from the feature of the utterance response that is captured as a change in facial expression without preparing the keyword used in the conversation in advance and registering it in the database or the like. Can be extracted.

なお、表情認識部402の代わりに、目の開き具合や口の開き具合などを数値化し、それらの変化の大きさのみで表情の変化を検出しても同様の効果が得られる。   It should be noted that the same effect can be obtained by converting the expression of the eyes and the degree of opening of the mouth into numerical values instead of the facial expression recognition unit 402, and detecting changes in facial expressions based only on the magnitudes of those changes.

なお、実施の形態4において、キーワード抽出装置100Cは、図11のステップS101〜S102、S103D、S104C、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Cは、図11の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。   In the fourth embodiment, the keyword extraction device 100C has been described with respect to the case where the processes of steps S101 to S102, S103D, S104C, and S105 to S106 in FIG. 11 are sequentially performed. However, the present invention is not limited to this. For example, the keyword extraction device 100C may execute the steps in FIG. 11 by changing the order of the steps, or may execute the steps in parallel.

(実施の形態5)
実施の形態5のキーワード抽出装置は、発話音声を聞いた人の盛り上がり反応に基づいて、会話内のキーワードを抽出するものである。
図12は、本発明の実施の形態5におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態5においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
(Embodiment 5)
The keyword extraction device according to the fifth embodiment extracts keywords in a conversation based on an excitement reaction of a person who has heard an uttered voice.
FIG. 12 is a block diagram illustrating a configuration example of the keyword extracting device according to the fifth embodiment of the present invention. In the fifth embodiment, the same parts as those in the first embodiment are denoted by the same reference numerals and terms as those in the first embodiment, and redundant description is omitted.

図12において、キーワード抽出装置100Dは、図1の実施の形態1の割込検出部104に代えて、盛り上がり反応検出部501(発話応答特徴抽出部ともいう)を有する。さらに、キーワード抽出装置100Dは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Dを有する点が、実施の形態1と異なる。なお、盛り上がり反応検出部501はCPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。   In FIG. 12, the keyword extraction device 100D includes a climax reaction detection unit 501 (also referred to as an utterance response feature extraction unit) instead of the interrupt detection unit 104 of the first embodiment in FIG. Further, the keyword extraction device 100D is different from the first embodiment in that it includes a keyword extraction unit 105D instead of the keyword extraction unit 105 of the first embodiment in FIG. The swell reaction detection unit 501 is a processing device such as a CPU. In addition, the configuration of the entire system including the information terminal 200 is the same as that of FIG.

盛り上がり反応検出部501は、音声や音から盛り上がり反応を検出する。具体的には、笑い声の検出や、興奮度の高い音声の検出、拍手や膝を打つ音の検出、などにより、盛り上がり反応を検出する。盛り上がり反応検出部501は、笑い声や、拍手、膝を打つ音については、予め学習サンプルを容易して、GMM(ガンマー・ミクスチャー・モデル)を作成しておき、入力に対する尤度を求めて閾値処理することで検出する。また、盛り上がり反応検出部501は、興奮度の高い音声については、音量の大きさ、ピッチの高さ、発話速度の速さのそれぞれを話者の平均値で正規化した量を線形結合して数値化し、閾値処理することで検出する。
その際、盛り上がり反応検出部501は、発話区間判定部102で判定された発話区間の終端付近で検出された盛り上がり反応を、その発話に対応した盛り上がり反応とみなす。
The swell response detector 501 detects a sway response from voice and sound. Specifically, a swell response is detected by detecting a laughing voice, detecting a voice with a high degree of excitement, or detecting a sound of clapping or kneeling. For the laughing voice, applause, and kneeling sound, the climax reaction detection unit 501 facilitates a learning sample in advance, creates a GMM (gamma mixture model), obtains a likelihood for the input, and performs threshold processing. To detect. The excitement reaction detection unit 501 linearly combines amounts obtained by normalizing the loudness level, the pitch height, and the speaking speed with the average value of the speaker for a highly excited sound. It is detected by digitizing and threshold processing.
At this time, the climax reaction detection unit 501 regards the climax reaction detected near the end of the utterance interval determined by the utterance interval determination unit 102 as an excitement response corresponding to the utterance.

キーワード検出部105Dは、前記盛り上がり反応に対応する発話の中から、キーワードを抽出する。   The keyword detection unit 105D extracts a keyword from the utterance corresponding to the excitement reaction.

次に、キーワード抽出装置100Dの動作について図13を参照して説明する。図13では、例えば、発話者Aが、キーワード抽出装置100Cを用いて「今度、新東京タワーが・・・」と言った後、発話者Bが、情報端末200を用いて「あはは」と言って笑ったことを前提にして説明する。なお、図13のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。   Next, the operation of the keyword extracting device 100D will be described with reference to FIG. In FIG. 13, for example, the speaker A uses the keyword extraction device 100 </ b> C to say “Now, Tokyo Tower ...”, and then the speaker B uses the information terminal 200 to say “Ahaha”. I will explain on the assumption that I laughed. The processes in steps S101 to S102 and S105 to S106 in FIG. 13 are the same processes as steps S101 to S102 and S105 to S106 in FIG.

まず、キーワード抽出装置100D(発話区間判定部102)は、音声入力部101および情報端末200から入力された発話音声について、発話者ごとの発話区間を判定する(ステップS101)。次に、キーワード抽出装置100D(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。   First, the keyword extraction device 100D (the utterance section determination unit 102) determines an utterance section for each speaker from the speech input from the voice input unit 101 and the information terminal 200 (step S101). Next, the keyword extraction device 100D (voice recognition unit 103) recognizes the utterance voice in the determined utterance section for each speaker (step S102).

次に、キーワード抽出装置100D(盛り上がり反応検出501)は、例えば発話者Aが発声した発話区間の近傍で盛り上がり反応の存在を検出する(ステップS103E)。結果として、前述の発話例では、発話者Aの発話区間の直後で、笑い声のGMMが高い尤度で照合されるため、盛り上がり反応として検出される。   Next, the keyword extraction device 100D (exciting reaction detection 501) detects the presence of an enlarging reaction, for example, in the vicinity of the utterance section uttered by the speaker A (step S103E). As a result, in the above-described utterance example, the laughter voice GMM is collated with high likelihood immediately after the utterance section of the speaker A, so that it is detected as an excitement reaction.

次に、キーワード抽出装置100A(キーワード抽出部105D)は、上記盛り上がり反応に対応する発話区間内で発声された単語(例えば、「新東京タワー」)をキーワードとして抽出する(ステップS104D)。   Next, the keyword extraction device 100A (keyword extraction unit 105D) extracts, as a keyword, a word (for example, “New Tokyo Tower”) uttered in the utterance section corresponding to the excitement reaction (step S104D).

次に、キーワード抽出装置100D(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。   Next, the keyword extraction device 100D (keyword search unit 106) performs keyword search of the determined keyword to the search server 300 via the network 400 (step S105). Next, the keyword search unit 106 displays the received search result on the display unit 107 (step S106). Thereby, the speaker can grasp information (search result) related to the topic word (for example, New Tokyo Tower).

以上説明したように、本実施の形態によると、キーワード抽出装置100Dは、発話音声を聞いた人の盛り上がり反応を検出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Dにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、笑い声や拍手などの盛り上がりとして捉えられる発話応答の特徴から、会話内のキーワードを抽出することができる。   As described above, according to the present embodiment, the keyword extracting device 100D detects the excitement reaction of the person who has heard the uttered voice and extracts the keywords in the conversation. For this reason, in the keyword extraction apparatus 100D, it is possible to predict the keyword used in the conversation in advance from the characteristics of the utterance response that can be regarded as a swell and applause without preparing to register it in a database or the like. The keywords in can be extracted.

なお、実施の形態5において、キーワード抽出装置100Dは、図13のステップS101〜S102、S103E、S104D、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Dは、図13の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。   In the fifth embodiment, the keyword extraction device 100D has been described with respect to the case where the processes of steps S101 to S102, S103E, S104D, and S105 to S106 in FIG. 13 are sequentially performed. However, the present invention is not limited to this. For example, the keyword extracting device 100D may execute the steps in FIG. 13 by changing the order of the steps, or may execute the steps in parallel.

また、実施の形態1〜3および5において、キーワード抽出装置(キーワード抽出部)は、発話区間内の末尾(割り込み直前)の名詞をキーワードとして抽出する場合について説明したが、これに限られない。例えば、キーワード抽出部は、検索対象の先行発話に含まれる複数の名詞のうち、概念上の最下位の名詞をキーワードとして検索するようにしてもよい。この場合、キーワード抽出装置は、メモリ等の辞書情報記憶部(不図示)をさらに有し、この辞書情報記憶部が、概念上の上位(例えば、イタリア料理)および概念上の下位(例えば、パスタ)の名詞の関係を分類して体系づけた辞書情報を記憶する。そして、キーワード抽出部は、抽出対象の発話に含まれる名詞の中から、辞書情報記憶部(不図示)の辞書情報に含まれる概念上の最下位の名詞をキーワードとして抽出する。これにより、下位概念の名詞がキーワードとして抽出される。   In Embodiments 1 to 3 and 5, the keyword extraction device (keyword extraction unit) has described the case where the noun at the end (immediately before interruption) in the utterance section is extracted as a keyword. However, the present invention is not limited to this. For example, the keyword extraction unit may search for a noun that is conceptually lowest among a plurality of nouns included in the preceding utterance to be searched as a keyword. In this case, the keyword extraction device further includes a dictionary information storage unit (not shown) such as a memory, and the dictionary information storage unit includes a conceptual upper level (for example, Italian cuisine) and a conceptual lower level (for example, pasta). ) Is used to store dictionary information organized and organized. Then, the keyword extraction unit extracts, as keywords, the conceptually lowest nouns included in the dictionary information of the dictionary information storage unit (not shown) from the nouns included in the utterance to be extracted. Thereby, the noun of a low-order concept is extracted as a keyword.

また、実施の形態1〜3および5において、キーワード抽出部は、抽出対象の発話に含まれる名詞のうち、ピッチの最も高い名詞をキーワードとして抽出するようにしてもよいし、使用回数の最も多い名詞をキーワードとして抽出するようにしてもよい。あるいは、キーワード抽出部は、抽出対象の発話に含まれる名詞の中から、各名詞のピッチや使用回数を示す各種パラメータの組み合わせが最適(事前に定められたパラメータのパターン)となる名詞をキーワードとして抽出するようにしてもよい。   In Embodiments 1 to 3 and 5, the keyword extraction unit may extract the noun with the highest pitch among the nouns included in the utterance to be extracted as the keyword, or the most frequently used. You may make it extract a noun as a keyword. Alternatively, the keyword extraction unit uses, as a keyword, a noun in which a combination of various parameters indicating the pitch and the number of times of use of each noun is optimal (a predetermined parameter pattern) from the nouns included in the utterance to be extracted. You may make it extract.

本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。
本出願は、2007年3月29日出願の日本特許出願(特願2007−088321)に基づくものであり、その内容はここに参照として取り込まれる。
Although the present invention has been described in detail and with reference to specific embodiments, it will be apparent to those skilled in the art that various changes and modifications can be made without departing from the spirit and scope of the invention.
This application is based on a Japanese patent application filed on March 29, 2007 (Japanese Patent Application No. 2007-088321), the contents of which are incorporated herein by reference.

本発明のキーワード抽出装置は、会話内に含まれる重要なキーワードを抽出するのに有用である。キーワード抽出装置は、電話、車載端末、テレビ、会議システム、コールセンターシステム、パソコン等の用途に適用することができる。   The keyword extracting device of the present invention is useful for extracting important keywords included in a conversation. The keyword extraction device can be applied to uses such as a telephone, an in-vehicle terminal, a television, a conference system, a call center system, and a personal computer.

本発明の実施の形態1におけるキーワード抽出装置を含むシステム全体の構成例を示すブロック図。1 is a block diagram showing a configuration example of an entire system including a keyword extraction device in Embodiment 1 of the present invention. 本発明の実施の形態1における発話区間の例を示す図。The figure which shows the example of the speech area in Embodiment 1 of this invention. 図1のキーワード抽出装置の動作を示すフローチャート。The flowchart which shows operation | movement of the keyword extraction apparatus of FIG. 本発明の実施の形態2におけるキーワード抽出装置の構成例を示すブロック図。The block diagram which shows the structural example of the keyword extraction apparatus in Embodiment 2 of this invention. 本発明の実施の形態2におけるピッチパターンの例を示す図。The figure which shows the example of the pitch pattern in Embodiment 2 of this invention. 図4のキーワード抽出装置の動作を示すフローチャート。5 is a flowchart showing the operation of the keyword extraction device in FIG. 4. 本発明の実施の形態3におけるキーワード抽出装置の構成例を示すブロック図。The block diagram which shows the structural example of the keyword extraction apparatus in Embodiment 3 of this invention. 図7のキーワード抽出装置の動作を示すフローチャート。The flowchart which shows operation | movement of the keyword extraction apparatus of FIG. 本発明の実施の形態4におけるキーワード抽出装置の構成例を示すブロック図。The block diagram which shows the structural example of the keyword extraction apparatus in Embodiment 4 of this invention. 本発明の実施の形態4における発話区間、発話内容および表情認識結果の例を示す図。The figure which shows the example of the speech area in the Embodiment 4 of this invention, speech content, and a facial expression recognition result. 図9のキーワード抽出装置の動作を示すフローチャート。10 is a flowchart showing the operation of the keyword extraction device of FIG. 本発明の実施の形態5におけるキーワード抽出装置の構成例を示すブロック図。The block diagram which shows the structural example of the keyword extraction apparatus in Embodiment 5 of this invention. 図12のキーワード抽出装置の動作を示すフローチャート。The flowchart which shows operation | movement of the keyword extraction apparatus of FIG.

符号の説明Explanation of symbols

100、100A、100B、100C、100D キーワード抽出装置
101 音声入力部
102 発話区間判定部
103 音声認識部
104 割込検出部
105、105A、105B、105C、105D キーワード抽出部
106 キーワード検索部
107 表示部
201 ピッチ判定部
202 ピッチパターン判定部
301 機能フレーズ抽出部
302 機能フレーズ記憶部
401 映像入力部
402 表情認識部
501 盛り上がり反応検出部
100, 100A, 100B, 100C, 100D Keyword extraction device 101 Voice input unit 102 Speech segment determination unit 103 Speech recognition unit 104 Interrupt detection unit 105, 105A, 105B, 105C, 105D Keyword extraction unit 106 Keyword search unit 107 Display unit 201 Pitch determination unit 202 Pitch pattern determination unit 301 Function phrase extraction unit 302 Function phrase storage unit 401 Video input unit 402 Expression recognition unit 501 Swell reaction detection unit

Claims (8)

発話者の発話音声を入力する音声入力部と、
前記入力された発話音声について、前記発話者ごとの発話区間を判定する発話区間判定部と、
前記判定された発話区間の発話音声を前記発話者ごとに認識する音声認識部と、
前記各発話者の発話音声に対する他の発話者の応答に基づいて、キーワードの存在を示唆する発話応答の特徴を抽出する発話応答特徴抽出部と、
前記抽出された発話応答の特徴に基づいて特定した発話区間の発話音声から前記キーワードを抽出するキーワード抽出部と、
を含むキーワード抽出装置。
A voice input unit for inputting the voice of the speaker,
For the input speech voice, an utterance interval determination unit that determines an utterance interval for each speaker,
A speech recognition unit for recognizing the speech of the determined speech section for each speaker;
An utterance response feature extraction unit that extracts the feature of an utterance response that suggests the presence of a keyword based on the response of another utterer to the utterance voice of each utterer;
A keyword extraction unit for extracting the keyword from the utterance voice of the utterance section identified based on the extracted utterance response characteristics;
Keyword extractor including
前記各発話者の発話音声には、先行発話の発話音声と後行発話の発話音声とが含まれ、
前記発話応答特徴抽出部は、前記先行発話および前記後行発話の発話音声に基づいて、前記先行発話の途中で前記後行発話が開始された場合に、前記先行発話と前記後行発話とが重なる割り込みを検出する割込検出部で構成され、
前記キーワード抽出部は、前記検出された割り込みに基づいて特定した、前記後行発話と重なる前記先行発話の発話音声の中から、前記キーワードを抽出する、
請求項1に記載のキーワード抽出装置。
The utterance voice of each utterer includes the utterance voice of the preceding utterance and the utterance voice of the subsequent utterance,
The utterance response feature extraction unit determines whether the preceding utterance and the following utterance are generated when the following utterance is started in the middle of the preceding utterance based on the speech of the preceding utterance and the following utterance. It consists of an interrupt detection unit that detects overlapping interrupts,
The keyword extraction unit extracts the keyword from the utterance speech of the preceding utterance that overlaps with the subsequent utterance specified based on the detected interruption.
The keyword extraction device according to claim 1.
前記各発話者の発話音声には、先行発話の発話音声と後行発話の発話音声とが含まれ、
前記発話応答特徴抽出部は、
前記先行発話および前記後行発話の発話音声に基づいて、当該発話音声のピッチを判定するピッチ判定部と、
前記判定されたピッチに基づいて、前記先行発話の末尾が下降ピッチで、かつ、その先行発話の直後の前記後行発話が上昇ピッチとなるピッチパターンを判定するパターン判定部と、を有し、
前記キーワード抽出部は、前記判定されたピッチパターンに基づいて特定した、前記ピッチパターンに示された前記先行発話の発話音声の中から、前記キーワードを抽出する、
請求項1に記載のキーワード抽出装置。
The utterance voice of each utterer includes the utterance voice of the preceding utterance and the utterance voice of the subsequent utterance,
The utterance response feature extraction unit includes:
A pitch determination unit that determines the pitch of the uttered voice based on the uttered voice of the preceding utterance and the subsequent utterance;
A pattern determination unit that determines a pitch pattern in which the trailing utterance at the end of the preceding utterance is a descending pitch and the succeeding utterance immediately after the preceding utterance is an ascending pitch based on the determined pitch;
The keyword extracting unit extracts the keyword from the utterance speech of the preceding utterance indicated in the pitch pattern, identified based on the determined pitch pattern.
The keyword extraction device according to claim 1.
前記各発話者の発話音声には、先行発話の発話音声と後行発話の発話音声とが含まれ、
前記発話応答特徴抽出部は、前記先行発話および前記後行発話の発話音声に基づいて、前記後行発話の発話音声の中から、あらかじめ定められた種類の機能フレーズを抽出し、
前記キーワード抽出部は、前記抽出された機能フレーズを含む前記後行発話の直前の前記先行発話の発話音声の中から、前記キーワードを抽出する、
請求項1に記載のキーワード抽出装置。
The utterance voice of each utterer includes the utterance voice of the preceding utterance and the utterance voice of the subsequent utterance,
The utterance response feature extraction unit extracts a function phrase of a predetermined type from the utterance voice of the subsequent utterance based on the utterance voice of the preceding utterance and the subsequent utterance,
The keyword extraction unit extracts the keyword from the utterance voice of the preceding utterance immediately before the subsequent utterance including the extracted function phrase.
The keyword extraction device according to claim 1.
前記発話応答特徴抽出部は、前記発話者ごとの発話区間の近傍における発話者以外の人の盛り上がり反応を検出し、
前記キーワード抽出部は、前記盛り上がり反応に対応する発話音声の中から、前記キーワードを抽出する、
請求項1に記載のキーワード抽出装置
The utterance response feature extraction unit detects an excitement reaction of a person other than the speaker in the vicinity of the utterance section for each speaker,
The keyword extraction unit extracts the keyword from the utterance voice corresponding to the excitement reaction;
The keyword extraction device according to claim 1.
前記キーワード抽出部は、前記キーワードを抽出する場合、前記先行発話内の末尾の構成素を前記キーワードとして抽出する、
請求項2ないし5のいずれか1項に記載のキーワード抽出装置。
The keyword extraction unit, when extracting the keyword, extracts a last constituent in the preceding utterance as the keyword;
The keyword extracting device according to any one of claims 2 to 5.
前記各発話者の発話音声には、先行発話の発話音声と後行発話の発話音声とが含まれ、
前記発話応答特徴抽出部は、前記先行発話および前記後行発話の発話音声に基づいて、前記先行発話の発話音声の中から、あらかじめ定められた種類の機能フレーズを抽出し、
前記キーワード抽出部は、前記抽出された機能フレーズを含む前記先行発話の直後の前記後行発話の発話音声の中から、前記キーワードを抽出する、
請求項1に記載のキーワード抽出装置。
The utterance voice of each utterer includes the utterance voice of the preceding utterance and the utterance voice of the subsequent utterance,
The utterance response feature extraction unit extracts a predetermined type of functional phrase from the utterance speech of the preceding utterance based on the utterance speech of the preceding utterance and the subsequent utterance,
The keyword extraction unit extracts the keyword from the utterance voice of the subsequent utterance immediately after the preceding utterance including the extracted functional phrase.
The keyword extraction device according to claim 1.
前記発話応答特徴抽出部は、前記各発話者の発話音声に対する他の発話者の表情を認識し、前記認識された表情の変化点を抽出し、
前記キーワード抽出部は、前記抽出された表情の変化点に対応する、前記発話区間内の構成素をキーワードとして抽出する、
請求項1に記載のキーワード抽出装置。
The utterance response feature extraction unit recognizes facial expressions of other utterers with respect to the uttered voices of the respective speakers, and extracts change points of the recognized facial expressions,
The keyword extraction unit extracts a constituent element in the utterance interval corresponding to the extracted facial expression change point as a keyword;
The keyword extraction device according to claim 1.
JP2009508884A 2007-03-29 2008-03-14 Keyword extractor Expired - Fee Related JP4838351B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009508884A JP4838351B2 (en) 2007-03-29 2008-03-14 Keyword extractor

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007088321 2007-03-29
JP2007088321 2007-03-29
PCT/JP2008/000599 WO2008126355A1 (en) 2007-03-29 2008-03-14 Keyword extracting device
JP2009508884A JP4838351B2 (en) 2007-03-29 2008-03-14 Keyword extractor

Publications (2)

Publication Number Publication Date
JPWO2008126355A1 true JPWO2008126355A1 (en) 2010-07-22
JP4838351B2 JP4838351B2 (en) 2011-12-14

Family

ID=39863515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009508884A Expired - Fee Related JP4838351B2 (en) 2007-03-29 2008-03-14 Keyword extractor

Country Status (5)

Country Link
US (1) US8370145B2 (en)
EP (1) EP2045798B1 (en)
JP (1) JP4838351B2 (en)
CN (1) CN101542592A (en)
WO (1) WO2008126355A1 (en)

Families Citing this family (156)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US8909683B1 (en) 2009-07-17 2014-12-09 Open Invention Network, Llc Method and system for communicating with internet resources to identify and supply content for webpage construction
JP5471274B2 (en) * 2009-10-14 2014-04-16 日本電気株式会社 Portable terminal device and information recording method
JP5715390B2 (en) * 2009-12-03 2015-05-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America Viewing terminal device, viewing statistics device, viewing statistics processing system, and viewing statistics processing method
CN102117614B (en) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 Personalized text-to-speech synthesis and personalized speech feature extraction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9645996B1 (en) * 2010-03-25 2017-05-09 Open Invention Network Llc Method and device for automatically generating a tag from a conversation in a social networking website
US8543403B1 (en) * 2010-04-26 2013-09-24 Sprint Communication Company L.P. Intelligent information supplements to calls
US10019995B1 (en) * 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9443518B1 (en) 2011-08-31 2016-09-13 Google Inc. Text transcript generation from a communication session
US8798995B1 (en) 2011-09-23 2014-08-05 Amazon Technologies, Inc. Key word determinations from voice data
JP2013109635A (en) * 2011-11-22 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> Word importance calculation device and method and program thereof
EP3748631B1 (en) * 2011-12-07 2024-04-03 QUALCOMM Incorporated Low power integrated circuit to analyze a digitized audio stream
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
EP2862163A4 (en) 2012-06-18 2015-07-29 Ericsson Telefon Ab L M Methods and nodes for enabling and producing input to an application
US8612211B1 (en) 2012-09-10 2013-12-17 Google Inc. Speech recognition and summarization
BR112015018905B1 (en) 2013-02-07 2022-02-22 Apple Inc Voice activation feature operation method, computer readable storage media and electronic device
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
KR101370539B1 (en) * 2013-03-15 2014-03-06 포항공과대학교 산학협력단 Method and apparatus for dialog processing based on referring expressions processing
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
JP6064718B2 (en) * 2013-03-21 2017-01-25 富士ゼロックス株式会社 Information processing apparatus and program
US9064495B1 (en) * 2013-05-07 2015-06-23 Amazon Technologies, Inc. Measurement of user perceived latency in a cloud based speech application
KR20140143034A (en) * 2013-06-05 2014-12-15 삼성전자주식회사 Method for providing service based on a multimodal input and an electronic device thereof
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN105264524B (en) 2013-06-09 2019-08-02 苹果公司 For realizing the equipment, method and graphic user interface of the session continuity of two or more examples across digital assistants
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
EP3110078A4 (en) * 2014-07-02 2017-03-08 Huawei Technologies Co., Ltd. Information transmission method and transmission device
JP6081966B2 (en) * 2014-07-18 2017-02-15 キャンバスマップル株式会社 Information search device, information search program, and information search system
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
JP6387287B2 (en) * 2014-11-14 2018-09-05 株式会社デンソーテン Unknown matter resolution processing system
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9576190B2 (en) * 2015-03-18 2017-02-21 Snap Inc. Emotion recognition in video conferencing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10504509B2 (en) 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN105516472A (en) * 2015-11-30 2016-04-20 联想(北京)有限公司 Information processing method and electronic apparatus
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US11490232B2 (en) 2016-08-01 2022-11-01 Microsoft Technology Licensing, Llc Location-based conversation identifier
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP6612707B2 (en) * 2016-09-30 2019-11-27 本田技研工業株式会社 Information provision device
US10531227B2 (en) 2016-10-19 2020-01-07 Google Llc Time-delimited action suggestion system
WO2018100391A1 (en) * 2016-12-02 2018-06-07 Cirrus Logic International Semiconductor Limited Speaker identification
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP6737398B2 (en) * 2017-03-24 2020-08-05 ヤマハ株式会社 Important word extraction device, related conference extraction system, and important word extraction method
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. User interface for correcting recognition errors
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. Low-latency intelligent automated assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. Far-field extension for digital assistant services
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
JP7035476B2 (en) * 2017-11-20 2022-03-15 富士通株式会社 Speech processing program, speech processor, and speech processing method
JP6943158B2 (en) * 2017-11-28 2021-09-29 トヨタ自動車株式会社 Response sentence generator, method and program, and voice dialogue system
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
JP2019101385A (en) * 2017-12-08 2019-06-24 富士通株式会社 Audio processing apparatus, audio processing method, and audio processing program
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (en) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. Virtual assistant operation in multi-device environments
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. User activity shortcut suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112562687B (en) * 2020-12-11 2023-08-04 天津讯飞极智科技有限公司 Audio and video processing method and device, recording pen and storage medium
US20220300560A1 (en) * 2021-03-18 2022-09-22 Amazon Technologies, Inc. Voice search refinement resolution
US11854544B1 (en) 2021-06-11 2023-12-26 Amazon Technologies, Inc. Entity resolution of product search filters

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3398401B2 (en) * 1992-03-16 2003-04-21 株式会社東芝 Voice recognition method and voice interaction device
JPH08286693A (en) * 1995-04-13 1996-11-01 Toshiba Corp Information processing device
US6850609B1 (en) * 1997-10-28 2005-02-01 Verizon Services Corp. Methods and apparatus for providing speech recording and speech transcription services
US6714909B1 (en) * 1998-08-13 2004-03-30 At&T Corp. System and method for automated multimedia content indexing and retrieval
JP3597398B2 (en) 1998-10-15 2004-12-08 株式会社リコー Voice recognition device
US6665644B1 (en) 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
JP3533371B2 (en) * 2000-12-01 2004-05-31 株式会社ナムコ Simulated conversation system, simulated conversation method, and information storage medium
GB0108603D0 (en) * 2001-04-05 2001-05-23 Moores Toby Voice recording methods and systems
JP3892302B2 (en) * 2002-01-11 2007-03-14 松下電器産業株式会社 Voice dialogue method and apparatus
JP3788793B2 (en) * 2003-04-25 2006-06-21 日本電信電話株式会社 Voice dialogue control method, voice dialogue control device, voice dialogue control program
JP2005157494A (en) * 2003-11-20 2005-06-16 Aruze Corp Conversation control apparatus and conversation control method
JP2005215726A (en) 2004-01-27 2005-08-11 Advanced Media Inc Information presenting system for speaker, and program
JP2005293539A (en) 2004-03-08 2005-10-20 Matsushita Electric Works Ltd Facial expression recognizing device
JP5025932B2 (en) 2005-09-26 2012-09-12 昭和電工株式会社 Manufacturing method of nitride semiconductor light emitting device
US7991128B2 (en) * 2006-11-01 2011-08-02 International Business Machines Corporation Mirroring of conversation stubs
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content

Also Published As

Publication number Publication date
EP2045798A4 (en) 2012-12-26
CN101542592A (en) 2009-09-23
EP2045798B1 (en) 2014-12-03
US20090150155A1 (en) 2009-06-11
EP2045798A1 (en) 2009-04-08
US8370145B2 (en) 2013-02-05
WO2008126355A1 (en) 2008-10-23
JP4838351B2 (en) 2011-12-14

Similar Documents

Publication Publication Date Title
JP4838351B2 (en) Keyword extractor
US11776540B2 (en) Voice control of remote device
US10600414B1 (en) Voice control of remote device
US10326869B2 (en) Enabling voice control of telephone device
US10593328B1 (en) Voice control of remote device
JP5381988B2 (en) Dialogue speech recognition system, dialogue speech recognition method, and dialogue speech recognition program
WO2020233068A1 (en) Conference audio control method, system, device and computer readable storage medium
JP7244665B2 (en) end-to-end audio conversion
US8285546B2 (en) Method and system for identifying and correcting accent-induced speech recognition difficulties
US7676371B2 (en) Oral modification of an ASR lexicon of an ASR engine
US8484031B1 (en) Automated speech recognition proxy system for natural language understanding
US11798559B2 (en) Voice-controlled communication requests and responses
TW200304638A (en) Network-accessible speaker-dependent voice models of multiple persons
US11721324B2 (en) Providing high quality speech recognition
JP2005283972A (en) Speech recognition method, and information presentation method and information presentation device using the speech recognition method
CN109616116B (en) Communication system and communication method thereof
JP2003163951A (en) Sound signal recognition system, conversation control system using the sound signal recognition method, and conversation control method
JP4408665B2 (en) Speech recognition apparatus for speech recognition, speech data collection method for speech recognition, and computer program
CN110125946B (en) Automatic call method, automatic call device, electronic equipment and computer readable medium
US20240144933A1 (en) Voice-controlled communication requests and responses
JP2016191740A (en) Speech processing unit, speech processing method, and program
JP2005151037A (en) Unit and method for speech processing
JP2004139049A (en) Speaker normalization method and speech recognition device using the same
JP2001296884A (en) Device and method for voice recognition

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110929

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4838351

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees