JPWO2008126355A1 - Keyword extractor - Google Patents
Keyword extractor Download PDFInfo
- Publication number
- JPWO2008126355A1 JPWO2008126355A1 JP2009508884A JP2009508884A JPWO2008126355A1 JP WO2008126355 A1 JPWO2008126355 A1 JP WO2008126355A1 JP 2009508884 A JP2009508884 A JP 2009508884A JP 2009508884 A JP2009508884 A JP 2009508884A JP WO2008126355 A1 JPWO2008126355 A1 JP WO2008126355A1
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- keyword
- voice
- unit
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Abstract
本発明は、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することを目的とする。本発明のキーワード抽出装置は、発話者の発話音声を入力する音声入力部101と、上記入力された発話音声について、発話者ごとの発話区間を判定する発話区間判定部102と、上記判定された発話区間の発話音声を発話者ごとに認識する音声認識部103と、各発話者の発話音声に対する他の発話者の応答に基づいて、キーワードの存在を示唆する発話応答の特徴、すなわち先行発話と後行発話とが重なる割り込みを検出する割込検出部104と、上記割り込みに基づいて特定した発話区間の発話からキーワードを抽出するキーワード抽出部105と、当該キーワードによるキーワード検索を行うキーワード検索部106と、キーワード検索結果を表示する表示部107とを含む。An object of the present invention is to extract keywords in a conversation without predicting and preparing the keywords in the conversation in advance. The keyword extraction device of the present invention includes a voice input unit 101 that inputs a utterance voice of a utterer, an utterance section determination unit 102 that determines a utterance section for each utterer with respect to the input utterance voice, and the above determination. Based on the speech recognition unit 103 that recognizes the utterance speech of the utterance section for each utterer, and the feature of the utterance response that suggests the presence of the keyword based on the response of the other utterers to the utterance speech of each utterer, An interrupt detection unit 104 that detects an interrupt that overlaps a subsequent utterance, a keyword extraction unit 105 that extracts a keyword from an utterance in an utterance section specified based on the interrupt, and a keyword search unit 106 that performs a keyword search using the keyword And a display unit 107 that displays the keyword search result.
Description
本発明は、キーワード抽出装置に係り、特に会話内に含まれるキーワードを抽出するキーワード抽出装置に関するものである。 The present invention relates to a keyword extraction device, and more particularly to a keyword extraction device that extracts keywords included in a conversation.
従来のキーワード抽出装置は、あらかじめ、電子レンジ等のキーワードとURLへのアクセス等のアクション情報との対応関係を示した対応データを保持している。そして、キーワード抽出装置は、上記対応データに基づいて、ある会話の中からキーワードを検出し、そのキーワードに対応するアクション情報に基づく処理を実行する。このようにして、音声認識による情報の提示が行われていた(例えば、特許文献1)。 A conventional keyword extracting device holds correspondence data indicating a correspondence relationship between a keyword such as a microwave oven and action information such as access to a URL in advance. Then, the keyword extraction device detects a keyword from a certain conversation based on the correspondence data, and executes processing based on action information corresponding to the keyword. In this way, information is presented by voice recognition (for example, Patent Document 1).
しかしながら、特許文献1に記載の装置においては、想定される場面別に上記対応データを準備しなければならないため、利用しにくいという問題があった。
本発明は、上記の状況に対処するためになされたものであり、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することができるキーワード抽出装置を提供することを目的とする。However, the apparatus described in
The present invention has been made to cope with the above-described situation, and provides a keyword extraction device that can extract a keyword in a conversation without predicting and preparing the keyword in the conversation in advance. With the goal.
上記従来の課題を解決するために、本発明は、発話者の発話音声を入力する音声入力部と、上記入力された発話音声について、上記発話者ごとの発話区間を判定する発話区間判定部と、上記判定された発話区間の発話音声を上記発話者ごとに認識する音声認識部と、上記各発話者の発話音声に対する他の発話者の応答に基づいて、キーワードの存在を示唆する発話応答の特徴を抽出する発話応答特徴抽出部と、上記抽出された発話応答の特徴に基づいて特定した発話区間の発話音声から前記キーワードを抽出するキーワード抽出部と、を含む。 In order to solve the above-described conventional problems, the present invention includes a voice input unit that inputs a utterance voice of a speaker, a utterance section determination unit that determines a utterance section for each utterer with respect to the input utterance voice, and A speech recognition unit that recognizes the speech of the determined speech section for each speaker, and a speech response that suggests the presence of a keyword based on the responses of other speakers to the speech of each speaker An utterance response feature extraction unit that extracts features, and a keyword extraction unit that extracts the keywords from the utterance speech of the utterance section specified based on the extracted utterance response features.
本発明によれば、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することができる。 According to the present invention, it is possible to extract a keyword in a conversation without predicting and preparing the keyword in the conversation in advance.
100、100A、100B、100C、100D キーワード抽出装置
101 音声入力部
102 発話区間判定部
103 音声認識部
104 割込検出部
105、105A、105B、105C、105D キーワード抽出部
106 キーワード検索部
107 表示部
201 ピッチ判定部
202 ピッチパターン判定部
301 機能フレーズ抽出部
302 機能フレーズ記憶部
401 映像入力部
402 表情認識部
501 盛り上がり反応検出部100, 100A, 100B, 100C, 100D
以下、本発明の実施の形態1〜5について図面を参照しながら説明する。実施の形態1〜5は、例えば、2人の発話者A、Bが、携帯電話等の情報端末を用いて会話している場面を想定して説明する。
(実施の形態1)
図1は、本発明の実施の形態1におけるキーワード抽出装置を含むシステム全体の構成例を示すブロック図である。
図1において、キーワード抽出装置100は、ある発話者Aの情報端末であり、インターネット等のネットワーク400へ接続できるように構成されている。ネットワーク400には、別の発話者Bの情報端末200や検索サーバ300が接続されるように構成されている。キーワード抽出装置100および情報端末200は、携帯電話、ノート型パソコン、携帯情報端末等の情報端末である。検索サーバ300は、公知の検索エンジンを搭載したサーバである。
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration example of the entire system including a keyword extracting device according to
In FIG. 1, a keyword extraction device 100 is an information terminal of a certain speaker A, and is configured to be connected to a
キーワード抽出装置100は、音声入力部101、発話区間判定部102、音声認識部103、割込検出部104、キーワード抽出部105、キーワード検索部106および表示部107を有する。
音声入力部101は、発話者の音声(以下、発話音声という)を入力するためのものである。音声入力部101は、例えば、マイクロフォン、ネットワーク400との通信インターフェース等が該当する。The keyword extraction device 100 includes a
The
発話区間判定部102は、上記入力された発話音声について、発話者ごとの発話区間を判定する。発話区間とは、発話者が会話を開始し初めてから終了するまでの区間をいう。
例えば、発話者Aと発話者Bの会話が、図2(a)または図2(b)に示すような場合、発話区間判定部102は、発話者Aの会話の開始時間ts1から終了時間te1までの区間、すなわちts1−te1を発話者Aの発話区間1として判定する。さらに、発話区間判定部102は、発話者Bの会話の開始時間ts2から終了時間te2までの区間、すなわちts2−te2の区間を発話者Bの発話区間2として判定する。The utterance
For example, when the conversation between the speaker A and the speaker B is as shown in FIG. 2 (a) or FIG. 2 (b), the speech
図1に戻って、音声認識部103は、上記判定された発話区間の発話音声を発話者ごとに認識する。具体的には、音声認識部103は、すべての発話者の会話音声について、公知の音声認識技術によりテキスト文字化する。さらに、音声認識部103は、個々の発話者の会話音声について、その開始時間(開始点)および終了時間(終了点)を対応づける。
Returning to FIG. 1, the
割込検出部104(発話応答特徴抽出部)は、上記判定された発話区間について、各発話者の発話音声に基づいて発話の特徴、すなわち先行発話と後行発話とが重なる割り込みを検出する。例えば、発話者Aと発話者Bの会話が、図2(b)に示した会話の場合、割込検出部104は、発話者Aの先行発話の途中、すなわちts1で発話者Bの後行発話が開始されているので、上記割り込みを検出する。この検出方法は次のとおりである。
すなわち、割込検出部104は、まず、後行発話の開始時間からその直前の先行発話の終了時間までの区間(以下、発話間隔という)を計測する。例えば、図2(a)(b)の場合、割込検出部104は、発話間隔=図2(a)(b)のts2−te1の算出式を用いて、発話間隔を計算する。次に、割込検出部104は、上記計算の結果、発話間隔がマイナスの値(図2(b)参照)になるかどうかを判断する。そして、割込検出部104は、当該発話間隔がマイナスの値の場合(図2(b)参照)、割り込みがあるものとして検出することとなる。The interrupt detection unit 104 (speech response feature extraction unit) detects an interrupt in which the utterance feature, that is, the preceding utterance and the subsequent utterance overlap, based on the utterance voice of each utterer for the determined utterance period. For example, when the conversation between the speaker A and the speaker B is the conversation shown in FIG. 2B, the
That is, the
キーワード抽出部105は、上記抽出された発話の特徴、すなわち先行発話と後行発話とが重なる割り込みに基づいて、音声認識部102で認識された発話音声の中から、その発話音声の会話内で話題になっている語(以下、キーワードという)を抽出する。具体的には、キーワード抽出部105は、音声認識部102から、音声認識部102で認識された会話音声を取得する。この会話音声には、各発話者の開始時間および終了時間が対応付けられている。また、キーワード抽出部105は、割込検出部104から、割込検出部104で割り込みが検出された発話区間(例えば、図2(b)の発話者Bの発話区間2)と、割り込まれた発話区間(例えば、図2の発話者Aの発話区間1)とを取得する。これら各発話区間は、開始時間および終了時間により対応づけられている。
Based on the extracted utterance feature, that is, the interruption in which the preceding utterance and the succeeding utterance overlap, the
さらに、キーワード抽出部105は、上記キーワードを抽出する場合、例えば、割り込まれた先行発話内の末尾(最後)の構成素(例えば名詞)をキーワードとして抽出する。ここで、先行発話内の末尾とは、割り込み時(例えば、図2(b)のts2の時間)よりも前の発話区間(例えば、図2(b)のts1−ts2)内をいう。
具体的には、まず、キーワード抽出部105は、上記取得した各発話者の発話区間(例えば、図2(b)の発話区間1、2)のうち、開始時間の早い発話者の発話区間(例えば、図2(b)の発話区間1)を選定する。次に、キーワード抽出部105は、上記選定した発話区間(例えば、図2(b)の発話区間1)において、上記取得した他の発話区間の開始時間(つまり割り込み時間、例えば図2(b)のts2)の直前の構成素(例えば名詞)を検出する。次に、キーワード抽出部105は、上記検出した構成素(例えば名詞)をキーワードとして抽出する。Furthermore, when extracting the said keyword, the
Specifically, first, the
キーワード検索部106は、上記抽出されたキーワードを用いて、キーワード検索を行う。具体的には、まず、キーワード検索部106は、ネットワーク400を介して、検索サーバ300へ接続する。すると、検索サーバ300は、キーワード検索部106から、上記キーワード検索の要求を受け、そのキーワード検索の検索結果を、ネットワーク400を介して、キーワード抽出装置100のキーワード検索部106に返送する。キーワード検索部106は、上記返送により、検索サーバ300から、キーワード検索の検索結果を受信する。
The
表示部107は、キーワード検索部106により検索された結果、すなわち検索サーバ300の検索結果を表示する。表示部107は、ディスプレイや表示パネル等の表示装置である。
The
なお、本実施の形態において、発話区間判定部102、音声認識部103、割込検出部104、キーワード抽出部105およびキーワード検索部106は、CPU等の処理装置が該当する。その他、キーワード抽出装置100は、メモリ等の記憶装置(不図示)を含む公知の構成を備えているものとする。
In the present embodiment, the speech
次に、キーワード抽出装置100の動作について図3を参照して説明する。図3では、例えば、2人の発話者A、Bが、キーワード抽出装置100や情報端末200を用いて会話していることを前提にして説明する。
まず、キーワード抽出装置100(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間を判定する(ステップS101)。この判定の際、発話区間判定部102は、各発話者の発話音声の大きさがしきい値以上であるかどうかを判断し、しきい値以上である区間を発話区間として判定する。
例えば、発話者Aと発話者Bの会話が、図2(a)または図2(b)に示すような場合、発話区間判定部102は、発話者Aの会話の開始時間ts1から終了時間te1までの区間、すなわちts1−te2を発話者Aの発話区間1として判定する。さらに、発話区間判定部103は、発話者Bの会話の開始時間ts2から終了時間te2までの区間、ts2−te2の区間を発話者Bの発話区間2として判定する。Next, the operation of the keyword extracting device 100 will be described with reference to FIG. In FIG. 3, for example, it is assumed that two speakers A and B are having a conversation using the keyword extraction device 100 and the
First, the keyword extraction device 100 (the utterance section determination unit 102) determines an utterance section for each speaker with respect to the utterance voices input from the voice input unit 100 and the information terminal 200 (step S101). At the time of this determination, the utterance
For example, when the conversation between the speaker A and the speaker B is as shown in FIG. 2 (a) or FIG. 2 (b), the speech
次に、キーワード抽出装置100(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。この認識は、例えば、周波数帯域による特徴分析により行われるものとする。さらに、音声認識部103は、上記認識を行う際に、すべての発話者の会話音声について、公知の音声認識技術によりテキスト文字化する。
Next, the keyword extraction device 100 (voice recognition unit 103) recognizes the utterance voice of the determined utterance section for each speaker (step S102). This recognition shall be performed by the feature analysis by a frequency band, for example. Furthermore, when performing the above recognition, the
次に、キーワード抽出装置100(割込検出部104)は、上記判定された発話区間により割り込みを検出する(ステップS103)。具体的には、割込検出部104は、後行発話の開始時間からその直前の先行発話の終了時間を差し引いた間隔、すなわち発話間隔(例えば、図2(a)(b)のte1−ts2)を計算する。そして、この計算の結果、発話間隔の値(例えば、図2(b)のte1−ts2=発話間隔)がマイナスであれば、割込検出部104は、後行発話の割り込みがあったと判断する。
Next, the keyword extraction device 100 (interrupt detection unit 104) detects an interrupt based on the determined speech period (step S103). Specifically, the interrupt
次に、キーワード抽出装置100(キーワード抽出部105)は、上記検出された割り込みのあった音声会話(ステップS102で認識された音声会話)内のキーワードを抽出して決定する(ステップS104)。具体的には、キーワード抽出部105は、後行発話の直前にある先行発話内の名詞を抽出し、この名詞を当該発話内のキーワードとして決定する。
例えば、図2(b)のts1の時点において、発話者Aが「今度、新東京タワーが…」と話し始めたときに、図2(b)のts2の時点において、発話者Bが「ああ、それってどこにできるんですか?」と会話を始めた場合、キーワード抽出部105は、ts2の直前にある発話者Aの「新東京タワー」という名詞をキーワードとして決定する。これにより、キーワード抽出部105は、事前に予想したキーワードを登録したデータベースから「新東京タワー」のキーワードを抽出することなく、「新東京タワー」を会話内で話題になっている語として決定することができる。Next, the keyword extraction device 100 (keyword extraction unit 105) extracts and determines the keywords in the detected voice conversation (interactive voice recognition recognized in step S102) with the interruption (step S104). Specifically, the
For example, when utterer A starts to speak “This time, New Tokyo Tower ...” at the time ts1 in FIG. 2B, the utterer B is “oh” at the time ts2 in FIG. When the conversation begins, “Where is it possible?”, The
なお、キーワード抽出部105は、上記発話間隔がプラスの値を示す場合(図2(a)参照)、発話中のキーワードがないものと判断し、キーワードを抽出しない。
Note that when the utterance interval shows a positive value (see FIG. 2A), the
次に、キーワード抽出装置100(キーワード検索部106)は、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。具体的には、まず、キーワード検索部106は、ネットワーク400を介して、検索サーバ300に対し、上記キーワード検索を要求する。すると、検索サーバ300は、上記要求を受けたキーワード検索を行い、その検索結果をキーワード検索部106に送信する。次に、キーワード検索部106は、検索サーバ300から送信された検索結果を受信する。
Next, the keyword extraction device 100 (keyword search unit 106) performs keyword search for the determined keyword (step S105). Specifically, the
次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、会話内のキーワード(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
Next, the
また、割込検出部104の代わりに、発話間隔が予め設定した閾値(例えば3秒)以上である沈黙を検出する沈黙検出部を動作させることも、キーワードの存在を示唆する発話応答の特徴を抽出する上で有用である。
Also, in place of the interrupt
以上説明したように、本実施の形態によると、キーワード抽出装置100は、キーワードの存在を示唆する発話応答の特徴としての割り込みを検出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100においては、会話内のキーワードを事前に予想してデータベース等に登録する準備を行うことなく、発話者の割り込みの有無から、会話内のキーワードを抽出することができる。 As described above, according to the present embodiment, the keyword extraction device 100 detects an interrupt as a feature of an utterance response that suggests the presence of a keyword, and extracts a keyword in the conversation. For this reason, the keyword extraction apparatus 100 can extract a keyword in a conversation based on the presence or absence of a speaker's interruption without predicting the keyword in the conversation in advance and registering it in a database or the like.
なお、実施の形態1において、キーワード抽出装置100は、図3のステップS101〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100は、図3の各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。 In the first embodiment, the keyword extracting apparatus 100 has been described with respect to the case where the processes of steps S101 to S106 in FIG. 3 are sequentially performed, but the present invention is not limited to this. For example, the keyword extraction device 100 may execute the steps in FIG. 3 by changing the order of the steps, or may execute the steps in parallel.
(実施の形態2)
実施の形態2のキーワード抽出装置は、発話応答の特徴であるピッチ(音の高さ)のパターンに基づいて、会話内のキーワードを抽出するものである。
図4は、本発明の実施の形態2におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態2においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
図4において、キーワード抽出装置100Aは、図1の実施の形態1の割込検出部104に代えて、ピッチ判定部201およびピッチパターン判定部202を有する。さらに、キーワード抽出装置100Aは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Aを有する点が、実施の形態1と異なる。ピッチ判定部201、ピッチパターン判定部202およびキーワード抽出部105Aは、CPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。(Embodiment 2)
The keyword extracting apparatus according to the second embodiment extracts keywords in a conversation based on a pitch (sound pitch) pattern that is a feature of an utterance response.
FIG. 4 is a block diagram illustrating a configuration example of the keyword extracting device according to the second embodiment of the present invention. In the second embodiment, the same parts as those in the first embodiment are denoted by the same reference numerals and terms as those in the first embodiment, and redundant description is omitted.
In FIG. 4, the keyword extraction device 100 </ b> A includes a
ピッチ判定部201およびピッチパターン判定部202(これらを併せて発話応答特徴抽出部ともいう)は、発話区間判定部102により判定された発話区間について、各発話者の発話音声に基づいて、発話の特徴であるピッチパターンを抽出する。具体的には、ピッチ判定部201は、発話音声のピッチを判定する。本実施の形態のピッチ判定部201は、例えば、10msごとに発話音声を分割してピッチを判定する。
The
ピッチパターン判定部202は、上記判定されたピッチに基づいて、先行発話の末尾が下降ピッチ(図5のtc1−te1間参照)で、かつ、その先行発話の直後の後行発話が上昇ピッチ(図5のtc2−te2間参照)となるピッチパターン(発話の特徴)を判定する。この判定例を図5に示す。図5の横軸は時間を表し、縦軸は周波数を表す。
図5の発話区間ts1−te1には、「新東京タワーが」という先行発話があり、発話区間ts2−te2には、「それって・・・ですか?」という後行発話がある。そして、「新東京タワーが」の先行発話の末尾には下降ピッチが判定され、「それって・・・ですか?」の後行発話には上昇ピッチが判定されている。このように判定されるのは、ピッチパターン判定部202が次のように判定したからである。Based on the determined pitch, the pitch
In the utterance section ts1-te1, there is a preceding utterance “New Tokyo Tower”, and in the utterance section ts2-te2, there is a subsequent utterance “Is that? A descending pitch is determined at the end of the preceding utterance of “New Tokyo Tower”, and an ascending pitch is determined for the subsequent utterance of “Is that ...?”. This determination is made because the pitch
すなわち、ピッチパターン判定部202は、図5の「新東京タワーが」の発話区間ts1−te1において、その中点tc1の周波数fよりも、発話区間の末尾(終了時)の周波数fが高いので上昇ピッチと判定したからである。また、ピッチパターン判定部202は、図5の「なんですか?」の発話区間ts2−te2において、その中点tc2の周波数fよりも、発話区間の末尾(終了時)の周波数fが低いので下降ピッチと判定したからである。
That is, the pitch
なお、本実施の形態のピッチパターン判定部202は、発話区間の中点の周波数を基準にして上昇ピッチまたは下降ピッチを判定する場合について説明するが、これに限られない。例えば、ピッチ判定部201は、発話区間の終了時(例えば図5のte1、te2)から、あらかじめ定められた区間(例えば時間T)遡った時点を基準にして判定してもよい。
In addition, although the pitch
キーワード抽出部105Aは、上記判定されたピッチパターンに示された先行発話の中から、キーワードを抽出する。この抽出に際し、キーワード抽出部105Aは、例えば、上記ピッチパターンに示された先行発話内の末尾の構成素(例えば名詞)をキーワードとして抽出する。
The
次に、キーワード抽出装置100Aの動作について図6を参照して説明する。図6では、例えば、発話者Aが、キーワード抽出装置100Aを用いて「今度、新東京タワーが・・・」と言った後、発話者Bが、情報端末200を用いて「それって・・・ですか?」と言うことを前提にして説明する。なお、図7のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。
Next, the operation of the
まず、キーワード抽出装置100A(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間(図2(a)の発話区間1、図2(b)の発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100A(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。
First, the
次に、キーワード抽出装置100A(ピッチ判定部201)は、例えば発話者Aの先行発話の発話区間1(図2(a)参照)および発話者Bの後行発話の発話区間2(図2(b)参照)の発話音声に基づいて、発話音声のピッチを判定する(ステップS103A)。
Next, the
次に、キーワード抽出装置100A(ピッチパターン判定部202)は、上記判定されたピッチに基づいて、先行発話から後行発話へ移行した場合に、下降ピッチから上昇ピッチとなるピッチパターンがあるかを判定する(ステップS103B)。具体的には、ピッチパターン判定部202は、先行発話の末尾が下降ピッチ(図5のtc1−te1間参照)で、かつ、その先行発話の直後の後行発話が上昇ピッチ(図5のtc2−te2間参照)となるピッチパターンを判定する。
Next, the
次に、キーワード抽出装置100A(キーワード抽出部105A)は、上記判定されたピッチパターンに示された発話音声(ステップS102で認識されたもの)の先行発話(例えば、図5の「新東京タワーが」)の中から、キーワードを抽出する(ステップS104A)。この抽出に際し、キーワード抽出部105Aは、例えば、上記ピッチパターンに示された先行発話内の末尾の名詞である「新東京タワー」をキーワードとして抽出する。
Next, the
次に、キーワード抽出装置100A(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
Next, the
以上説明したように、本実施の形態によると、キーワード抽出装置100Aは、キーワードの存在を示唆する発話応答の特徴であるピッチパターンを判定して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Aにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、ピッチパターンの有無から、会話内のキーワードを抽出することができる。
As described above, according to the present embodiment,
なお、実施の形態2において、キーワード抽出装置100Aは、図7のステップS101〜S102、S103A〜S103B、S104A、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Aは、図7の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
In the second embodiment, the
(実施の形態3)
実施の形態3のキーワード抽出装置は、発話応答の特徴である機能フレーズに基づいて、会話内のキーワードを抽出するものである。
図7は、本発明の実施の形態3におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態3においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
図7において、キーワード抽出装置100Bは、図1の実施の形態1の割込検出部104に代えて、機能フレーズ抽出部301(発話応答特徴抽出部)を有する。さらに、キーワード抽出装置100Bは、機能フレーズ記憶部302を有する。また、キーワード抽出装置100Bは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Bを有する点が、実施の形態1と異なる。なお、機能フレーズ抽出部301は、CPU等の処理装置であり、機能フレーズ記憶部302は、メモリ等の記憶装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。(Embodiment 3)
The keyword extraction device according to the third embodiment extracts keywords in a conversation based on a function phrase that is a feature of an utterance response.
FIG. 7 is a block diagram illustrating a configuration example of the keyword extraction device according to Embodiment 3 of the present invention. In the third embodiment, the same reference numerals and terms as those in the first embodiment are assigned to the same parts as those in the first embodiment, and the duplicate description is omitted.
In FIG. 7, the
機能フレーズ記憶部302は、あらかじめ定められた機能フレーズを記憶する。この機能フレーズは、応答の種類を表す語であり、種々の異なる会話内容にかかわらず、会話共通に使用されるものである。例えば、機能フレーズとして、「ですか?」等の疑問文、「いいね」「なるほど」「それだ」等の同意文、「違う」等の否定文、「お願いします」等の依頼文、「ああ」などの感嘆文、「なんでやねん」等の突っ込み文などが該当する。
The function
機能フレーズ抽出部301は、発話音声の中から、当該発話音声の特徴である上記機能フレーズを抽出する。具体的には、機能フレーズ抽出部301は、抽出対象となる発話音声に含まれる語と、機能フレーズ記憶部302の機能フレーズとを比較し、当該発話音声に含まれる機能フレーズを抽出する。
The functional
次に、キーワード抽出装置100Bの動作について図8を参照して説明する。図8では、例えば、発話者Aが、キーワード抽出装置100Bを用いて「今度、新東京タワーができるんだって。」と言った後に、発話者Bが、情報端末200を用いて「ああ、それってどこにできるんですか?」と言うことを前提にして説明する。なお、図8のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略する。
Next, the operation of the
まず、キーワード抽出装置100B(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間(図2(a)の発話区間1、図2(b)の発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100B(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。
First, the
次に、キーワード抽出装置100B(機能フレーズ抽出部301)は、例えば発話者Aの先行発話の発話区間1(図2(a)参照)および発話者Bの後行発話の発話区間2(図2(b)参照)の発話音声から、疑問文等を表す機能フレーズを抽出する。具体的には、機能フレーズ抽出部301は、抽出対象となる当該発話音声に含まれる語の系列と、機能フレーズ記憶部302の機能フレーズとを比較し、当該発話音声に含まれる機能フレーズを抽出する。本実施の形態では、機能フレーズ抽出部301は、「ああ、それってどこにできるんですか?」の発話音声の中から、「ですか?」という疑問文の機能フレーズを抽出する。ここで、発話音声に含まれる語の系列は、上記音声の認識結果を利用してもよい。
Next, the
次に、キーワード抽出装置100B(キーワード抽出部105B)は、上記抽出された機能フレーズを含む発話の直前の発話音声(ステップS102で認識されたもの)から、キーワードを抽出する(ステップS104B)。このキーワードの抽出に際し、キーワード抽出部105Bは、例えば、上記直前の発話である「今度、新東京タワーができるんだって。」から、その末尾(割り込み直前)の名詞である「新東京タワー」をキーワードとして抽出する。
Next, the
次に、キーワード抽出装置100B(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記抽出されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、会話内で話題になっているキーワード(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
Next, the
また本実施の形態によると、発話者Aが「あれって何だっけ?」と質問して、発話者Bが「新東京タワーのことかな。」と答える場合のように、先行発話から疑問文の機能フレーズ(「何だっけ?」)を抽出した場合に、その直後の後行発話から、キーワード(「新東京タワー」)を抽出するようにキーワード抽出部105Bを動作させることも可能である。その際、直前の発話音声からキーワードを抽出するか、直後の発話音声からキーワードを抽出するかは、以下の通り切り替えることができる。すなわち、指示代名詞「それ」を含む場合には直前の発話から、指示代名詞「あれ」を含む場合には直後の発話から、その他の場合には直後の発話からと切り替えて使うことができる。その際、実施の形態2と同様の方法で、先行発話が上昇ピッチ、後行発話が下降ピッチとなるピッチパターンを利用(併用)することで、発話応答の特徴を捉えても良い。
In addition, according to the present embodiment, a question from a previous utterance, such as when utterer A asks "What is that?" And utterer B answers "What is New Tokyo Tower?" When the functional phrase of the sentence (“What was it?”) Is extracted, the
以上説明したように、本実施の形態によると、キーワード抽出装置100Bは、会話内容(ジャンル)にかかわらず共通に使用される機能フレーズ(疑問文等)を抽出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Bにおいては、会話文から、共通に使用される機能フレーズを抽出してキーワードを抽出することができる。よって、キーワード抽出装置100Bにおいては、個々のジャンルの会話に応じたキーワードを事前に予想してデータベース等に登録する準備を行うことなく、キーワードを抽出することができるので、有益である。
As described above, according to the present embodiment, the
なお、実施の形態3において、キーワード抽出装置100Bは、図8のステップS101〜S102、S103C、S104B、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Bは、図9の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
In the third embodiment, the
(実施の形態4)
実施の形態4のキーワード抽出装置は、発話音声を聞いた人の表情の変化に基づいて、会話内のキーワードを抽出するものである。
図9は、本発明の実施の形態4におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態4においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。(Embodiment 4)
The keyword extraction device according to the fourth embodiment extracts keywords in a conversation based on changes in the facial expression of a person who has heard spoken speech.
FIG. 9 is a block diagram illustrating a configuration example of the keyword extracting device according to the fourth embodiment of the present invention. In the fourth embodiment, the same reference numerals and terms as those in the first embodiment are assigned to the same parts as those in the first embodiment, and the duplicate description is omitted.
図9において、キーワード抽出装置100Cは、図1の実施の形態1の割込検出部104に代えて、映像入力部401および表情認識部402(これらを併せて発話応答特徴抽出部ともいう)を有する。さらに、キーワード抽出装置100Cは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Cを有する点が、実施の形態1と異なる。なお、画像入力部401は、カメラであり、表情認識部402はCPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
In FIG. 9, the keyword extraction device 100 </ b> C includes a
映像入力部401は、ユーザの顔部分を含む画像データを入力するためのものである。表情認識部402は、該画像データをユーザの表情推定処理が可能なディジタルデータの元画像データに変換すると、元画像データに含まれるユーザの顔領域を抽出し、抽出された顔領域から、ユーザの顔を構成する目や口などの少なくとも一つ以上の顔器官の輪郭位置を抽出する。そして、表情認識部402は、複数の映像フレームに亘って取得した顔器官の上端及び下端の輪郭を抽出して、顔器官の輪郭の開き具合や曲がり具合からユーザの表情(例えば、中立、驚き、喜び、怒りなど)を認識する。
その際、表情認識部402は、発話区間判定部102から得た発話者ごとの発話区間内の時刻と、発話者以外の人の表情の認識結果とを結びつける。さらに、表情認識部402は、該表情の認識結果から表情の変化点を抽出する。
例えば、図10において、t10は発話者Aによる発話区間1の発話開始時刻、t11、t12はt10に続く等間隔の時刻であり、t20は発話者Bによる発話区間2の発話開始時刻、t21、t22はt20に続く等間隔の時刻である。ここで、表情認識部402は、時刻t10、t11、t12のそれぞれにおける発話者Bの表情、および、時刻t20、t21、t22のそれぞれにおける発話者Aの表情とを結びつけて認識する。この例では、時刻t11における発話者Bの表情が驚きの表情であり、その他の時刻では話者によらず中立の表情となっている。すなわち、表情認識部402は、時刻t11を表情の変化点として抽出する。The
At that time, the facial
For example, in FIG. 10, t10 is the utterance start time of the
キーワード抽出部105Cは、上記認識された表情が、発話開始時に中立の表情であり、かつ、発話の途中で他の表情に変化したと、表情認識部402によって認識された場合に、表情の変化点に対応した時刻に発声された単語をキーワードとして抽出する。その際、キーワード抽出部105Cは、音声認識結果中の単語ごとの区間情報から表情に対応した時刻の単語を求めてもいいし、発話音声に含まれる音節数などから推定してもよい。ここでいう対応した時刻とは、単語を知覚してからその反応が表情に現れるまでの時間(例えば0.1秒)を考慮して、単語の言い終わりと表情の表出とを対応させた時刻である。
When the facial
次に、キーワード抽出装置100Cの動作について図11を参照して説明する。図11では、例えば、発話者Aが、キーワード抽出装置100Cを用いて「新東京タワーが今度できる」と言った後、発話者Bが、情報端末200を用いて「それって何ですか?」と言うことを前提にして説明する。なお、図11のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。発話者Bの音声および映像は情報端末200を用いて入力されることになるが、便宜上、入力は発話者Aと同様に、音声入力部101および映像入力部401から入力されるものとして説明する。
Next, the operation of the
まず、キーワード抽出装置100C(発話区間判定部102)は、音声入力部101から入力された発話音声について、発話者ごとの発話区間(図10の発話区間1、発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100C(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。
First, the
一方、キーワード抽出装置100C(映像入力部401および表情認識部402)は、例えば発話者Aが発声した先行発話である発話区間1の発話音声(図10参照)に対応する時刻の発話者Bの表情を認識し、発話者Bが発声した後行発話である発話区間2の発話音声(図10参照)に対応する時刻の発話者Aの表情を認識する。つまり、発話者の表情を認識するのではなく、発話音声を聞いている人の表情、すなわち発話者の発話音声に対する他の発話者の表情を認識する(ステップS103D)。
On the other hand, the
次に、キーワード抽出装置100A(キーワード抽出部105C)は、上記認識された表情が、発話開始時に中立の表情であり、かつ、発話の途中で他の表情に変化したと認識された場合に、表情の変化点に対応した時刻に発声された単語をキーワードとして抽出する(ステップS104C)。前述の例では、表情が中立から驚きの表情に変化した時刻に対応する単語として「新東京タワー」が抽出される。
Next, the
次に、キーワード抽出装置100C(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
Next, the
以上説明したように、本実施の形態によると、キーワード抽出装置100Cは、発話音声を聞いている他の人の表情の認識結果に基づいて、会話内のキーワードを抽出する。このため、キーワード抽出装置100Cにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、表情の変化として捉えられる発話応答の特徴から、会話内のキーワードを抽出することができる。
As described above, according to the present embodiment, the
なお、表情認識部402の代わりに、目の開き具合や口の開き具合などを数値化し、それらの変化の大きさのみで表情の変化を検出しても同様の効果が得られる。
It should be noted that the same effect can be obtained by converting the expression of the eyes and the degree of opening of the mouth into numerical values instead of the facial
なお、実施の形態4において、キーワード抽出装置100Cは、図11のステップS101〜S102、S103D、S104C、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Cは、図11の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
In the fourth embodiment, the
(実施の形態5)
実施の形態5のキーワード抽出装置は、発話音声を聞いた人の盛り上がり反応に基づいて、会話内のキーワードを抽出するものである。
図12は、本発明の実施の形態5におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態5においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。(Embodiment 5)
The keyword extraction device according to the fifth embodiment extracts keywords in a conversation based on an excitement reaction of a person who has heard an uttered voice.
FIG. 12 is a block diagram illustrating a configuration example of the keyword extracting device according to the fifth embodiment of the present invention. In the fifth embodiment, the same parts as those in the first embodiment are denoted by the same reference numerals and terms as those in the first embodiment, and redundant description is omitted.
図12において、キーワード抽出装置100Dは、図1の実施の形態1の割込検出部104に代えて、盛り上がり反応検出部501(発話応答特徴抽出部ともいう)を有する。さらに、キーワード抽出装置100Dは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Dを有する点が、実施の形態1と異なる。なお、盛り上がり反応検出部501はCPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
In FIG. 12, the
盛り上がり反応検出部501は、音声や音から盛り上がり反応を検出する。具体的には、笑い声の検出や、興奮度の高い音声の検出、拍手や膝を打つ音の検出、などにより、盛り上がり反応を検出する。盛り上がり反応検出部501は、笑い声や、拍手、膝を打つ音については、予め学習サンプルを容易して、GMM(ガンマー・ミクスチャー・モデル)を作成しておき、入力に対する尤度を求めて閾値処理することで検出する。また、盛り上がり反応検出部501は、興奮度の高い音声については、音量の大きさ、ピッチの高さ、発話速度の速さのそれぞれを話者の平均値で正規化した量を線形結合して数値化し、閾値処理することで検出する。
その際、盛り上がり反応検出部501は、発話区間判定部102で判定された発話区間の終端付近で検出された盛り上がり反応を、その発話に対応した盛り上がり反応とみなす。The
At this time, the climax
キーワード検出部105Dは、前記盛り上がり反応に対応する発話の中から、キーワードを抽出する。
The
次に、キーワード抽出装置100Dの動作について図13を参照して説明する。図13では、例えば、発話者Aが、キーワード抽出装置100Cを用いて「今度、新東京タワーが・・・」と言った後、発話者Bが、情報端末200を用いて「あはは」と言って笑ったことを前提にして説明する。なお、図13のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。
Next, the operation of the
まず、キーワード抽出装置100D(発話区間判定部102)は、音声入力部101および情報端末200から入力された発話音声について、発話者ごとの発話区間を判定する(ステップS101)。次に、キーワード抽出装置100D(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。
First, the
次に、キーワード抽出装置100D(盛り上がり反応検出501)は、例えば発話者Aが発声した発話区間の近傍で盛り上がり反応の存在を検出する(ステップS103E)。結果として、前述の発話例では、発話者Aの発話区間の直後で、笑い声のGMMが高い尤度で照合されるため、盛り上がり反応として検出される。
Next, the
次に、キーワード抽出装置100A(キーワード抽出部105D)は、上記盛り上がり反応に対応する発話区間内で発声された単語(例えば、「新東京タワー」)をキーワードとして抽出する(ステップS104D)。
Next, the
次に、キーワード抽出装置100D(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
Next, the
以上説明したように、本実施の形態によると、キーワード抽出装置100Dは、発話音声を聞いた人の盛り上がり反応を検出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Dにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、笑い声や拍手などの盛り上がりとして捉えられる発話応答の特徴から、会話内のキーワードを抽出することができる。
As described above, according to the present embodiment, the
なお、実施の形態5において、キーワード抽出装置100Dは、図13のステップS101〜S102、S103E、S104D、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Dは、図13の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
In the fifth embodiment, the
また、実施の形態1〜3および5において、キーワード抽出装置(キーワード抽出部)は、発話区間内の末尾(割り込み直前)の名詞をキーワードとして抽出する場合について説明したが、これに限られない。例えば、キーワード抽出部は、検索対象の先行発話に含まれる複数の名詞のうち、概念上の最下位の名詞をキーワードとして検索するようにしてもよい。この場合、キーワード抽出装置は、メモリ等の辞書情報記憶部(不図示)をさらに有し、この辞書情報記憶部が、概念上の上位(例えば、イタリア料理)および概念上の下位(例えば、パスタ)の名詞の関係を分類して体系づけた辞書情報を記憶する。そして、キーワード抽出部は、抽出対象の発話に含まれる名詞の中から、辞書情報記憶部(不図示)の辞書情報に含まれる概念上の最下位の名詞をキーワードとして抽出する。これにより、下位概念の名詞がキーワードとして抽出される。
In
また、実施の形態1〜3および5において、キーワード抽出部は、抽出対象の発話に含まれる名詞のうち、ピッチの最も高い名詞をキーワードとして抽出するようにしてもよいし、使用回数の最も多い名詞をキーワードとして抽出するようにしてもよい。あるいは、キーワード抽出部は、抽出対象の発話に含まれる名詞の中から、各名詞のピッチや使用回数を示す各種パラメータの組み合わせが最適(事前に定められたパラメータのパターン)となる名詞をキーワードとして抽出するようにしてもよい。
In
本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。
本出願は、2007年3月29日出願の日本特許出願(特願2007−088321)に基づくものであり、その内容はここに参照として取り込まれる。Although the present invention has been described in detail and with reference to specific embodiments, it will be apparent to those skilled in the art that various changes and modifications can be made without departing from the spirit and scope of the invention.
This application is based on a Japanese patent application filed on March 29, 2007 (Japanese Patent Application No. 2007-088321), the contents of which are incorporated herein by reference.
本発明のキーワード抽出装置は、会話内に含まれる重要なキーワードを抽出するのに有用である。キーワード抽出装置は、電話、車載端末、テレビ、会議システム、コールセンターシステム、パソコン等の用途に適用することができる。 The keyword extracting device of the present invention is useful for extracting important keywords included in a conversation. The keyword extraction device can be applied to uses such as a telephone, an in-vehicle terminal, a television, a conference system, a call center system, and a personal computer.
本発明は、キーワード抽出装置に係り、特に会話内に含まれるキーワードを抽出するキーワード抽出装置に関するものである。 The present invention relates to a keyword extraction device, and more particularly to a keyword extraction device that extracts keywords included in a conversation.
従来のキーワード抽出装置は、あらかじめ、電子レンジ等のキーワードとURLへのアクセス等のアクション情報との対応関係を示した対応データを保持している。そして、キーワード抽出装置は、上記対応データに基づいて、ある会話の中からキーワードを検出し、そのキーワードに対応するアクション情報に基づく処理を実行する。このようにして、音声認識による情報の提示が行われていた(例えば、特許文献1)。 A conventional keyword extracting device holds correspondence data indicating a correspondence relationship between a keyword such as a microwave oven and action information such as access to a URL in advance. Then, the keyword extraction device detects a keyword from a certain conversation based on the correspondence data, and executes processing based on action information corresponding to the keyword. In this way, information is presented by voice recognition (for example, Patent Document 1).
しかしながら、特許文献1に記載の装置においては、想定される場面別に上記対応データを準備しなければならないため、利用しにくいという問題があった。
本発明の目的は、上記の状況に対処するためになされたものであり、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することができるキーワード抽出装置を提供することである。
However, the apparatus described in
An object of the present invention is to cope with the above situation, and provides a keyword extraction device that can extract keywords in a conversation without predicting and preparing the keywords in the conversation in advance. It is to be.
上記従来の課題を解決するために、本発明は、発話者の発話音声を入力する音声入力部と、上記入力された発話音声について、上記発話者ごとの発話区間を判定する発話区間判定部と、上記判定された発話区間の発話音声を上記発話者ごとに認識する音声認識部と、上記各発話者の発話音声に対する他の発話者の応答に基づいて、キーワードの存在を示唆する発話応答の特徴を抽出する発話応答特徴抽出部と、上記抽出された発話応答の特徴に基づいて特定した発話区間の発話音声から前記キーワードを抽出するキーワード抽出部と、を含む。 In order to solve the above-described conventional problems, the present invention includes a voice input unit that inputs a utterance voice of a speaker, a utterance section determination unit that determines a utterance section for each utterer with respect to the input utterance voice, and A speech recognition unit that recognizes the speech of the determined speech section for each speaker, and a speech response that suggests the presence of a keyword based on the responses of other speakers to the speech of each speaker An utterance response feature extraction unit that extracts features, and a keyword extraction unit that extracts the keywords from the utterance speech of the utterance section specified based on the extracted utterance response features.
本発明に係るキーワード抽出装置によれば、会話内のキーワードを事前に予想して準備することなく、会話内のキーワードを抽出することができる。 According to the keyword extracting device of the present invention, it is possible to extract a keyword in a conversation without predicting and preparing the keyword in the conversation in advance.
以下、本発明の実施の形態1〜5について図面を参照しながら説明する。実施の形態1〜5は、例えば、2人の発話者A、Bが、携帯電話等の情報端末を用いて会話している場面を想定して説明する。
(実施の形態1)
図1は、本発明の実施の形態1におけるキーワード抽出装置を含むシステム全体の構成例を示すブロック図である。
図1において、キーワード抽出装置100は、ある発話者Aの情報端末であり、インターネット等のネットワーク400へ接続できるように構成されている。ネットワーク400には、別の発話者Bの情報端末200や検索サーバ300が接続されるように構成されている。キーワード抽出装置100および情報端末200は、携帯電話、ノート型パソコン、携帯情報端末等の情報端末である。検索サーバ300は、公知の検索エンジンを搭載したサーバである。
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration example of the entire system including a keyword extracting device according to
In FIG. 1, a keyword extraction device 100 is an information terminal of a certain speaker A, and is configured to be connected to a
キーワード抽出装置100は、音声入力部101、発話区間判定部102、音声認識部103、割込検出部104、キーワード抽出部105、キーワード検索部106および表示部107を有する。
音声入力部101は、発話者の音声(以下、発話音声という)を入力するためのものである。音声入力部101は、例えば、マイクロフォン、ネットワーク400との通信インターフェース等が該当する。
The keyword extraction device 100 includes a
The
発話区間判定部102は、上記入力された発話音声について、発話者ごとの発話区間を判定する。発話区間とは、発話者が会話を開始し初めてから終了するまでの区間をいう。
例えば、発話者Aと発話者Bの会話が、図2(a)または図2(b)に示すような場合、発話区間判定部102は、発話者Aの会話の開始時間ts1から終了時間te1までの区間、すなわちts1−te1を発話者Aの発話区間1として判定する。さらに、発話区間判定部102は、発話者Bの会話の開始時間ts2から終了時間te2までの区間、すなわちts2−te2の区間を発話者Bの発話区間2として判定する。
The utterance
For example, when the conversation between the speaker A and the speaker B is as shown in FIG. 2 (a) or FIG. 2 (b), the speech
図1に戻って、音声認識部103は、上記判定された発話区間の発話音声を発話者ごとに認識する。具体的には、音声認識部103は、すべての発話者の会話音声について、公知の音声認識技術によりテキスト文字化する。さらに、音声認識部103は、個々の発話者の会話音声について、その開始時間(開始点)および終了時間(終了点)を対応づける。
Returning to FIG. 1, the
割込検出部104(発話応答特徴抽出部)は、上記判定された発話区間について、各発話者の発話音声に基づいて発話の特徴、すなわち先行発話と後行発話とが重なる割り込みを検出する。例えば、発話者Aと発話者Bの会話が、図2(b)に示した会話の場合、割込検出部104は、発話者Aの先行発話の途中、すなわちts1で発話者Bの後行発話が開始されているので、上記割り込みを検出する。この検出方法は次のとおりである。
すなわち、割込検出部104は、まず、後行発話の開始時間からその直前の先行発話の終了時間までの区間(以下、発話間隔という)を計測する。例えば、図2(a)(b)の場合、割込検出部104は、発話間隔=図2(a)(b)のts2−te1の算出式を用いて、発話間隔を計算する。次に、割込検出部104は、上記計算の結果、発話間隔がマイナスの値(図2(b)参照)になるかどうかを判断する。そして、割込検出部104は、当該発話間隔がマイナスの値の場合(図2(b)参照)、割り込みがあるものとして検出することとなる。
The interrupt detection unit 104 (speech response feature extraction unit) detects an interrupt in which the utterance feature, that is, the preceding utterance and the subsequent utterance overlap, based on the utterance voice of each utterer for the determined utterance period. For example, when the conversation between the speaker A and the speaker B is the conversation shown in FIG. 2B, the interrupt
That is, the interrupt
キーワード抽出部105は、上記抽出された発話の特徴、すなわち先行発話と後行発話とが重なる割り込みに基づいて、音声認識部102で認識された発話音声の中から、その発話音声の会話内で話題になっている語(以下、キーワードという)を抽出する。具体的には、キーワード抽出部105は、音声認識部102から、音声認識部102で認識された会話音声を取得する。この会話音声には、各発話者の開始時間および終了時間が対応付けられている。また、キーワード抽出部105は、割込検出部104から、割込検出部104で割り込みが検出された発話区間(例えば、図2(b)の発話者Bの発話区間2)と、割り込まれた発話区間(例えば、図2の発話者Aの発話区間1)とを取得する。これら各発話区間は、開始時間および終了時間により対応づけられている。
Based on the extracted utterance feature, that is, the interruption in which the preceding utterance and the succeeding utterance overlap, the
さらに、キーワード抽出部105は、上記キーワードを抽出する場合、例えば、割り込まれた先行発話内の末尾(最後)の構成素(例えば名詞)をキーワードとして抽出する。ここで、先行発話内の末尾とは、割り込み時(例えば、図2(b)のts2の時間)よりも前の発話区間(例えば、図2(b)のts1−ts2)内をいう。
具体的には、まず、キーワード抽出部105は、上記取得した各発話者の発話区間(例えば、図2(b)の発話区間1、2)のうち、開始時間の早い発話者の発話区間(例えば、図2(b)の発話区間1)を選定する。次に、キーワード抽出部105は、上記選定した発話区間(例えば、図2(b)の発話区間1)において、上記取得した他の発話区間の開始時間(つまり割り込み時間、例えば図2(b)のts2)の直前の構成素(例えば名詞)を検出する。次に、キーワード抽出部105は、上記検出した構成素(例えば名詞)をキーワードとして抽出する。
Furthermore, when extracting the said keyword, the
Specifically, first, the
キーワード検索部106は、上記抽出されたキーワードを用いて、キーワード検索を行う。具体的には、まず、キーワード検索部106は、ネットワーク400を介して、検索サーバ300へ接続する。すると、検索サーバ300は、キーワード検索部106から、上記キーワード検索の要求を受け、そのキーワード検索の検索結果を、ネットワーク400を介して、キーワード抽出装置100のキーワード検索部106に返送する。キーワード検索部106は、上記返送により、検索サーバ300から、キーワード検索の検索結果を受信する。
The
表示部107は、キーワード検索部106により検索された結果、すなわち検索サーバ300の検索結果を表示する。表示部107は、ディスプレイや表示パネル等の表示装置である。
The
なお、本実施の形態において、発話区間判定部102、音声認識部103、割込検出部104、キーワード抽出部105およびキーワード検索部106は、CPU等の処理装置が該当する。その他、キーワード抽出装置100は、メモリ等の記憶装置(不図示)を含む公知の構成を備えているものとする。
In the present embodiment, the speech
次に、キーワード抽出装置100の動作について図3を参照して説明する。図3では、例えば、2人の発話者A、Bが、キーワード抽出装置100や情報端末200を用いて会話していることを前提にして説明する。
まず、キーワード抽出装置100(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間を判定する(ステップS101)。この判定の際、発話区間判定部102は、各発話者の発話音声の大きさがしきい値以上であるかどうかを判断し、しきい値以上である区間を発話区間として判定する。
例えば、発話者Aと発話者Bの会話が、図2(a)または図2(b)に示すような場合、発話区間判定部102は、発話者Aの会話の開始時間ts1から終了時間te1までの区間、すなわちts1−te2を発話者Aの発話区間1として判定する。さらに、発話区間判定部103は、発話者Bの会話の開始時間ts2から終了時間te2までの区間、ts2−te2の区間を発話者Bの発話区間2として判定する。
Next, the operation of the keyword extracting device 100 will be described with reference to FIG. In FIG. 3, for example, it is assumed that two speakers A and B are having a conversation using the keyword extraction device 100 and the
First, the keyword extraction device 100 (the utterance section determination unit 102) determines an utterance section for each speaker with respect to the utterance voices input from the voice input unit 100 and the information terminal 200 (step S101). At the time of this determination, the utterance
For example, when the conversation between the speaker A and the speaker B is as shown in FIG. 2 (a) or FIG. 2 (b), the speech
次に、キーワード抽出装置100(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。この認識は、例えば、周波数帯域による特徴分析により行われるものとする。さらに、音声認識部103は、上記認識を行う際に、すべての発話者の会話音声について、公知の音声認識技術によりテキスト文字化する。
Next, the keyword extraction device 100 (voice recognition unit 103) recognizes the utterance voice of the determined utterance section for each speaker (step S102). This recognition shall be performed by the feature analysis by a frequency band, for example. Furthermore, when performing the above recognition, the
次に、キーワード抽出装置100(割込検出部104)は、上記判定された発話区間により割り込みを検出する(ステップS103)。具体的には、割込検出部104は、後行発話の開始時間からその直前の先行発話の終了時間を差し引いた間隔、すなわち発話間隔(例えば、図2(a)(b)のte1−ts2)を計算する。そして、この計算の結果、発話間隔の値(例えば、図2(b)のte1−ts2=発話間隔)がマイナスであれば、割込検出部104は、後行発話の割り込みがあったと判断する。
Next, the keyword extraction device 100 (interrupt detection unit 104) detects an interrupt based on the determined speech period (step S103). Specifically, the interrupt
次に、キーワード抽出装置100(キーワード抽出部105)は、上記検出された割り込みのあった音声会話(ステップS102で認識された音声会話)内のキーワードを抽出して決定する(ステップS104)。具体的には、キーワード抽出部105は、後行発話の直前にある先行発話内の名詞を抽出し、この名詞を当該発話内のキーワードとして決定する。
例えば、図2(b)のts1の時点において、発話者Aが「今度、新東京タワーが…」と話し始めたときに、図2(b)のts2の時点において、発話者Bが「ああ、それってどこにできるんですか?」と会話を始めた場合、キーワード抽出部105は、ts2の直前にある発話者Aの「新東京タワー」という名詞をキーワードとして決定する。これにより、キーワード抽出部105は、事前に予想したキーワードを登録したデータベースから「新東京タワー」のキーワードを抽出することなく、「新東京タワー」を会話内で話題になっている語として決定することができる。
Next, the keyword extraction device 100 (keyword extraction unit 105) extracts and determines the keywords in the detected voice conversation (interactive voice recognition recognized in step S102) with the interruption (step S104). Specifically, the
For example, when utterer A starts to speak “This time, New Tokyo Tower ...” at the time ts1 in FIG. 2B, the utterer B is “oh” at the time ts2 in FIG. When the conversation begins, “Where is it possible?”, The
なお、キーワード抽出部105は、上記発話間隔がプラスの値を示す場合(図2(a)参照)、発話中のキーワードがないものと判断し、キーワードを抽出しない。
Note that when the utterance interval shows a positive value (see FIG. 2A), the
次に、キーワード抽出装置100(キーワード検索部106)は、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。具体的には、まず、キーワード検索部106は、ネットワーク400を介して、検索サーバ300に対し、上記キーワード検索を要求する。すると、検索サーバ300は、上記要求を受けたキーワード検索を行い、その検索結果をキーワード検索部106に送信する。次に、キーワード検索部106は、検索サーバ300から送信された検索結果を受信する。
Next, the keyword extraction device 100 (keyword search unit 106) performs keyword search for the determined keyword (step S105). Specifically, the
次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、会話内のキーワード(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
Next, the
また、割込検出部104の代わりに、発話間隔が予め設定した閾値(例えば3秒)以上である沈黙を検出する沈黙検出部を動作させることも、キーワードの存在を示唆する発話応答の特徴を抽出する上で有用である。
Also, in place of the interrupt
以上説明したように、本実施の形態によると、キーワード抽出装置100は、キーワードの存在を示唆する発話応答の特徴としての割り込みを検出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100においては、会話内のキーワードを事前に予想してデータベース等に登録する準備を行うことなく、発話者の割り込みの有無から、会話内のキーワードを抽出することができる。 As described above, according to the present embodiment, the keyword extraction device 100 detects an interrupt as a feature of an utterance response that suggests the presence of a keyword, and extracts a keyword in the conversation. For this reason, the keyword extraction apparatus 100 can extract a keyword in a conversation based on the presence or absence of a speaker's interruption without predicting the keyword in the conversation in advance and registering it in a database or the like.
なお、実施の形態1において、キーワード抽出装置100は、図3のステップS101〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100は、図3の各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。 In the first embodiment, the keyword extracting apparatus 100 has been described with respect to the case where the processes of steps S101 to S106 in FIG. 3 are sequentially performed, but the present invention is not limited to this. For example, the keyword extraction device 100 may execute the steps in FIG. 3 by changing the order of the steps, or may execute the steps in parallel.
(実施の形態2)
実施の形態2のキーワード抽出装置は、発話応答の特徴であるピッチ(音の高さ)のパターンに基づいて、会話内のキーワードを抽出するものである。
図4は、本発明の実施の形態2におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態2においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
図4において、キーワード抽出装置100Aは、図1の実施の形態1の割込検出部104に代えて、ピッチ判定部201およびピッチパターン判定部202を有する。さらに、キーワード抽出装置100Aは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Aを有する点が、実施の形態1と異なる。ピッチ判定部201、ピッチパターン判定部202およびキーワード抽出部105Aは、CPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
(Embodiment 2)
The keyword extracting apparatus according to the second embodiment extracts keywords in a conversation based on a pitch (sound pitch) pattern that is a feature of an utterance response.
FIG. 4 is a block diagram illustrating a configuration example of the keyword extracting device according to the second embodiment of the present invention. In the second embodiment, the same parts as those in the first embodiment are denoted by the same reference numerals and terms as those in the first embodiment, and redundant description is omitted.
In FIG. 4, the keyword extraction device 100 </ b> A includes a
ピッチ判定部201およびピッチパターン判定部202(これらを併せて発話応答特徴抽出部ともいう)は、発話区間判定部102により判定された発話区間について、各発話者の発話音声に基づいて、発話の特徴であるピッチパターンを抽出する。具体的には、ピッチ判定部201は、発話音声のピッチを判定する。本実施の形態のピッチ判定部201は、例えば、10msごとに発話音声を分割してピッチを判定する。
The
ピッチパターン判定部202は、上記判定されたピッチに基づいて、先行発話の末尾が下降ピッチ(図5のtc1−te1間参照)で、かつ、その先行発話の直後の後行発話が上昇ピッチ(図5のtc2−te2間参照)となるピッチパターン(発話の特徴)を判定する。この判定例を図5に示す。図5の横軸は時間を表し、縦軸は周波数を表す。
図5の発話区間ts1−te1には、「新東京タワーが」という先行発話があり、発話区間ts2−te2には、「それって・・・ですか?」という後行発話がある。そして、「新東京タワーが」の先行発話の末尾には下降ピッチが判定され、「それって・・・ですか?」の後行発話には上昇ピッチが判定されている。このように判定されるのは、ピッチパターン判定部202が次のように判定したからである。
Based on the determined pitch, the pitch
In the utterance section ts1-te1, there is a preceding utterance “New Tokyo Tower”, and in the utterance section ts2-te2, there is a subsequent utterance “Is that? A descending pitch is determined at the end of the preceding utterance of “New Tokyo Tower”, and an ascending pitch is determined for the subsequent utterance of “Is that ...?”. This determination is made because the pitch
すなわち、ピッチパターン判定部202は、図5の「新東京タワーが」の発話区間ts1−te1において、その中点tc1の周波数fよりも、発話区間の末尾(終了時)の周波数fが高いので上昇ピッチと判定したからである。また、ピッチパターン判定部202は、図5の「なんですか?」の発話区間ts2−te2において、その中点tc2の周波数fよりも、発話区間の末尾(終了時)の周波数fが低いので下降ピッチと判定したからである。
That is, the pitch
なお、本実施の形態のピッチパターン判定部202は、発話区間の中点の周波数を基準にして上昇ピッチまたは下降ピッチを判定する場合について説明するが、これに限られない。例えば、ピッチ判定部201は、発話区間の終了時(例えば図5のte1、te2)から、あらかじめ定められた区間(例えば時間T)遡った時点を基準にして判定してもよい。
In addition, although the pitch
キーワード抽出部105Aは、上記判定されたピッチパターンに示された先行発話の中から、キーワードを抽出する。この抽出に際し、キーワード抽出部105Aは、例えば、上記ピッチパターンに示された先行発話内の末尾の構成素(例えば名詞)をキーワードとして抽出する。
The
次に、キーワード抽出装置100Aの動作について図6を参照して説明する。図6では、例えば、発話者Aが、キーワード抽出装置100Aを用いて「今度、新東京タワーが・・・」と言った後、発話者Bが、情報端末200を用いて「それって・・・ですか?」と言うことを前提にして説明する。なお、図7のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。
Next, the operation of the
まず、キーワード抽出装置100A(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間(図2(a)の発話区間1、図2(b)の発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100A(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。
First, the
次に、キーワード抽出装置100A(ピッチ判定部201)は、例えば発話者Aの先行発話の発話区間1(図2(a)参照)および発話者Bの後行発話の発話区間2(図2(b)参照)の発話音声に基づいて、発話音声のピッチを判定する(ステップS103A)。
Next, the
次に、キーワード抽出装置100A(ピッチパターン判定部202)は、上記判定されたピッチに基づいて、先行発話から後行発話へ移行した場合に、下降ピッチから上昇ピッチとなるピッチパターンがあるかを判定する(ステップS103B)。具体的には、ピッチパターン判定部202は、先行発話の末尾が下降ピッチ(図5のtc1−te1間参照)で、かつ、その先行発話の直後の後行発話が上昇ピッチ(図5のtc2−te2間参照)となるピッチパターンを判定する。
Next, the
次に、キーワード抽出装置100A(キーワード抽出部105A)は、上記判定されたピッチパターンに示された発話音声(ステップS102で認識されたもの)の先行発話(例えば、図5の「新東京タワーが」)の中から、キーワードを抽出する(ステップS104A)。この抽出に際し、キーワード抽出部105Aは、例えば、上記ピッチパターンに示された先行発話内の末尾の名詞である「新東京タワー」をキーワードとして抽出する。
Next, the
次に、キーワード抽出装置100A(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
Next, the
以上説明したように、本実施の形態によると、キーワード抽出装置100Aは、キーワードの存在を示唆する発話応答の特徴であるピッチパターンを判定して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Aにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、ピッチパターンの有無から、会話内のキーワードを抽出することができる。
As described above, according to the present embodiment,
なお、実施の形態2において、キーワード抽出装置100Aは、図7のステップS101〜S102、S103A〜S103B、S104A、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Aは、図7の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
In the second embodiment, the
(実施の形態3)
実施の形態3のキーワード抽出装置は、発話応答の特徴である機能フレーズに基づいて、会話内のキーワードを抽出するものである。
図7は、本発明の実施の形態3におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態3においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
図7において、キーワード抽出装置100Bは、図1の実施の形態1の割込検出部104に代えて、機能フレーズ抽出部301(発話応答特徴抽出部)を有する。さらに、キーワード抽出装置100Bは、機能フレーズ記憶部302を有する。また、キーワード抽出装置100Bは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Bを有する点が、実施の形態1と異なる。なお、機能フレーズ抽出部301は、CPU等の処理装置であり、機能フレーズ記憶部302は、メモリ等の記憶装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
(Embodiment 3)
The keyword extraction device according to the third embodiment extracts keywords in a conversation based on a function phrase that is a feature of an utterance response.
FIG. 7 is a block diagram illustrating a configuration example of the keyword extraction device according to Embodiment 3 of the present invention. In the third embodiment, the same reference numerals and terms as those in the first embodiment are assigned to the same parts as those in the first embodiment, and the duplicate description is omitted.
In FIG. 7, the
機能フレーズ記憶部302は、あらかじめ定められた機能フレーズを記憶する。この機能フレーズは、応答の種類を表す語であり、種々の異なる会話内容にかかわらず、会話共通に使用されるものである。例えば、機能フレーズとして、「ですか?」等の疑問文、「いいね」「なるほど」「それだ」等の同意文、「違う」等の否定文、「お願いします」等の依頼文、「ああ」などの感嘆文、「なんでやねん」等の突っ込み文などが該当する。
The function
機能フレーズ抽出部301は、発話音声の中から、当該発話音声の特徴である上記機能フレーズを抽出する。具体的には、機能フレーズ抽出部301は、抽出対象となる発話音声に含まれる語と、機能フレーズ記憶部302の機能フレーズとを比較し、当該発話音声に含まれる機能フレーズを抽出する。
The functional
次に、キーワード抽出装置100Bの動作について図8を参照して説明する。図8では、例えば、発話者Aが、キーワード抽出装置100Bを用いて「今度、新東京タワーができるんだって。」と言った後に、発話者Bが、情報端末200を用いて「ああ、それってどこにできるんですか?」と言うことを前提にして説明する。なお、図8のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略する。
Next, the operation of the
まず、キーワード抽出装置100B(発話区間判定部102)は、音声入力部100および情報端末200から入力された発話音声について、発話者ごとの発話区間(図2(a)の発話区間1、図2(b)の発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100B(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。
First, the
次に、キーワード抽出装置100B(機能フレーズ抽出部301)は、例えば発話者Aの先行発話の発話区間1(図2(a)参照)および発話者Bの後行発話の発話区間2(図2(b)参照)の発話音声から、疑問文等を表す機能フレーズを抽出する。具体的には、機能フレーズ抽出部301は、抽出対象となる当該発話音声に含まれる語の系列と、機能フレーズ記憶部302の機能フレーズとを比較し、当該発話音声に含まれる機能フレーズを抽出する。本実施の形態では、機能フレーズ抽出部301は、「ああ、それってどこにできるんですか?」の発話音声の中から、「ですか?」という疑問文の機能フレーズを抽出する。ここで、発話音声に含まれる語の系列は、上記音声の認識結果を利用してもよい。
Next, the
次に、キーワード抽出装置100B(キーワード抽出部105B)は、上記抽出された機能フレーズを含む発話の直前の発話音声(ステップS102で認識されたもの)から、キーワードを抽出する(ステップS104B)。このキーワードの抽出に際し、キーワード抽出部105Bは、例えば、上記直前の発話である「今度、新東京タワーができるんだって。」から、その末尾(割り込み直前)の名詞である「新東京タワー」をキーワードとして抽出する。
Next, the
次に、キーワード抽出装置100B(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記抽出されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、会話内で話題になっているキーワード(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
Next, the
また本実施の形態によると、発話者Aが「あれって何だっけ?」と質問して、発話者Bが「新東京タワーのことかな。」と答える場合のように、先行発話から疑問文の機能フレーズ(「何だっけ?」)を抽出した場合に、その直後の後行発話から、キーワード(「新東京タワー」)を抽出するようにキーワード抽出部105Bを動作させることも可能である。その際、直前の発話音声からキーワードを抽出するか、直後の発話音声からキーワードを抽出するかは、以下の通り切り替えることができる。すなわち、指示代名詞「それ」を含む場合には直前の発話から、指示代名詞「あれ」を含む場合には直後の発話から、その他の場合には直後の発話からと切り替えて使うことができる。その際、実施の形態2と同様の方法で、先行発話が上昇ピッチ、後行発話が下降ピッチとなるピッチパターンを利用(併用)することで、発話応答の特徴を捉えても良い。
In addition, according to the present embodiment, the question from the previous utterance, such as when the speaker A asks "What is that?" And the speaker B answers "What is the New Tokyo Tower?" When the functional phrase of the sentence (“What was it?”) Is extracted, the
以上説明したように、本実施の形態によると、キーワード抽出装置100Bは、会話内容(ジャンル)にかかわらず共通に使用される機能フレーズ(疑問文等)を抽出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Bにおいては、会話文から、共通に使用される機能フレーズを抽出してキーワードを抽出することができる。よって、キーワード抽出装置100Bにおいては、個々のジャンルの会話に応じたキーワードを事前に予想してデータベース等に登録する準備を行うことなく、キーワードを抽出することができるので、有益である。
As described above, according to the present embodiment, the
なお、実施の形態3において、キーワード抽出装置100Bは、図8のステップS101〜S102、S103C、S104B、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Bは、図9の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
In the third embodiment, the
(実施の形態4)
実施の形態4のキーワード抽出装置は、発話音声を聞いた人の表情の変化に基づいて、会話内のキーワードを抽出するものである。
図9は、本発明の実施の形態4におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態4においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
(Embodiment 4)
The keyword extraction device according to the fourth embodiment extracts keywords in a conversation based on changes in the facial expression of a person who has heard spoken speech.
FIG. 9 is a block diagram illustrating a configuration example of the keyword extracting device according to the fourth embodiment of the present invention. In the fourth embodiment, the same reference numerals and terms as those in the first embodiment are assigned to the same parts as those in the first embodiment, and the duplicate description is omitted.
図9において、キーワード抽出装置100Cは、図1の実施の形態1の割込検出部104に代えて、映像入力部401および表情認識部402(これらを併せて発話応答特徴抽出部ともいう)を有する。さらに、キーワード抽出装置100Cは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Cを有する点が、実施の形態1と異なる。なお、画像入力部401は、カメラであり、表情認識部402はCPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
In FIG. 9, the keyword extraction device 100 </ b> C includes a
映像入力部401は、ユーザの顔部分を含む画像データを入力するためのものである。表情認識部402は、該画像データをユーザの表情推定処理が可能なディジタルデータの元画像データに変換すると、元画像データに含まれるユーザの顔領域を抽出し、抽出された顔領域から、ユーザの顔を構成する目や口などの少なくとも一つ以上の顔器官の輪郭位置を抽出する。そして、表情認識部402は、複数の映像フレームに亘って取得した顔器官の上端及び下端の輪郭を抽出して、顔器官の輪郭の開き具合や曲がり具合からユーザの表情(例えば、中立、驚き、喜び、怒りなど)を認識する。
その際、表情認識部402は、発話区間判定部102から得た発話者ごとの発話区間内の時刻と、発話者以外の人の表情の認識結果とを結びつける。さらに、表情認識部402は、該表情の認識結果から表情の変化点を抽出する。
例えば、図10において、t10は発話者Aによる発話区間1の発話開始時刻、t11、t12はt10に続く等間隔の時刻であり、t20は発話者Bによる発話区間2の発話開始時刻、t21、t22はt20に続く等間隔の時刻である。ここで、表情認識部402は、時刻t10、t11、t12のそれぞれにおける発話者Bの表情、および、時刻t20、t21、t22のそれぞれにおける発話者Aの表情とを結びつけて認識する。この例では、時刻t11における発話者Bの表情が驚きの表情であり、その他の時刻では話者によらず中立の表情となっている。すなわち、表情認識部402は、時刻t11を表情の変化点として抽出する。
The
At that time, the facial
For example, in FIG. 10, t10 is the utterance start time of the
キーワード抽出部105Cは、上記認識された表情が、発話開始時に中立の表情であり、かつ、発話の途中で他の表情に変化したと、表情認識部402によって認識された場合に、表情の変化点に対応した時刻に発声された単語をキーワードとして抽出する。その際、キーワード抽出部105Cは、音声認識結果中の単語ごとの区間情報から表情に対応した時刻の単語を求めてもいいし、発話音声に含まれる音節数などから推定してもよい。ここでいう対応した時刻とは、単語を知覚してからその反応が表情に現れるまでの時間(例えば0.1秒)を考慮して、単語の言い終わりと表情の表出とを対応させた時刻である。
The
次に、キーワード抽出装置100Cの動作について図11を参照して説明する。図11では、例えば、発話者Aが、キーワード抽出装置100Cを用いて「新東京タワーが今度できる」と言った後、発話者Bが、情報端末200を用いて「それって何ですか?」と言うことを前提にして説明する。なお、図11のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。発話者Bの音声および映像は情報端末200を用いて入力されることになるが、便宜上、入力は発話者Aと同様に、音声入力部101および映像入力部401から入力されるものとして説明する。
Next, the operation of the
まず、キーワード抽出装置100C(発話区間判定部102)は、音声入力部101から入力された発話音声について、発話者ごとの発話区間(図10の発話区間1、発話区間2参照)を判定する(ステップS101)。次に、キーワード抽出装置100C(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。
First, the
一方、キーワード抽出装置100C(映像入力部401および表情認識部402)は、例えば発話者Aが発声した先行発話である発話区間1の発話音声(図10参照)に対応する時刻の発話者Bの表情を認識し、発話者Bが発声した後行発話である発話区間2の発話音声(図10参照)に対応する時刻の発話者Aの表情を認識する。つまり、発話者の表情を認識するのではなく、発話音声を聞いている人の表情、すなわち発話者の発話音声に対する他の発話者の表情を認識する(ステップS103D)。
On the other hand, the
次に、キーワード抽出装置100A(キーワード抽出部105C)は、上記認識された表情が、発話開始時に中立の表情であり、かつ、発話の途中で他の表情に変化したと認識された場合に、表情の変化点に対応した時刻に発声された単語をキーワードとして抽出する(ステップS104C)。前述の例では、表情が中立から驚きの表情に変化した時刻に対応する単語として「新東京タワー」が抽出される。
Next, the
次に、キーワード抽出装置100C(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
Next, the
以上説明したように、本実施の形態によると、キーワード抽出装置100Cは、発話音声を聞いている他の人の表情の認識結果に基づいて、会話内のキーワードを抽出する。このため、キーワード抽出装置100Cにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、表情の変化として捉えられる発話応答の特徴から、会話内のキーワードを抽出することができる。
As described above, according to the present embodiment, the
なお、表情認識部402の代わりに、目の開き具合や口の開き具合などを数値化し、それらの変化の大きさのみで表情の変化を検出しても同様の効果が得られる。
It should be noted that the same effect can be obtained by converting the expression of the eyes and the degree of opening of the mouth into numerical values instead of the facial
なお、実施の形態4において、キーワード抽出装置100Cは、図11のステップS101〜S102、S103D、S104C、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Cは、図11の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
In the fourth embodiment, the
(実施の形態5)
実施の形態5のキーワード抽出装置は、発話音声を聞いた人の盛り上がり反応に基づいて、会話内のキーワードを抽出するものである。
図12は、本発明の実施の形態5におけるキーワード抽出装置の構成例を示すブロック図である。なお、実施の形態5においては、実施の形態1と同一部分について実施の形態1と同一の符号・用語を付して、重複説明を省略する。
(Embodiment 5)
The keyword extraction device according to the fifth embodiment extracts keywords in a conversation based on an excitement reaction of a person who has heard an uttered voice.
FIG. 12 is a block diagram illustrating a configuration example of the keyword extracting device according to the fifth embodiment of the present invention. In the fifth embodiment, the same parts as those in the first embodiment are denoted by the same reference numerals and terms as those in the first embodiment, and redundant description is omitted.
図12において、キーワード抽出装置100Dは、図1の実施の形態1の割込検出部104に代えて、盛り上がり反応検出部501(発話応答特徴抽出部ともいう)を有する。さらに、キーワード抽出装置100Dは、図1の実施の形態1のキーワード抽出部105に代えて、キーワード抽出部105Dを有する点が、実施の形態1と異なる。なお、盛り上がり反応検出部501はCPU等の処理装置である。その他、情報端末200を含むシステム全体の構成は、図1の場合と同様である。
In FIG. 12, the
盛り上がり反応検出部501は、音声や音から盛り上がり反応を検出する。具体的には、笑い声の検出や、興奮度の高い音声の検出、拍手や膝を打つ音の検出、などにより、盛り上がり反応を検出する。盛り上がり反応検出部501は、笑い声や、拍手、膝を打つ音については、予め学習サンプルを容易して、GMM(ガンマー・ミクスチャー・モデル)を作成しておき、入力に対する尤度を求めて閾値処理することで検出する。また、盛り上がり反応検出部501は、興奮度の高い音声については、音量の大きさ、ピッチの高さ、発話速度の速さのそれぞれを話者の平均値で正規化した量を線形結合して数値化し、閾値処理することで検出する。
その際、盛り上がり反応検出部501は、発話区間判定部102で判定された発話区間の終端付近で検出された盛り上がり反応を、その発話に対応した盛り上がり反応とみなす。
The
At this time, the climax
キーワード検出部105Dは、前記盛り上がり反応に対応する発話の中から、キーワードを抽出する。
The
次に、キーワード抽出装置100Dの動作について図13を参照して説明する。図13では、例えば、発話者Aが、キーワード抽出装置100Cを用いて「今度、新東京タワーが・・・」と言った後、発話者Bが、情報端末200を用いて「あはは」と言って笑ったことを前提にして説明する。なお、図13のステップS101〜S102、S105〜S106の処理は、図3のステップS101〜S102、S105〜S106と同様の処理であるため、適宜省略して説明する。
Next, the operation of the
まず、キーワード抽出装置100D(発話区間判定部102)は、音声入力部101および情報端末200から入力された発話音声について、発話者ごとの発話区間を判定する(ステップS101)。次に、キーワード抽出装置100D(音声認識部103)は、上記判定された発話区間の発話音声を発話者ごとに認識する(ステップS102)。
First, the
次に、キーワード抽出装置100D(盛り上がり反応検出501)は、例えば発話者Aが発声した発話区間の近傍で盛り上がり反応の存在を検出する(ステップS103E)。結果として、前述の発話例では、発話者Aの発話区間の直後で、笑い声のGMMが高い尤度で照合されるため、盛り上がり反応として検出される。
Next, the
次に、キーワード抽出装置100A(キーワード抽出部105D)は、上記盛り上がり反応に対応する発話区間内で発声された単語(例えば、「新東京タワー」)をキーワードとして抽出する(ステップS104D)。
Next, the
次に、キーワード抽出装置100D(キーワード検索部106)は、ネットワーク400を介して、検索サーバ300に対し、上記決定されたキーワードのキーワード検索を実行する(ステップS105)。次に、キーワード検索部106は、上記受信した検索結果を表示部107に表示する(ステップS106)。これにより、発話者は、話題になっている語(例えば、新東京タワー)に関する情報(検索結果)を把握することが可能となる。
Next, the
以上説明したように、本実施の形態によると、キーワード抽出装置100Dは、発話音声を聞いた人の盛り上がり反応を検出して、会話内のキーワードを抽出する。このため、キーワード抽出装置100Dにおいては、会話内で使用されるキーワードを事前に予想してデータベース等に登録する準備を行うことなく、笑い声や拍手などの盛り上がりとして捉えられる発話応答の特徴から、会話内のキーワードを抽出することができる。
As described above, according to the present embodiment, the
なお、実施の形態5において、キーワード抽出装置100Dは、図13のステップS101〜S102、S103E、S104D、S105〜S106の処理を順次実行する場合について説明したが、これに限られない。例えば、キーワード抽出装置100Dは、図13の上記各ステップの順序を入れ替えて実行してもよいし、各ステップの処理を並列処理して実行してもよい。
In the fifth embodiment, the
また、実施の形態1〜3および5において、キーワード抽出装置(キーワード抽出部)は、発話区間内の末尾(割り込み直前)の名詞をキーワードとして抽出する場合について説明したが、これに限られない。例えば、キーワード抽出部は、検索対象の先行発話に含まれる複数の名詞のうち、概念上の最下位の名詞をキーワードとして検索するようにしてもよい。この場合、キーワード抽出装置は、メモリ等の辞書情報記憶部(不図示)をさらに有し、この辞書情報記憶部が、概念上の上位(例えば、イタリア料理)および概念上の下位(例えば、パスタ)の名詞の関係を分類して体系づけた辞書情報を記憶する。そして、キーワード抽出部は、抽出対象の発話に含まれる名詞の中から、辞書情報記憶部(不図示)の辞書情報に含まれる概念上の最下位の名詞をキーワードとして抽出する。これにより、下位概念の名詞がキーワードとして抽出される。
In
また、実施の形態1〜3および5において、キーワード抽出部は、抽出対象の発話に含まれる名詞のうち、ピッチの最も高い名詞をキーワードとして抽出するようにしてもよいし、使用回数の最も多い名詞をキーワードとして抽出するようにしてもよい。あるいは、キーワード抽出部は、抽出対象の発話に含まれる名詞の中から、各名詞のピッチや使用回数を示す各種パラメータの組み合わせが最適(事前に定められたパラメータのパターン)となる名詞をキーワードとして抽出するようにしてもよい。
In
本発明を詳細にまた特定の実施態様を参照して説明したが、本発明の精神と範囲を逸脱することなく様々な変更や修正を加えることができることは当業者にとって明らかである。
本出願は、2007年3月29日出願の日本特許出願(特願2007−088321)に基づくものであり、その内容はここに参照として取り込まれる。
Although the present invention has been described in detail and with reference to specific embodiments, it will be apparent to those skilled in the art that various changes and modifications can be made without departing from the spirit and scope of the invention.
This application is based on a Japanese patent application filed on March 29, 2007 (Japanese Patent Application No. 2007-088321), the contents of which are incorporated herein by reference.
本発明のキーワード抽出装置は、会話内に含まれる重要なキーワードを抽出するのに有用である。キーワード抽出装置は、電話、車載端末、テレビ、会議システム、コールセンターシステム、パソコン等の用途に適用することができる。 The keyword extracting device of the present invention is useful for extracting important keywords included in a conversation. The keyword extraction device can be applied to uses such as a telephone, an in-vehicle terminal, a television, a conference system, a call center system, and a personal computer.
100、100A、100B、100C、100D キーワード抽出装置
101 音声入力部
102 発話区間判定部
103 音声認識部
104 割込検出部
105、105A、105B、105C、105D キーワード抽出部
106 キーワード検索部
107 表示部
201 ピッチ判定部
202 ピッチパターン判定部
301 機能フレーズ抽出部
302 機能フレーズ記憶部
401 映像入力部
402 表情認識部
501 盛り上がり反応検出部
100, 100A, 100B, 100C, 100D
Claims (8)
前記入力された発話音声について、前記発話者ごとの発話区間を判定する発話区間判定部と、
前記判定された発話区間の発話音声を前記発話者ごとに認識する音声認識部と、
前記各発話者の発話音声に対する他の発話者の応答に基づいて、キーワードの存在を示唆する発話応答の特徴を抽出する発話応答特徴抽出部と、
前記抽出された発話応答の特徴に基づいて特定した発話区間の発話音声から前記キーワードを抽出するキーワード抽出部と、
を含むキーワード抽出装置。A voice input unit for inputting the voice of the speaker,
For the input speech voice, an utterance interval determination unit that determines an utterance interval for each speaker,
A speech recognition unit for recognizing the speech of the determined speech section for each speaker;
An utterance response feature extraction unit that extracts the feature of an utterance response that suggests the presence of a keyword based on the response of another utterer to the utterance voice of each utterer;
A keyword extraction unit for extracting the keyword from the utterance voice of the utterance section identified based on the extracted utterance response characteristics;
Keyword extractor including
前記発話応答特徴抽出部は、前記先行発話および前記後行発話の発話音声に基づいて、前記先行発話の途中で前記後行発話が開始された場合に、前記先行発話と前記後行発話とが重なる割り込みを検出する割込検出部で構成され、
前記キーワード抽出部は、前記検出された割り込みに基づいて特定した、前記後行発話と重なる前記先行発話の発話音声の中から、前記キーワードを抽出する、
請求項1に記載のキーワード抽出装置。The utterance voice of each utterer includes the utterance voice of the preceding utterance and the utterance voice of the subsequent utterance,
The utterance response feature extraction unit determines whether the preceding utterance and the following utterance are generated when the following utterance is started in the middle of the preceding utterance based on the speech of the preceding utterance and the following utterance. It consists of an interrupt detection unit that detects overlapping interrupts,
The keyword extraction unit extracts the keyword from the utterance speech of the preceding utterance that overlaps with the subsequent utterance specified based on the detected interruption.
The keyword extraction device according to claim 1.
前記発話応答特徴抽出部は、
前記先行発話および前記後行発話の発話音声に基づいて、当該発話音声のピッチを判定するピッチ判定部と、
前記判定されたピッチに基づいて、前記先行発話の末尾が下降ピッチで、かつ、その先行発話の直後の前記後行発話が上昇ピッチとなるピッチパターンを判定するパターン判定部と、を有し、
前記キーワード抽出部は、前記判定されたピッチパターンに基づいて特定した、前記ピッチパターンに示された前記先行発話の発話音声の中から、前記キーワードを抽出する、
請求項1に記載のキーワード抽出装置。The utterance voice of each utterer includes the utterance voice of the preceding utterance and the utterance voice of the subsequent utterance,
The utterance response feature extraction unit includes:
A pitch determination unit that determines the pitch of the uttered voice based on the uttered voice of the preceding utterance and the subsequent utterance;
A pattern determination unit that determines a pitch pattern in which the trailing utterance at the end of the preceding utterance is a descending pitch and the succeeding utterance immediately after the preceding utterance is an ascending pitch based on the determined pitch;
The keyword extracting unit extracts the keyword from the utterance speech of the preceding utterance indicated in the pitch pattern, identified based on the determined pitch pattern.
The keyword extraction device according to claim 1.
前記発話応答特徴抽出部は、前記先行発話および前記後行発話の発話音声に基づいて、前記後行発話の発話音声の中から、あらかじめ定められた種類の機能フレーズを抽出し、
前記キーワード抽出部は、前記抽出された機能フレーズを含む前記後行発話の直前の前記先行発話の発話音声の中から、前記キーワードを抽出する、
請求項1に記載のキーワード抽出装置。The utterance voice of each utterer includes the utterance voice of the preceding utterance and the utterance voice of the subsequent utterance,
The utterance response feature extraction unit extracts a function phrase of a predetermined type from the utterance voice of the subsequent utterance based on the utterance voice of the preceding utterance and the subsequent utterance,
The keyword extraction unit extracts the keyword from the utterance voice of the preceding utterance immediately before the subsequent utterance including the extracted function phrase.
The keyword extraction device according to claim 1.
前記キーワード抽出部は、前記盛り上がり反応に対応する発話音声の中から、前記キーワードを抽出する、
請求項1に記載のキーワード抽出装置The utterance response feature extraction unit detects an excitement reaction of a person other than the speaker in the vicinity of the utterance section for each speaker,
The keyword extraction unit extracts the keyword from the utterance voice corresponding to the excitement reaction;
The keyword extraction device according to claim 1.
請求項2ないし5のいずれか1項に記載のキーワード抽出装置。The keyword extraction unit, when extracting the keyword, extracts a last constituent in the preceding utterance as the keyword;
The keyword extracting device according to any one of claims 2 to 5.
前記発話応答特徴抽出部は、前記先行発話および前記後行発話の発話音声に基づいて、前記先行発話の発話音声の中から、あらかじめ定められた種類の機能フレーズを抽出し、
前記キーワード抽出部は、前記抽出された機能フレーズを含む前記先行発話の直後の前記後行発話の発話音声の中から、前記キーワードを抽出する、
請求項1に記載のキーワード抽出装置。The utterance voice of each utterer includes the utterance voice of the preceding utterance and the utterance voice of the subsequent utterance,
The utterance response feature extraction unit extracts a predetermined type of functional phrase from the utterance speech of the preceding utterance based on the utterance speech of the preceding utterance and the subsequent utterance,
The keyword extraction unit extracts the keyword from the utterance voice of the subsequent utterance immediately after the preceding utterance including the extracted functional phrase.
The keyword extraction device according to claim 1.
前記キーワード抽出部は、前記抽出された表情の変化点に対応する、前記発話区間内の構成素をキーワードとして抽出する、
請求項1に記載のキーワード抽出装置。The utterance response feature extraction unit recognizes facial expressions of other utterers with respect to the uttered voices of the respective speakers, and extracts change points of the recognized facial expressions,
The keyword extraction unit extracts a constituent element in the utterance interval corresponding to the extracted facial expression change point as a keyword;
The keyword extraction device according to claim 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009508884A JP4838351B2 (en) | 2007-03-29 | 2008-03-14 | Keyword extractor |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007088321 | 2007-03-29 | ||
JP2007088321 | 2007-03-29 | ||
PCT/JP2008/000599 WO2008126355A1 (en) | 2007-03-29 | 2008-03-14 | Keyword extracting device |
JP2009508884A JP4838351B2 (en) | 2007-03-29 | 2008-03-14 | Keyword extractor |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008126355A1 true JPWO2008126355A1 (en) | 2010-07-22 |
JP4838351B2 JP4838351B2 (en) | 2011-12-14 |
Family
ID=39863515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009508884A Expired - Fee Related JP4838351B2 (en) | 2007-03-29 | 2008-03-14 | Keyword extractor |
Country Status (5)
Country | Link |
---|---|
US (1) | US8370145B2 (en) |
EP (1) | EP2045798B1 (en) |
JP (1) | JP4838351B2 (en) |
CN (1) | CN101542592A (en) |
WO (1) | WO2008126355A1 (en) |
Families Citing this family (156)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US8909683B1 (en) | 2009-07-17 | 2014-12-09 | Open Invention Network, Llc | Method and system for communicating with internet resources to identify and supply content for webpage construction |
JP5471274B2 (en) * | 2009-10-14 | 2014-04-16 | 日本電気株式会社 | Portable terminal device and information recording method |
JP5715390B2 (en) * | 2009-12-03 | 2015-05-07 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | Viewing terminal device, viewing statistics device, viewing statistics processing system, and viewing statistics processing method |
CN102117614B (en) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | Personalized text-to-speech synthesis and personalized speech feature extraction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9645996B1 (en) * | 2010-03-25 | 2017-05-09 | Open Invention Network Llc | Method and device for automatically generating a tag from a conversation in a social networking website |
US8543403B1 (en) * | 2010-04-26 | 2013-09-24 | Sprint Communication Company L.P. | Intelligent information supplements to calls |
US10019995B1 (en) * | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9443518B1 (en) | 2011-08-31 | 2016-09-13 | Google Inc. | Text transcript generation from a communication session |
US8798995B1 (en) | 2011-09-23 | 2014-08-05 | Amazon Technologies, Inc. | Key word determinations from voice data |
JP2013109635A (en) * | 2011-11-22 | 2013-06-06 | Nippon Telegr & Teleph Corp <Ntt> | Word importance calculation device and method and program thereof |
EP3748631B1 (en) * | 2011-12-07 | 2024-04-03 | QUALCOMM Incorporated | Low power integrated circuit to analyze a digitized audio stream |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
EP2862163A4 (en) | 2012-06-18 | 2015-07-29 | Ericsson Telefon Ab L M | Methods and nodes for enabling and producing input to an application |
US8612211B1 (en) | 2012-09-10 | 2013-12-17 | Google Inc. | Speech recognition and summarization |
BR112015018905B1 (en) | 2013-02-07 | 2022-02-22 | Apple Inc | Voice activation feature operation method, computer readable storage media and electronic device |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
KR101370539B1 (en) * | 2013-03-15 | 2014-03-06 | 포항공과대학교 산학협력단 | Method and apparatus for dialog processing based on referring expressions processing |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
JP6064718B2 (en) * | 2013-03-21 | 2017-01-25 | 富士ゼロックス株式会社 | Information processing apparatus and program |
US9064495B1 (en) * | 2013-05-07 | 2015-06-23 | Amazon Technologies, Inc. | Measurement of user perceived latency in a cloud based speech application |
KR20140143034A (en) * | 2013-06-05 | 2014-12-15 | 삼성전자주식회사 | Method for providing service based on a multimodal input and an electronic device thereof |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN105264524B (en) | 2013-06-09 | 2019-08-02 | 苹果公司 | For realizing the equipment, method and graphic user interface of the session continuity of two or more examples across digital assistants |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
EP3110078A4 (en) * | 2014-07-02 | 2017-03-08 | Huawei Technologies Co., Ltd. | Information transmission method and transmission device |
JP6081966B2 (en) * | 2014-07-18 | 2017-02-15 | キャンバスマップル株式会社 | Information search device, information search program, and information search system |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
JP6387287B2 (en) * | 2014-11-14 | 2018-09-05 | 株式会社デンソーテン | Unknown matter resolution processing system |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9576190B2 (en) * | 2015-03-18 | 2017-02-21 | Snap Inc. | Emotion recognition in video conferencing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10504509B2 (en) | 2015-05-27 | 2019-12-10 | Google Llc | Providing suggested voice-based action queries |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
CN105516472A (en) * | 2015-11-30 | 2016-04-20 | 联想(北京)有限公司 | Information processing method and electronic apparatus |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US11490232B2 (en) | 2016-08-01 | 2022-11-01 | Microsoft Technology Licensing, Llc | Location-based conversation identifier |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
JP6612707B2 (en) * | 2016-09-30 | 2019-11-27 | 本田技研工業株式会社 | Information provision device |
US10531227B2 (en) | 2016-10-19 | 2020-01-07 | Google Llc | Time-delimited action suggestion system |
WO2018100391A1 (en) * | 2016-12-02 | 2018-06-07 | Cirrus Logic International Semiconductor Limited | Speaker identification |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
JP6737398B2 (en) * | 2017-03-24 | 2020-08-05 | ヤマハ株式会社 | Important word extraction device, related conference extraction system, and important word extraction method |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | User interface for correcting recognition errors |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | Low-latency intelligent automated assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | Far-field extension for digital assistant services |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
JP7035476B2 (en) * | 2017-11-20 | 2022-03-15 | 富士通株式会社 | Speech processing program, speech processor, and speech processing method |
JP6943158B2 (en) * | 2017-11-28 | 2021-09-29 | トヨタ自動車株式会社 | Response sentence generator, method and program, and voice dialogue system |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
JP2019101385A (en) * | 2017-12-08 | 2019-06-24 | 富士通株式会社 | Audio processing apparatus, audio processing method, and audio processing program |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (en) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | Virtual assistant operation in multi-device environments |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | User activity shortcut suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN112562687B (en) * | 2020-12-11 | 2023-08-04 | 天津讯飞极智科技有限公司 | Audio and video processing method and device, recording pen and storage medium |
US20220300560A1 (en) * | 2021-03-18 | 2022-09-22 | Amazon Technologies, Inc. | Voice search refinement resolution |
US11854544B1 (en) | 2021-06-11 | 2023-12-26 | Amazon Technologies, Inc. | Entity resolution of product search filters |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3398401B2 (en) * | 1992-03-16 | 2003-04-21 | 株式会社東芝 | Voice recognition method and voice interaction device |
JPH08286693A (en) * | 1995-04-13 | 1996-11-01 | Toshiba Corp | Information processing device |
US6850609B1 (en) * | 1997-10-28 | 2005-02-01 | Verizon Services Corp. | Methods and apparatus for providing speech recording and speech transcription services |
US6714909B1 (en) * | 1998-08-13 | 2004-03-30 | At&T Corp. | System and method for automated multimedia content indexing and retrieval |
JP3597398B2 (en) | 1998-10-15 | 2004-12-08 | 株式会社リコー | Voice recognition device |
US6665644B1 (en) | 1999-08-10 | 2003-12-16 | International Business Machines Corporation | Conversational data mining |
JP3533371B2 (en) * | 2000-12-01 | 2004-05-31 | 株式会社ナムコ | Simulated conversation system, simulated conversation method, and information storage medium |
GB0108603D0 (en) * | 2001-04-05 | 2001-05-23 | Moores Toby | Voice recording methods and systems |
JP3892302B2 (en) * | 2002-01-11 | 2007-03-14 | 松下電器産業株式会社 | Voice dialogue method and apparatus |
JP3788793B2 (en) * | 2003-04-25 | 2006-06-21 | 日本電信電話株式会社 | Voice dialogue control method, voice dialogue control device, voice dialogue control program |
JP2005157494A (en) * | 2003-11-20 | 2005-06-16 | Aruze Corp | Conversation control apparatus and conversation control method |
JP2005215726A (en) | 2004-01-27 | 2005-08-11 | Advanced Media Inc | Information presenting system for speaker, and program |
JP2005293539A (en) | 2004-03-08 | 2005-10-20 | Matsushita Electric Works Ltd | Facial expression recognizing device |
JP5025932B2 (en) | 2005-09-26 | 2012-09-12 | 昭和電工株式会社 | Manufacturing method of nitride semiconductor light emitting device |
US7991128B2 (en) * | 2006-11-01 | 2011-08-02 | International Business Machines Corporation | Mirroring of conversation stubs |
US20080300872A1 (en) * | 2007-05-31 | 2008-12-04 | Microsoft Corporation | Scalable summaries of audio or visual content |
-
2008
- 2008-03-14 JP JP2009508884A patent/JP4838351B2/en not_active Expired - Fee Related
- 2008-03-14 WO PCT/JP2008/000599 patent/WO2008126355A1/en active Application Filing
- 2008-03-14 CN CN200880000290.2A patent/CN101542592A/en active Pending
- 2008-03-14 EP EP08720485.5A patent/EP2045798B1/en not_active Expired - Fee Related
- 2008-03-14 US US12/302,633 patent/US8370145B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP2045798A4 (en) | 2012-12-26 |
CN101542592A (en) | 2009-09-23 |
EP2045798B1 (en) | 2014-12-03 |
US20090150155A1 (en) | 2009-06-11 |
EP2045798A1 (en) | 2009-04-08 |
US8370145B2 (en) | 2013-02-05 |
WO2008126355A1 (en) | 2008-10-23 |
JP4838351B2 (en) | 2011-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4838351B2 (en) | Keyword extractor | |
US11776540B2 (en) | Voice control of remote device | |
US10600414B1 (en) | Voice control of remote device | |
US10326869B2 (en) | Enabling voice control of telephone device | |
US10593328B1 (en) | Voice control of remote device | |
JP5381988B2 (en) | Dialogue speech recognition system, dialogue speech recognition method, and dialogue speech recognition program | |
WO2020233068A1 (en) | Conference audio control method, system, device and computer readable storage medium | |
JP7244665B2 (en) | end-to-end audio conversion | |
US8285546B2 (en) | Method and system for identifying and correcting accent-induced speech recognition difficulties | |
US7676371B2 (en) | Oral modification of an ASR lexicon of an ASR engine | |
US8484031B1 (en) | Automated speech recognition proxy system for natural language understanding | |
US11798559B2 (en) | Voice-controlled communication requests and responses | |
TW200304638A (en) | Network-accessible speaker-dependent voice models of multiple persons | |
US11721324B2 (en) | Providing high quality speech recognition | |
JP2005283972A (en) | Speech recognition method, and information presentation method and information presentation device using the speech recognition method | |
CN109616116B (en) | Communication system and communication method thereof | |
JP2003163951A (en) | Sound signal recognition system, conversation control system using the sound signal recognition method, and conversation control method | |
JP4408665B2 (en) | Speech recognition apparatus for speech recognition, speech data collection method for speech recognition, and computer program | |
CN110125946B (en) | Automatic call method, automatic call device, electronic equipment and computer readable medium | |
US20240144933A1 (en) | Voice-controlled communication requests and responses | |
JP2016191740A (en) | Speech processing unit, speech processing method, and program | |
JP2005151037A (en) | Unit and method for speech processing | |
JP2004139049A (en) | Speaker normalization method and speech recognition device using the same | |
JP2001296884A (en) | Device and method for voice recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110906 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110929 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141007 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4838351 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |