WO1997009683A1 - Authoring system for multimedia information including sound information - Google Patents

Authoring system for multimedia information including sound information Download PDF

Info

Publication number
WO1997009683A1
WO1997009683A1 PCT/JP1995/001746 JP9501746W WO9709683A1 WO 1997009683 A1 WO1997009683 A1 WO 1997009683A1 JP 9501746 W JP9501746 W JP 9501746W WO 9709683 A1 WO9709683 A1 WO 9709683A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
information
multimedia information
search
moving image
Prior art date
Application number
PCT/JP1995/001746
Other languages
French (fr)
Japanese (ja)
Inventor
Hideaki Kikuchi
Nobuo Hataoka
Toshiyuki Aritsuka
Original Assignee
Hitachi, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi, Ltd. filed Critical Hitachi, Ltd.
Priority to PCT/JP1995/001746 priority Critical patent/WO1997009683A1/en
Publication of WO1997009683A1 publication Critical patent/WO1997009683A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data

Definitions

  • the present invention makes it possible to easily output a video including audio information for each speaker on a portable information terminal such as a PDA (Personal Digital Assistant) notebook personal computer or a multimedia terminal such as a personal computer or a workstation. It provides an authoring method that makes it possible to extract data to other parties.
  • a portable information terminal such as a PDA (Personal Digital Assistant) notebook personal computer or a multimedia terminal such as a personal computer or a workstation. It provides an authoring method that makes it possible to extract data to other parties.
  • An object of the present invention is to provide a system that can automatically extract a scene including an image appearance section and an utterance voice section of a corresponding person by specifying a person from an image using a mouse or inputting a person name using a keyboard. That is. Disclosure of the invention
  • a search key input means for inputting a search key such as a keyword or an attribute value, and acoustic information or a moving image as a search result.
  • Output means for outputting a search result, and multimedia information searching means for searching for multimedia information including audio information and moving image information, wherein the multimedia information including the audio information includes the audio information and the moving image.
  • the index creating means includes: voice section detecting means for detecting a voice section of audio information included in multimedia information; and voice index creating means for generating a voice index based on the voice section. It is possible to easily obtain a moving image corresponding to the voice of the section or a voice of the voice section corresponding to the moving image.
  • an index display means for displaying the index of the multimedia information on a display By having an index display means for displaying the index of the multimedia information on a display, authoring of the multimedia information can be performed visually.
  • a voice section is specified for the index displayed on the re-display by the index display means, thereby searching for a voice or a moving image in the voice section.
  • a voice or a moving image in the voice section is searched using the index created by the index creating means.
  • the index creating means includes: a voice section detecting means for detecting a voice section of the audio information included in the multimedia information; a speaker for voice in the voice section detected by the voice section detecting means; Speaker identification means for identifying a speaker; and voice index creation means for creating a voice index based on the speaker and the voice section, thereby providing a voice index for all voice sections of the same speaker. It is possible to easily obtain a moving image corresponding to voice or a voice of the same speaker corresponding to the moving image in all voice sections.
  • a character input means such as a keyboard to specify a person name
  • a voice or a moving image in the voice section of the person is searched.
  • the multimedia information search means detects lip movement from a person image in a moving image, and a lip recognition means for identifying a phoneme corresponding to the lip movement, and recognizes voice information in the moving image based on a phoneme standard pattern.
  • a voice recognition unit that performs comparison, a phoneme identification result output by the lip recognition unit, and a voice recognition result that is output by the voice recognition unit; and a voice recognition unit that outputs the phoneme identification result.
  • a scene extracting means for extracting a moving image of a voice section determined to be in good agreement, whereby a person image corresponding to the voice of the voice section or a voice of the voice section corresponding to the human image can be easily obtained. it can.
  • the multimedia information retrieving means includes a person image extracting means for extracting a person image existing at the position in a moving image in accordance with a position input by a position input means such as a mouse.
  • a position input means such as a mouse.
  • a multimedia information search client server system of the present invention Is a multimedia information comprising: a voice transmission request unit for transmitting a voice transmission request protocol; a voice search unit for searching for voice; and a video transmission request unit for transmitting a video transmission request protocol.
  • a display client hereinafter referred to as a client
  • an information acquisition means for receiving a sound transmission request protocol and acquiring multimedia information specified by the protocol
  • a voice extraction means for extracting voice from the multimedia information.
  • a multimedia information search server (hereinafter, a server) including: a voice transmitting unit that transmits a voice; and a moving image transmitting unit that transmits a moving image.
  • the server further includes a moving image transmission request protocol.
  • FIG. 1 is an overall configuration diagram of the multimedia information authoring system
  • Fig. 2 is an example of the configuration of the index creation means
  • Fig. 3 is another example of the configuration of the index creation means
  • Fig. 4 is the multimedia configuration.
  • FIG. 5 shows another configuration example of the multimedia information search means
  • FIG. 6 shows a configuration example of the search result output means
  • FIG. 7 shows a screen display of the present invention.
  • FIG. 8 is another example of the screen display of the present invention
  • FIG. 9 is a configuration example of a multimedia information search client server system
  • FIG. 10 is a multimedia information search client server.
  • Fig. 11 shows another example of a screen display according to the present invention.
  • a multimedia information terminal is a portable information terminal that has the function of browsing and editing multimedia information.
  • the present invention is not limited to such portable information terminals, but also includes multimedia terminals such as personal computers and workstations, video recorders for home use, English language learning VCRs with editing functions, and videophone answering machines. It can be applied to multimedia information devices in general.
  • FIG. 1 is a block diagram of a multimedia information authoring system block according to the present invention.
  • a search key input unit 101 is a unit for inputting a keypad position or the like serving as a search key in order for a user to search for an object to be edited.
  • the multimedia information retrieving means 102 is a means for retrieving audio or video in an arbitrary section from the multimedia information. This is a means for outputting the search results of the search result output means 103 and the multimedia information search means 102 for presentation to the user.
  • the index creating means 104 is means for creating an index indicating the correspondence between the audio information and the moving image for the multimedia information.
  • the voices included in the multimedia information 105 are divided into voice sections in which the voices are present and sections using the speaker names corresponding to the voices.
  • a moving image display section based on an arbitrary rule based on an arbitrary rule such as performing a section corresponding to each person in the image is used.
  • the index creation means 104 may be executed by the user or automatically at any time after the storage of the multimedia information. In the following, it is assumed that the operation is performed by the user.
  • the user first uses the search key input means 101 to search for an object to be edited. Enter a search key to search.
  • the search key can be a character string, an arbitrary partial image in a still image, or a section.
  • the search key input means 101 allows single or multiple inputs for all of these search keys.
  • the multimedia information search means 102 uses the search key input by the search key input means 101 to search the multimedia information index 106 for an index matching the search key. Search for multimedia information in a specific section with.
  • the search result output means 103 displays the index of the multimedia information on a display, and outputs the voice or moving image searched by the multimedia information search means 102. Specifically, in the case of audio, audio is output from a speaker, a headphone, or the like, and in the case of a moving image, display is performed on a display or the like.
  • the multimedia information search means 102 sets the index creation means 1 in advance. Using the multimedia information index 106 created based on the voice section of each speaker according to 04, a voice or a moving image corresponding to the voice is searched. The searched sound or moving image is output as a sound or a moving image by the search result output means 103.
  • FIG. 2 shows a configuration example of the index creating means 104 of the present invention.
  • a voice index 204 is created as a multimedia information index 106. Therefore, the index creating means 104 is composed of the speech section detecting means 201 and the speech index creating means 202.
  • the voice section detecting means 201 is means for detecting a human voice section from the acoustic information included in the stored multimedia information 203.
  • sound As a method of detecting a speech section in the sound information, for example, there is a method that uses whether or not short-time power having a value equal to or more than a certain threshold value has continued for a certain time or more ("digital sound processing", Tokai University Press, pp. 15 3 (See “8.2 Voice Detection”).
  • the voice index creating means 202 creates an index based on the information of the voice section detected by the voice section detecting means 201.
  • the index created by the audio desk creating means 202 includes, for example, the start and end times of each detected voice section, the voice section length, and the like.
  • FIG. 3 shows another example of the configuration of the index creating means 104 of the present invention.
  • the speaker identification means 8001 is a means for comparing the voice with a voice standard pattern of a specific speaker to identify whether the voice is the voice of a specified speaker. is there.
  • a speaker identification method for example, after extracting features from speech waves, the distance or similarity between each registered speaker and a standard pattern stored in advance is checked, and re-recognition is determined based on the degree. (“Digital Speech Processing”, Tokai University Press, PP 196 “9.3 Configuration of Speaker Recognition System”).
  • a human voice section is detected by the voice section detecting means 201 from the acoustic information of the stored multimedia information 203. Further, the speaker in the detected voice section is identified by the speaker identification means 811, based on the audio standard pattern 802. As a result of speaker identification, the corresponding speaker name is obtained for the voice in each voice section. Therefore, the speech index creation means 202 associates the speech section with the speaker name and creates an index 204 as a multimedia information index. I do.
  • the index created by the speech index creating means 202 includes, for example, the start and end times of each detected speech section, the speech section length and the speaker name, and the like.
  • FIG. 4 is a diagram showing a configuration example of the multimedia information search means 102 of the present invention.
  • a lip recognition means 1501 is a means for recognizing lip movement from a human face image extracted from an input image and outputting a phoneme corresponding to the lip movement.
  • a method of recognizing phonemes from lip movements for example, there is a method in which a two-dimensional shape is first extracted by image processing, and phoneme identification is performed on the data using a neural network ("Non-bal interface", See Ohm, ppl 49 "Recognition of quarrels.”
  • the speech recognition means 1506 is means for performing speech recognition on speech information.
  • the input speech is compared with a standard phoneme pattern for each small section to obtain a distance, a phoneme having a short distance is output as a phoneme recognition result, and a phoneme sequence is further obtained.
  • There is a means for comparison with a word speech dictionary see "Digital Speech Processing", Tokai University Press, PP 166, "8.6 Word Speech Recognition in Phonemes").
  • the image / sound matching means 1502 is a means for checking a phoneme sequence corresponding to the movement of the lips in a person image with an input sound.
  • the scene extracting means 1503 is a means for cutting out a video of a designated section.
  • the lip recognition means 1501 recognizes the movement of the lip by comparing a feature amount such as a mouth shape and a mouth area with a standard pattern 1504. As a result of lip recognition, a phoneme sequence is output.
  • the speech recognition means 1506 selects the speech spectrum in the phoneme section.
  • a phoneme sequence is output as a speech recognition result by calculating the similarity between each of the phoneme patterns of the phoneme standard pattern dictionary 1507 and the phoneme standard pattern.
  • the image / speech matching means 1502 compares and compares the phoneme sequence output from the lip recognition means 1501 with the phoneme sequence output from the speech recognition means 1506. As a result, it is possible to collate the lip movement in the human image with the preceding and following voice sections and associate them.
  • the scene extracting means 1503 extracts the video of the audio section associated with the human image from all the videos.
  • FIG. 5 is a diagram showing another configuration example of the multimedia information search means 102 of the present invention.
  • a person image extracting means 1901 is provided to automatically detect the presence or absence of a person from an input image and detect the face of the person.
  • a method of automatically detecting the presence or absence of a person and detecting a face from an input image for example, there is a method of collating a viramid image obtained by sampling an image at a plurality of resolutions (see “Digital Signal Processing”). Handbook, "published by the Institute of Electronics, Information and Communication Engineers, p.
  • the lip recognition means 1902 is means for recognizing lip movement from a human face image extracted from an input image and outputting a phoneme corresponding to the lip movement.
  • Speech recognition means 1907 is a method for performing speech recognition on speech information.
  • the image sound collating means 1903 is a means for collating an input sound with a phoneme sequence corresponding to the movement of the lips in a person image.
  • the scene extracting means 1904 is means for cutting out a video of a designated section.
  • a person image extracting unit 1901 detects the presence or absence of a person image in an area near the input position coordinates in the input image, and further extracts a person face image. If one person image is detected in the input image, it is designated as a designated image.If more than one person image is detected in the input image, the image is input by the position input means 101. The specified person image includes or is the closest to the coordinate point.
  • the lip recognition means 1902 of the human face image extracted by the person image extracting means 102 is used to compare the lip movements by comparing feature quantities such as the mouth shape and mouth area with the standard pattern 1905. To recognize Note that a phoneme sequence is output as the result of lip recognition.
  • the speech recognition means 1907 calculates a phoneme sequence as a speech recognition result by calculating the similarity between the speech spectrum in the phoneme section and each phoneme spectrum in the phoneme standard pattern dictionary 1908. Output.
  • the image / speech matching means 1903 compares and compares the phoneme sequence output from the lip recognition means 1902 with the phoneme sequence output from the speech recognition means 1907. This makes it possible to collate and associate the movement of the lips in the person image with the preceding and following voice sections.
  • the scene extracting means 1904 extracts the video of the voice section associated with the human image from all the videos.
  • FIG. 6 is a diagram showing an example of a block configuration for performing index display in the multimedia information focusing method of the present invention.
  • the index creating means 304 corresponds to the index creating means 104 in FIG.
  • the index display means 301 is means for visualizing the multimedia information index and displaying it on a display.
  • the multimedia information index 304 created by the index creating means 303 is visualized by the index display means 301 and displayed on the display 302.
  • a method of displaying the start and end times and section lengths of each voice section using a bar line in a two-dimensional coordinate system with time on the horizontal axis Alternatively, for the index of speech divided into sections for each speaker, a method of arranging a bar line for each speaker and expressing it is conceivable.
  • the search result output means 103 in FIG. 1 is composed of an index display means 301 and a display 302.
  • FIG. 7 is a diagram showing a screen display example in which the index is visualized.
  • a video display area 401 is an area on the display for displaying a moving image.
  • the index display area 402 is an area on the display for displaying the multimedia information index.
  • the audio index display area 403 is an area on the display for displaying an audio index.
  • the designated voice section 404 indicates a voice section specified by the user to request the output of a voice or a moving image.
  • the designated image 405 indicates an image designated by the user to request output of a sound or a moving image.
  • the user designates a voice section corresponding to a desired voice or a moving image with respect to the voice index displayed in the voice index display area 403 in the index display area. It can output audio or moving images.
  • the user requests a sound section or a moving image corresponding to the currently output sound for the moving image displayed in the video display area 401, the user specifies the image 405. Do As a result, it is possible to output the voice or the moving image of the requested voice section.
  • FIG. 8 shows a screen display example when the multimedia information authoring method of the present invention is used for a portable terminal.
  • a video display area 702 a document display area 703, and a menu area 701 are provided on the screen of the portable information terminal.
  • the portable information terminal on the left side of FIG. 8 select the item “extract dialogue” from the menu area 701.
  • the position of the human image from which the lines are to be extracted is designated by the position input means 705.
  • the icon 704 which symbolizes the extracted scene, is moved on the screen using a position input device such as a mouse, and is moved to an arbitrary position in the document display area 703.
  • a position input device such as a mouse
  • the operation of associating the extracted video with the document in the document display area 703 by placing the icon 704 at the position of is shown.
  • FIG. 9 is an example of a block configuration of a multimedia information search client-server system using the multimedia information authoring method of the present invention.
  • search key input means 6001 is a means for inputting a keyword or a position serving as a search key in order to search for an object to be edited by a user.
  • the voice transmission requesting means 602 is a means for requesting the server side to transmit voice information.
  • the multimedia information acquiring means 603 is means for acquiring multimedia information including audio information requested to be transmitted from a data pace (not shown).
  • the voice extracting means 604 is a means for extracting a voice information part included in the multimedia information.
  • the voice transmitting means 6 05 is a means for transmitting voice information to the client side
  • the voice search means 606 is a means for performing voice recognition on voice information, and performing a search or a speaker search on a character string designated as a search key based on the voice recognition result.
  • the input speech is compared with a standard phoneme pattern for each small section to obtain a distance, a phoneme having a short distance is output as a phoneme recognition result, and a phoneme sequence is further obtained.
  • There is a means to compare with a word speech dictionary see "Digital Speech Processing", Tokai University Press, pp. 167, "8.6 Word Speech Recognition in Phonemes").
  • the moving image transmission request means 607 is a means for requesting the server side to transmit moving image information in a specific section.
  • the scene extracting means 608 is means for extracting moving image information of a designated section from all moving images.
  • the moving image transmitting means 609 is means for transmitting moving image information to the client side.
  • the moving image presentation means 610 is a means for displaying a moving image.
  • a character input using the search key input means 600 is set as a designated character string.
  • the audio transmission requesting means 62 requests transmission of the audio information in the specific multimedia information.
  • the multimedia information acquisition means 603 acquires multimedia information including the audio information requested to be transmitted from the database.
  • the audio information part in the obtained multimedia information is extracted by the audio extracting means 604, and the audio transmitting means 605 transmits only the audio information part to the client.
  • the voice search means 606 searches the received voice information for a specified character string.
  • a voice search method is performed in which voice recognition is performed once on received voice information and a specified character string is searched for the recognition result.
  • the transmission of the moving image corresponding to the voice section containing the specified character string Request is made in request means 607.
  • the scene extracting means 608 extracts a moving image of the requested section from all the moving images, and the moving image transmitting means 609 causes the client side to extract the moving image.
  • FIG. 10 is a diagram showing another example of a block configuration of the multimedia information search client server system.
  • the speaker name input using the search key input means 61 is set as the designated speaker name.
  • the audio transmission requesting means 62 requests transmission of audio information in the specific multimedia information.
  • the multimedia information acquisition means 603 acquires multimedia information including the audio information requested to be transmitted from the database. Further, the audio information part in the obtained multimedia information is extracted by the audio extracting means 604, and the audio transmitting means 605 transmits only the audio information part to the client.
  • the voice search means 606 searches the received voice information for a designated speaker.
  • a speech search method is assumed in which speaker identification is performed on received speech information, and a search for the specified speaker name is performed based on the identification result.
  • the transmission of the moving image in the voice section corresponding to the designated speaker name is requested by the moving image transmission requesting means 607. Further, on the server side, based on the received moving image transmission request, the scene extracting means 608 extracts a moving image of the requested section from all moving images, and the moving image transmitting means 609 causes the client side to extract the moving image. Send to
  • FIG. 11 is a screen display example of the multimedia information writing method of the present invention.
  • a video display area 1221 is an area for displaying a moving image on the display.
  • the index display area 122 is an area for displaying a multimedia information index on a disk press.
  • the speaker name display area 1 203 is an area for displaying a speaker name corresponding to each voice section.
  • a speaker name display method there are a method of displaying the speaker name for each voice section, and a method of displaying the speaker name after dividing for each speaker.
  • the user inputs a person name using character means such as a keyboard.
  • the speaker name is input by designating the speaker displayed in the speaker name display area using a position input means such as a mouse. Based on the input speaker name, it is possible to output the voice or moving image of the speaker's voice section.
  • voice of each speaker can be output with respect to the video containing the audio
  • the sound corresponding to the voice of each speaker It is possible to output a voice in a voice section, a moving image, or a person image corresponding to the voice in the entire voice section of the same speaker as the voice in the voice section corresponding to the designated image.
  • the present invention is suitable for a portable information terminal such as a PDA (Personal Digital Assistant) and a notebook personal computer, and a multimedia terminal such as a personal computer and a workstation, which handles images including audio information. This makes it possible to provide a system with an authoring method for easily extracting video for each speaker.
  • a portable information terminal such as a PDA (Personal Digital Assistant) and a notebook personal computer
  • a multimedia terminal such as a personal computer and a workstation

Abstract

An authoring system by which retrieval of a moving picture or sound information from video information including sound information is facilitated using a portable information terminal such as a PDA (Personal Digital Assistant) notebook computer, or using a multimedia terminal such as a personal computer or a workstation. The authoring system is provided with at least a retrieval key-inputting means through which a retrieval key such as a key word or an attribute value is inputted, retrieval result outputting means which outputs the retrieved sound information or moving picture, multimedia information retrieving means which retrieves multimedia information including sound information and moving picture information, and index generating means which generates indexes representing the correspondences between sound information and the moving picture information with respect to multimedia information including sound information. A desired moving picture or sound information can be readily retrieved from other corresponding information.

Description

明 細 書 音声情報を含むマルチメディァ情報のォーサリング方式 技術分野  Description Authoring method for multimedia information including audio information
本発明は、 P D A (Personal Digi al Ass i stant) ノートパソコンな どの携帯情報端末や、 パーソナルコンピュータ、 ワークステーションな どのマルチメディア端末において、 音響情報を含む映像に対して、 話者 別の映像を容易に抽出することを可能にしたォーサリング方式を提供す る。 背景技術  The present invention makes it possible to easily output a video including audio information for each speaker on a portable information terminal such as a PDA (Personal Digital Assistant) notebook personal computer or a multimedia terminal such as a personal computer or a workstation. It provides an authoring method that makes it possible to extract data to other parties. Background art
従来の映像ォーサリング方式において、 映像から人物別シーンを抽出 する場合、 画像フレームから人物画像を抽出するために、 人物画像と音 声との対応がとれず、 抽出したシーンの区間は必ずしもその人物の音声 区間と一致しないという問題があった。 これに対して、 あらかじめ人物 別に画像特徴量と音声特徴量を保有し、 それぞれの特徴量から人物画像 識別、 音声話者識別を行ない、 同一人物の人物画像と音声を対応づける 手法が考えられるが、 現実的には人物別の画像特徴量と音声特徴量を保 有することは不可能であり、 実現性は低い。  In the conventional video authoring method, when extracting a scene for each person from a video, since the person image is extracted from the image frame, there is no correspondence between the person image and the voice, and the extracted scene section is not necessarily the person's section. There was a problem that it did not match the voice section. On the other hand, there is a method in which image features and voice features are stored for each person in advance, and a person image and a voice speaker are identified from each feature, and a person image of the same person is associated with voice. However, in reality, it is impossible to retain the image feature amount and the sound feature amount for each person, and the feasibility is low.
従来技術では、 人物画像と、 それに対応する音声区間を含むシーンを 自動的に抽出することは困難である。  With the conventional technology, it is difficult to automatically extract a scene including a person image and a corresponding voice section.
本発明の目的は、 マウスによる画像からの人物指定や、 キ一ボードに よる人物名入力により、 該当する人物の画像出現区間と発話音声区間を 含むシーンを、 自動的に抽出できるシステムを提供することである。 発明の開示 An object of the present invention is to provide a system that can automatically extract a scene including an image appearance section and an utterance voice section of a corresponding person by specifying a person from an image using a mouse or inputting a person name using a keyboard. That is. Disclosure of the invention
上記の課題を解決するために、 本発明のマルチメディァ情報ォ一サリ ング方式では、 少なくとも、 キーワードや属性値などの検索キーを入力 する検索キー入力手段と、 音響情報あるいは動画像を検索結果として出 力する検索結果出力手段と、 音響情報と動画像情報を含むマルチメディ ァ情報を検索するマルチメディア情報検索手段と、 を有し、 音響情報を 含むマルチメディァ情報について音響情報と動画像との対応関係を示す ィンデクスを作成するインデクス作成手段を備えることにより、 欲しい 動画像あるいは欲しい音響情報を、 対応する他の情報から容易に検索す ることを可能にした。  In order to solve the above-mentioned problems, in the multimedia information sourcing method of the present invention, at least a search key input means for inputting a search key such as a keyword or an attribute value, and acoustic information or a moving image as a search result. Output means for outputting a search result, and multimedia information searching means for searching for multimedia information including audio information and moving image information, wherein the multimedia information including the audio information includes the audio information and the moving image. By providing an index creation means for creating an index indicating the correspondence, it was possible to easily search for the desired moving image or desired sound information from other corresponding information.
前記ィンデクス作成手段は、 マルチメディア情報に含まれる音響情報 の音声区間を検出する音声区間検出手段と、 該音声区間をもとに音声ィ ンデクスを作成する音声インデクス作成手段と、 を有し、 音声区間の音 声に対応する動画像または、 動画像に対応する音声区間の音声を容易に 得ることを可能にした。  The index creating means includes: voice section detecting means for detecting a voice section of audio information included in multimedia information; and voice index creating means for generating a voice index based on the voice section. It is possible to easily obtain a moving image corresponding to the voice of the section or a voice of the voice section corresponding to the moving image.
前記マルチメディァ情報のィンデクスをディスプレイに表示するイン デクス表示手段を有することによリ、 マルチメディア情報のォーサリン グを視覚的に行なうことを可能にした  By having an index display means for displaying the index of the multimedia information on a display, authoring of the multimedia information can be performed visually.
前記ィンデクス表示手段によリディスプレイ上に表示されたィンデク スに対して、 音声区間を指定することにより、 音声区間の音声あるいは 動画像を検索する。 動画像の任意の画像を指定することにより、 前記 ィンデクス作成手段により作成されたィンデクスを用いて、 指定画像に 対応する音声区間の手声あるいは動画像を検索する。  A voice section is specified for the index displayed on the re-display by the index display means, thereby searching for a voice or a moving image in the voice section. By specifying an arbitrary image of the moving image, a hand voice or a moving image in a voice section corresponding to the specified image is searched using the index created by the index creating means.
マウスなどの位置入力手段を用いて、 所望のマルチメディァ情報の範 囲を指定し、 別ウィンド内の任意の位置を前記位置入力手段により指定 することにより、 前記マルチメディア情報への参照情報を該位置に加え ることを可能にする、 ハイパーリング型マルチメディア情報のォーサリ ング方式を構成することもできる。 By using a position input unit such as a mouse to specify a range of desired multimedia information and specifying an arbitrary position in another window by the position input unit, reference information to the multimedia information is obtained. In addition to location It is also possible to configure an authoring method for hyper-ring type multimedia information that enables the use of multimedia information.
前記ィンデクス作成手段は、 マルチメディァ情報に含まれる音響情報 の音声区間を検出する音声区間検出手段と、 該音声区間検出手段により 検出した音声区間の音声について話者を識別し、 全音声区間について該 話者を識別する話者識別手段と、 該話者と前記者声区間をもとに音声ィ ンデクスを作成する音声テンデクス作成手段と、 を有することによリ、 同一話者の全音声区間の音声に対応する動画像または、 動画像に対応す る同一話者の全音声区間の音声を容易に得ることを可能にした。  The index creating means includes: a voice section detecting means for detecting a voice section of the audio information included in the multimedia information; a speaker for voice in the voice section detected by the voice section detecting means; Speaker identification means for identifying a speaker; and voice index creation means for creating a voice index based on the speaker and the voice section, thereby providing a voice index for all voice sections of the same speaker. It is possible to easily obtain a moving image corresponding to voice or a voice of the same speaker corresponding to the moving image in all voice sections.
キーボードなどの文字入力手段を用いて、 人物名を指定することによ リ、 該人物の音声区間の音声あるいは動画像を検索する。  By using a character input means such as a keyboard to specify a person name, a voice or a moving image in the voice section of the person is searched.
前記マルチメディァ情報検索手段は、 動画像内の人物画像から口唇の 動きを検出し、 口唇の動きに対応する音素を識別する口唇認識手段と、 動画像内の音声情報を音素標準パタンにもとづき認識する音声認識手段 と、 該口唇認識手段が出力する音素識別結果と、 音声認識手段が出力す る音声認識結果を比較照合する画像音声照合手段と、 該画像音声照合手 段において、 前記音素識別結果粋一致すると判定された音声区間の動画 像を抽出するシーン抽出手段と、 を有することにより、 音声区間の音声 に対応する人物画像または、 人物画像に対応する音声区間の音声を容易 に得ることができる。  The multimedia information search means detects lip movement from a person image in a moving image, and a lip recognition means for identifying a phoneme corresponding to the lip movement, and recognizes voice information in the moving image based on a phoneme standard pattern. A voice recognition unit that performs comparison, a phoneme identification result output by the lip recognition unit, and a voice recognition result that is output by the voice recognition unit; and a voice recognition unit that outputs the phoneme identification result. And a scene extracting means for extracting a moving image of a voice section determined to be in good agreement, whereby a person image corresponding to the voice of the voice section or a voice of the voice section corresponding to the human image can be easily obtained. it can.
前記マルチメディァ情報検索手段は、 マウスなどの位置入力手段によ つて入力された位置に応じて、 動画像内の該位置に存在する人物画像を 抽出する人物画像抽出手段を有することにより、 前記位置入力手段を用 いて動画像内の人物画像を指定し、 自動的に該人物の音声区間の音声あ るいは動画像を検索することができる。  The multimedia information retrieving means includes a person image extracting means for extracting a person image existing at the position in a moving image in accordance with a position input by a position input means such as a mouse. By using the input means, a person image in the moving image can be specified, and the voice or the moving image in the voice section of the person can be automatically searched.
また、 本発明のマルチメディア情報検索クライアン卜サーバシステム は、 音声送信要求プロトコルを発信する音声送信要求手段と、 音声に対 して検索を行なう音声検索手段と、 動画像送信要求プロトコルを発信す る動画像送信要求手段と、 を備えたマルチメディア情報表示クライアン ト (以下、 クライアント) と、 音響送信要求プロトコルを受信し、 該プ 口トコルにおいて指定されたマルチメディア情報を取得する情報取得手 段と、 マルチメディア情報から音声を抽出する音声抽出手段と、 音声を 送信する音声送信手段と、 動画像を送信する動画像送信手段と、 を備え たマルチメディア情報検索サーバ (以下、 サーバ) と、 を有し、 さらに サーバは、 動画像送信要求プロトコルを受信した後、 該プロトコルにお いて指定された区間の動画像を抽出するシーン抽出手段を有し、 マルチ メディア情報のうち、 全ての情報を通信することなく所望の区間の情報 のみを通信することを可能にした。 図面の簡単な説明 Also, a multimedia information search client server system of the present invention Is a multimedia information comprising: a voice transmission request unit for transmitting a voice transmission request protocol; a voice search unit for searching for voice; and a video transmission request unit for transmitting a video transmission request protocol. A display client (hereinafter referred to as a client); an information acquisition means for receiving a sound transmission request protocol and acquiring multimedia information specified by the protocol; and a voice extraction means for extracting voice from the multimedia information. A multimedia information search server (hereinafter, a server) including: a voice transmitting unit that transmits a voice; and a moving image transmitting unit that transmits a moving image. The server further includes a moving image transmission request protocol. After receiving, a scene extracting means for extracting a moving image in a section designated by the protocol, A) It became possible to communicate only the information in the desired section without communicating all the information among the information. BRIEF DESCRIPTION OF THE FIGURES
第 1図はマルチメディア情報ォーサリング方式の全体構成図であり、 第 2図はィンデクス作成手段の構成例であり、 第 3図はインデクス作成 手段の他の構成例であり、 第 4図はマルチメディァ情報検索手段の構成 例であり、 第 5図はマルチメディア情報検索手段の他の構成例であり、 第 6図は検索結果出力手段の構成例であリ、 第 7図は本発明の画面表示 例であり、 第 8図は本発明の画面表示の他の例であり、 第 9図はマルチ メディア情報検索クラオアントサーバシステムの構成例であり、 第 1 0 図はマルチメディア情報検索クライアントサーパシステムの他の構成例 であり、 第 1 1図は本発明の画面表示例である。 発明を実施するための最良の形態  Fig. 1 is an overall configuration diagram of the multimedia information authoring system, Fig. 2 is an example of the configuration of the index creation means, Fig. 3 is another example of the configuration of the index creation means, and Fig. 4 is the multimedia configuration. FIG. 5 shows another configuration example of the multimedia information search means, FIG. 6 shows a configuration example of the search result output means, and FIG. 7 shows a screen display of the present invention. FIG. 8 is another example of the screen display of the present invention, FIG. 9 is a configuration example of a multimedia information search client server system, and FIG. 10 is a multimedia information search client server. Fig. 11 shows another example of a screen display according to the present invention. BEST MODE FOR CARRYING OUT THE INVENTION
以下、 図を用いて実施例を詳細に説明する。 なお、 以下、 マルチメデ ィァ情報は少なくとも音声および動画像を含む情報とする。 また、 ここ では、 特にマルチメディア端末として、 マルチメディア情報のブラウズ と編集の機能を持つ携帯情報端末を想定して説明を行う。 ただし、 本発 明は該携帯情報端末に限らず、 パーソナルコンピュータやワークステー シヨンなどのマルチメディア端末や、 編集機能を持つ家庭用、 英会語学 習用ビデオデッキ、 T V電話留守録ビデオなどの映像蓄積機能を持つマ ルチメディァ情報機器一般への応用が可能である。 Hereinafter, embodiments will be described in detail with reference to the drawings. In the following, Multimedia The key information is information including at least a sound and a moving image. In addition, the description here assumes that a multimedia information terminal is a portable information terminal that has the function of browsing and editing multimedia information. However, the present invention is not limited to such portable information terminals, but also includes multimedia terminals such as personal computers and workstations, video recorders for home use, English language learning VCRs with editing functions, and videophone answering machines. It can be applied to multimedia information devices in general.
第 1図は、 本発明のマルチメディア情報ォーサリング方式のプロック 構成図である。  FIG. 1 is a block diagram of a multimedia information authoring system block according to the present invention.
第 1図において、 検索キー入力手段 1 0 1は、 利用者が編集する対象 を検索するために、 検索のキーとなるキーヮードゃ位置などを入力する 手段である。 マルチメディア情報検索手段 1 0 2は、 マルチメディア情 報に対して任意の区間の音声あるいは動画像を検索する手段である。 検 索結果出力手段 1 0 3、 マルチメディァ情報検索手段 1 0 2の検索結果 を、 利用者に提示するために出力する手段である。 インデクス作成手段 1 0 4は、 マルチメディア情報について音響情報と動画像との対応関係 を示すィンデクスを作成する手段である。  In FIG. 1, a search key input unit 101 is a unit for inputting a keypad position or the like serving as a search key in order for a user to search for an object to be edited. The multimedia information retrieving means 102 is a means for retrieving audio or video in an arbitrary section from the multimedia information. This is a means for outputting the search results of the search result output means 103 and the multimedia information search means 102 for presentation to the user. The index creating means 104 is means for creating an index indicating the correspondence between the audio information and the moving image for the multimedia information.
具体的には、 マルチメディア情報 1 0 5に含まれる音声について、 音 声が存在する音声区間や音声と対応する話者名で区間わけをする。 また、 動画像について、 例えば、 画像内の人物毎にそれぞれの人物に対応した 区間分けを行なう、 などの任意の規則に基づいた区間分けによる動画表 示区間を用いる。 なお、 インデクス作成手段 1 0 4も利用者により実施 される場合とマルチメディァ情報蓄積後の任意の時期に自動的に実施さ れる場合が考えられる。 以下では、 利用者により実施される場合を想定 する。  More specifically, the voices included in the multimedia information 105 are divided into voice sections in which the voices are present and sections using the speaker names corresponding to the voices. Also, for the moving image, for example, a moving image display section based on an arbitrary rule based on an arbitrary rule such as performing a section corresponding to each person in the image is used. The index creation means 104 may be executed by the user or automatically at any time after the storage of the multimedia information. In the following, it is assumed that the operation is performed by the user.
利用者は、 まず、 検索キー入力手段 1 0 1を用いて編集する対象を検 索するために検索のキーを入力する。 ここで、 検索のキーとしては、 文 字列や、 静止画像内の任意の部分画像、 区間などが考えられる。 検索キ 一入力手段 1 0 1は、 これらの検索キーの全てについて単独あるいは複 合入力可能とする。 次に、 マルチメディア情報検索手段 1 0 2は、 検索 キー入力手段 1 0 1によリ入力された検索キーを用いて、 マルチメディ ァ情報ィンデクス 1 0 6に対して、 検索キーと合致するインデクスを持 つ特定の区間のマルチメディア情報を検索する。 さらに、 検索結果出力 手段 1 0 3は、 マルチメディア情報のインデクスをディスプレイに表示 したり、 マルチメディア情報検索手段 1 0 2により検索された音声、 あ るいは動画像を出力する。 具体的には、 音声の場合にはスピーカ、 へッ ドフォンなどから音声出力し、 動画像の場合には、 ディスプレイなどへ の表示を行なう。 The user first uses the search key input means 101 to search for an object to be edited. Enter a search key to search. Here, the search key can be a character string, an arbitrary partial image in a still image, or a section. The search key input means 101 allows single or multiple inputs for all of these search keys. Next, the multimedia information search means 102 uses the search key input by the search key input means 101 to search the multimedia information index 106 for an index matching the search key. Search for multimedia information in a specific section with. Further, the search result output means 103 displays the index of the multimedia information on a display, and outputs the voice or moving image searched by the multimedia information search means 102. Specifically, in the case of audio, audio is output from a speaker, a headphone, or the like, and in the case of a moving image, display is performed on a display or the like.
例えば、 検索キー入力手段 1 0 1によって、 マルチメディァ情報に含 まれる音声のうち、 特定の区間を示す検索キーが入力された場合、 マル チメディア情報検索手段 1 0 2では、 あらかじめインデクス作成手段 1 0 4によって話者別の音声区間に基づいて作成されたマルチメディァ情 報ィンデクス 1 0 6を用いて、 音声あるいは音声に対応する動画像を検 索する。 検索された音声あるいは動画像は、 検索結果出力手段 1 0 3に より、 音声出力あるいは動画像表示が行なわれる。  For example, when the search key input means 101 inputs a search key indicating a specific section of the voices included in the multimedia information, the multimedia information search means 102 sets the index creation means 1 in advance. Using the multimedia information index 106 created based on the voice section of each speaker according to 04, a voice or a moving image corresponding to the voice is searched. The searched sound or moving image is output as a sound or a moving image by the search result output means 103.
第 2図に、 本発明のインデクス作成手段 1 0 4の構成例を示す。 第 2 図において、 マルチメディア情報インデクス 1 0 6として音声インデク ス 2 0 4を作成する。 したがって、 ィンデクス作成手段 1 0 4は、 音声 区間検出手段 2 0 1と音声ィンデクス作成手段 2 0 2とから構成されて いる。  FIG. 2 shows a configuration example of the index creating means 104 of the present invention. In FIG. 2, a voice index 204 is created as a multimedia information index 106. Therefore, the index creating means 104 is composed of the speech section detecting means 201 and the speech index creating means 202.
音声区間検出手段 2 0 1は、 蓄積されたマルチメディア情報 2 0 3に 含まれる音響情報に対して、 人間の音声区間を検出する手段である。 音 響情報における音声区間の検出を行なう方法として、 例えば、 一定のし きい値以上の値の短時間パワーが一定時間以上継続したか否かが用いら れる方法がある ( "デジタル音声処理" 、 東海大学出版会、 p p 1 5 3 「8 . 2 音声区間の検出」 参照) 。 音声インデクス作成手段 2 0 2は、 音声区間検出手段 2 0 1により検出した音声区間の情報をもとにインデ クスを作成する。 ここで、 音声インデスク作成手段 2 0 2により作成さ れるインデクスは、 例えば、 検出された各音声区間の始端、 終端の時刻 や、 音声区間長などが挙げられる。 The voice section detecting means 201 is means for detecting a human voice section from the acoustic information included in the stored multimedia information 203. sound As a method of detecting a speech section in the sound information, for example, there is a method that uses whether or not short-time power having a value equal to or more than a certain threshold value has continued for a certain time or more ("digital sound processing", Tokai University Press, pp. 15 3 (See “8.2 Voice Detection”). The voice index creating means 202 creates an index based on the information of the voice section detected by the voice section detecting means 201. Here, the index created by the audio desk creating means 202 includes, for example, the start and end times of each detected voice section, the voice section length, and the like.
このように音声区間に基づいたィンデクスを作成することによリ、 音 声区間の音声に対応する動画像またはその逆として、 動画像に対応する 音声区間の音声を容易に得ることができるようになる。  By creating an index based on a voice section in this way, it is possible to easily obtain a voice in a voice section corresponding to a video as a moving image corresponding to the voice in the voice section or vice versa. Become.
第 3図は、 本発明のインデクス作成手段 1 0 4の他の構成例である。 第 3図において、 話者識別手段 8 0 1は、 音声に対して、 特定の話者の 音声標準パタンとの照合を行ない、 音声が指定された話者の音声である かを識別する手段である。 話者識別の方法として、 例えば、 音声波から 特徴抽出をしたのち、 あらかじめ蓄えられている各登録話者の標準バタ ンとの距離あるいは類似度を調べ、 その度合いによリ認識の判定を行な う方法がある ( "ディジタル音声処理" 、 東海大学出版会、 P P 1 9 6 「9 . 3 話者認識系の構成」 参照) 。  FIG. 3 shows another example of the configuration of the index creating means 104 of the present invention. In FIG. 3, the speaker identification means 8001 is a means for comparing the voice with a voice standard pattern of a specific speaker to identify whether the voice is the voice of a specified speaker. is there. As a speaker identification method, for example, after extracting features from speech waves, the distance or similarity between each registered speaker and a standard pattern stored in advance is checked, and re-recognition is determined based on the degree. (“Digital Speech Processing”, Tokai University Press, PP 196 “9.3 Configuration of Speaker Recognition System”).
第 3図において、 まず、 音声区間検出手段 2 0 1により、 蓄積された マルチメディア情報 2 0 3の音響情報に対して人間の音声区間を検出す る。 さらに、 検出した音声区間の音声について、 話者識別手段 8 0 1に より、 音声標準パタン 8 0 2に基づいた話者識別を行なう。 話者識別を 行なった結果、 各音声区間の音声に対して、 該当する話者名を得る。 従 つて、 音声インデクス作成手段 2 0 2により、 音声区間と話者名を関連 付けて、 マルチメディア情報インデクスとしてインデクス 2 0 4を作成 する。 ここで、 音声インデクス作成手段 2 0 2により作成されるインデ クスは、 例えば、 検出された各音声区間の始端、 終端の時刻や、 音声区 間長と話者名などが挙げられる。 In FIG. 3, first, a human voice section is detected by the voice section detecting means 201 from the acoustic information of the stored multimedia information 203. Further, the speaker in the detected voice section is identified by the speaker identification means 811, based on the audio standard pattern 802. As a result of speaker identification, the corresponding speaker name is obtained for the voice in each voice section. Therefore, the speech index creation means 202 associates the speech section with the speaker name and creates an index 204 as a multimedia information index. I do. Here, the index created by the speech index creating means 202 includes, for example, the start and end times of each detected speech section, the speech section length and the speaker name, and the like.
このように音声区間の話者名に基づいたィンデクスを作成することに より、 音声区間の音声に対応する動画像またはその逆として、 動画像に 対応する音声区間の音声を容易に得ることができるようになる。  By creating an index based on the speaker name of the voice section in this way, it is possible to easily obtain a video corresponding to the voice of the voice section, or vice versa. Become like
第 4図は、 本発明のマルチメディア情報検索手段 1 0 2の構成例を示 す図である。 第 4図において、 口唇認識手段 1 5 0 1は、 入力画像にお いて抽出された人物顔画像から唇の動きを認識し、 唇の動きに対応する 音素を出力する手段である。 唇の動きから音素を認識する方法として、 例えば、 まず画像処理による 2次元形状抽出を行ない、 そのデータに対 してニューラルネットを用いて音素識別を行なう方法がある ( "ノンバ —バルインターフェース" 、 オーム社、 p p l 4 9 「口説の認識」 参照) 。 音声認識手段 1 5 0 6は、 音声情報について音声認識を行なう手段で ある。 なお、 入力音声の音声認識を行なう方法として、 例えば、 入力音 声を小区間ごとに音素の標準パタンと比較して距離を求め、 距離の近い 音素を音素認識結果として出力し、 さらに音素系列を単語音声辞書と比 較する手段がある (前出 "ディジタル音声処理" 、 東海大学出版、 P P 1 6 7 「 8 . 6 音素を単位とする単語音声認識」 参照) 。 画像音声照 合手段 1 5 0 2は、 人物画像における唇の動きに対応する音素系列と、 入力音声の照合を行なう手段である。 シーン抽出手段 1 5 0 3は、 指定 された区間の映像を切り出す手段である。  FIG. 4 is a diagram showing a configuration example of the multimedia information search means 102 of the present invention. In FIG. 4, a lip recognition means 1501 is a means for recognizing lip movement from a human face image extracted from an input image and outputting a phoneme corresponding to the lip movement. As a method of recognizing phonemes from lip movements, for example, there is a method in which a two-dimensional shape is first extracted by image processing, and phoneme identification is performed on the data using a neural network ("Non-bal interface", See Ohm, ppl 49 "Recognition of quarrels." The speech recognition means 1506 is means for performing speech recognition on speech information. As a method of performing speech recognition of the input speech, for example, the input speech is compared with a standard phoneme pattern for each small section to obtain a distance, a phoneme having a short distance is output as a phoneme recognition result, and a phoneme sequence is further obtained. There is a means for comparison with a word speech dictionary (see "Digital Speech Processing", Tokai University Press, PP 166, "8.6 Word Speech Recognition in Phonemes"). The image / sound matching means 1502 is a means for checking a phoneme sequence corresponding to the movement of the lips in a person image with an input sound. The scene extracting means 1503 is a means for cutting out a video of a designated section.
第 4図において、 まず、 口唇認識手段 1 5 0 1において、 口形や口面 積などの特徴量の標準パターン 1 5 0 4との照合によリ唇の動きを認識 する。 なお、 口唇認識の結果としては、 音素系列を出力することによる。 次に、 音声認識手段 1 5 0 6において、 音素区間内の音声のスぺク トル と音素標準パタン辞書 1 5 0 7の各音素スぺク トルとの類似度計算によ リ音素系列を音声認識結果として出力する。 ここで、 画像音声照合手段 1 5 0 2において、 口唇認識手段 1 5 0 1の出力結果である音素系列と、 音声認識手段 1 5 0 6の出力結果である音素系列の比較照合を行なう。 これにより、 人物画像における唇の動きと前後の音声区間とを照合し対 応付けることができる。 最後に、 シーン抽出手段 1 5 0 3において、 人 物画像に対応づけられた音声区間の映像を、 全映像から抽出する。 In FIG. 4, first, the lip recognition means 1501 recognizes the movement of the lip by comparing a feature amount such as a mouth shape and a mouth area with a standard pattern 1504. As a result of lip recognition, a phoneme sequence is output. Next, the speech recognition means 1506 selects the speech spectrum in the phoneme section. A phoneme sequence is output as a speech recognition result by calculating the similarity between each of the phoneme patterns of the phoneme standard pattern dictionary 1507 and the phoneme standard pattern. Here, the image / speech matching means 1502 compares and compares the phoneme sequence output from the lip recognition means 1501 with the phoneme sequence output from the speech recognition means 1506. As a result, it is possible to collate the lip movement in the human image with the preceding and following voice sections and associate them. Finally, the scene extracting means 1503 extracts the video of the audio section associated with the human image from all the videos.
以上の処理により、 ペンなどの位置入力手段によって指定された人物 の映像について、 音声区間を含む映像区間を入力像から抽出することが 可能となる。 また、 同一話者の全音声区間に対応する人物画像、 または、 人物画像に対応する同話者の全音声区間の音声を容易に得ることが可能 となる。  With the above processing, it is possible to extract a video section including a voice section from an input image for a video of a person designated by a position input unit such as a pen. In addition, it is possible to easily obtain a person image corresponding to all voice sections of the same speaker, or a voice of all voice sections of the same speaker corresponding to the person image.
第 5図は、 本発明のマルチメディア情報検索手段 1 0 2の他の構成例 を示す図である。 第 5図では、 人物画像抽出手段 1 9 0 1を設け入力画 像から自動的に人物の有無を検出し、 人物の顔を検出する。 入力画像か ら自動的に人物の有無の検出、 さらに顔の検出を行なう方法として、 例 えば、 複数の解像度で画像をサンプリングして得られるビラミッド画像 を照合する方法などがある ( "ディジタル信号処理ハンドブック" 、 電 子情報通信学会刊、 p P 4 0 1 Γ 4 . 3 . 3 人物の認識」 参照) 。 口唇 認識手段 1 9 0 2は、 入力画像において抽出された人物顔画像から唇の 動きを認識し、 唇の動きに対応する音素を出力する手段である。 音声認 識手段 1 9 0 7は、 音声情報について音声認識を行なう手段習である。 画像音声照合手段 1 9 0 3は、 人物画像における唇の動きに対応する音 素系列と、 入力音声の照合を行なう手段である。 シーン抽出手段 1 9 0 4は、 指定された区間の映像を切り出す手段である。  FIG. 5 is a diagram showing another configuration example of the multimedia information search means 102 of the present invention. In FIG. 5, a person image extracting means 1901 is provided to automatically detect the presence or absence of a person from an input image and detect the face of the person. As a method of automatically detecting the presence or absence of a person and detecting a face from an input image, for example, there is a method of collating a viramid image obtained by sampling an image at a plurality of resolutions (see “Digital Signal Processing”). Handbook, "published by the Institute of Electronics, Information and Communication Engineers, p. The lip recognition means 1902 is means for recognizing lip movement from a human face image extracted from an input image and outputting a phoneme corresponding to the lip movement. Speech recognition means 1907 is a method for performing speech recognition on speech information. The image sound collating means 1903 is a means for collating an input sound with a phoneme sequence corresponding to the movement of the lips in a person image. The scene extracting means 1904 is means for cutting out a video of a designated section.
第 5図において、 まず位置入力手段を用いて入力された面画上の位置 座標をもとに、 人物画像抽出手段 1 9 0 1において、 入力画像内の入力 位置座標付近の領域について人物画像の有無を検出し、 さらに人物顔画 像を抽出する。 なお、 入力画像内に一つの人物画像が検出された場合に は、 それを指定画像とし、 入力画像内に複数の人物画像が検出された場 合には、 位置入力手段 1 0 1により入力された座標点を含む、 もしくは 最も近い人物画像を指定画像とする。 人物画像抽出手段 1 0 2によって 抽出された人物顔画像について、 次に、 口唇認識手段 1 9 0 2において, 口形や口面積などの特徴量の標準バタン 1 9 0 5との照合により唇の動 きを認識する。 なお、 口唇認識の結果としては、 音素系列を出力するこ とにする。 次に、 音声認識手段 1 9 0 7において、 音素区間内の音声の スぺク トルと音素標準バタン辞書 1 9 0 8の各音素スぺクトルとの類似 度計算により音素系列を音声認識結果として出力する。 In Fig. 5, the position on the drawing input first using the position input means Based on the coordinates, a person image extracting unit 1901 detects the presence or absence of a person image in an area near the input position coordinates in the input image, and further extracts a person face image. If one person image is detected in the input image, it is designated as a designated image.If more than one person image is detected in the input image, the image is input by the position input means 101. The specified person image includes or is the closest to the coordinate point. Next, the lip recognition means 1902 of the human face image extracted by the person image extracting means 102 is used to compare the lip movements by comparing feature quantities such as the mouth shape and mouth area with the standard pattern 1905. To recognize Note that a phoneme sequence is output as the result of lip recognition. Next, the speech recognition means 1907 calculates a phoneme sequence as a speech recognition result by calculating the similarity between the speech spectrum in the phoneme section and each phoneme spectrum in the phoneme standard pattern dictionary 1908. Output.
ここで、 画像音声照合手段 1 9 0 3において、 口唇認識手段 1 9 0 2 の出力結果である音素系列と、 音声認識手段 1 9 0 7の出力結果である 音素系列の比較照合を行なう。 これにより、 人物画像における唇の動き と前後の音声区間とを照合し対応付けることができる。 最後に、 シーン 抽出手段 1 9 0 4において、 人物画像に対応づけられた音声区間の映像 を、 全映像から抽出する。  Here, the image / speech matching means 1903 compares and compares the phoneme sequence output from the lip recognition means 1902 with the phoneme sequence output from the speech recognition means 1907. This makes it possible to collate and associate the movement of the lips in the person image with the preceding and following voice sections. Finally, the scene extracting means 1904 extracts the video of the voice section associated with the human image from all the videos.
以上の処理によリ、 ペンなどの位置入力手段によって指定された人物 の映像について、 音声区間を含む映像区間を入力映像から抽出すること が可能となる。  According to the above processing, it is possible to extract a video section including a voice section from an input video with respect to a video of a person specified by position input means such as a pen.
第 6図は、 本発明のマルチメディァ情報ォ一サリング方式におけるィ ンデクス表示を行なうプロック構成例を示す図である。 第 6図において, インデクス作成手段 3 0 3は、 第 1図におけるインデクス作成手段 1 0 4に対応する。 インデクス表示手段 3 0 1は、 マルチメディア情報イン デクスを視覚化してディスプレイに表示する手段である。 第 6図において、 まず、 インデクス作成手段 3 0 3により作成された マルチメディア情報インデクス 3 0 4について、 インデクス表示手段 3 0 1によって視覚化を行ない、 ディスプレイ 3 0 2に表示する。 例えば、 音声区間に基づいて作成されたィンデクスについて、 横軸に時刻をとつ た 2次元座標系に、 各音声区間の始端、 終端の時刻や区間長を棒線によ る表示方法が考えられる。 あるいは、 話者別に区間分けされた音声のィ ンデクスに関しては、 さらに話者別に棒線をを配置して表現する方法が 考えられる。 FIG. 6 is a diagram showing an example of a block configuration for performing index display in the multimedia information focusing method of the present invention. In FIG. 6, the index creating means 304 corresponds to the index creating means 104 in FIG. The index display means 301 is means for visualizing the multimedia information index and displaying it on a display. In FIG. 6, first, the multimedia information index 304 created by the index creating means 303 is visualized by the index display means 301 and displayed on the display 302. For example, for an index created based on a voice section, a method of displaying the start and end times and section lengths of each voice section using a bar line in a two-dimensional coordinate system with time on the horizontal axis . Alternatively, for the index of speech divided into sections for each speaker, a method of arranging a bar line for each speaker and expressing it is conceivable.
なお、 具体的には、 第 1図の検索結果出力手段 1 0 3は、 インデクス 表示手段 3 0 1、 ディスプレイ 3 0 2から構成されている。  Note that, specifically, the search result output means 103 in FIG. 1 is composed of an index display means 301 and a display 302.
このようなィンデクスの視覚化を行なうことにより、 マルチメディァ 情報のォ一サリングを視覚的に行なうことが可能になる。  By visualizing such an index, it is possible to visually perform multimedia information authoring.
第 7図には、 インデクスを視覚化した画面表示例を示す図である。 第 7図において、 映像表示領域 4 0 1は、 ディスプレイ上の、 動画像を表 示する領域である。 インデクス表示領域 4 0 2は、 ディスプレイ上の、 マルチメディァ情報ィンデクスを表示する領域である。 音声ィンデスク 表示領域 4 0 3は、 ディスプレイ上の、 音声インデクスを表示する領域 である。 指定音声区間 4 0 4は、 利用者が音声あるいは動画像の出力を 要求するために指定した音声区間を示す。 指定画像 4 0 5は利用者が音 声あるいは動画像の出力を要求するために指定する画像を示す。  FIG. 7 is a diagram showing a screen display example in which the index is visualized. In FIG. 7, a video display area 401 is an area on the display for displaying a moving image. The index display area 402 is an area on the display for displaying the multimedia information index. The audio index display area 403 is an area on the display for displaying an audio index. The designated voice section 404 indicates a voice section specified by the user to request the output of a voice or a moving image. The designated image 405 indicates an image designated by the user to request output of a sound or a moving image.
第 7図において、 まず、 利用者はインデクス表示領域内の音声インデ クス表示領域 4 0 3に表示された音声ィンデクスに対して、 欲しい音声 あるいは動画像に対応する音声区間を指定することによリ、 音声あるい は動画像を出力させることができる。 また、 利用者は、 映像表示領域 4 0 1内に表示されている動画像に対して、 現在出力されている音声に対 応する音声区間あるいは動画像を要求する場合、 画像 4 0 5を指定する ことによリ、 要求した音声区間の音声あるいは動画像を出力させること ができる。 In FIG. 7, first, the user designates a voice section corresponding to a desired voice or a moving image with respect to the voice index displayed in the voice index display area 403 in the index display area. It can output audio or moving images. In addition, when the user requests a sound section or a moving image corresponding to the currently output sound for the moving image displayed in the video display area 401, the user specifies the image 405. Do As a result, it is possible to output the voice or the moving image of the requested voice section.
他の表示例として第 8図に、 本発明のマルチメディア情報ォーサリン グ方式を携帯端末に利用した際の画面表示例を示す。 第 8図において、 携帯情報端末の画面上に、 映像表示領域 7 0 2と、 文書表示領域 7 0 3 と、 メニュー領域 7 0 1を設けている。 まず、 第 8図の左側の携帯情報 端末上で、 メニュー領域 7 0 1内から 「セリフ抽出」 という項目を選択 する。 次に、 映像表示領域 7 0 2上で映像再生中に、 セリフを抽出した い人物画像の位置を位置入力手段 7 0 5によって指定する。 ここまでの 操作により、 第 1図において示したマルチメディア情報のォーサリング 方式を用いて指定された人物画像に対応する音声区間を含むシーンを抽 出する。 第 8図の右側の携帯情報端末上では、 さらに、 抽出したシーン をシンボル化したアイコン 7 0 4を、 マウスなどの位置入力手段を用い て画面上で動かし、 文書表示領域 7 0 3内の任意の位置にアイコン 7 0 4をおくことにより、 文書表示領域 7 0 3上の文書と、 抽出した映像を 関連付ける操作を示した。  As another display example, FIG. 8 shows a screen display example when the multimedia information authoring method of the present invention is used for a portable terminal. In FIG. 8, a video display area 702, a document display area 703, and a menu area 701 are provided on the screen of the portable information terminal. First, on the portable information terminal on the left side of FIG. 8, select the item “extract dialogue” from the menu area 701. Next, during image reproduction on the image display area 702, the position of the human image from which the lines are to be extracted is designated by the position input means 705. By the operations up to this point, a scene including a voice section corresponding to the specified person image is extracted using the multimedia information authoring method shown in FIG. On the portable information terminal on the right side of FIG. 8, the icon 704, which symbolizes the extracted scene, is moved on the screen using a position input device such as a mouse, and is moved to an arbitrary position in the document display area 703. The operation of associating the extracted video with the document in the document display area 703 by placing the icon 704 at the position of is shown.
第 9図に、 本発明のマルチメディア情報ォーサリング方式を利用した マルチメディァ情報検索クライアントサーバシステムのプロック構成例 である。 第 9図において、 検索キー入力手段 6 0 1は、 利用者が編集す る対象を検索するために、 検索のキーとなるキーワードや位置などを入 力する手段である。 音声送信要求手段 6 0 2は、 サーバ側に対して、 音 声情報の送信を要求する手段である。 マルチメディア情報取得手段 6 0 3は、 送信を要求された音声情報が含まれるマルチメディア情報を図示 しないデータペースから取得する手段である。 音声抽出手段 6 0 4は、 マルチメディア情報に含まれる音声情報部分を抽出する手段である。 音 声送信手段 6 0 5は、 音声情報をクライアント側に送信する手段である, 音声検索手段 6 0 6は音声情報について音声認識を行ない、 音声認識結 果に対して、 検索キーとして指定された文字列について検索や話者検索 を行なう手段である。 なお、 入力音声の音声認識を行なう方法として、 例えば、 入力音声を小区間ごとに音素の標準パタンと比較して距離を求 め、 距離の近い音素を音素認識結果として出力し、 さらに音素系列を単 語音声辞書と比較する手段がある (前出 "ディジタル音声処理" 、 東海 大学出版会、 p p 1 6 7 「 8 . 6 音素を単位とする単語音声認識」 参 照) 。 動画像送信要求手段 6 0 7は、 サーバ側に対して、 特定の区間の 動画像情報の送信を要求する手段である。 シーン抽出手段 6 0 8は、 全 動画像内から、 指定された区間の動画像情報を抽出する手段である。 動 画像送信手段 6 0 9は、 クライアント側に対して、 動画像情報を送信す る手段である。 動画像素示手段 6 1 0は、 動画像を表示する手段である。 第 9図において、 クライアント側において、 まず、 検索キー入力手段 6 0 1を用いて入力された文字を指定文字列とする。 次に、 音声送信要 求手段 6 0 2において、 特定のマルチメディァ情報内の音声情報の送信 を要求する。 次に、 サーバ側において、 音声情報の送信要求を得たのち、 マルチメディァ情報取得手段 6 0 3において、 送信を要求された音声情 報を含むマルチメディア情報をデータベースから取得する。 さらに、 取 得したマルチメディア情報内の音声情報部分を、 音声抽出手段 6 0 4に おいて抽出し、 音声送信手段 6 0 5において、 音声情報部分のみをクラ イアントに送信する。 クライアント側では、 音声検索手段 6 0 6におい て、 受信した音声情報について、 指定文字列の検索を行なう。 なお、 こ こでは、 受信した音声情報について一度音声認識を行ない、 認識結果に 対して指定文字列の検索を行なう音声検索方法を仮定している。 次に、 指定文字列が含まれる音声区間に対応する動画像の送信を、 動画像送信 要求手段 6 0 7において要求する。 さらに、 サーバ側では、 受信した動 画像送信要求に基づき、 シーン抽出手段 6 0 8において、 要求された区 間の動画像を全動画像から抽出し、 動画像送信手段 6 0 9によってクラ イアント側に送信する。 FIG. 9 is an example of a block configuration of a multimedia information search client-server system using the multimedia information authoring method of the present invention. In FIG. 9, search key input means 6001 is a means for inputting a keyword or a position serving as a search key in order to search for an object to be edited by a user. The voice transmission requesting means 602 is a means for requesting the server side to transmit voice information. The multimedia information acquiring means 603 is means for acquiring multimedia information including audio information requested to be transmitted from a data pace (not shown). The voice extracting means 604 is a means for extracting a voice information part included in the multimedia information. The voice transmitting means 6 05 is a means for transmitting voice information to the client side, The voice search means 606 is a means for performing voice recognition on voice information, and performing a search or a speaker search on a character string designated as a search key based on the voice recognition result. As a method of performing speech recognition of input speech, for example, the input speech is compared with a standard phoneme pattern for each small section to obtain a distance, a phoneme having a short distance is output as a phoneme recognition result, and a phoneme sequence is further obtained. There is a means to compare with a word speech dictionary (see "Digital Speech Processing", Tokai University Press, pp. 167, "8.6 Word Speech Recognition in Phonemes"). The moving image transmission request means 607 is a means for requesting the server side to transmit moving image information in a specific section. The scene extracting means 608 is means for extracting moving image information of a designated section from all moving images. The moving image transmitting means 609 is means for transmitting moving image information to the client side. The moving image presentation means 610 is a means for displaying a moving image. In FIG. 9, on the client side, first, a character input using the search key input means 600 is set as a designated character string. Next, the audio transmission requesting means 62 requests transmission of the audio information in the specific multimedia information. Next, on the server side, after obtaining a transmission request for audio information, the multimedia information acquisition means 603 acquires multimedia information including the audio information requested to be transmitted from the database. Further, the audio information part in the obtained multimedia information is extracted by the audio extracting means 604, and the audio transmitting means 605 transmits only the audio information part to the client. On the client side, the voice search means 606 searches the received voice information for a specified character string. Here, it is assumed that a voice search method is performed in which voice recognition is performed once on received voice information and a specified character string is searched for the recognition result. Next, the transmission of the moving image corresponding to the voice section containing the specified character string Request is made in request means 607. Further, on the server side, based on the received moving image transmission request, the scene extracting means 608 extracts a moving image of the requested section from all the moving images, and the moving image transmitting means 609 causes the client side to extract the moving image. Send to
以上の構成により、 音声検索が可能なマルチメディア情報検索クライ アントサーバシステムにおいて、 全マルチメディア情報をサーバ側から クライアントに送信することなく、 必要な情報のみを送信することが可 能となる。  With the above configuration, in a multimedia information search client server system capable of voice search, it is possible to transmit only necessary information without transmitting all multimedia information from the server side to the client.
第 1 0図は、 マルチメディア情報検索クライアントサーバシステムの 他のブロック構成例を示す図である。  FIG. 10 is a diagram showing another example of a block configuration of the multimedia information search client server system.
第 1 0図において、 クライアント側において、 まず、 検索キー入力手 段 6 0 1を用いて入力された話者名を指定話者名とする。 次に、 音声送 信要求手段 6 0 2において、 特定のマルチメディア情報内の音声情報の 送信を要求する。 次に、 サーバ側において、 音声情報の送信要求を得た のち、 マルチメディア情報取得手段 6 0 3において、 送信を要求された 音声情報を含むマルチメディァ情報をデータベースから取得する。 さら に、 取得したマルチメディア情報内の音声情報部分を、 音声抽出手段 6 0 4において抽出し、 音声送信手段 6 0 5において、 音声情報部分のみ をクライアントに送信する。 クライアント側では、 音声検索手段 6 0 6 において、 受信した音声情報について、 指定話者の検索を行なう。 なお, ここでは、 受信した音声情報について話者識別を行ない、 識別結果に対 して指定話者名の検索を行なう音声検索方法を仮定している。 次に、 指 定話者名に対応する音声区間の動画像の送信を、 動画像送信要求手段 6 0 7において要求する。 さらに、 サーバ側では、 受信した動画像送信要 求に基づき、 シーン抽出手段 6 0 8において、 要求された区間の動画像 を全動画像から抽出し、 動画像送信手段 6 0 9によってクライアント側 に送信する。 In FIG. 10, on the client side, first, the speaker name input using the search key input means 61 is set as the designated speaker name. Next, the audio transmission requesting means 62 requests transmission of audio information in the specific multimedia information. Next, on the server side, after receiving a transmission request for audio information, the multimedia information acquisition means 603 acquires multimedia information including the audio information requested to be transmitted from the database. Further, the audio information part in the obtained multimedia information is extracted by the audio extracting means 604, and the audio transmitting means 605 transmits only the audio information part to the client. On the client side, the voice search means 606 searches the received voice information for a designated speaker. Here, a speech search method is assumed in which speaker identification is performed on received speech information, and a search for the specified speaker name is performed based on the identification result. Next, the transmission of the moving image in the voice section corresponding to the designated speaker name is requested by the moving image transmission requesting means 607. Further, on the server side, based on the received moving image transmission request, the scene extracting means 608 extracts a moving image of the requested section from all moving images, and the moving image transmitting means 609 causes the client side to extract the moving image. Send to
以上の処理よリ、 話者検索が可能なマルチメディア情報検索クライア ント一サバシステムにおいて、 全マルチメディァ情報をサーバ側からク ライアン卜に送信することなく、 必要な情報のみを送信することが可能 となる。  With the above processing, it is possible to transmit only the necessary information without transmitting all the multimedia information from the server side to the client in the multimedia information search client-server system capable of speaker search. Becomes
第 1 1図は、 本発明のマルチメディア情報ォ一サリング方式の画面表 示例である。 第 1 1図において、 映像表示領域 1 2 0 1は、 ディスブレ ィ上の、 動画像を表示する領域である。 インデクス表示領域 1 2 0 2は、 デイスプレス上のマルチメディァ情報ィンデクスを表示する領域である。 話者名表示領域 1 2 0 3は、 各音声区間に対応する話者名を表示する領 域である。 話者名表示方法として、 各音声区間に対して話者名を表示す る方法と、 話者毎に分割した上で話者名を表示する方法が考えられる。 第 1 1図において、 話者名表示領域 1 2 0 3に表示された話者名を元 に、 利用者は、 キ一ボードなどの文字手段を用いて、 人物名を入力する。 あるいは、 マウスなどの位置入力手段を用いて、 話者名表示領域に表示 された話者を指定することにより話者名を入力する。 入力された話者名 に基づき、 話者の音声区間の音声あるいは動画像を出力させることがで きる。  FIG. 11 is a screen display example of the multimedia information writing method of the present invention. In FIG. 11, a video display area 1221 is an area for displaying a moving image on the display. The index display area 122 is an area for displaying a multimedia information index on a disk press. The speaker name display area 1 203 is an area for displaying a speaker name corresponding to each voice section. As a speaker name display method, there are a method of displaying the speaker name for each voice section, and a method of displaying the speaker name after dividing for each speaker. In FIG. 11, based on the speaker name displayed in the speaker name display area 1203, the user inputs a person name using character means such as a keyboard. Alternatively, the speaker name is input by designating the speaker displayed in the speaker name display area using a position input means such as a mouse. Based on the input speaker name, it is possible to output the voice or moving image of the speaker's voice section.
本発明によれば、 複数の話者による音声を含む映像に対して、 各話者 ごとの音声に対応する音声区間の音声あるいは動画像を出力させること ができる。  ADVANTAGE OF THE INVENTION According to this invention, the audio | voice or the moving image of the audio | voice area corresponding to the audio | voice of each speaker can be output with respect to the video containing the audio | voice by a plurality of speakers.
複数の人物画像が同一画像内に存在する場合、 音声区間を指定するこ とにより、 音声区間の音声に対応する人物画像、 指定音声区間の音声と 同一話者の全音声区間の音声に対応する人物画像、 を抽出することがで きる。  When multiple person images exist in the same image, by specifying the voice section, the person image corresponding to the voice in the voice section, the voice in the specified voice section and the voice in all voice sections of the same speaker It is possible to extract person images and.
同様に、 画像を指定することにより、 各話者ごとの音声に対応する音 声区間の音声、 動画像、 あるいは、 指定画像に対応する音声区間の音声 と同一話者の全音声区間の音声に対応する人物画像、 を出力させること ができる。 産業上の利用可能性 Similarly, by specifying the image, the sound corresponding to the voice of each speaker It is possible to output a voice in a voice section, a moving image, or a person image corresponding to the voice in the entire voice section of the same speaker as the voice in the voice section corresponding to the designated image. Industrial applicability
本発明は、 PDA(Personal Digital Assistant) 、 ノー卜パソコン などの携帯情報端末や、 パーソナルコンピュータ、 ワークステーション などのマルチメディァ端末当の、 音響情報を含む映像を扱う機器に適す る。 これにより、 話者別の映像を容易に抽出するォーサリング方式を備 えるシステムを提供できる。  INDUSTRIAL APPLICABILITY The present invention is suitable for a portable information terminal such as a PDA (Personal Digital Assistant) and a notebook personal computer, and a multimedia terminal such as a personal computer and a workstation, which handles images including audio information. This makes it possible to provide a system with an authoring method for easily extracting video for each speaker.

Claims

請 求 の 範 囲 The scope of the claims
1. 音響情報と動画像情報を含むマルチメディア情報を記憶する手段 ( 1 0 5 ) と、 1. means (105) for storing multimedia information including sound information and moving image information;
上記マルチメディア情報を読みだして音響情報と動画像との対応関係 を示すインデクスを作成するインデクス作成手段 ( 1 04) と、  An index creation means (104) for reading the multimedia information and creating an index indicating the correspondence between the acoustic information and the moving image;
上記インデクスを記憶する手段 ( 1 0 6 ) と、  Means (106) for storing the index,
欲しい動画像あるいは欲しい音響情報に関する検索情報を入力するた めの検索キー入力手段 ( 1 0 1 ) と、  A search key input means (101) for inputting search information relating to a desired moving image or desired sound information;
上記ィンデクスを参照して上記検索情報に対応する動画像又は音響情 報を検索するマルチメディァ情報検索手段 ( 1 02 ) と、  Multimedia information search means (102) for searching for a moving image or audio information corresponding to the search information by referring to the index;
上記検索結果を出力する検索結果出力手段 ( 1 0 3 ) と  Search result output means (10 3) for outputting the above search results;
からなるマルチメディア情報のォーサリング方式。 Authoring method for multimedia information consisting of
2. 前記ィンデクス作成手段は、  2. The index creation means,
上記マルチメディァ情報に含まれる音響情報の音声区間を検出する音 声区間検出手段 ( 20 1 ) と、  Voice section detection means (201) for detecting a voice section of the audio information included in the multimedia information;
該音声区間をもとに音声インデクスを作成する音声インデクス作成手 段 ( 202 ) とを有する請求の範囲第 1項に記載のマルチメディア情報 のォーサリング方式。  2. The multimedia information authoring method according to claim 1, further comprising a voice index creating step (202) for creating a voice index based on said voice section.
3. 上記検索結果出力手段は、 インデクス表示手段及びディスプレイ を有し、 上記検索結果及び上記ィンデクスを表示する請求の範囲第 1項 に記載のマルチメディァ情報のォーサリング方式。  3. The authoring method for multimedia information according to claim 1, wherein the search result output means has an index display means and a display, and displays the search result and the index.
4. 上記検索結果出力手段は、 インデクス表示手段及びディスプレイを 有し、 上記検索結果及び上記インデクスを表示し、  4. The search result output means has an index display means and a display, displays the search result and the index,
上記ディスプレイ上に表示されたィンデクスを用いて指定された音声 区間を検索情報として指定する請求の範囲第 1項に記載のマルチメディ ァ情報のォーサリング方式。 2. The multimedia according to claim 1, wherein a voice section specified using the index displayed on the display is specified as search information. Authoring method for key information.
5 . 上記検索情報を任意の動画像とする請求の範囲第 1項に記載のマル チメディア情報のォーサリング方式。  5. The authoring method for multimedia information according to claim 1, wherein the search information is an arbitrary moving image.
6 . 前記インデクス作成手段は、  6. The index creating means is:
マルチメディア情報に含まれる音響情報の音声区間を検出する音声区 間検出手段 ( 2 0 1 ) と、  Voice interval detection means (201) for detecting a voice interval of audio information included in the multimedia information;
該音声区間検出手段により検出した音声区間の音声について話者を識 別し、 全音声区間について該話者を識別する話者識別手段 ( 8 0 1, 8 0 2 ) と、  Speaker identification means (810, 802) for identifying a speaker with respect to the voice of the voice section detected by the voice section detection means, and identifying the speaker for all voice sections;
該話者と前記者声区間をもとに音声ィンデクスを作成する音声テンデ クス作成手段 ( 2 0 2 ) と、  Voice index generating means (202) for generating a voice index based on the speaker and the voice section;
からなる  Consists of
請求の範囲第 1項のマルチメディア情報のォーサリング方式。  The multimedia information authoring method according to claim 1.
7 . 上記検索情報を人物名として、 該人物の音声区間の音声あるいは 該音声が対応する人物画像を検索することを特徴とする、 請求範囲第 1 項のマルチメディア情報のォーサリング方式。  7. The multimedia information authoring method according to claim 1, wherein the search information is used as a person name to search for a voice in a voice section of the person or a person image corresponding to the voice.
8 . 前記マルチメディア情報検索手段 ( 1 0 2 ) は、  8. The multimedia information search means (102)
動画像内の人物画像から口唇の動きを検出し、 口唇の動きに対応する 音素を識別する口唇認識手段 ( 1 5 0 1 ) と、  Lip recognition means (1501) for detecting lip movement from a human image in a moving image and identifying phonemes corresponding to lip movement;
動画像内の音声情報を音素標準パタンにもとづき認識する音声認識手 段 ( 1 5 0 6 ) と、  A speech recognition means (1506) for recognizing speech information in a moving image based on a phoneme standard pattern;
該口唇認識手段が出力する音素識別結果と、 音声認識手段が出力する 音声認識結果を比較照合する画像音声照合手段 ( 1 5 0 2 ) と、 該画像音声照合手段において、 前記音素識別結果粋一致すると判定さ れた音声区間の動画像を抽出するシーン抽出手段 ( 1 5 0 3 ) と、 を有し、 音声区間の音声に対応する人物画像または、 人物画像に対応する音声 区間の音声を得る請求範囲第 1項のマルチメディァ情報のォ一サリング 方式。 An image / speech matching unit (1502) for comparing and collating the phoneme identification result output by the lip recognition unit with a speech recognition result output by the speech recognition unit; Then, scene extracting means (1503) for extracting a moving image of the determined voice section, and 2. The multimedia information authoring method according to claim 1, wherein a person image corresponding to the voice of the voice section or a voice of the voice section corresponding to the human image is obtained.
9 . 上記検索情報を動画像内の人物画像とし、 該人物画像の音声区間の 音声あるいは動画像を検索することを特徴とする請求範囲第 1項のマル チメディア情報のォ一サリング方式。  9. The multimedia information authoring method according to claim 1, wherein the search information is a person image in a moving image, and a sound or a moving image in a voice section of the person image is searched.
1 0 . 音声送信要求プロトコルを発信する音声送信要求手段 ( 6 0 2 ) と、  10. Voice transmission request means (6 02) for transmitting a voice transmission request protocol;
音声に対して検索を行なう音声検索手段 ( 6 0 6 ) と、  Voice search means (600) for searching for voice;
動画像送信要求プロトコルを発信する動画像送信要求手段 ( 6 0 7 ) と、  Moving image transmission request means for transmitting a moving image transmission request protocol (607);
を備えたマルチメディア情報表示クライアント (以下、 クライアント) と、  A multimedia information display client (hereinafter referred to as a client) with
音響送信要求プロトコルを受信し、 該プロトコルにおいて指定された マルチメディァ情報を取得する情報取得手段 ( 6 0 3 ) と、  Information acquisition means (603) for receiving a sound transmission request protocol and acquiring multimedia information specified in the protocol;
マルチメディア情報から音声を抽出する音声抽出手段 ( 6 0 4 ) と、 音声を送信する音声送信手段 ( 6 0 5 ) と、  Voice extracting means (604) for extracting voice from multimedia information, voice transmitting means (660) for transmitting voice,
動画像を送信する動画像送信手段 ( 6 0 9 ) と、  Moving image transmitting means (609) for transmitting a moving image;
を備えたマルチメディア情報検索サーバ (以下、 サーバ) と、 を有するマルチメディア情報検索クライアントサーパシステムにおい て、  A multimedia information search server (hereinafter, referred to as a server) provided with: and a multimedia information search client server system having:
上記サーバは、 動画像送信要求プロトコルを受信した後、 該プロトコ ルにおいて指定された区間の動画像を抽出するシーン抽出手段 ( 6 0 8 ) を有し、  The server has a scene extracting means (608) for extracting a moving image in a section designated by the protocol after receiving the moving image transmission request protocol,
マルチメディア情報のうち、 全ての情報を通信することなく所望の区 間の情報のみを通信するマルチメディァ情報検索クライアントサーバシ ステム Multimedia information retrieval client / server system that communicates only information in a desired section without communicating all information among multimedia information Stem
PCT/JP1995/001746 1995-09-01 1995-09-01 Authoring system for multimedia information including sound information WO1997009683A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP1995/001746 WO1997009683A1 (en) 1995-09-01 1995-09-01 Authoring system for multimedia information including sound information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP1995/001746 WO1997009683A1 (en) 1995-09-01 1995-09-01 Authoring system for multimedia information including sound information

Publications (1)

Publication Number Publication Date
WO1997009683A1 true WO1997009683A1 (en) 1997-03-13

Family

ID=14126227

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1995/001746 WO1997009683A1 (en) 1995-09-01 1995-09-01 Authoring system for multimedia information including sound information

Country Status (1)

Country Link
WO (1) WO1997009683A1 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099520A (en) * 1998-09-17 2000-04-07 Fuji Xerox Co Ltd Multimedia editing device
JP2002169592A (en) * 2000-11-29 2002-06-14 Sony Corp Device and method for classifying and sectioning information, device and method for retrieving and extracting information, recording medium, and information retrieval system
WO2002075590A1 (en) * 2001-03-15 2002-09-26 Flanderit - Mobile Solutions Ltd A system to visualize an electronically recorded presentation
JP2002539528A (en) * 1999-03-05 2002-11-19 キヤノン株式会社 Database annotation and search
JP2002354452A (en) * 2001-05-28 2002-12-06 Ricoh Co Ltd Document preparation system, document preparation server, document preparation program, and medium recording program for making document
US7017115B2 (en) 2000-12-07 2006-03-21 Nec Corporation Portable information terminal equipment and display method therefor
JP2006333065A (en) * 2005-05-26 2006-12-07 Fujifilm Holdings Corp Photo album producing method
CN109271915A (en) * 2018-09-07 2019-01-25 北京市商汤科技开发有限公司 False-proof detection method and device, electronic equipment, storage medium
JP2020535538A (en) * 2018-09-07 2020-12-03 北京市商▲湯▼科技▲開▼▲発▼有限公司Beijing Sensetime Technology Development Co., Ltd. Anti-camouflage detection methods and devices, electronic devices, storage media

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07226931A (en) * 1994-02-15 1995-08-22 Toshiba Corp Multi-medium conference equipment

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07226931A (en) * 1994-02-15 1995-08-22 Toshiba Corp Multi-medium conference equipment

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TRANSACTIONS OF 1989 SYMPOSIUM LECTURE ON INFORMATICS (TOKYO), 17 January 1989, RYUICHI OGAWA et al., "Support System for Preparing Hypermedia Including Voices and Animations", pages 43-52. *
TRANSACTIONS OF LOCAL LECTURE BY THE TOHOKU BRANCH OF THE JAPAN SOCIETY OF MECHANICAL ENGINEERS - PRECISION ENGINEERING SOCIETY, 1993, YONEZAWA, MASAMI NAKANO et al., "Study on Mechanic Lip Reading by Stereovision (Identification of Vocal Mouth Shape)", pages 255-257. *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099520A (en) * 1998-09-17 2000-04-07 Fuji Xerox Co Ltd Multimedia editing device
JP2002539528A (en) * 1999-03-05 2002-11-19 キヤノン株式会社 Database annotation and search
JP2002169592A (en) * 2000-11-29 2002-06-14 Sony Corp Device and method for classifying and sectioning information, device and method for retrieving and extracting information, recording medium, and information retrieval system
US7017115B2 (en) 2000-12-07 2006-03-21 Nec Corporation Portable information terminal equipment and display method therefor
WO2002075590A1 (en) * 2001-03-15 2002-09-26 Flanderit - Mobile Solutions Ltd A system to visualize an electronically recorded presentation
JP2002354452A (en) * 2001-05-28 2002-12-06 Ricoh Co Ltd Document preparation system, document preparation server, document preparation program, and medium recording program for making document
JP2006333065A (en) * 2005-05-26 2006-12-07 Fujifilm Holdings Corp Photo album producing method
CN109271915A (en) * 2018-09-07 2019-01-25 北京市商汤科技开发有限公司 False-proof detection method and device, electronic equipment, storage medium
JP2020535538A (en) * 2018-09-07 2020-12-03 北京市商▲湯▼科技▲開▼▲発▼有限公司Beijing Sensetime Technology Development Co., Ltd. Anti-camouflage detection methods and devices, electronic devices, storage media
CN109271915B (en) * 2018-09-07 2021-10-08 北京市商汤科技开发有限公司 Anti-counterfeiting detection method and device, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
CN109493850B (en) Growing type dialogue device
US8473099B2 (en) Information processing system, method of processing information, and program for processing information
KR101010081B1 (en) Media identification
KR102081925B1 (en) display device and speech search method thereof
US5787414A (en) Data retrieval system using secondary information of primary data to be retrieved as retrieval key
US7120626B2 (en) Content retrieval based on semantic association
US20150331665A1 (en) Information provision method using voice recognition function and control method for device
JP2004533640A (en) Method and apparatus for managing information about a person
US20210160581A1 (en) Method and data processing apparatus
JPWO2008114811A1 (en) Information search system, information search method, and information search program
KR20060077988A (en) System and method for information providing service through retrieving of context in multimedia communication system
JPWO2005069171A1 (en) Document association apparatus and document association method
GB2383247A (en) Multi-modal picture allowing verbal interaction between a user and the picture
CN113591530A (en) Video detection method and device, electronic equipment and storage medium
JP3437617B2 (en) Time-series data recording / reproducing device
WO1997009683A1 (en) Authoring system for multimedia information including sound information
JP2008032825A (en) Speaker display system, speaker display method and speaker display program
WO2017206861A1 (en) Human-machine conversation platform
US20220059080A1 (en) Realistic artificial intelligence-based voice assistant system using relationship setting
JPH11203295A (en) Information providing device and its method
JP7230803B2 (en) Information processing device and information processing method
JP2020101822A (en) Information providing method using voice recognition function, and control method of instrument
JP7096626B2 (en) Information extraction device
JP2000076040A (en) Voice input network terminal equipment
WO2003102816A1 (en) Information providing system

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH DE DK ES FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase