WO2004090867A1 - 変化情報認識装置および変化情報認識方法 - Google Patents

変化情報認識装置および変化情報認識方法 Download PDF

Info

Publication number
WO2004090867A1
WO2004090867A1 PCT/JP2004/005155 JP2004005155W WO2004090867A1 WO 2004090867 A1 WO2004090867 A1 WO 2004090867A1 JP 2004005155 W JP2004005155 W JP 2004005155W WO 2004090867 A1 WO2004090867 A1 WO 2004090867A1
Authority
WO
WIPO (PCT)
Prior art keywords
change
information
change information
basic
recognition
Prior art date
Application number
PCT/JP2004/005155
Other languages
English (en)
French (fr)
Inventor
Ryuji Funayama
Original Assignee
Toyota Jidosha Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Jidosha Kabushiki Kaisha filed Critical Toyota Jidosha Kabushiki Kaisha
Priority to EP04726766.1A priority Critical patent/EP1619660B1/en
Publication of WO2004090867A1 publication Critical patent/WO2004090867A1/ja
Priority to US11/240,598 priority patent/US7302086B2/en
Priority to US11/976,691 priority patent/US7508959B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Definitions

  • the present invention relates to a change information recognition device and a change information recognition / recognition method for recognizing a change state of a recognition target, such as a mouth movement, a voice emitted from the mouth, or a human motion. .
  • the face direction detection device disclosed in Japanese Patent Laid-Open Publication No. H10-27474516 detects the position of the mouth and then detects the direction of the face. It cannot detect the movement of the object. Therefore, there was a problem that it was not possible to recognize human words.
  • an object of the present invention is to provide a change information recognition apparatus and a change information recognition apparatus capable of accurately recognizing a change state of an object to be recognized and recognizing, for example, words spoken by a person. It is to provide a method.
  • the change information recognition device includes: a change information obtaining unit configured to obtain change information of a recognition target; and a basic change storing a basic change state of the recognition target in advance as basic change information.
  • Information storage means change state comparison means for detecting the change state of the recognition object by comparing the change information of the recognition object acquired by the change information acquisition means with the basic change information stored in advance, It is provided with.
  • the recognition target object is recognized by comparing the change information acquired by the change information acquiring means with the basic change information stored in advance. . For example, if the object to be recognized frequently moves with a certain correlation, such as the mouth of a person, this movement is stored in advance as basic change information and compared with the obtained change information. This makes it possible to reliably recognize the object to be recognized.
  • the basic change information is stored in the basic change information storage unit as a change information unit obtained by dividing the change state of the recognition target into basic units.
  • the change information obtaining means may be imaging means for capturing an image of the recognition target, and the change information may be information relating to an image change around the mouth caused by speech in the image obtained by the imaging means. it can.
  • the change information obtaining means is a sound collecting means for obtaining the sound generated by the recognition target, and the change information is information on the frequency component change of the sound generated by the recognition target obtained by the sound collecting means. It can also be.
  • the sound generated by the object to be recognized for example, the content of the utterance of a person is recognized with high accuracy can do.
  • the change information obtaining means may be imaging means for capturing an image of the recognition target, and the change information may be information relating to an image change associated with the movement of the recognition target in the image obtained by the imaging means. it can.
  • the change information acquiring means is an imaging means for imaging the recognition target, and the change information is related to an image change accompanying rotation of the recognition target. Information.
  • the change information is a change in the image due to the movement or rotation of the recognition target, the change can be recognized with high accuracy.
  • the basic change information described above is the basic change sequence information set as a sequence of information in the feature space, and the change sequence information of the recognition target acquired by the change information acquisition means is stored in the feature space.
  • a change information projecting device that creates projection change information by projecting the projection change information and the basic change information, instead of comparing the change information of the recognition target with the basic change information. It is preferable that the state of change of the detected elephant is recognized by comparing with the above.
  • the change information is recognized as an information sequence in the feature space. For this reason, the obtained change sequence information is compared with the preset basic change sequence information. Therefore, it is possible to quantitatively determine the similarity (fitness) between the acquired change sequence information and the basic change sequence information.
  • the change state comparison means detects the change state of the recognition target object by comparing the continuity of the basic change sequence information with the continuity of the projected change information. Is preferred. As described above, by comparing the continuity of the change sequence information projected as the projection change information with the basic change sequence information, it is possible to accurately recognize the recognition target moving while changing.
  • Information that can be represented in multi-dimensions can be represented as a point in a multi-dimensional space. This information can be projected as a point on a lower dimensional space, and this lower dimensional space is defined as a feature space.
  • one still image that can be expressed as one point in a multidimensional space can be projected as one point in a three-dimensional space (feature space).
  • a plurality of continuous images can be represented as lines (projected trajectories) in a three-dimensional space (feature space).
  • the basic sequence information is set as a tubular region in the feature space, and the projected trajectory in the feature space obtained from the projection change information is compared (for example, By comparing whether or not the projection locus is included in the Ube-shaped region), it is possible to recognize the change state of the recognition target.
  • the information processing apparatus further includes a learning unit that creates basic change sequence information based on the change information of the recognition target acquired by the change information acquisition unit.
  • a learning unit that creates basic change sequence information based on the change information of the recognition target acquired by the change information acquisition unit.
  • the change information recognition method includes a change information obtaining step of obtaining change information of a recognition target, and a basic change state of the recognition target.
  • the change state of the recognition target is compared by comparing the change information of the recognition target acquired in the change information acquisition step with the basic change information stored in advance. And a change state comparing step to be recognized.
  • a change information unit obtained by dividing the change state of the recognition target into basic units is stored in advance as the basic change information. In this way, by storing the basic change information as information divided into change information units, the recognition target can be recognized with higher accuracy.
  • the change information acquired in the change information acquiring step is information relating to an image of the object to be recognized
  • the basic change information stored in advance in the basic change information preliminary storage step is also information relating to the image.
  • the change state comparison step it is preferable that the change state of the recognition target object is recognized by comparing information on the image of the change information and the basic change information. In this way, by using the change information as information relating to an image of the object to be recognized, a change in the object to be recognized can be recognized with high accuracy.
  • the change information acquired in the change information acquiring step is a recognition target.
  • the information about the sound generated by the object, and the basic change information pre-stored in the basic change information preliminary storage step is also information about the sound.
  • the change information and the sound frequency of the basic change information are used. It is preferable to recognize the change state of the recognition target by comparing the components. In this way, by using the change information as information on the sound generated by the recognition target, the sound generated by the recognition target, for example, the content of a human utterance can be recognized with high accuracy.
  • FIG. 1 is a block diagram of the change information recognition device according to the first embodiment of the present invention.
  • FIG. 2 is a diagram schematically illustrating an image of a face including a mouth.
  • FIG. 3A is a diagram schematically showing a template showing a state (first example) of a continuous change in the shape of the mouth.
  • FIG. 3B is a diagram schematically showing a template indicating a state of a continuous change in the shape of the mouth (second example).
  • 4A to 4H are diagrams schematically showing a state of a continuous change in the shape of a mouth in an image.
  • FIGS. 5A to 5H are diagrams schematically showing the shape of the mouth in the image and the position corresponding to the shape of the mouth in the template.
  • 6A to 6F are diagrams schematically showing a conventional mouth-shaped template.
  • FIG. 7 is a flowchart showing the procedure of the change information recognition method according to the first embodiment.
  • FIG. 8A is a diagram schematically showing a position in a still image that can be recognized as a mouth.
  • FIG. 8B is a diagram schematically showing positions that can be recognized as mouths in a moving image.
  • FIG. 9 is a block diagram of a change information recognition device according to the second embodiment.
  • FIG. 10A is a diagram schematically showing a continuous mouth change pattern over time.
  • FIG. 1OB is a diagram schematically showing the change in the first half of the change pattern in FIG. 1OA.
  • FIG. 10C is a diagram schematically showing a change in the latter half of the change pattern in FIG. 1OA.
  • FIG. 11 is a flowchart showing a main part of the procedure of the change information recognition method according to the second embodiment.
  • FIGS. 12A to 12H are diagrams schematically showing a continuous change state in an image including a mouth.
  • FIG. 13 is a block diagram of the change information recognition device according to the third embodiment.
  • Figure 14 is a table showing the correspondence between pronunciation changes and the symbols assigned to them.
  • FIG. 15 is a diagram schematically showing a mouth deformation process from the shape of the mouth emitting the vowel “A” to the shape of the mouth emitting the vowel “I”.
  • Figure 16A shows the sound of "Good morning” in text.
  • FIG. 16B is a diagram schematically showing the shape of the mouth corresponding to each of the sounds in FIG. 16A.
  • FIG. 16C is a diagram showing symbols corresponding to the sound changes in FIG. 16B.
  • FIG. 17 is a flowchart showing the main part of the procedure of the deformation information recognition method according to the third embodiment.
  • FIG. 18A is a diagram schematically showing a change in the shape of the mouth that changes from “a” to “i”.
  • FIG. 18B is a diagram schematically showing a change in the shape of the mouth that changes from “i” to “u”.
  • FIG. 19 is a block diagram of the change information recognition device according to the fourth embodiment.
  • FIG. 21 is a diagram schematically showing voice change information cut into a frame length of a fixed frame length at a fixed frame interval.
  • FIGS. 22A to 22H are graphs showing waveforms of voice change units generated from voice change information cut out at eight times T1 to T8.
  • FIGS. 23A to 23D are explanatory diagrams showing portions that match the graph of the voice change unit in FIGS.
  • FIG. 24 is a flowchart showing the procedure of the deformation information recognition method according to the fourth embodiment.
  • FIG. 25 is a flowchart showing the procedure of voice recognition according to the fourth embodiment.
  • FIG. 26 is a block diagram of the change information recognition device according to the fifth embodiment.
  • FIG. 27 is a diagram schematically illustrating an example of an image at a time of a basic body change unit used for gesture recognition.
  • FIGS. 28A to 28J show examples of images at the time of the basic body change unit used for pedestrian recognition.
  • FIG. 29 is a block diagram of the change information recognition device according to the sixth embodiment.
  • 30A to 30L are diagrams schematically showing images when the head of the doll rotates.
  • FIG. 31 is a block diagram of the change information recognition device according to the seventh embodiment.
  • FIG. 32 is a diagram schematically showing a moving image showing the movement of the mouth uttering “a” from “n”.
  • FIG. 33 is a diagram showing a graph on the feature space created based on the moving image shown in FIG.
  • FIG. 34 is a diagram showing a graph on a feature space created based on a moving image including other deformation patterns. .
  • Figure 35 is a diagram showing the curves when the mouth movements in a certain utterance of multiple people are projected onto the feature space.
  • FIG. 36 shows the hypertube generated in the feature space.
  • FIG. 37 is a diagram showing a feature space in which a plurality of hypertubes are arranged.
  • FIG. 38 is a flowchart showing a procedure for generating a hypertube.
  • FIG. 39 is a diagram showing three trajectories formed by connecting points where the three-dimensional feature vectors are plotted in the feature space.
  • FIG. 40 is a diagram showing three trajectories and a representative trajectory formed based on those trajectories.
  • FIG. 41 is a diagram for explaining a procedure for obtaining a hyperplane generated when a representative trajectory is obtained.
  • FIG. 42 is a diagram showing a hyperplane for explaining a procedure for obtaining a representative trajectory.
  • FIG. 43 is a flowchart showing the procedure of the change information recognition method according to the seventh embodiment.
  • FIG. 44A is a diagram also showing the trajectory of the hypertube HT representing a certain deformation and the trajectory 1 L of the input sequence.
  • FIG. 44B is a diagram showing a state where the start point of the hypertube is set to 0 and the end point is set to 1 on the horizontal axis, and the distance from the representative locus is set to the vertical axis.
  • FIG. 45 is a block diagram of the change information recognition device according to the eighth embodiment.
  • FIG. 46 is a diagram for explaining a state in which a moving image is captured without moving a window to be cut out for a predetermined time.
  • Figure 47A is a diagram illustrating a moving image in which the mouth is tracked by moving the cutout window.
  • FIG. 47B is a diagram showing a trajectory in the feature space and a hypertube corresponding to FIG. 47A.
  • FIG. 1 is a block configuration diagram of a change information recognition device according to the present embodiment.
  • the change information recognition device 1 includes a sequence information storage device 11, a basic change information storage device 12, and a change state comparison device 13.
  • the sequence information storage device 11 is connected to a camera (not shown) serving as an imaging device, which is change information acquisition means of the present invention.
  • the camera images the face including the mouth to be recognized.
  • the captured image of the mouth of the person is output to the sequence information storage device 11 at regular intervals.
  • the sequence information storage device 11 stores a plurality of images output at a fixed time as sequence information J11.
  • the sequence information is output from the sequence information storage device 11, and the basic change information is output from the basic change information storage device 12.
  • the change state comparison device 13 detects a change in the shape of the mouth by comparing the series information and the basic change information, and detects a portion corresponding to the mouth. Further, the change state comparison device 13 is connected to an output device (not shown), and outputs the position of a portion corresponding to the detected mouth to the output device as position information J12 of change information. In addition, the change state comparison device 13 detects the portion corresponding to the mouth and also detects the movement of the mouth. The detected mouth movement is also output to an output device (not shown) as symbol information J13 corresponding to the change information.
  • the sequence information storage device 11 of the change information recognition device 1 according to the present embodiment sequentially stores images such as an image G1 of a face F including a mouth M shown in FIG. Is output.
  • the sequence information storage device 11 stores these images.
  • multiple images, such as eight These images are combined as sequence information and output to the change state comparison device 13.
  • the basic change information storage device 12 stores a plurality of pieces of image information representing patterns of mouth changes.
  • the image after a certain time has elapsed 3
  • the image after a certain period of time has elapsed 4.
  • the shape of the mouth M that is wide open (the shape of the mouth when the vowel “A” is emitted) is changed from the shape of the mouth M that is elongated horizontally (“ The shape of the mouth when the vowel “i” is emitted).
  • the shape of the mouth M that is opened vertically (the shape of the mouth when emitting the vowel “A") is changed from the shape of the mouth M that is opened vertically (" (The shape of the mouth when the vowel “O” is emitted).
  • the change state comparison device 13 outputs a moving image of sequence information including eight images from the sequence information storage device 11, and a template indicating the first and second change patterns. Pl and P2 are output from the basic change information storage device 12.
  • the movement of the template P1 is shown in FIG. It can be seen that the movement coincides with the movement shown in FIG. From this, it can be recognized that the portion indicated by the broken line B in FIGS.
  • 5D to 5G is a portion corresponding to the mouth.
  • a plurality of mouth templates T1 to T6 are prepared, and an image captured by the imaging device is raster-scanned.
  • portions corresponding to templates ⁇ 1 to ⁇ 6 were detected as mouths.
  • inconveniences such as false detections, such as detection of a part of the background of the wall existing in the image and a shape similar to the mouth as the mouth, and omission of detection may be considered.
  • FIG. 7 is a flowchart showing the procedure of the change information recognition method according to the present embodiment.
  • the position of the mouth as the recognition target is detected from the motion of the image represented by the moving image instead of the still image. .
  • the conventional recognition method using a template based on a still image recognizes many mouth candidates C 1, C 2,.
  • the recognition method according to the present embodiment since the change in the mouth M is detected from a plurality of images taken at a fixed time interval, as shown in FIG. The mouth M can be reliably recognized. Moreover, since the movement of the mouth M is tracked by the changes seen in the multiple images, it is possible to detect even the movement of the mouth M. it can.
  • FIG. 9 is a block configuration diagram of the change information recognition device according to the present embodiment.
  • the change information recognition device 2 includes a sequence information storage device 21, a basic change information storage device 22, and a change state comparison device 2 similar to those in the first embodiment. 3 is provided.
  • the sequence information storage device 21 and the change state comparison device 23 have the same configuration as the sequence information storage device 11 and the change state comparison device 13 in the above embodiment, respectively.
  • the information storage device 22 has a different configuration from the basic change information storage device 12 in the first embodiment.
  • the basic change information storage device 22 includes a plurality of basic change information unit storage devices 24 A, 24 B,. Each of the basic change information unit storage devices 24A, 24B... Stores a change information unit (change pattern) obtained by dividing the change state of the recognition target object into basic units.
  • FIG. 11 is a flowchart showing a main part of the procedure of the change information recognition method according to the present embodiment.
  • the sequence information J 21 for example, eight Is obtained and output to the change state comparison device 23.
  • the change state comparison device 23 detects each change information unit from the output sequence information (S21). Further, from the basic change information storage device 22, templates P 3 and P 4 indicating the basic change information units stored in the basic change information unit storage device 24 are output to the change state comparison device 23. You.
  • the change state comparison device 23 compares the detected change information unit with the templates P 3 and P 4 of the basic change information unit output from the basic change information storage device 22 to obtain the change information.
  • a series of changes is detected in consideration of unit continuity (S22). For example, it is assumed that the sequence information J 21 output from the sequence information storage device 21 has eight images shown in FIGS.
  • the change state comparison device 23 compares the image based on the sequence information J 21 with the templates P 3 and P 4 output from the basic change information storage device 22 to obtain a series of sequence information in the sequence information. Detect changes.
  • the shape of the mouth M surrounded by the solid line R in the images shown in FIGS. This shows the same change as the change in template P3 shown in B.
  • the shape of the mouth M surrounded by the broken line B in the images shown in FIGS. 12D to G shows the same change as the change of the template P4 shown in FIG. 10C. From this, it is recognized that the sequence information J 21 has a mouth as a recognition target that undergoes the shape change shown in FIG. 1OA.
  • the mouth as change information which is the recognition object recognized in this way, is output from the change state comparison device 23 to an output device (not shown) as the position information J 22 of the change information unit.
  • the symbol information J 23 corresponding to the change information unit is output from the change state comparison device 23 to an output device (not shown).
  • the change information J 24 is acquired from the position information of the change information unit, and the symbol information J 23 corresponding to the change information unit and the symbol information J 25 corresponding to the change information are acquired.
  • 013 is a block configuration diagram of the change information recognition device according to the present embodiment.
  • the change information recognition device according to the present embodiment can be used as a mouth deformation recognition and recognition device.
  • the change information recognition device 3 according to the present embodiment includes a moving image storage device 31, a mouth basic deformation information storage device 32, and a mouth deformation state comparison device 33.
  • the moving image storage device 31 is connected to a moving image pickup device (not shown).
  • This moving image capturing apparatus captures a moving image of a face including a mouth serving as a recognition target.
  • the moving image capturing apparatus outputs moving image information J31 of the captured moving image to a moving image storage device 31. I have.
  • the mouth basic deformation information storage device 32 has a plurality of mouth basic deformation unit storage devices 34A, 34B, ... in which patterns that can move the mouth of a person can be stored in advance. ing.
  • the mouth basic deformation units are stored in advance in each mouth basic deformation unit storage device 34 A, 34 B. This mouth basic deformation unit will be described later.
  • the mouth deformation state comparison device 33 outputs the mouth deformation unit information from the moving image storage device 31, and the mouth basic deformation information storage device 32 outputs the mouth basic deformation unit information.
  • the mouth deformation state comparison device 33 recognizes the movement of the mouth by comparing the mouth deformation unit information with the mouth basic deformation unit information.
  • the mouth deformation state comparison device 33 is connected to an output device (not shown), and outputs the position of the b deformation unit output from the moving image storage device 31 to the output device as mouth deformation unit position information J32. Output. At the same time, the symbol information J33 corresponding to the mouth deformation unit is output to the output device.
  • the mouth basic deformation unit storage devices 34A, 34B ... in the mouth basic deformation information storage device 32 include the shape of the mouth deformation unit corresponding to the moving image showing the mouth deformation pattern. Symbol information corresponding to the shape is stored.
  • the shape of the mouth when a person speaks is mainly determined by vowels and sound repellent (in the case of Japanese). Vowels refer to the five sounds of “A”, “I”, “U”, “E”, and “O”, but if we add “N”, which is a repellent sound, all utterances are It can be expressed as a combination of 6 sounds and 5 other sounds.
  • FIG. 14 is a table showing assignments of symbols for all combinations from the above six sounds to the other five sounds.
  • FIG. 14 As shown in FIG. 14, “A J is 1,“ I ”is 2,“ U ”is 3,“ E ”is 4,“ O ”is 5, and“ N ”is 0. Then, for example, the transformation from “a” to “i” is represented by the symbol “1 2”.
  • FIG. 17 is a flowchart showing a main part of a procedure of the deformation information recognition method according to the present embodiment.
  • a moving image of a face including a mouth captured by the moving image capturing device is output from the moving image capturing device to the moving image storage device 31 and stored in the moving image storage device 31.
  • the mouth basic deformation information storage device 32 the change information corresponding to the mouth basic deformation unit and the symbol corresponding to the mouth basic deformation unit in each of the mouth basic deformation unit storage devices 34A, 34B ... Is stored in advance.
  • the moving image storage device 31 outputs a moving image to the mouth deformation state comparison device 33, and the mouth basic deformation information storage device 32 outputs the mouth basic deformation unit to the mouth deformation state comparison device 33.
  • the transformation information and the symbol corresponding to the mouth basic unit are output.
  • step S31 when it is determined that the image is not detected at the same position, the process returns to step S31 to repeat the same processing.
  • the symbol representing the end of the symbol corresponding to the first variant is compared with the symbol representing the start of the symbol corresponding to the second variant. Then, it is determined whether or not both are the same (S33). As a result, when it is determined that the two are not the same, the process returns to step S31 to repeat the same processing.
  • the first variant It is probable that the sound corresponding to the symbol was emitted at the time position in the connection with the second deformation.
  • the symbol indicating the end of the symbol corresponding to the first modification and the symbol indicating the start of the symbol corresponding to the second modification are both “2”, which is the same. In such a case, it can be determined that the first deformation and the second deformation are performed continuously.
  • the mouth position information J34 is obtained from the mouth deformation unit position information J32
  • the utterance word information J35 is obtained from the symbol information J33 corresponding to the mouth deformation unit.
  • the deformation of the mouth caused by the utterance is changed by the mouth corresponding to the six types of sounds, namely, five types of vowels and one type of sound repellency. Is divided into units called transformations into five different mouth shapes other than the sound. For this reason, since the position of the mouth can be detected from the input moving image, and which sound has been pronounced at which time can be reliably recognized, it can be used as an utterance recognition device. Also, by recognizing the pronounced sound continuously, the spoken word can be recognized.
  • the basic mouth deforming unit is created from six vowels and vowel sounds, but the basic mouth deforming unit is created for all 50 sounds. You can also. In this case, since there are 68 sounds in Japanese, including voiced and semi-voiced sounds, we use 6 7 X 68 mouth basic deformation units.
  • FIG. 19 is a block diagram of the change information recognition device according to the present embodiment.
  • the change information recognition device according to the present embodiment can be used as a voice change recognition device.
  • the change information recognition device 4 according to the present embodiment includes a waveform analysis device 41, a sound waveform storage device 42, a sound information storage device 43, and a sound change comparison device 44. And.
  • the waveform analyzer 41 is not shown! / Connected to a microphone, for example, which serves as a voice acquisition means.
  • the microphone acquires voice when a person speaks.
  • the microphone outputs the acquired audio information J41 to the waveform analyzer 41.
  • Waveform analyzer 41 analyzes the output speech information J41 by, for example, performing a wavelet transform.
  • the waveform obtained by the Uvlet analysis is output to the audio waveform storage device 42.
  • the audio waveform storage device 42 stores the output waveform.
  • the voice information storage device 43 includes voice change unit storage devices 45A, 45B, and so on.
  • the voice change unit storage devices 45A, 45B ... store basic voice change units pre-stored as voice change units, and symbols corresponding thereto.
  • the basic voice change unit represents a change from a frequency waveform when an arbitrary phoneme is uttered to a frequency when another arbitrary phoneme is uttered.
  • This basic voice change unit has, for example, a frequency spectrum shown in FIG. 2 OA or B.
  • voice waveform information is output from the voice waveform storage device 42, and a basic voice change unit and a symbol corresponding thereto are output from the voice information storage device 43.
  • the voice change comparison device 44 recognizes the voice by comparing the voice waveform information with the basic voice change unit. Further, the sound change comparing device 44 is connected to an output device (not shown), and outputs information J42 corresponding to the detected sound change unit (hereinafter referred to as "sound change unit corresponding symbol") to the output device. are doing.
  • the microphone A wavelet analysis is performed on the voice information J41 obtained by the above method to create a voice change unit.
  • a voice change is recognized. For example, assume that voice change information is acquired from a microphone and output to the waveform analyzer 41.
  • voice change information is transmitted at a certain frame interval, for example, 10 msec, and at a certain frame length, for example, 30 msec. Cut to frame length and create multiple voice change units.
  • FIGS. 22A to 22H show waveforms of voice change units created from the voice change information cut out at eight times from tl to t8.
  • these voice change units are compared with the basic voice change unit shown in FIG. 20 stored in the voice information storage device 43.
  • the voice representing the basic voice change unit is generated. It can be determined that it is being uttered.
  • FIG. 24 is a flowchart showing the procedure of the deformation information recognition method according to the present embodiment.
  • the audio information obtained from a microphone (not shown) is output to the waveform analysis device 41 of the change information recognition device 4.
  • the waveform analyzer 41 performs wavelet analysis on these sounds and divides them into, for example, the eight waveforms shown in FIG. 22 to create a sound change unit consisting of eight frames.
  • the waveform analyzer 41 converts the created voice change unit Output to the audio waveform storage device 42.
  • the voice waveform storage device 42 stores these voice change units.
  • the voice information storage device 43 stores a plurality of basic voice change units. Then, the voice waveform storage device 42 outputs the stored voice change unit to the voice change comparison device 44, and the voice information storage device 43 stores the stored basic voice change unit and the corresponding symbol in the voice change unit. Output to the comparison device 44.
  • the voice change comparison device 44 compares the voice change unit output from the loudness waveform storage device 42 and the basic voice change unit output from the voice information storage device 43.
  • a plurality of change patterns including the two change patterns shown in FIG. 2 OA and B are stored. The number is determined based on the number of phonemes. For example, if the number of phonemes is n, the number of change patterns can be n X (n ⁇ 1).
  • the waveform () is found and the time (or frame number) at which it was found is stored (S45).
  • FIG. 25 is a flowchart showing the procedure of speech recognition according to the present embodiment.
  • the voice change unit corresponding symbol information J 42 (FIG. 19) is not shown from the input voice change unit.
  • Output to the output device (S52).
  • the output device refers to the voice change unit corresponding symbol information J42 output from the voice change comparison device 44, and among the symbols corresponding to the plurality of output voice change units, the first voice change unit corresponding symbol and It is determined whether the symbol corresponding to the second voice change unit is temporally continuous (S53).
  • step S52 it is determined whether the symbol indicating the end of the first voice change unit corresponding symbol and the symbol indicating the start of the second voice change unit corresponding symbol are the same. Yes (S54). For example If the first voice change unit corresponding symbol changes from phoneme A to phoneme B, and the second voice change unit corresponding symbol changes from phoneme B to phoneme C, the first voice change It is determined that the symbol indicating the end of the unit corresponding symbol and the symbol indicating the start of the second voice change unit corresponding symbol match.
  • the first voice change unit corresponding symbol changes from phoneme A to phoneme B and the second voice change unit corresponding symbol changes from phoneme A to phoneme C
  • the first voice change unit It is determined that the symbol indicating the end of the change unit corresponding symbol and the symbol indicating the start of the second voice change unit corresponding symbol do not match.
  • the utterance word J 43 (FIG. 19) can be recognized.
  • the acquired sound is divided into sound change units, and the sound is detected by comparing with the basic sound change unit. . For this reason, the spoken word and the like can be reliably recognized.
  • the change information is targeted for recognition of a body change accompanying movement and deformation of each part of the body, such as gesture recognition, pedestrian recognition, and facial expression recognition.
  • FIG. 26 is a block diagram of the change information recognition device according to the present embodiment.
  • the change information recognition device 5 includes a moving image storage device 51, a body change information storage device 52, and a body change comparison device 53. You.
  • the change information recognition device 5 can be used as a body change recognition device, a pedestrian recognition device, a facial expression recognition device, or the like.
  • the moving image storage device 51 is connected to a moving image pickup device (not shown). This moving image capturing apparatus captures a moving image of a human body as a recognition target, and the moving image capturing apparatus outputs the captured moving image information J51 to a moving image storage device 51.
  • the body change information storage device 52 has a plurality of body change unit storage devices 54 A, 54 B,... In which patterns that can take the motion of the human body are stored in advance.
  • the body change unit storage devices 54A, 54B ... store in advance the basic body change units representing the movement of the human body.
  • the body change comparison device 53 receives the body change unit information from the moving image storage device 51 and the basic body change unit information from the body change information storage device 52.
  • the body change comparison device 53 recognizes the movement of the human body by comparing the body change unit information with the basic body change unit information.
  • the body change comparison device 53 is connected to an output device (not shown), and the position of the human body on the image output from the moving image storage device 51 is used as position information J 52 of the body change unit. Output to the output device.
  • it outputs the symbol information J53 corresponding to the body change unit to the output device.
  • position information J54 of the mouth is obtained from position information J52 of the body change unit, and symbol information J533 corresponding to the body change unit is obtained, and identification information J55 of the body movement is obtained. .
  • the body change unit storage devices 54A, 54B store the shapes and shapes of basic body change units that show changes in hands, feet, arms, etc., corresponding to moving images showing human movement. Are stored respectively.
  • the position and the position of the human body are changed by the same method as the change information recognition method by the change information recognition device 3 according to the third embodiment.
  • the body movement (body movement) can be recognized.
  • the basic mouth deformation information storage device 32 in the third embodiment is replaced with a body change information storage device 52 of the present embodiment, and the mouth deformation state comparison device 33 is replaced with a body change comparison device 53.
  • the position of the body change unit and the body movement can be recognized.
  • the operation up to this point is shown continuously.
  • the images of the pedestrians shown in FIGS. 28A to 28J are stored in advance in the body change unit storage devices 54 A, 54 B,... In the body change information storage device 52.
  • a human walking motion (body motion) can be recognized by the same method as the change information recognition device 3 according to the third embodiment. Also in this case, the position and the body motion of the body change unit can be recognized by performing the process according to the same procedure as the flowchart shown in FIG. In this way, the position of the pedestrian and the motion status of the pedestrian can be identified based on the moving image output from the video imaging device.
  • the change information recognizing device 5 can also recognize changes in human facial expressions.
  • human emotions There are emotions and emotions in human emotions, A person takes an expression corresponding to those emotions or an emotionless expression. In this way, from the five images of faces corresponding to anger, romance, and expressionlessness, by preparing 5X4 change information units such as expressionless joy, anger and sadness, the position of the face in the moving image is obtained. And the facial expression can also be recognized.
  • FIG. 29 is a block diagram of the change information recognition device according to the present embodiment.
  • the change information recognition device 6 according to the present embodiment includes a moving image storage device 61, a rotation information storage device 62, and a rotating object comparison device 63.
  • the change information recognition device 6 according to the present embodiment can be used as a rotating object recognition device.
  • the moving image storage device 61 is connected to a moving image pickup device (not shown).
  • This moving image capturing apparatus captures a moving image of a rotating recognition object, which is a recognition object, for example, a human head.
  • This moving image pickup device outputs the picked-up moving image information J61 to the moving image storage device 61.
  • the rotation information storage device 62 has a plurality of rotation unit storage devices 64A, 64B ... in which the rotation pattern of the rotating recognition object is stored in advance.
  • the rotation unit storage devices 64 A, 64 B Store in advance basic rotation units representing the rotation of the recognition target.
  • the rotating object comparison device 63 receives the rotation unit information from the moving image storage device 61 and the basic rotation unit information from the rotation information storage device 62.
  • the rotating object comparison device 63 recognizes, for example, a change due to the rotation of the human head by comparing the rotation unit information with the basic rotation unit information.
  • the rotating object comparison device 63 is connected to an output device (not shown), and outputs the position of the person's head on the image output from the moving image storage device 61 as position information J 62 of the rotation unit. Output to At the same time, the symbol information J 63 corresponding to the rotation unit is output to the output device.
  • the position information J64 of the rotating object is obtained from the position information J62 of the rotation unit, and the symbol information J63 corresponding to the rotation unit J63 Force, al, rotation identification information J6 Ask for 5.
  • the rotation unit storage devices 6 4 A, 6 4 B ... store the shape of the rotation change unit indicating the change of the head direction corresponding to the video indicating the rotation of the human head and the shape of the rotation change unit. Each symbol information is stored.
  • FIGS. 30A to 30L schematically show images when the doll's head rotates. Of these, the first rotation starts from 0 degrees shown in Figs. 30A to E and reaches 120 degrees, and starts from 120 degrees shown in Figs. The second rotation is the rotation up to the degree, and the rotation starts from 240 degrees until it reaches 360 degrees (0 degree) until it returns to Fig. 30A through Fig. 31 to L. The rotation is the third rotation. Conversely, starting from OA in Fig.
  • the rotation is the sixth rotation.
  • the images from the first rotation to the sixth rotation and the symbols corresponding thereto are stored in the rotation unit storage devices 64 A, 64 B.
  • a rotating recognition target object is obtained by the same method as the change information recognition method by the change information recognition device 3 according to the third embodiment. It is possible to recognize the position of the rotation unit and its rotation operation. Specifically, the mouth basic deformation information storage device 32 in the third embodiment is replaced with a rotation information storage device 62 of the present embodiment, and the mouth deformation state comparison device 33 is replaced with a rotating object comparison device 63, By performing the processing in the same procedure as in the flowchart shown in FIG. 17, the position of the rotation unit and the rotation operation can be recognized. [0099] In this way, based on the moving image output from the moving image capturing apparatus, the position of the rotating recognition target object and the symbol corresponding to the rotation unit can be obtained. It is possible to identify what kind of rotation state it is from.
  • FIG. 31 is a block diagram of the change information recognition device according to the present embodiment.
  • the change information recognition device 7 according to the present embodiment includes a learning device 71 and a recognition device 72.
  • the learning device 71 includes a feature space generation device 73 and a projection device 74.
  • the projection device 74 is used in both the learning device 71 and the recognition device 72.
  • the learning sequence information J71 prepared in advance is input to the feature space generation device 73 in the learning device 71.
  • the projection device 74 is connected to the feature space generation device 3 and a moving image capturing device (not shown).
  • the feature space generation device 73 outputs feature space generation information for generating a feature space to the projection device 74.
  • a moving image capturing apparatus (not shown) captures a moving image of a face including a mouth serving as a recognition target, and a moving image of the captured face is output from the moving image capturing apparatus as recognition sequence information J72.
  • the projecting device 74 generates a projection trajectory obtained by projecting the moving image onto the feature space based on the moving image (recognition sequence information J72) of the face output from the moving image capturing device. I have.
  • the learning device 71 is provided with a hypertube generation device 75 for generating a tubular model (hereinafter referred to as “hypertube”) described later in the feature space.
  • a hypertube storage device 76 used for each of the learning device 71 and the recognition device 72 is provided.
  • the recognition device 72 is provided with a sequence comparison device 77 that recognizes a change in the hypertube in the feature space.
  • the projecting device 74 outputs the projected locus of the moving image to the hypertube generating device 75 and the sequence comparing device 77 as projected locus information.
  • the hypertube generation device 75 generates a hypertube in the feature space from the projection trajectory information of the moving image output from the projection device 74, and stores the hypertube as hypertube information.
  • the hypertube storage device 76 stores the hypertube information output from the hypertube generation device 75 and a symbol corresponding to each hypertube. Further, the hypertube storage device 76 outputs the stored hypertube information and the symbol corresponding to each hypertube to the series comparison device 77.
  • the sequence comparison device 77 compares the projection trajectory output from the projection device 74 with the hypertube information output from the hypertube storage device 76, thereby obtaining the position of the change information unit and the corresponding symbol. Ask for. Then, they are output to an output device (not shown) as change information unit position information J73 and change information corresponding symbol information J74, respectively.
  • a predetermined feature amount is extracted from an image and is represented by a feature space.
  • a feature space For example, when the feature of one image is represented by a three-dimensional vector, one image is represented as one point in a three-dimensional space.
  • a moving image showing the movement of the mouth uttering “a” from “n” shown in Fig. 32 is input, and the images that compose the moving image are put into a three-dimensional space. I do.
  • each of the nine images representing this moving image is expressed as a trajectory in the feature space connecting the points of each image in the order of time.
  • the feature quantity is not particularly limited.
  • the projection component to the space (eigenspace) based on the eigenvector corresponding to the upper eigenvalue obtained by principal component analysis is can do.
  • an image is a vector
  • a 16-by-16-pixel gray-scale image can be represented as a 16-dimensional 16-dimensional vector with each element having a gray value. . Therefore, a large number of images expressed as vectors are used as the learning sequence information J71, and the variance-covariance matrix of the vectors in the learning sequence information J71 is calculated. Find the value.
  • learning sequence information J71 a plurality of images representing a moving image of the 30 pattern deformation unit shown in FIG. Prepare for the number of people.
  • the deformation unit that is one of the patterns
  • the deformation unit represented by the symbol 12 the shape of the mouth when pronounced “a” is changed from the shape of the mouth when pronounced “a”
  • the transformation of the shape of the mouth which transforms to the maximum, is represented by several images continuously.
  • learning sequence information J71 for a plurality of persons is prepared, and a feature space (eigenspace) is obtained from these learning sequence information J71. .
  • the feature space obtained here is a space in which a mouth image using the learning sequence information J71 can be expressed as a smaller amount of information.
  • images that are deformed with only a slight difference in appearance are projected close to each other in the feature space.
  • Figure 34 shows a three-dimensional feature space.
  • a polygonal line showing the transformation of "n” ⁇ "a” a polygonal line showing the transformation of "n” ⁇ "i”, and "n” ⁇
  • a polygonal line indicating the deformation of “U” a polygonal line indicating the deformation of “n” ⁇ “E”, and a polygonal line indicating the deformation of “n” ⁇ “O” are shown.
  • a tube-like model can be constructed.
  • This tube-shaped model can be referred to as a hypertube HT.
  • this hypertube HT represents the same deformation, it can be considered as a model stochastically expressing the variation caused by individual differences.
  • a representative trajectory CC for generating the hypertube HT a plurality of trajectories C1 to C6 representing the same deformation as shown in FIG. 35 can be averaged.
  • another suitable calculation method can be adopted.
  • the radius of the circle representing the dispersion is calculated by calculating the variance ⁇ 2 of the distance to each point on each trajectory in the direction perpendicular to the traveling direction of each point on the representative trajectory, and distributing the variance to the normal distribution.
  • the 95% point, 1.966 ⁇ can be used as the radius, or it can be obtained using another method.
  • hypertubes generated in this way are arranged in the feature space.
  • one hypertube corresponds to one deformation.
  • Fig. 37 shows the feature space where multiple hypertubes are arranged.
  • hypertube ⁇ ⁇ 1 has a certain deformation.
  • A for example, represents a transformation from “A” to “I” when speaking
  • Hypertube HT 2 represents another transformation B, for example, from “U” to “E” when speaking.
  • a, b, and c correspond to the projection trajectory information of the moving image output from the projection device 74.
  • FIG. 38 is a flowchart showing a procedure for generating a hyper tube in the change information recognition method according to the present embodiment.
  • the learning device 71 learns a great deal of change information in advance to generate a hypertube.
  • the recognition device 72 uses the hypertube to recognize change information.
  • Learning sequence information for generating a hypertube J71 The moving image that becomes 1 continuously changes from the mouth shape when one sound is pronounced to the mouth shape when another sound is pronounced. They are arranged in chronological order.
  • learning sequence information J71 for all the deformations to be recognized is prepared for a plurality of people, for example, for each change of 300 people (S71).
  • 30 patterns are required for the change unit.
  • the number of patterns can be appropriately defined depending on the object to be recognized and the details of the recognition. For example, when speech recognition is performed using the change information recognition device 7 as a speech recognition device, if the number of phonemes is 29, the possible deformation pattern is an 812 pattern of 29 ⁇ 28.
  • a feature space is generated from the learning sequence information J71 prepared for the 300 people by using the feature space generation device 73 (S72).
  • the generation of the feature space is performed as follows. In general, if the color and gray value of each pixel of an image are to be treated as they are, the amount of information is too large, the calculation takes too much time, or extra information unnecessary for recognition is included. Is often a problem. Therefore, it is common to extract some feature amount from the image and process it. This embodiment Then, the gray value of each pixel is used as a feature value.
  • n-dimensional betatle having a grayscale value (feature amount) for each pixel as an element. It is represented as a point on the dimensional space.
  • feature amount extracted from the image is represented by an m-dimensional solid; if m ⁇ n, one image having an n-dimensional information amount is m-dimensionally extracted by the feature amount extraction. And can be represented as a point on the m-dimensional space.
  • the feature space generation device 73 obtains m axes extending this m-dimensional space.
  • the eigenspace is used as the feature space.
  • the eigenspace is a space in which m eigenvectors S extend from the larger eigenvalue of the eigenvector and eigenvalue pair obtained by principal component analysis.
  • One image is regarded as an n-dimensional vector, and the beta of that image is denoted by X here.
  • X the beta of that image.
  • the variance-covariance matrix is calculated by the following equation (1) by inputting the respective vectors X in these multiple images.
  • m x is the average base-vector of the plurality of Betatoru X
  • the projection device 74 generates a projection trajectory obtained by projecting the moving image onto the feature space.
  • the above-described eigenvector u is used, and the n-dimensional vector X in the image of the learning sequence information J71 is converted to the m-dimensional feature vector y obtained by converting the following equation (3). Can be used.
  • the three-dimensional feature vector is y.
  • the feature space generating device 73 outputs the feature space to the hypertube generating device 75, and the projecting device 74 generates the three-dimensional feature vector into the hypertube. Output to device 75.
  • the hypertube generator 75 generates a hypertube based on the output feature space and the three-dimensional feature vector. As a prerequisite for generating a hypertube, one image is projected onto one point in the 3D feature space, so the image sequence representing a series of deformations is represented as a locus of points in the 3D feature space. Can be represented.
  • the projection device 74 outputs a plurality of three-dimensional feature vector sequences corresponding to the number of learning sequence information J 71. Is output.
  • the hypertube generator 75 classifies the plurality of three-dimensional feature vector sequences into deformation units in the learning sequence information J71 before projection (S73).
  • the 3D feature vector sequence classified for each deformation unit in the learning sequence information J71 before projection is plotted in the feature space for each of these deformation units.
  • the locus is determined (S74). These trajectories are represented by, for example, curves C1 to C6 shown in FIG.
  • a representative locus representative of the number locus is obtained (S75).
  • the representative trajectory can be obtained by various methods. Here, a method using an average of a plurality of obtained trajectories will be described. Now, since each trajectory is a trajectory representing the same type of deformation, a trajectory that is almost similar in the feature space is drawn. However, even when representing the same type of deformation, the number and arrangement of the three-dimensional feature vectors constituting the series are not necessarily the same. Now
  • Figure 39 shows an example of three trajectories formed by connecting the points where the three-dimensional feature vectors are plotted in the feature space.
  • three trajectories C11 to C13 showing the same deformation are shown, and the trajectory C11 is a combination of the six points P11 to P16 plotted in the feature space. It is formed by connecting.
  • the trajectory C12 shows five points P21 to P25 plotted in the feature space, and the trajectory C13 shows five points P31 to P35 plotted in the feature space. Each is formed by connecting.
  • the points on the trajectories C11 to C13 are re-plotted so that each trajectory is composed of the same number of points.
  • a method of re-plotting the points on the trajectories C11 to C13 there are various methods such as a spline curve method, but here, the trajectories C11 to C13 are simply the same.
  • the points P41 to ⁇ 47 on the locus C11, the points ⁇ 51 to ⁇ 57 on the locus C12, and the points ⁇ 61-P67 on the locus C13 are respectively arranged. become.
  • the variance of the distance to the surrounding trajectory for each point of the representative trajectory is obtained (S76).
  • This variance assumes a hyperplane in a direction orthogonal to the traveling direction of the representative trajectory CM at each point P71 to P77 on the representative trajectory CC, and this hyperplane intersects with each trajectory C11 to C13. It can be obtained by the variance of the distance from the point.
  • the plane is not a hyperplane but a two-dimensional plane. This point will be described with reference to FIG. 41.
  • FIG. 42 a circle ⁇ 2 having a radius of a value obtained by inputting ⁇ ( ⁇ ) obtained as the argument X in the equation (4) is set on the hyperplane S ⁇ 2.
  • hyperplanes S ⁇ 1 and SP 3 to SP 7 are obtained by the same processing, and a circle as shown in FIG. Find E1, E3 to E7.
  • the circles E1 to E7 having the radius of the value of the function with the variance as an argument are set to the respective points P71 to P77 (S77), and these circles E1 to E7 are connected.
  • the hypertube HT as shown in FIG. 36 can be generated. [0130] After the hypertube is generated in this way, recognition processing can be performed. Next, the process of change recognition using the hypertube will be described.
  • FIG. 43 is a flowchart showing the procedure of the change information recognition method according to the present embodiment.
  • a moving image of a face including the mouth of a person to be recognized is captured and output to the projection device 74 as recognition sequence information.
  • a window having an appropriate size is set for the input moving image (S81).
  • a part of the output moving image is cut out in accordance with the window (S82).
  • the size of the clipped window is appropriately enlarged or reduced, and finally the size of the moving image is adjusted to the size of the learning image (the image used when creating the learning sequence information J71) (S83) ).
  • the moving image in the window whose size has been adjusted is mapped as a trajectory on the feature space generated by the feature space generation device 73 by the same procedure as that used to create the hypertube, and the input sequence trajectory is calculated.
  • the input sequence trajectory thus generated is output to sequence comparison device 77.
  • a plurality of hypertubes stored in the hypertube storage device 76 and a symbol corresponding to the hypertube are output to the sequence comparison device 77 [0 1 3 2] Series comparison device 7 7
  • the input sequence trajectory output from the projection device 74 and the hypertube output from the hypertube storage device 76 are compared, and the fitness of both is determined (S85).
  • the relevance of both can be determined as follows.
  • the hypertube HT is a model that stochastically represents individual differences that occur for the same deformation. Since this model can be regarded as a probability density function that represents the variation of each position on the representative trajectory CC by the radius of the circle, the fitness between the input sequence trajectory and the hypertube is calculated as a probability be able to.
  • FIG. 44A also shows the trajectory of the hypertube HT representing a certain deformation and the trajectory IL of the input sequence.
  • the hypertube HT has a representative trajectory CC.
  • the distance from the representative trajectory C on the horizontal axis with the start point of the hypertube at 0 and the end point at 1 Can be associated with a graph having a horizontal axis.
  • This graph can be regarded as just a horizontal extension of the hypertube.
  • the radius of the hypertube at the position X on the representative trajectory CC is defined as a function p (x) for the domain 0 ⁇ 1, and the input sequence trajectory from the position X on the representative trajectory CC
  • the distance to IL is f (X)
  • the fitness S i between the hypertube i and the input sequence can be expressed by the following equation (5).
  • N (., D (x) is a normal probability density function with mean 0 and variance 1. According to equation (5), the fitness of the input sequence trajectory IL with the hypertube HT is You can ask.
  • Such a degree of conformity is obtained for a plurality of hypertubes HT, and it is determined whether or not the calculation of the degree of conformity between all the hypertubes HT and the input sequence trajectory IL has been completed (S8). 6) If not finished, return to step S85 to calculate the degree of conformity between the other hypertube HT and the input sequence trajectory IL.
  • the hypertube HT whose fitness with the input sequence locus IL is larger than a predetermined threshold is selected (S87), and the hypertube is determined. HT and the corresponding symbol are stored.
  • the input sequence is the input video clipped to fit the window. Therefore, move or scale the window, and repeat the same series of processes for other parts of the input video. Therefore, it is determined whether or not the above processing has been performed for all the areas of the input moving image (S888). As a result, if there is an area that has not been processed yet, the cutout window is moved or scaled (S89), and the process returns to step S82 to repeat the same processing.
  • the change information corresponding symbol information J 7 4 (FIG. 31) corresponding to the selected hypertube HT and the change information unit position information of the window ⁇ ⁇ at that time. J73 is output to an output device (not shown) (S90). In this way, a hypertube is generated from the learning sequence information, placed in a special space, and the degree of matching with the input sequence is calculated. The type can be detected.
  • the moving image when a certain moving image is input, the moving image is represented as a trajectory in the feature space.
  • the evaluation value of the trajectory and each hypertube is calculated.
  • the force s described in the manner of recognizing speech from the movement of the mouth using the hypertube obtained from the learning sequence information and the same applies to other deformation information.
  • Deformation recognition that generated a hypertube can be performed.
  • the change information is a voice change obtained from the voice obtaining means
  • a change in frequency from “A” to “I” or “A” to “U” can be represented by a hypertube.
  • the change information is a change in the gesture in the moving image captured by the moving image capturing means
  • the change from the closed state to the open state can be represented by a hypertube.
  • the change information is a change in the walking state of the pedestrian captured by the moving image capturing means
  • the deformation in one walking motion is represented by a hypertube. be able to.
  • the change information is a change in the facial expression captured by the moving image capturing means
  • the change from the non-expression to the joyful facial expression can be represented by a hypertube.
  • the change information is a change of a rotating object imaged by the moving image imaging means
  • a change when the face direction changes from a 0 degree state to a 90 degree state can be represented by a hypertube.
  • FIG. 45 is a block diagram of the change information recognition device according to the present embodiment. As shown in FIG. 45, the change information recognition device 8 according to the present embodiment is provided with a trajectory continuity storage device 88 and a partial sequence cutout device 89, as compared with the seventh embodiment. Mainly different in point.
  • the continuity storage device 88 stores the continuity of the trajectory corresponding to the representative trajectory in the hypertube.
  • the continuity of the trajectory is determined based on whether or not the amount of change in the trajectory is equal to or less than a predetermined threshold value, and is determined to be continuous when the amount of change is equal to or less than a predetermined threshold value.
  • the continuity storage device 88 is connected to the partial sequence cutout device 89, and the partial sequence cutout device 89 is used to store the continuity of the trajectory stored in the continuity storage device 88. 8 Output from 8.
  • the learning sequence information is output to the learning device 81 as in the seventh embodiment.
  • a feature space is generated in the feature space generation device 83 from the output learning sequence information J71
  • a hypertube is generated in the hypertube generation device 85
  • the generated hypertube is converted into a hypertube.
  • the tube storage 86 stores.
  • the recognition device 82 outputs information based on a moving image captured by a moving image capturing unit (not shown).
  • the recognition sequence information is output in the seventh embodiment, but this embodiment is different in this respect.
  • a moving image captured by a moving image capturing unit (not shown) The input sequence information J 82 composed of images is cut into partial sequence information J 83 by the partial cutout device 89.
  • the continuity of the trajectory is output to the subsequence cutout device 89, and the subsequence cutout device 89 cuts out the input sequence information J82 based on the continuity of the trajectory.
  • Sequence information J83 is generated.
  • the input sequence information is cut out so as to form the partial sequence information of the moving image corresponding to the continuity of the change of the trajectory.
  • the recognition target is moving, as shown in Fig. 47A
  • the window W can correctly track the mouth M as the recognition target, projecting into the feature space as shown in Fig. 47B
  • the projected trajectory C has a high degree of matching with the specific hypertube HT and draws a smooth curve in the feature space.
  • the frame rate is about the same as a normal television signal (for example, 30 Hz)
  • the movement of objects in the scene is slight between adjacent frames, and the change is not very sharp. Therefore, the change in the position of the tracked window W usually draws a smooth trajectory.
  • the window W is deformed by moving the window W so that the continuity of the trajectory of the hypertube in the feature space and the continuity of the trajectory of the window W in the input sequence information are simultaneously satisfied.
  • the moving mouth M is detected and tracked while moving, and its deformation can be detected at the same time.
  • the subsystem It generates column information J83 and outputs the partial sequence information to the projection device 84.
  • the projection device 84 projects the partial sequence information J83 into the feature space to generate the trajectory information J84 of the partial sequence. And outputs it to the sequence comparison device 87.
  • the trajectory of the subsequence output from the projection device 74 and the hypertube output from the hypertube storage device 76 are compared, and the similarity between the two is determined in the same manner as in the seventh embodiment. Determined by the method. Then, similarly to the seventh embodiment, the symbol information J86 corresponding to the selected hypertube HT and the window position information J85 at that time are output to an output device (not shown). In this manner, the recognition and the position of the recognition target in the moving image and the type of deformation can be detected.
  • the continuity storing means for storing the continuity of the trajectory since the continuity storing means for storing the continuity of the trajectory is provided, the deformation of the recognition target moving in the moving image and the The position can be reliably recognized.
  • FIGS. 1 and 12 in the above embodiment a human mouth is described as an example for easy description of the embodiment. It can easily be applied to other things.
  • a change information recognition device which can accurately recognize a change state of an object to be recognized and can recognize, for example, words spoken by a person, A change information recognition method can be provided.
  • the present invention can be used for a change information recognition device and a change information recognition method for recognizing a change state of an object to be recognized, such as a mouth movement, a voice emitted from the mouth, or a human motion. it can.

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

 変化情報認識装置は、認識対象物に関する系列情報(撮像手段で撮像された動画など)を記憶する系列情報記憶装置と、その系列情報の変化に対応する基本変化情報をあらかじめ記憶する基本変化情報記憶装置とを備える。系列情報記憶装置は系列情報を変化状態比較装置に出力し、基本変化情報記憶装置は基本変化情報を変化状態比較装置に出力する。変化状態比較装置では、出力された変化情報と基本変化情報とを比較することにより、認識対象物の変化状態を認識する。

Description

明細書
変化情報認識装置および変化情報認識方法
技術分野
【0 0 0 1】 本発明は、 口の動きや口から発せられる音声、 または人の動作な ど、 認識対象物の変化状態を認識する変化情報認識装置およぴ変化情報認、識方法 に関する。
背景技術
【0 0 0 2】 画像処理などの分野においては、 撮像した画像から、 人が話す声 や人の動作など、 状態が変化するものの変化を認識することが行われる。 このよ うな状態の変化を認識するものとして、 たとえば特開平 1 0— 2 7 4 5 1 6号公 報に開示された顔の方向検出装置がある。 この顔の方向検出装置は、 カメラで得 られる画像から、 顔領域と目 ■ 口などの特徴領域とを抽出し、 顔領域の中心位置 などから顔の方向を検出するものである。
発明の開示
【0 0 0 3】 上述した特開平 1 0— 2 7 4 5 1 6号公報に開示された顔の方向 検出装置では、 口の位置などを抽出してから顔の方向を検出するが、 口の動きな どまでは検出することができない。 そのため、 人の言葉などを認識することはで きないという問題があった。
[ 0 0 0 4 ] そこで、 本発明の課題は、 認識対象物の変化状態を正確に認識し て、 たとえば人の話す言葉などを認識することができるようにした変化情報認識 装置および変化情報認識方法を提供することにある。
【0 0 0 5】 本発明に係る変化情報認識装置は、 認識対象物の変化情報を取得 する変化情報取得手段と、 認識対象物の基本的な変化状態を基本変化情報として あらかじめ記憶する基本変化情報記憶手段と、 変化情報取得手段で取得された認 識対象物の変化情報と、 あらかじめ記憶された基本変化情報とを比較して、 認識 対象物の変化状態を検出する変化状態比較手段と、 を備えるものである。 【0 0 0 6】 本発明に係る変化情報認識装置においては、 変化情報取得手段で 取得された変化情報と、 あらかじめ記憶された基本変化情報とを比較することに より、 認識対象物を認識する。 たとえば、 認識対象物が人の口など、 一定の相関 関係を持つ動きをすることが多いものである場合には、 この動きを基本変化情報 としてあらかじめ記憶しておき、 取得した変化情報と比較することにより、 確実 に認識対象物を認識することができる。
【0 0 0 7】 ここで、 基本変化情報は、 認識対象物の変化状態を基本単位に分 割した変化情報単位として、 基本変化情報記憶手段に記憶されているのが好適で ある。
【0 0 0 8】 このように、 基本変化情報を変化情報単位に分割した情報として 記憶しておくことにより、 さらに高精度で認識対象物を認識することができる。
[ 0 0 0 9 ] また、 変化情報取得手段を認識対象物を撮像する撮像手段とし、 変化情報を撮像手段によつて取得した画像における宪話に伴う口周辺の画像変化 に関する情報とすることができる。
【0 0 1 0】 このように、 変化情報を発話に伴う口周辺の画像変化とすること により、 人の発話の内容を精度よく認識することができる。
【0 0 1 1〗 さらに、 変化情報取得手段を認識対象物が発生する音を取得する 集音手段とし、 変化情報を集音手段によって取得した認識対象物が発生する音の 周波数成分変化に関する情報とすることもできる。
[ 0 0 1 2 ] このように、 集音手段、 たとえばマイクから取得した音の周波数 成分に関する変化情報とすることにより、 認識対象物が発生する音、 たとえば人 の発話の内容を高精度で認識することができる。
【0 0 1 3】 また、 変化情報取得手段を認識対象物を撮像する撮像手段とし、 変化情報を撮像手段によつて取得した画像における認識対象物の動きに伴う画像 変化に関する情報とすることもできる。 あるいは、 変化情報取得手段を認識対象 物を撮像する撮像手段とし、 変化情報を認識対象物の回転に伴う画像変化に関す る情報とすることもできる。
【0 0 1 4】 このように、 変化情報が認識対象物の動きや回転による画像の変 化であっても、 それらの変化を高精度で認識することができる。
【0 0 1 5】 また、 上述した基本変化情報が、 特徴空間上の情報の系列として 設定された基本変化系列情報であり、 変化情報取得手段で取得した認識対象物の 変化系列情報を特徴空間へ射影して射影変化情報を作成する変化情報射影装置を さらに備え、 変化状態比較手段が、 認識対象物の変化情報と基本変化情報との比 較に代えて、 射影変化情報と基本変化系列情報とを比較して、 検出象物の変化状 態を認識することが好適である。
【0 0 1 6】 本発明においては、 変化情報を特徴空間の情報系列として認識し ている。 このため、 取得された変化系列情報と、 あらかじめ設定された基本変化 系列情報とを比較している。 このため、 取得された変化系列情報と基本変化系列 情報との類似度 (適合度) を定量的に判断することができる。
[ 0 0 1 7 ] ここで、 変化状態比較手段は、 基本変化系列情報の連続性と射影 変化情報の連続性とを比較することにより、 認識対象物の変化状態を検出する態 様とするのが好適である。 このように、 射影変化情報として射影された変化系列 情報の連続性を基本変化系列情報と比較することにより、 変化しながら移動する 認識対象物を精度良く認識することができる。
[ 0 0 1 8 ] 多次元で表すことのできる情報は、 多次元空間上の一点として表 現し得る。 この情報をより低次元の空間上の一点として射影することが可能であ り、 このより低次元の空間は特徴空間として定義される。
【0 0 1 9】 例えば、 多次元空間の一点として表現し得る一つの静止画像を、 三次元空間 (特徴空間) 上の一点として射影することが可能である。 この場合、 連続する複数枚の画像を、 三次元空間 (特徴空間) 上の線 (射影軌跡) として表 現することができる。 基本系列情報を特徴空間上のチューブ状の領域として設定 し、 射影変化情報から得られる特徴空間上の射影軌跡とを比較する (例えば、 チ ユーブ状の領域内に射影軌跡が含まれるかどうか比較する) ことで、 認識対象物 の変化状態を認識することが可能となる。
【0 0 2 0】 また、 変化情報取得手段で取得された認識対象物の変化情報に基 づいて、 基本変化系列情報を作成する学習手段をさらに備える態様とするのが好 適である。 このように、 変化情報取得手段で取得された認識対象物の変化に基づ いて、 基本変化情報を作成または更新する学習手段を備えることにより、 認識対 象物に応じた基本変化系列情報を精度良く作成することができる。
【0 0 2 1】 他方、 上記課題を解決した本発明に係る変化情報認識方法は、 認 識対象物の変化情報を取得する変化情報取得工程と、 認識対象物の基本的な変化 状態を基本変化情報としてあらかじめ記憶する基本変化情報予備記憶工程と、 変 化情報取得工程において取得した認識対象物の変化情報と、 あらかじめ記憶され た基本変化情報とを比較して、 認識対象物の変化状態を認識する変化状態比較ェ 程と、 を備えることを特徴とする。
【0 0 2 2〗 また、 基本変化予備記憶工程で、 認識対象物の変化状態を基本単 位に分割した変化情報単位を前記基本変化情報としてあらかじめ記憶しておくこ とが好適である。 このように、 基本変化情報を変化情報単位に分割した情報とし て記憶しておくことにより、 さらに高精度で認識対象物を認識することができる
【0 0 2 3】 また、 変化情報取得工程において取得する変化情報が認識対象物 を撮像した画像に関する情報であり、 かつ、 基本変化情報予備記憶工程において 予め記憶される基本変化情報も画像に関する情報であり、 変化状態比較工程にお いて、 変化情報及び基本変化情報の画像に関する情報を比較して認識対象物の変 化状態を認識することが好適である。 このように、 変化情報が認識対象物を撮像 した画像に関する情報とすることで、 認識対象物の変化を高精度で認識すること ができる。
【0 0 2 4】 さらに、 変化情報取得工程において取得する変化情報が認識対象 物が発生する音に関する情報であり、 かつ、 基本変化情報予備記憶工程において 予め記憶される基本変化情報も音に関する情報であり、 変化状態比較工程におい て、 変化情報及び基本変化情報の音の周波数成分を比較して認識対象物の変化状 態を認識することが好適である。 このように、 変化情報が認識対象物が発生する 音に関する情報とすることで、 認識対象物が発生する音、 たとえば人の発話の内 容を高精度に認識することができる。
図面の簡単な説明
【0 0 2 5】 図 1は、 本発明の第 1の実施形態に係る変化情報認識装置のブロ ック構成図である。
図 2は、 口を含む顔の画像を模式的に示す図である。
図 3 Aは、 口の形状の連続的な変化の状態 (第 1例) を示すテンプレートを模 式的に示す図である。
図 3 Bは、 口の形状の連続的な変化の状態 (第 2例) を示すテンプレートを模 式的に示す図である。
図 4 A〜Hは画像中における口の形状の連続的な変化の状態を模式的に示す図 である。
図 5 A〜Hは画像中における口の形状と、 テンプレート中の口の形状と一致す る位置を模式的に示す図である。
図 6 A〜Fは、 従来の口の形状のテンプレートを模式的に示す図である。
図 7は、 第 1の実施形態に係る変化情報認識方法の手順を示すフローチヤ一ト である。
図 8 Aは、 静止画における口と認識しうる位置を模式的に示す図である。
図 8 Bは、 動画における口と認識しうる位置を模式的に示す図である。
図 9は第 2の実施形態に係る変化情報認識装置のプロック構成図である。
図 1 0 Aは、 連続する口の変化パターンを時間ごとに模式的に示した図である 図 1 O Bは、 図 1 O Aにおける変化パターンの前半部分の変化を模式的に示し た図である。
図 1 0 Cは、 図 1 O Aにおける変化パターンの後半部分の変化を模式的に示し た図である。
図 1 1は第 2の実施形態に係る変化情報認識方法の手順の要部を示すフローチ ヤートである。
図 1 2 A〜Hは口を含む画像における連続的な変化の状態を模式的に示す図で ある。
図 1 3は第 3の実施形態に係る変化情報認識装置のプロック構成図である。 図 1 4は発音の変化とそれに割り当てた記号の対応関係を示す表である。 図 1 5は 「あ」 の母音を発する口に形状から、 「い」 の母音を発する口の形状 に至るまでの口の変形過程を模式的に示す図である。
図 1 6 Aは、 「おはようございます」 の音を文字で表している。
図 1 6 Bは、 図 1 6 Aの音にそれぞれ対応する口の形状を模式的に示す図であ る。
図 1 6 Cは、 図 1 6 Bの音の変化に対応する記号をそれぞれ示す図である。 図 1 7は第 3の実施形態に係る変形情報認識方法の手順の要部を示すフ口ーチ ヤートである。
図 1 8 Aは、 「あ」 から 「い」 に変化する口の形状の変化を模式的に示す図で ある。
図 1 8 Bは、 「い」 から 「う」 に変化する口の形状の変化を模式的に示す図で ある。
図 1 9は第 4の実施形態に係る変化情報認識装置のプロック構成図である。 図 2 O Aは、 ある音声の周波数一強度グラフの時刻 t = 1〜3での変化を示し ている。
図 2 0 Bは、 別の音声の周波数一強度グラフの時刻 t = 1 ~ 3での変化を示し ている。
図 2 1はある一定のフレーム間隔をおいて、 一定のフレーム長の長さのフレー ム長に切り取られる音声変化情報を概概略的に示す図である。
図 2 2 A〜Hは、 T 1〜T 8の時間の 8つに切り取られた音声変化情報から作 成された音声変化単位の波形を示すグラフである。
図 2 3 Α〜Ηは、 図 2 2 Α~Ηにおいて音声変化単位のグラフと一致する部分 を示す説明図である。
図 2 4は第 4の実施形態に係る変形情報認識方法の手順を示すフ口一チヤ一ト である。
図 2 5は第 4の実施形態に係る音声認識の手順を示すフローチャートである。 図 2 6は第 5の実施形態に係る変化情報認識装置のプロック構成図である。 図 2 7はジエスチヤ認識に用いる基本体変化単位の時刻における画像の例を模 式的に示す図である。
' 図 2 8 A〜 Jは、 歩行者認識に用いる基本体変化単位の時刻における画像の例 を示す図である。
図 2 9は第 6の実施形態に係る変化情報認識装置のプロック構成図である。 図 3 0 A〜Lは、 人形の頭部が回転する際の画像を模式的に示す図である。 図 3 1は第 7の実施形態に係る変化情報認識装置のプロック構成図である。 図 3 2は 「ん」 から 「あ」 を発話する口の動きを示す動画像を模式的に示す図 である。
図 3 3は図 3 2に示す動画像に基づいて作成した特徴空間上のグラフを示す図 である。
図 3 4は他の変形パターンを含めて、 動画像に基づいて作成した特徴空間上の グラフを示す図である。 .
図 3 5は複数の人のある発話での口の動きを特徴空間に射影した際の曲線を示 す図である。 図 3 6は特徴空間に生成されたハイパーチューブを示す図である。
図 3 7は複数のハイパーチューブを配置した特徴空間を示す図である。
図 3 8はハイパーチューブを生成する手順を示すフローチャートである。
図 3 9は特徴空間に 3次元特徴べクトルをプロットした点をつないで形成した 3つの軌跡を示す図である。
図 4 0は 3つの軌跡とそれらの軌跡に基づいて形成された代表軌跡を示す図で ある。
図 4 1は代表軌跡を求める際に生成する超平面を求める手順を説明するための 1である。
図 4 2は代表軌跡を求める際の手順を説明するための超平面を示す図である。 図 4 3は第 7の実施形態に係る変化情報認識方法の手順を示すフローチヤ一ト である。
図 4 4 Aは、 ある変形を表すハイパーチューブ H Tおよび入力系列軌跡 1 Lの 軌跡を合わせて示した図である。
図 4 4 Bは、 ハイパーチューブの開始点を 0、 終了点を 1とする横軸上に、 代 表軌跡からの距離を縦軸とするグラフに対応付けした状態を示す図である。
図 4 5は第 8の実施形態に係る変化情報認識装置のプロック構成図である。 図 4 6は一定時間切り取るウィンドウを動かすことなく動画を撮像した状態を 説明するための図である。
図 4 7 Aは、 切り取るウィンドウを動かして口を追跡した動画を説明する図で ある。
図 4 7 Bは、 図 4 7 Aに対応する特徴空間上の軌跡とハイパーチューブとを示 す図である。
発明を実施するための最良の形態
【0 0 2 6】 以下、 図面を参照して、 本発明の好適な実施形態について詳細に 説明する。 なお、 各実施形態において、 重複する説明は省略することがある。 【0 0 2 7】 まず、 本発明の第 1の実施形態について説明する。 図 1は、 本実 施形態に係る変化情報認識装置のブロック構成図である。 図 1に示すように、 本 実施形態に係る変化情報認識装置 1は、 系列情報記憶装置 1 1と、 基本変化情報 記憶装置 1 2と、 変化状態比較装置 1 3とを備えている。
【0 0 2 8】 系列情報記憶装置 1 1は、 図示しない本発明の変化情報取得手段 である撮像装置となるカメラに接続されている。 カメラでは、 認識対象物となる 口を含む顔を撮像している。 撮像した人の口の画像は、 一定時間の間隔をおいて 、 系列情報記憶装置 1 1に出力される。 系列情報記憶装置 1 1では、 これらの一 定時間をおいて出力される複数の画像を系列情報 J 1 1として記憶する。
【0 0 2 9】 基本変化情報記憶装置 1 2には、 あらかじめ人の口の形状がとり 得るパターンが複数記憶されている。 この口の形状がとり得るパターンについて は、 後に詳細に説明する。
【0 0 3 0〗 変化状態比較装置 1 3には、 系列情報記憶装置 1 1から系列情報 が出力され、 基本変化情報記憶装置 1 2から基本変化情報が出力される。 変化状 態比較装置 1 3では、 これらの系列情報および基本変化情報を比較することによ り、 口の形状の変化を検出して、 口に相当する部分を検出する。 さらに、 変化状 態比較装置 1 3は、 図示しない出力装置に接続されており、 検出した口に相当す る部分の位置を、 変化情報の位置情報 J 1 2として出力装置に出力する。 また、 変化状態比較装置 1 3では、 口に相当する部分を検出するとともに、 口の動きを も検出する。 この検出した口の動きも、 変化情報に対応する記号情報 J 1 3とし て図示しない出力装置に出力する。
【0 0 3 1】 それでは、 本実施形態に係る変化情報認識装置 1による変化情報 認識方法について説明する。 本実施形態に係る変化情報認識装置 1の系列情報記 憶装置 1 1には、 図示しないカメラで撮影された、 たとえば図 2に示す口 Mを含 む顔 Fの画像 G 1などの画像が順次出力される。 系列情報記憶装置 1 1では、 こ れらの画像を記憶しておく。 この画像が複数枚、 たとえば 8枚揃ったときに、 こ れらの画像を系列情報としてまとめて、 変化状態比較装置 1 3に出力する。
【0 0 3 2】 また、 基本変化情報記憶装置 1 2には、 口の変化のパターンを表 す画像情報が複数記憶されている。 たとえば、 図 3 に示す1 = 1〜4の第1変 化パターンが第 1テンプレート P 1として、 図 3 Bに示す t = 1〜4の第 2変化 パターンが第 2テンプレート P 2として、 基本変化情報記憶装置 1 2にそれぞれ 記憶されている。 両変化パターンでは、 ある時刻での画像が t = 1の画像であり 、 一定時間経過した後の次の画像が t = 2の画像であり、 さらに一定時間経過し た後の画像が t = 3の画像であり、 それからさらに一定時間経過した後の画像が t = 4とされている。 第 1テンプレート P 1で表される第 1変化パターンでは、 大きく開いた口 Mの形状 ( 「あ」 の母音を発するときの口の形状) から、 横に細 長く開いた口 Mの形状 ( 「い」 の母音を発するときの口の形状) に変化する状態 を示している。 また、 第 2テンプレート P 2で表される第 2変化パターンでは、 大きく開いた口 Mの形状 ( 「あ」 の母音を発するときの口の形状) から、 縦長に 開いた口 Mの形状 ( 「お」 の母音を発するときの口の形状) に変化する状態を示 している。
【0 0 3 3〗 変化状態比較装置 1 3には、 8枚の画像からなる系列情報の動画 が系列情報記憶装置 1 1から出力され、 第 1 , 第 2変化パタ一ンを示すテンプレ 一卜 P l, P 2が、 基本変化情報記憶装置 1 2から出力される。 ここで、 系列情 報記憶装置 1 1カゝら出力された系列情報には図 4に示す変化を示す領域が含まれ ていたとする。 図 4 A〜Hは、 それぞれ時刻 t = 1〜8に相当する画像を示して いる。 図 4に示す画像に表示された形状の動きと図 3に示すテンプレート P 1, P 2の形状の動きとを比較すると、 図 5に示すように、 テンプレート P 1の動き が図 4 D〜Gに示す動きと一致していることがわかる。 このことから、 図 5 D〜 Gにおいて破線 Bで示した部分が口に相当する部分であるということを認識する ことができる。 また、 このときに、 口は第 1テンプレート P 1に相当する動きを していたことも同時に認識することができる。 【0034】 ここで、 従来においては、 たとえば図 6 A〜Fに示すように、 複 数の口のテンプレート T 1〜T 6を用意しておき、 撮像装置で撮像された画像を ラスタスキャンして、 テンプレート Τ 1〜Τ 6に相当する部分を口として検出す るようにしていた。 しかし、 この方法では、 画像の中に存在する壁のシミゃ背景 の一部であって、 口と類似する形状のものも口として検出してしまう誤検出や、 検出漏れなどの不都合が考えられた。
【0035】 これに対して、 本実施形態に係る変化情報認識装置では、 静止画 のような瞬間的に切り取られた画像のみを対象とするのではなく、 変化する形状 の変形パターンを見つけるようにしているので、 誤検出や検出漏れなどを少なく することができる。 しかも、 口の位置とその変形の様子とを同時に同定すること ができる。 なお、 図 3から図 5は、 説明を簡単にするために、 口の動きに適用し た形で説明を行った。 しかし、 特に口の動きに限定したものではなく、 一般的な 図形の変形であればどのような技術にも適用することができるものである。 【0036〗 続いて、 本実施形態の具体的な変化情報認識方法について説明す る。 図 7は、 本実施形態に係る変化情報認識方法の手順を示すフロ一チヤ一トで ある。 図 7に示すように、 本実施形態に係る変化情報認識方法では、 まず、 8枚 ある画像のフレーム番号を表す定数 f (ί定義域 =1〜8) およびそれらの画像 を撮像した時刻を表す変数 t 定義域= 1〜8) を初期化し (S 1) 、 次に、 2枚あるテンプレート P 1, P 2で表される変化パターンを表す変数 d (d= 1 , 2) を初期化する (S 2) 。 続いて、 第 1変化パターン d = 1における時刻 t
(以下 Γ t (d) J と示す) = 1のパターンの類似パターンを、 最初のフレーム f = 1の画像から探し出し (S 3) 、 時刻 t (d) のパターンの類似パターンが 見つかつたか否かを判断する (S 4) 。
【0037】 その結果、 類似パターンが見つかった場合には、 時刻 t (d) の パターンが見つかつたこと、 および、 フレーム f 1における類似パターンが見 つかった位置を、 変化パターン d =l用の記憶領域に 記憶する (S 5) 。 そし て、 時刻 t (d) =1に 1を加算して、 t (d) =2とする (S 6) 。 それから 、 すべての変化パターン d (= 1, 2) において、 類似パターンを探し出す処理 が終了したか否かを判断する (S 7) 。
【0038】 一方、 ステップ S 4において、 類似パターンが見つからなかった 場合には、 ステップ S 7に進み、 すべての変化パターン d (= 1, 2) を探し出 す処理が終了したか否かを判断する。 そして、 ステップ S 7において、 すべての 変化パターン d (=1, 2) を探し出す処理が終了していないと判断したら、 変 化パターンを進めて変化パターン (d+ l) とし (S 8) 、 ステップ S 3に戻つ て、 フレーム f の画像から類似のパターンを探す。 また、 すべての変化パターン が探し終わったと判断したら、 次のフレーム f + 1に進む (S 9) 。
【0039】 こうして次のフレームに進んだら、 すべてのフレーム f (= 1〜 8) を処理し終わったか否かを判断する (S 10) 。 その結果、 すべてのフレー ムの処理が終わっておらず、 処理が終わっていないフレームがあると判断したと きには、 ステップ S 2に戻って、 処理を継続する。 一方、 すべてのフレームの処 理が終わったと判断したときには、 変化ごとの記憶領域の記憶されている情報か ら、 検出された変化パターン (変化情報に対応する記号) とその位置を、 図示し ない出力装置を介して出力する (S 1 1) 。 このようにして、 口の位置および口 の動きを検出することができる。
【0040】 このように、 本実施形態に係る変化情報認識装置 1においては、 静止画像でなく、 動画によって表される画像の動きから認識対象物である口の位 置を検出するようにしている。 このため、 図 8 Aに示すように、 静止画によるテ ンプレートを用いた従来の認識方法では、 多数の口の候補 C 1 , C 2…を認識し てしまう。 これに対して、 本実施形態に係る認識方法では、 一定時間をおいて撮 影した複数の画像から口 Mの変化を検出しているので、 図 8 Bに示すように、 候 補 C内に口 Mを確実に認識することができる。 しかも、 口 Mの動きを複数枚の画 像に見られる変化で追従していることから、 口 Mの動きまでをも検出することが できる。
【0 0 4 1】 なお、 本実施形態では、 テンプレート P 1 , P 2において、 それ ぞれ時刻 t = 1〜4として 4つの時刻での画像を設定しているが、 テンプレート 内の画像数は 2以上であればよい。 たとえば、 時刻 t = 1, 2として、 2つの時 刻での画像からテンプレートを設定することもできる。
【0 0 4 2】 次に、 本発明の第 2の実施形態について説明する。 図 9は、 本実 施形態に係る変化情報認識装置のブロック構成図である。 図 9に示すように、 本 実施形態に係る変化情報認識装置 2は、 上記第 1の実施形態と同様の系列情報記 憶装置 2 1、 基本変化情報記憶装置 2 2、 および変化状態比較装置 2 3を備えて いる。 このうち、 系列情報記憶装置 2 1および変化状態比較装置 2 3は、 上記実 施形態における系列情報記憶装置 1 1および変化状態比較装置 1 3とそれぞれ同 一の構成を有しており、 基本変化情報記憶装置 2 2は、 上記第 1の実施形態にお ける基本変化情報記憶装置 1 2とは、 異なる構成を有している。
【0 0 4 3〗 本実施形態に係る基本変化情報記憶装置 2 2は、 複数の基本変化 情報単位記憶装置 2 4 A, 2 4 B…を有している。 各基本変化情報単位記憶装置 2 4 A, 2 4 B…には、 認識対象物の変化状態を基本単位に分割した変化情報単 位 (変化パターン) として記憶されている。 この変化パターンは、 認識対象物の 一連の変化パターンにおける最小の単位となるパターンである。 たとえば、 図 1 0 Aに示すような時刻 t = 1〜 7の間における変化パターン Pがあるとする。 こ の時刻 t = 1 ~ 7に対応した一連の変化パターンにおいて、 図 1 0 Bに示す t =
1〜 4の変化が、 図 1 0 Cに示す t = l〜4 (図 1 0 Aの t = 4〜7の変化に相 当する) とは異なる意味を持った最小単位であることがある。 たとえば、 図 1 0 Aにおける t = l ~ 4で 「お」 から 「あ」 に変化する口の形状を表し、 t = 4〜 7で 「あ」 から 「い」 に変化する口の形状を表すような場合である。 図 1 0 B , Cに示す t = l〜4のような変化が、 それぞれ最小単位のテンプレート P 3, P
4として、 各基本変化情報単位記憶装置 2 4 A, 2 4 B…に記憶されている。 【0 0 4 4】 次に、 本実施形態に係る変化情報認識方法について説明する。 図 1 1は、 本実施形態に係る変化情報認識方法の手順の要部を示すフローチャート である。 図 1 1に示すように、 本実施形態に係る変化情報認識方法では、 上記第 1の実施形態に係る認識方法と同様にして、 系列情報記憶装置 2 1において系列 情報 J 2 1 (たとえば 8枚の画像からなる情報) を取得して、 変化状態比較装置 2 3に出力する。 変化状態比較装置 2 3では、 出力された系列情報から各変化情 報単位を検出する (S 2 1 ) 。 また、 基本変化情報記憶装置 2 2からは、 変化状 態比較装置 2 3に対して、 基本変化情報単位記憶装置 2 4に記憶された基本変化 情報単位を示すテンプレート P 3, P 4が出力される。
【0 0 4 5】 変化状態比較装置 2 3では、 検出した変化情報単位と、 基本変化 情報記憶装置 2 2から出力された基本変化情報単位のテンプレート P 3, P 4と を比較し、 変化情報単位の連続性を考慮して一連の変化を検出する ( S 2 2 ) 。 たとえば、 系列情報記憶装置 2 1から出力された系列情報 J 2 1力 図 1 2 A〜 Hにそれぞれ示す 8枚の画像であったとする。 変化状態比較装置 2 3では、 これ らの系列情報 J 2 1による画像と、 基本変化情報記憶装置 2 2から出力されたテ ンプレート P 3 , P 4とを比較して、 系列情報における一連の変化を検出する。
[ 0 0 4 6 ] いま、 図 1 2 A〜ト Iに示す系列情報を表す 8枚の画像では、 図 1 2 A〜Dに示す画像における実線 Rで囲む口 Mの形状が、 図 1 0 Bに示すテンプ レート P 3の変化と同一の変化を示している。 また、 図 1 2 D〜Gに示す画像に おける破線 Bで囲む口 Mの形状が、 図 1 0 Cに示すテンプレート P 4の変化と同 一の変化を示している。 このことから、 系列情報 J 2 1には、 図 1 O Aに示す形 状変化を行う認識対象物としての口があることが認識される。
【0 0 4 7】 こうして認識された認識対象物である変化情報としての口は、 そ の変化情報単位の位置情報 J 2 2として変化状態比較装置 2 3から図示しない出 力装置に出力される。 それと同時に、 変化情報単位に対応する記号情報 J 2 3が 、 変化状態比較装置 2 3から図示しない出力装置に出力される。 出力装置では、 変化情報単位の位置情報から変化情報 J 2 4を取得し、 変化情報単位に対応する 記号情報 J 2 3力ゝら、 変化情報に対応する記号情報 J 2 5を取得する。
【0 0 4 8】 ここで、 たとえば系列情報を表す画像に、 図 1 0 Bに示すテンプ レート P 3の形状変化と同一の形状変化が見られたとしても、 その後に、 図 1 0 Cに示すテンプレート P 4で表される形状変化と同一の形状変化が見られないこ とがある。 この場合には、 図 1 O Aに示す一連の変化は起こってはいないと判断 することができ、 その結果として誤検出を防止することができる。 また、 連続し た変化情報単位の特定組み合わせをあらかじめ記憶していることから、 任意の変 化を少ない記憶容量で表現することができる。 さらに、 一連の変化を、 その変化 よりも小さい変化の単位に分割することにより、 ロバストに変化の様子を検出こ とが可能となり、 さらには複雑な変化をより単純な変化の組み合わせで表現する ことができるので、 実装が容易になるとともに、 少ない記憶容量で複雑な変化を 扱うことができる。
【0 0 4 9〗 次に、 本発明の第 3の実施形態について説明する。 0 1 3は、 本 実施形態に係る変化情報認識装置のプロック構成図である。 本実施形態に係る変 化情報認識装置は、 口変形認、識装置として用いることができる。 図 1 3に示すよ うに、 本実施形態に係る変化情報認識装置 3は、 動画記憶装置 3 1、 口基本変形 情報記憶装置 3 2、 および口変形状態比較装置 3 3とを備えている。
【0 0 5 0】 動画記憶装置 3 1は、 図示しない動画撮像装置に接続されている 。 この動画撮像装置は、 認識対象物となる口を含む顔の動画を撮像しており、 動 画撮像装置は、 撮像した動画の動画情報 J 3 1を動画記憶装置 3 1に対して出力 している。
【0 0 5 1】 口基本変形情報記憶装置 3 2は、 人の口の動きがとり得るパター ンがあらかじめ記憶された複数の口基本変形単位記憶装置 3 4 A, 3 4 B…を有 している。 各口基本変形単位記憶装置 3 4 A, 3 4 B…には、 口基本変形単位が あらかじめ記憶されている。 この口基本変形単位については、 後に説明する。 【0 0 5 2】 口変形状態比較装置 3 3には、 動画記憶装置 3 1から口変形単位 情報が出力され、 口基本変形情報記憶装置 3 2から口基本変形単位情報が出力さ れる。 口変形状態比較装置 3 3では、 これらの口変形単位情報と口基本変形単位 情報とを比較することにより、 口の動きを認識する。 さらに、 口変形状態比較装 置 3 3は、 図示しない出力装置に接続されており、 動画記憶装置 3 1から出力さ れたロ変形単位の位置を口変形単位位置情報 J 3 2として出力装置に出力する。 また、 それと同時に、 口変形単位に対応する記号情報 J 3 3を出力装置に出力す る。
【0 0 5 3】 また、 口基本変形情報記憶装置 3 2における口基本変形単位記憶 装置 3 4 A, 3 4 B…には、 口の変形パターンを示す動画に対応した口変形単位 の形状およびその形状に対応する記号情報がそれぞれ記憶されている。 人が発話 を行う際の口の形状は、 主に母音および撥音によつて決定される (日本語の場合 ) 。 母音とは、 「あ」 「い」 「う」 「え」 「お」 の 5音を指すものであるが、 こ れに撥音である 「ん」 を加えて考えると、 すべての発話はこれらの 6音とそれ以 外の 5音への組み合わせとして表現することができる。 図 1 4は、 上記の 6音か ら他の 5音へのすべての組み合わせについて、 記号を割り当てたものを示す表で あ 。
【0 0 5 4】 図 1 4に示すように、 「あ J を 1、 「い」 を 2、 「う」 を 3、 「 え」 を 4、 「お」 を 5、 「ん J を 0とすると、 たとえば 「あ」 から 「い」 への変 形は 「1 2」 という記号で表される。 図 1 5には、 「あ」 の母音を発する口の形 状から、 「い」 の母音を発する口の形状に至るまでの口の変形過程を模式的に示 している。 時刻 t = lでは、 「あ」 の音を発しており、 口 Mは大きく開いた状態 にある。 この状態から、 時刻が進むにつれて、 口が徐々に狭まるように変形して いき、 時刻 t = 8のときには、 口 Mが 「い」 の音を発する形状をなしている。 こ のように、 「あ」 から 「い」 に変形するまでの口の変形を t = 1〜8までの間で 連続画像で示している。 このような 「あ」 から 「い」 に変形するまでの口の変形 を示す動画を、 「あ」 を表す記号 「1」 と 「い」 を表す記号 「2」 とを用いて、 記号 「1 2」 で表す。
【0 0 5 5】 この考え方を用いると、 たとえば図 1 6 Aに示すように、 「おは ようございます(これは日本語である。 英語での Good morning.の意味) 」 という 発話は、 子音を除いて母音だけをみると図 1 6 Bに示すように、 「おあおうおあ いあう」 となる。 この発話に伴う口の変形は、 上記の記号を用いると、 図 1 6 C に示すように、 5 1→1 5→5 3→3 5→5 1→1 2→2 1→1 3と表すことが できる。 口基本変形情報記憶装置 3 2には、 これらの記号に対応する口基本変形 単位が各口基本変形単位記憶装置 3 4 A, 3 4 B…のそれぞれに記憶されている
【0 0 5 6】 従来、 発話を認識する手段としては 「あ」 や 「い」 を表す口の形 状を見つけるようなアプローチがなされていた。 これに対して、 本実施形態では 、 「あ」 から 「い」 に至るまでに口の形状が変形する過程を、 あらかじめ記憶さ れる口基本変形記憶単位に対応させて捉えようとするものである。
【0 0 5 7】 それでは、 本実施形態に係る変化情報認識装置 3による変形情報 認識方法について説明する。 図 1 7は、 本実施形態に係る変形情報認識方法の手 順の要部を示すフローチヤ一トである。 本実施形態に係る変形情報認識方法では 、 まず、 動画撮像装置で撮像した口を含む顔の動画が、 動画撮像装置から動画記 憶装置 3 1に出力され、 動画記憶装置 3 1に記憶される。 一方、 口基本変形情報 記憶装置 3 2には、 各口基本変形単位記憶装置 3 4 A , 3 4 B…において、 口基 本変形単位に対応する変化情報およびおよび口基本変形単位に対応する記号があ らかじめ記憶されている。 動画記憶装置 3 1からは、 口変形状態比較装置 3 3に 対して、 動画が出力され、 口基本変形情報記憶装置 3 2からは、 口変形状態比較 装置 3 3に対して口基本変形単位の変形情報および口基本単位に対応する記号が 出力される。
【0 0 5 8】 口変形状態比較装置 3 3においては、 動画記憶装置 3 1から出力 された動画おょぴロ基本変形情報記憶装置 3 2から出力された口基本変形単位と の比較を行い、 動画における口変形単位が存在する位置および口変形に対応する 記号を検出する (S 3 1 ) 。 次に、 一定時間経過した後の動画上において、 口変 形位置が存在する位置および口変形に対応する記号を検出する。 続いて、 検出さ れた各口変形単位について、 先に検出された口変形単位である第 1の変形と、 後 に検出された口変形単位である第 2の変形が同じ位置で行われていたか否かを判 断する (S 3 2 ) 。
【0 0 5 9】 その結果、 同じ位置で検出されたものではないと判断したときに は、 ステップ S 3 1に戻って同様の処理を繰り返す。 一方、 同じ位置で検出され たものであると判断したときには、 それらの第 1の変形に対応する記号の終了を 表す記号と、 第 2の変形に対応する記号の開始を表す記号とを比較し、 両者が同 じであるか否かを判断する ( S 3 3 ) 。 その結果、 両者が同じではないと判断し たときには、 ステップ S 3 1に戻って、 同様の処理を繰り返す。
[ 0 0 6 0 ] それに対して、 たとえば、 図 1 8 Aに示すように、 第 1の変形で は口 Mが t = 1〜 8に示すように動き、 対応する記号が 1 2であり、 第 2の変形 では口 Mが t = 8〜t 1 5に示すように動き、 対応する記号が 2 3であったとす る。 これは、 第 1の変形では、 発話を母音レベルで理解すると、 口の形状が 「あ J から 「い」 に変化したこと、 および第 2の変形では、 口の形状が 「い」 から Γ う」 に変化したことを意味している。 このように、 それらの第 1の変形に対応す る記号の終了を表す記号と、 第 2に変形に対応する記号の開始を表す記号とが同 じである場合には、 第 1の変形と第 2の変形との繋ぎにおける時間位置で、 その 記号に対応する音が発せられていたと考えられる。 先の例でいえば、 第 1の変形 に対応する記号の終了を表す記号と、 第 2の変形に対応する記号の開始を表す記 号がいずれも 「2」 であり、 同じである。 このような場合には、 第 1の変形と第 2の変形とは連続して行われたものであると判断することができる。
【0 0 6 1】 そして、 第 1の変形に対応する記号の終了を表す記号と、 第 2に 変形に対応する記号の開始を表す記号が同じである場合には、 第 1の変形と第 2 の変形との繋ぎにおける時間位置およびその記号をそれぞれ口変形単位位置情報 J 3 2および口変形単位に対応する記号情報 J 3 3として、 図示しない出力装置 に出力する (S 3 4 ) 。 出力装置においては、 口変形単位位置情報 J 3 2から口 の位置情報 J 3 4を求め、 口変形単位に対応する記号情報 J 3 3から、 発話単語 情報 J 3 5を求める。 こうして、 変化情報認識方法が終了する。
【0 0 6 2】 このように、 本実施形態に係る変化情報認識装置 3においては、 発話に伴う口の変形を、 5種類の母音および 1種類の撥音という 6種類の音に対 応する口の形から、 その音以外の 5種類の口の形への変形という単位に分割して いる。 このため、 入力した動画像から口の位置を検出するとともに、 どの時点で どの音が発音されたかを確実に認識することができるので、 発話認識装置として 用いることができる。 また、 発音された音を連続して認識することで、 発話され た単語を認識することもできる。
[ 0 0 6 3 1 なお、 本実施形態では、 母音および撥音の 6つの音から口基本変 形単位を作成しているが、 5 0音のすべてについて、 口基本変形単位を作成する 態様とすることもできる。 この場合、 日本語には濁音半濁音を含めて、 6 8の音 があるので、 6 7 X 6 8の口基本変形単位を用 I,、ることになる。
【0 0 6 4〗 次に、 本発明の第 4の実施形態について説明する。 図 1 9は、 本 実施形態に係る変化情報認識装置のプロック構成図である。 本実施形態に係る変 化情報認識装置は、 音声変化認識装置として用いることができる。 図 1 9に示す ように、 本実施形態に係る変化情報認識装置 4は、 波形解析装置 4 1と、 音声波 形記憶装置 4 2と、 音声情報記憶装置 4 3と、 音声変化比較装置 4 4と、 を備え ている。
【0 0 6 5】 波形解析装置 4 1は、 図示しな!/、音声取得手段となるたとえばマ イクに接続されており、 マイクでは、 人が発話する際の音声を取得している。 マ イクは、 取得した音声情報 J 4 1を波形解析装置 4 1に出力する。 波形解析装置 4 1は、 出力された音声情報 J 4 1を、 たとえばウェーブレット変換することに よって解析する。 ゥユーブレット解析によって得られた波形は、 音声波形記憶装 置 4 2に出力される。 音声波形記憶装置 4 2は、 出力された波形を記憶する。 【0 0 6 6】 音声情報記憶装置 4 3は、 音声変化単位記憶装置 4 5 A, 4 5 B …を備えている。 音声変化単位記憶装置 4 5 A, 4 5 B…には、 音声変化単位と してあらかじめ記憶された基本音声変化単位おょぴそれに対応する記号がそれぞ れ記憶されている。 基本音声変化単位は、 発話での任意の音素を発声したときの 周波数の波形から別の任意の音素を発声したときの周波数への変化を表している 。 この基本音声変化単位は、 たとえば図 2 O A又は Bに示す周波数スペク トルを 有している。 図 2 O Aはある音声を発した場合の時刻 t = 1〜 3における周波数 スぺクトルを表すグラフ、 図 2 0 Bは他の音声を発した場合の時刻 t = 1〜 3に おける周波数スぺクトルを示すグラフである。 各グラフは、 横軸に周波数、 縦軸 に周波数ごとの強度 (スペク トルレベル) を対応させている。 図 2 O A, Bに示 すグラフは、 音素から音素への変化を表す例であり、 時刻 t = 1〜 3ごとに示さ れるグラフのそれぞれに対応する音があり、 t = 1の時刻にある音素に対応する 音が発せられ、 t = 2の波形を経て t = 3の別の音素に対応する音が発せられた ことを示している。
【0 0 6 7〗 音声変化比較装置 4 4には、 音声波形記憶装置 4 2から音声波形 情報が出力され、 音声情報記憶装置 4 3から基本音声変化単位およびそれに対応 する記号が出力される。 音声変化比較装置 4 4では、 これらの音声波形情報と基 本音声変化単位とを比較することにより、 音声を認識する。 さらに、 音声変化比 較装置 4 4は、 図示しない出力装置に接続されており、 検出した音声変化単位に 対応する記号 (以下 「音声変化単位対応記号」 という) 情報 J 4 2を出力装置に 出力している。
【0 0 6 8】 それでは、 本実施形態に係る変化情報認識装置 4による変形情報 認識方法について説明する。 本実施形態に係る変化情報認識装置 4では、 マイク 等で取得した音声情報 J 4 1をウェーブレツト解析し、 音声変化単位を作成する 。 この音声変化単位を、 あらかじめ記憶している基本音声変化単位と比較するこ とにより、 音声の変化を認識するものである。 たとえば、 音声変化情報がマイク から取得され、 波形解析装置 4 1に出力されたとする。 波形解析装置 4 1では、 図 2 1に示すように、 音声変化情報を、 ある一定のフレーム間隔、 たとえば 1 0 m s e cの間隔をおいて、 一定のフレーム長、 たとえば 3 O m s e cの長さのフ レーム長に切り取り、 複数の音声変化単位を作成する。 図 2 2 A〜Hには、 t l 〜 t 8の時間の 8つに切り取られた音声変化情報から作成された音声変化単位の 波形がそれぞれ示されている。
【0 0 6 9】 このような音声変化単位の波形を作成したら、 これらの音声変化 単位と、 音声情報記憶装置 4 3に記憶されている図 2 0に示す基本音声変化単位 とを比較する。 その結果、 図 2 2 A〜Hに示す音声変化単位のうちに、 図 2 O A 又は Bに示す基本音声変化単位と同一の波形を有する部分があつたときに、 基本 音声変化単位を表す音声が発声されていると判断することができる。 図 2 2に示 す例では、 図 2 3に示すように、 図 2 3 E〜Gの波形 ( t = 5〜 7の波形) が、 図 2 0 Aに示す波形 ( t = 1〜 3の波形) と一致している。 したがって、 この部 分で図 2 O Aに示す基本音声変化単位に対応する音声と同一の音声を発声してい ることがわかる。 このように、 音声変化単位と基本音声変化単位とを比較して、 一致または類似する部分がある場合に、 基本音声変化単位に対応する音声を発声 していることがわかる。
【0 0 7 0】 続いて、 本発明の具体的な変化情報認識方法について説明する。 図 2 4は、 本実施形態に係る変形情報認識方法の手順を示すフローチヤ一トであ る。 変化情報認識装置 4の波形解析装置 4 1には、 図示しないマイク等から取得 された音声情報が出力される。 波形解析装置 4 1では、 これらの音声をウェーブ レッ ト解析し、 たとえば図 2 2に示す 8つの波形に分割して、 8つのフレームか らなる音声変化単位を作成する。 波形解析装置 4 1は、 作成した音声変化単位を 音声波形記憶装置 42に出力する。 音声波形記憶装置 42では、 これらの音声変 化単位を記憶しておく。
【0071】 また、 音声情報記憶装置 43には、 複数の基本音声変化単位が記 憶されている。 そして、 音声波形記憶装置 42は、 記憶している音声変化単位を 音声変化比較装置 44に出力し、 音声情報記憶装置 43は、 記憶している基本音 声変化単位およびそれに対応する記号を音声変化比較装置 44に出力する。 音声 変化比較装置 44では、 舎声波形記憶装置 42から出力された音声変化単位およ び音声情報記憶装置 43から出力された基本音声変化単位を比較する。
【0072】 両者の比較を行うにあたり、 まず、 音声変化単位のフレーム番号 を表す変数およびその時刻を表す変数を初期化しフレーム f = 1、 時刻 t = 1と する (S 41) 。 次に、 基本音声変化情報を表す変数を初期化して、 変化パター ン d =lとする (S 42) 。 この変化パターンとしては、 図 2 OA, Bに示す 2 つの変化パターンを含む複数の変化パターンが記憶されている。 その数は音素の 数に基づいて定められ、 たとえば音素数が nである場合には、 変化パターン数を n X (n— 1) とすることができる。
[0073] 次に、 変化パターン d = 1における時刻 t (d) = 1の波形と、 音声変化単位におけるフレーム f =lの波形の類似度を算出する (S 43) 。 そ の結果、 類似度が一定値以上であるか否かを判断し (S 44) 、 類似度が一定値 以上であると判断したときには、 変化パターン d用の記憶領域に、 時刻 t (d) の波形が見つかつたこと、 見つかった時刻 (またはフレーム番号) を記憶する ( S 45) 。 そして、 次の時刻 t = 2には、 t (d) = 2のパターンを対象とする 旨を記憶しておく。 それから、 変化パターン d= 1における時刻 t (d) = 1に 1を加算して、 t (d) + 1 (=2) とする (S 46) 。 それから、 すべての変 化パターンにおいて、 類似パターンが探し終わったか否かを判断する (S 47) 。 ここでは、 図 20 Bに示す変化パターン d = 2についての処理が終わってない ので、 類似パターンを探し終わっていないと判断し、 次の変化パターンを加算し て d+ 1とする (S 48) 。
【0074】 こうして、 すべての変化パターンについて、 類似パターンが探し 終わり、 ステップ S 47ですベての変化パターンを探し終わったと判断したとき には、 フレーム f 二 1に 1を加算して、 次のフレーム f + 1 (=2) とする (S 49) 。 それから、 すべてのフレーム f (= 1-8) についての処理が終了した か否かを判断を行う (S 50) 。 その結果、 処理が終了していないと判断したと きには、 ステップ S42に戻って、 再度変化パターンの初期化を行い、 類似度の 計算を行う (S43) 。 一方、 すべてのフレーム f (= 1-8) での処理が終了 したと判断したら、 変化パターンごとに記憶領域に記憶されている情報から、 検 出された変化パターンを出力する (S 51) 。 このようにして、 変化パターンを 処理することにより、 たとえば図 22に示す音声変化単位から、 図 2 OAに示す 基本音声変化単位を検出することができる。
【0075〗 こうして、 音声変化単位が検出されたら、 図 25に示す処理を行 うことにより、 発話の内容を認識することができる。 図 25は、 本実施形態に係 る音声認識の手順を示すフローチャートである。
【0076】 図 24に示すフローチャートにしたがって、 音声変化単位を検出 したら、 図 25に示すように、 入力された音声変化単位から、 この音声変化単位 対応記号情報 J 42 (図 1 9) を図示しない出力装置に出力する (S 52) 。 出 力装置では、 音声変化比較装置 44から出力された音声変化単位対応記号情報 J 42を参照し、 複数出力される音声変化単位に対応する記号のうち、 第 1音声変 化単位対応記号と、 第 2音声変化単位対応記号が時間的に連続しているか否かを 判断する (S 53) 。
【0077】 その結果、 時間的に連続していないと判断したときには、 ステツ プ S 52に戻って同様の処理を繰り返す。 一方、 時間的に連続していると判断し たときには、 第 1音声変化単位対応記号の終了を表す記号と、 第 2音声変化単位 対応記号の開始を表す記号が同じであるか否かを判断する (S 54) 。 たとえば 、 第 1音声変化単位対応記号が音素 Aから音素 Bに変化するものであり、 第 2音 声変化単位対応記号が音素 Bから音素 Cに変化するものである場合には、 第 1音 声変化単位対応記号の終了を表す記号と第 2音声変化単位対応記号の開始を表す 記号とがー致すると判断する。 また、 たとえば第 1音声変化単位対応記号が音素 Aから音素 Bに変化するものであり、 第 2音声変化単位対応記号が音素 Aから音 素 Cに変化するものである場合には、 第 1音声変化単位対応記号の終了を表す記 号と第 2音声変化単位対応記号の開始を表す記号とがー致しないと判断する。
【0 0 7 8】 その結果、 第 1音声変化単位対応記号の終了を表す記号と第 2音 声変化単位対応記号の開始を表す記号とがー致しないと判断した場合には、 ステ ップ S 5 2に戻って同様の処理を繰り返す。 一方、 第 1音声変化単位対応記号の 終了を表す記号と第 2音声変化単位対応記号の開始を表す記号とがー致している と判断したときには、 第 1音声変化単位対応記号と第 2音声変化単位対応記号と の間繫ぎ目の時間位置と対応する記号を出力する (S 5 5 ) 。 上記の例でいえば 、 第 1音声変化単位対応記号と第 2音声変化単位対応記号の間には音素 Bがある と判断する。
【0 0 7 9】 このような処理を繰り返すことにより、 発話単語 J 4 3 (図 1 9 ) を認識することができる。
【0 0 8 0】 このように、 本実施形態に係る変化情報認識装置 4においては、 取得した音声を音声変化単位に分割し、 基本音声変化単位との比較を行って音声 を検出している。 このため、 発話された単語等を確実に認識することができる。
[ 0 0 8 1 ] 次に、 本発明の第 5の実施形態について説明する。 本実施形態で は、 変化情報として、 ジヱスチヤ認識、 歩行者認識、 表情認識のような体の各部 位の移動および変形に伴う体変化の認識を対象とする。
【0 0 8 2】 図 2 6は、 本実施形態に係る変化情報認識装置のプロック構成図 である。 図 2 6に示すように、 本実施形態に係る変化情報認識装置 5は、 動画記 憶装置 5 1と、 体変化情報記憶装置 5 2と、 体変化比較装置 5 3と、 を備えてい る。 この変化情報認識装置 5は、 体変化認識装置、 歩行者認識装置、 表情認識装 置などとして用いることができる。
【0 0 8 3】 動画記憶装置 5 1は、 図示しない動画撮像装置に接続されている 。 この動画撮像装置は、 認識対象物となる人の体の動画を撮像しており、 動画撮 像装置は、 撮像した動画情報 J 5 1を動画記憶装置 5 1に出力している。
【0 0 8 4】 体変化情報記憶装置 5 2は、 人の体の動きがとり得るパターンが あらかじめ記憶された複数の体変化単位記憶装置 5 4 A, 5 4 B…を有している 。 体変化単位記憶装置 5 4 A, 5 4 B…には、 人の体の動きを表す基本体変化単 位があらかじめ記憶されている。
【0 0 8 5】 体変化比較装置 5 3には、 動画記憶装置 5 1から体変化単位情報 が出力され、 体変化情報記憶装置 5 2から基本体変化単位情報が出力される。 体 変化比較装置 5 3では、 これらの体変化単位情報と基本体変化単位情報とを比較 することにより、 人の体の動きを認識する。 さらに、 体変化比較装置 5 3は、 図 示しない出力装置に接続されており、 動画記憶装置 5 1から出力された画像上に おける人の体の位置を体変化単位の位置情報 J 5 2として出力装置に出力する。 また、 それと同時に、 体変化単位に対応する記号情報 J 5 3を出力装置に出力す る。 出力装置においては、 体変化単位の位置情報 J 5 2から口の位置情報 J 5 4 を求め、 体変化単位に対応する記号情報 J 5 3力ゝら、 体動作の識別情報 J 5 5を 求める。
【0 0 8 6】 体変化単位記憶装置 5 4 A, 5 4 B…には、 人の動きを示す動画 に対応した手、 足、 腕などの変化を示す基本体変化単位の形状およびその形状に 対応する記号情報がそれぞれ記憶されている。 たとえば、 図 2 7には、 ジエスチ ャ認識に用いる基本体変化単位の時刻 t = 1〜8における画像の例を示している 。 図 2 7 A〜Hに示す基本体変化単位の例では、 t = 1の時点で右手を開いた様 子を示しており、 その手を開いた状態から開始して t = 8の時点でその手を閉じ るまでの様子を連続的に示している。 【0 0 8 7】 本実施形態に係る変化情報認識装置 5においては、 上記第 3の実 施形態に係る変化情報認識装置 3による変化情報認識方法と同様の方法により、 人の体の位置およびその体の動作 (体動作) を認識することができる。 具体的に は、 上記第 3の実施形態における口基本変形情報記憶装置 3 2を本実施形態の体 変化情報記憶装置 5 2、 口変形状態比較装置 3 3を体変化比較装置 5 3に置き換 え、 図 1 7に示すフローチャートと同様の手順による処理を行うことにより、 体 変化単位の位置および体動作を認識することができる。
【0 0 8 8】 こうして、 動画撮像装置から出力された動画像に基づいて、 手や 腕の位置と、 ジエスチヤに対応する記号を得ることができ、 その記号からどのよ うなジエスチヤ指示がなされているかを識別することができる。
【0 0 8 9】 また、 変化情報認識装置 5により、 動画像上における歩行者の位 置およびその動作を認識することもできる。 図 2 8には、 歩行者認識に用いる基 本体変化単位の時刻 t = 1〜 1 0における画像の例を示している。 図 2 8 A〜 J に示す基本体変化単位の例では、 t = 1の時点における歩行者の姿勢を示してお り、 その姿勢から開始して t = 1 0の時点における歩行者の姿勢に至るまでの動 作を連続的に示している。 これら図 2 8 A~ Jに示される歩行者の画像は、 体変 化情報記憶装匱 5 2における体変化単位記憶装置 5 4 A , 5 4 B…にそれぞれあ らかじめ記憶されている。
【 0 0 9 0】 図 2 8に示す例では、 上記第 3の実施形態に係る変化情報認識装 置 3と同様の方法により、 人の歩行動作 (体動作) を認識することができる。 こ の場合も、 図 1 7に示すフローチャートと同様の手順による処理を行うことによ り、 体変化単位の位置および体動作を認識することができる。 こうして、 動画撮 像装置から出力された動画像に基づいて、 歩行者の位置と、 歩行者の動作状況を 識別することができる。
【0 0 9 1】 また、 図示はしないが、 本実施形態に係る変化情報認識装置 5に より、 人の表情の変化を認識することもできる。 人の感情には喜怒哀楽があり、 人は、 それらの感情に応じた表情または無感情な表情をとる。 このように、 喜怒 哀楽および無表情に対応する顔の 5つの画像から、 無表情から喜ぴ、 怒りから悲 しみといった 5 X 4の変化情報単位を用意することにより、 動画像における顔の 位置およびその顔の表情をも認識することができる。
【0 0 9 2】 次に、 本発明の第 6の実施形態について説明する。 本実施形態で は、 認識対象物となる物体が回転したとき、 回転する物体の位置とその回転に伴 う変化を認識の対象とする。
【0 0 9 3】 図 2 9は、 本実施形態に係る変化情報認識装置のプロック構成図 である。 図 2 9に示すように、 本実施形態に係る変化情報認識装置 6は、 動画記 憶装置 6 1と、 回転情報記憶装置 6 2と、 回転物体比較装置 6 3と.、 を備えてい る。 この本実施形態に係る変化情報認識装置 6は、 回転物体認識装置として用い ることができる。
【0 0 9 4〗 動画記憶装置 6 1は、 図示しない動画撮像装置に接続されている 。 この動画撮像装置は、 認識対象物となる回転する認識対象物、 たとえば人の頭 の動画を撮像している。 この動画撮像装置は、 撮像した動画情報 J 6 1を動画記 憶装置 6 1に出力している。
【0 0 9 5〗 回転情報記憶装置 6 2は、 回転する認識対象物の回転パターンが あらかじめ記憶された複数の回転単位記憶装置 6 4 A, 6 4 B…を有している。 回転単位記憶装置 6 4 A, 6 4 B…には、 認識対象物の回転を表す基本回転単位 があらかじめ記憶されている。
【0 0 9 6】 回転物体比較装置 6 3には、 動画記憶装置 6 1から回転単位情報 が出力され、 回転情報記憶装置 6 2から基本回転単位情報が出力される。 回転物 体比較装置 6 3では、 これらの回転単位情報と基本回転単位情報とを比較するこ とにより、 たとえば人の頭の回転に伴う変化を認識する。 さらに、 回転物体比較 装置 6 3は、 図示しない出力装置に接続されており、 動画記憶装置 6 1から出力 された画像上における人の頭の位置を回転単位の位置情報 J 6 2として出力装置 に出力する。 また、 それと同時に、 回転単位に対応する記号情報 J 6 3を出力装 置に出力する。 出力装置においては、 回転単位の位置情報 J 6 2から回転物体で ある人の頭の位置情報 J 6 4を求め、 回転単位に対応する記号情報 J 6 3力、ら、 回転の識別情報 J 6 5を求める。
【0 0 9 7】 回転単位記憶装置 6 4 A, 6 4 B…には、 人の頭の回転を示す動 画に対応した頭の向きの変化を示す回転変化単位の形状およびその形状に対応す る記号情報がそれぞれ記憶されている。 図 3 0 A〜Lは、 人形の頭部が回転する 際の画像を模式的に示している。 このうち、 図 3 0 A〜Eに示す 0度から始まつ て 1 2 0度に到達するまでの回転を第 1回転、 図 3 0 E〜 Iに示す 1 2 0度から 始まって 2 4 0度に到達するまでの回転を第 2回転、 図 3 0 1 ~ Lを経て図 3 0 Aに戻るまでに示す 2 4 0度から始まって 3 6 0度 (0度) に到達するまでの回 転を第 3回転とする。 逆に、 図 3 O Aから始まり、 図 3 0 L ~ Iに至るまでに示 す 3 6 0度 (0度) から始まって 2 4 0度に到達するまでの回転を第 4回転、 図 3 0 I〜Eに示す 2 4 0度から始まって 1 2 0度に到達するまでの回転を第 5回 転、 図 3 0 E〜Aに示す 1 2 0度から始まって 0度に到達するまでの回転を第 6 回転とする。 これらの第 1回転から第 6回転までの画像およびそれに対応する記 号が、 回転単位記憶装置 6 4 A, 6 4 B…にそれぞれ記憶されている。
【0 0 9 8】 本実施形態に係る変化情報認識装置 6においては、 上記第 3の実 施形態に係る変化情報認識装置 3による変化情報認識方法と同様の方法により、 回転する認識対象物からなる回転単位の位置およびその回転動作を認識すること ができる。 具体的には、 上記第 3の実施形態における口基本変形情報記憶装置 3 2を本実施形態の回転情報記憶装置 6 2、 口変形状態比較装置 3 3を回転物体比 較装置 6 3に置き換え、 図 1 7に示すフローチャートと同様の手順による処理を 行うことにより、 回転単位の位置およぴ回転動作を認識することができる。 【0 0 9 9】 こうして、 動画撮像装置から出力された動画像に基づいて、 回転 する認識対象物の位置と、 回転単位に対応する記号を得ることができ、 その記号 からどのような回転状態となっているかを識別することができる。
【0 1 0 0】 次に、 本発明に第 7の実施形態について説明する。 図 3 1は、 本 実施形態に係る変化情報認識装置のプロック構成図である。 図 3 1に示すように 、 本実施形態に係る変化情報認識装置 7は、 学習装置 7 1と認識装置 7 2とを備 えている。 学習装置 7 1には、 特徴空間生成装置 7 3及び射影装置 7 4が設けら れている。 射影装置 7 4は、 学習装置 7 1及び認識装置 7 2の双方で用いられる
【0 1 0 1】 学習装置 7 1における特徴空間生成装置 7 3には、 あらかじめ用 意された学習用系列情報 J 7 1が入力されている。 特徴空間生成装置 7 3には、 学習用系列情報 J 7 1をサンプル用としてたとえば 3 0程度用意されており、 特 徴空間生成装置 7 3は、 これらの学習用系列情報 J 7 1から特徴空間を生成する ί 0 1 0 2〗 射影装置 7 4は、 特徴空間生成装置 Ί 3および図示しない動画撮 像装置に接続されている。 特徴空間生成装置 7 3は、 特徴空間を生成するための 特徴空間生成情報を射影装置 7 4に出力する。 また、 図示しない動画撮像装置は 、 認識対象物となる口を含む顔の動画を撮像しており、 撮像された顔の動画像が 認識用系列情報 J 7 2として動画撮像装置から出力される。 射影装置 7 4は、 動 画撮像装置から出力された顔の動画像 (認識用系列情報 J 7 2 ) に基づいて、 こ の動画像を特徴空間に射影して得られる射影軌跡を生成している。
【0 1 0 3】 また、 学習装置 7 1には、 特徴空間に、 後に説明するチューブ状 のモデル (以下 「ハイパーチューブ」 という) を生成するハイパーチュ一ブ生成 装置 7 5が設けられており、 学習装置 7 1および認識装置 7 2のそれぞれに用い るハイパーチューブ記憶装置 7 6が設けられている。 さらに、 認識装置 7 2には 、 特徴空間におけるハイパーチューブの変化を認識する系列比較装置 7 7が設け られている。 射影装置 7 4は、 ハイパーチューブ生成装置 7 5および系列比較装 置 7 7に動画像の射影軌跡を射影軌跡情報として出力する。 【0 1 0 4】 ハイパーチューブ生成装置 7 5は、 射影装置 7 4から出力された 動画像の射影軌跡情報から、 特徴空間におけるハイパーチューブを生成し、 ハイ パーチューブ情報としてハイパーチューブ記憶装置 7 6に出力する。 ハイパーチ ユーブ記憶装置 7 6では、 ハイパーチューブ生成装置 7 5から出力されたハイパ 一チューブ情報と、 各ハイパーチューブに対応する記号とを記憶している。 また 、 ハイパーチューブ記憶装置 7 6は、 記憶しているハイパーチューブ情報と各ハ ィパーチューブに対応する記号とを系列比較装置 7 7に出力する。 系列比較装置 7 7では、 射影装置 7 4から出力された射影軌跡と、 ハイパーチューブ記憶装置 7 6から出力されたハイパーチューブ情報とを比較することにより、 変化情報単 位の位置およびそれに対応する記号を求める。 それから、 それぞれ変化情報単位 位置情報 J 7 3および変化情報対応記号情報 J 7 4として、 それぞれ図示しない 出力装置に出力する。
【0 1 0 5〗 本実施形態に係る特徴空間生成装置 7 3では、 画像から所定の特 徴量を取り出して特徴空間で表現している。 たとえば、 1枚の画像の特徴量が 3 次元ベクトルで表現される場合、 1枚の画像は三次元空間上の 1点として表現さ れる。 この前提のもと、 たとえば図 3 2に示す 「ん」 から 「あ」 を発話する口の 動きを示す動画像を入力し、 動画像を構成する画像をそれぞれ三次元空間上にプ 口ットする。 すると、 図 3 3に示すように、 この動画像を表す 9枚の各画像は、 それらの各画像の点をその時間順に結んだ特徴空間上の軌跡として表現される。
[ 0 1 0 6 ] この特徴量は特に限定されるものではないが、 たとえば主成分分 析によって得られた上位固有値に対応する固有べクトルを基底とする空間 (固有 空間) への射影成分とすることができる。 たとえば、 いま、 画像をべクトルとみ なすと、 縦 1 6 X横 1 6画素の濃淡画像は、 各要素に濃淡値を持つ 1 6 X 1 6 = 2 5 6次元のベタトルとして表現することができる。 そこで、 ベクトルとして表 現された多数の画像を学習用系列情報 J 7 1とし、 これらの学習用系列情報 J 7 1におけるべクトルの分散共分散行列を求め、 その固有べクトルと対応する固有 値を求める。 そして、 固有値の値の大きい方から 3つの固有ベクトルを取り出し 、 これらの 3つのベクトルが張る空間を特徴空間 (固有空間) とする。 そして、 学習用系列情報 J 7 1における 2 5 6次元のべクトルデータを、 この特徴空間に 射影したときの成分を各軸の値として持つ点を考えると、 ある 2 5 6次元空間の 1点として表現できる 1枚の画像は、 三次元空間の 1点として表現することがで きる。
【0 1 0 7】 この点について、 さらに具体的に説明すると、 たとえば学習用系 列情報 J 7 1として、 図 1 4に示す 3 0パターンの変形単位の動画像を表す複数 の画像を複数の人数分用意する。 そのうちの 1つのパターンである変形単位、 た とえば記号 1 2で表される変形単位の場合では、 「あ」 を発音したときの口の形 から、 「い」 を発音したときの口の形まで変形する口の形の変形を連続的に数枚 の画像で表現する。 このような図 1 4に示す 3 0パターンの変形単位について、 複数人数分の学習用系列情報 J 7 1を用意し、 これらの学習用系列情報 J 7 1か ら特徴空間 (固有空間) を求める。
【0 1 0 8】 ここで求められた特徴空間は、 学習用系列情報 J 7 1を用いた口 画像をより少ない情報量として表現することができる空間となっている。 この特 徴空間では、 見かけ上わずかな違いしかない変形をしている画像は、 特徴空間の 中では互いに近 、位置の点に射影される。
[ 0 1 0 9 ] 次に、 ハイパーチューブの生成について説明する。
【0 1 1 0】 特徴空間生成装置 7 3で特徴空間が生成された後、 射影装置 7 4 には学習用系列情報 J 7 1が出力される。 射影装置 7 4では、 生成された特徴空 間に学習用系列情報 J 7 1を射影して射影軌跡を生成する。 図 3 4は、 三次元の 特徴空間を示しており、 この特徴空間に、 たとえば 「ん」 → 「あ」 の変形を示す 折れ線、 「ん」 → 「い」 の変形を示す折れ線、 「ん」 → 「う」 の変形を示す折れ 線、 「ん」 → 「え」 の変形を示す折れ線、 「ん」 → 「お」 の変形を示す折れ線が 示されている。 そして、 これらの軌跡 (折れ線) を滑らかな曲線として表現する 【0 1 1 1】 ところで、 当然のことながら、 同じ音を発している場合でも、 人 によって口の形は微妙に異なっているし、 口の開き方や口の形も微妙に違う。 し たがって、 同じ発話であっても特徴空間に描かれる軌跡はまったく同じものには ならず、 適当なばらつきを持っていることになる。 たとえば図 3 5に示す曲線で は、 複数の人 (6人) がある発話を行った際の口の動きを特徴空間に射影した際 の曲線 C 1〜C 6を示している。 これらの複数の曲線 C 1〜C 6に見られるよう に、 特徴空間に描かれる軌跡はまったく同じものにはならず、 適当なばらつきを 持っている。
【0 1 1 2】 そこで、 図 3 6に示すように、 同じ変形を表す複数の軌跡を代表 する曲線 C Cを 1つ設定し、 その代表軌跡のまわりのばらつきを円 E 1, E 2 · ·· の半径で表現すると、 ちょうどチューブ状のモデルを構成することができる。 こ のチューブ状のモデルをハイパーチューブ H Tとすることができる。
【0 1 1 3〗 このハイパーチューブ H Tは、 同一の変形を表すものであるが、 個人差などによって生じるばらつきを確率的に表現したモデルとであると考える ことができる。 このハイパーチューブ H Tを生成する際の代表の軌跡 C Cを求め るには、 図 3 5に示すような同一の変形を表す複数の軌跡 C 1〜C 6などを平均 したものとすることもできるし、 別の適当な計算方法を採用することもできる。 また、 ばらっきを表す円の半径は、 代表軌跡上の各点の進行方向とは垂直の方向 にある各軌跡上の点までの距離の分散 σ 2を求めた上でそのばらつきを正規分布 とみなして 9 5 %点である 1 . 9 6 σを半径とすることもできるし、 他の方法を 用いて求めてもよい。
【0 1 1 4】 こうして生成したハイパーチューブ Η Τを特徴空間上に 1つまた は複数配置しておく。 複数のハイパーチューブ Η Τを配置した場合、 1つのハイ パーチューブは 1つの変形に対応することになる。 図 3 7に複数のハイパーチュ ーブを配置した特徴空間を示すが、 たとえばハイパーチューブ Η Τ 1はある変形 A、 たとえば発話時の 「あ」 から 「い」 への変形を表し、 ハイパーチューブ H T 2は、 別の変形 B、 たとえば発話時の 「う」 から 「え」 への変形を表している。 図 3 7中では、 ハイパーチューブは H T 1 , H T 2の 2つが存在している。 図中 の a , b, cは、 射影装置 7 4から出力された動画像の射影軌跡情報に相当する 。
【0 1 1 5】 続いて、 本実施形態に係る変化情報認識装置 7による変化情報認 識方法について説明する。 ここでは、 まず、 ハイパーチューブを生成する手順に ついて説明する。 図 3 8は、 本実施形態に係る変化情報認識方法のうち、 ハイパ 一チューブを生成する手順を示すフローチャートである。 学習装置 7 1には、 あ らかじめ多くの変化情報を学習させてハイパーチューブを生成させる。 認識装置 7 2では、 そのハイパーチューブを利用して、 変化情報の認識を行う。 ハイパー チューブを生成するための学習用系列情報 J 7 1となる動画像はある音を発音し たときの口の形から、 別の音を発音したときの口の形への変形を連続して時間順 に並べたものである。 これを一つの変形単位とすると、 認識したいすべての変形 分の学習用系列情報 J 7 1を複数人数、 たとえば 3 0 0人分それぞれの変化分に ついて用意する ( S 7 1 ) 。 変化単位のパターン数は、 図 1 4に示したとおり 3 0パターンが必要である。 このパターン数は、 認識する対象と認識の詳細さによ つて適宜規定することができる。 たとえば、 変化情報認識装置 7を音声認識装置 として用いて音声認識を行う場合、 音素の数が 2 9であれば、 とり得る変形のパ ターンは 2 9 X 2 8の 8 1 2パターンとなる。
【0 1 1 6】 次に、 3 0 0人分用意した学習用系列情報 J 7 1から、 特徴空間 生成装置 7 3を用いて特徴空間を生成する (S 7 2 ) 。 特徴空間の生成は次のよ うに行われる。 一般に、 画像の画素ごとの色や濃淡値をそのまま扱おうとすると 、 情報量が多すぎて計算時間が掛かり過ぎたり、 認識には不必要な余計な情報が 含まれていたりするために、 これらのことが問題となることが多い。 そこで、 画 像から何らかの特徴量を取り出して処理をすることが一般的である。 本実施形態 では、 画素ごとの濃淡値を特徴量として利用する。 いま、 1枚の画像の画素数を nとすると、 上記のとおり、 濃淡画像の場合には画素ごとの濃淡値 (特徴量) を 要素として持つ n次元のベタトルとして表現することができ、 それは n次元空間 上の 1点として表される。 ここで、 画像から取り出された特徴量が m次元べタト ルで表されるとし、 ; m< nであるならば、 n次元の情報量を持つ 1枚の画像は、 特徴量抽出により m次元に圧縮され、 m次元空間上の 1点として表すことができ る。 特徴空間生成装置 73では、 この m次元の空間を張る m本の軸を求める。 本 実施形態では、 3本の軸を求めて 3次元空間を生成した場合について説明する。 【011 7】 特徴空間を求めるにはさまざまな方法があるが、 本実施形態では 、 固有空間を特徴空間としている。 固有空間とは、 主成分分析により求められた 固有べクトルと固有値のペアのうち、 固有値大きい方から m個の固有べクトルカ S 張る空間をいう。 1枚の画像を n次元のベクトルとみなし、 ここではその画像の ベタトルを Xと示す。 固有空間を求めるには、 最低 2枚の画像のベクトルが必要 であるが、 画像が多量にあることが望ましい。 これらの複数の画像におけるそれ ぞれのベクトル Xを入力して分散共分散行列を、 下記 (1) 式によって算出する
【0 1 1 8】 S = E { (x-mx) (x— mx) T} ■ · · (1)
ここで、 mxは、 複数のベタトル Xの平均べク トルで、 mx = E{x}と定義され る。
【01 1 9】 次に、 (2) 式に示す固有値問題を解く。
【0120】 S Uj =え · · · (2)
上記 (2) 式において、 求めるべき固有空間の次元を m次元とすると、 固有値 の大きさを比較し、 大きい方から m個の固有値に対応する固有ベク トル {uい u 2, . · ·, um}によって張られる空間が特徴空間となる。 本実施形態では、 3 次元の固有空間を生成する (m=3) ので、 固有ベクトル {uい u2, u3}から 3次元の固有空間を生成する。 【0121】 こうして特徴空間を生成したら、 射影装置 74には、 学習用系列 情報 J 71が出力されるとともに、 特徴空間生成装置 73から特徴空間生成情報 である固有ベクトル u (={u1; u2, · ■ · , uj) が出力される。 射影装置 74では、 動画像を特徴空間に射影して得られる射影軌跡を生成する。 この射影 軌跡としては、 上記固有べクトル uを利用し、 学習用系列情報 J 71の画像にお ける n次元べクトル Xを下記 (3) 式によって変換されてなる m次元特徴べクト ル yを用いることができる。
【0122】 y = {uい u 2, ■ · -, um}Tx · · · (3)
上記のように、 本実施形態では、 m= 3としているので、 3次元特徴べクトル yとする。
【0123】 こうして特徴空間および 3次元特徴べクトルを生成したら、 特徴 空間生成装置 73は特徴空間をハイパーチューブ生成装置 75に出力し、 射影装 置 74は、 3次元特徴べク トルをハイパーチューブ生成装置 75に出力する。 ハ ィパーチューブ生成装置 75では、 出力された特徴空間および 3次元特徴べクト ルに基づいて、 ハイパーチューブを生成する。 ハイパーチューブを生成する前提 として、 1枚の画像は 3次元特徴空間上の 1点に射影されることになるので、 一 連の変形を表す画像列はその 3次元特徴空間上の点の軌跡として表すことができ る。 ここで、 学習用系列情報 J 71が、 複数の変形単位ごとに用意されているの で、 射影装置 74からは、 学習用系列情報 J 71の数に対応する複数の 3次元特 徴べクトル列が出力される。 ハイパーチュープ生成装置 75では、 これらの複数 の 3次元特徴べクトル列を、 射影前の学習用系列情報 J 71における変形単位ご とに分類する (S 73) 。 続いて、 射影前の学習用系列情報 J 71における変形 単位ごとに分類された 3次元特徴べクトル列を、 それらの変形単位ごとに特徴空 間にプロットする、 変形単位の数に対応した複数の軌跡を求める (S 74) 。 こ れらの軌跡は、 たとえば図 35に示す曲線 C 1〜C 6で表される。
【0 1 24】 こうして、 特徴空間における複数の軌跡を求めたら、 これらの複 数の軌跡を代表する代表軌跡を求める (S 75) 。 代表軌跡は、 様々の方法によ り求めることができるが、 ここでは得られる複数の軌跡の平均を採用する方法に ついて説明する。 いま、 各軌跡は同一の種類の変形を表す軌跡であるので、 特徴 空間上ではおおむね似た軌跡を描く。 しかし、 同一の種類の変形を表す場合でも 、 その系列を構成する 3次元特徴ベク トルの数と配置は同じとは限らない。 いま
、 特徴空間に 3次元特徴べクトルをプロットした点をつないで形成した 3つの軌 跡の例を図 39に示す。 図 39に示す例では、 同一の変形を示す 3つの軌跡 C 1 1〜C 1 3を示しており、 軌跡 C 1 1は、 特徴空間にプロットされた 6つの点 P 1 1〜P 1 6をつないで形成されている。 これに対して、 軌跡 C 12は、 特徴空 間にプロットされた 5つの点 P 21〜P 25を、 軌跡 C 1 3は、 特徴空間にプロ ットされた 5つの点 P 31〜P 35をそれぞれつないで形成されている。
[0 1 25] そこで、 各軌跡が同数の点から構成されるように、 各軌跡 C 1 1 〜C 1 3上の点をプロットし直す再設定を行う。 各軌跡 C 1 1〜C 1 3上の点を プロットし直す方法としては、 スプライン曲線法などのさまざまな方法があるが 、 ここでは、 単純に軌跡 C 1 1〜C 1 3を、 それぞれが同じ距離比率となるよう に設定する。 そのため、 図 40に示すように、 各軌跡 C 1 1〜C 1 3をそれぞれ 7つの点から構成されるように、 点を配置しなおしている。 こうして、 軌跡 C 1 1上には点 P 41〜Ρ 47、 軌跡 C 1 2上には点 Ρ 51〜Ρ 57、 軌跡 C 1 3上 には点 Ρ 6 1-P 67がそれぞれ配置された形になる。
[01 26] そして、 これらの各軌跡 C 1 1〜 C 1 3について、 それぞれ順番 が対応する点の座標値の平均を算出し、 この座標値の平均にあたる点をそれぞれ プロットして、 これらの点をつなぎ合わせる。 具体的には、 軌跡 C 1 1における 点 Ρ 41、 軌跡 C 12における点 Ρ 51、 軌跡 C 13における点 Ρ 61の座標の 平均値を計算して、 点 Ρ 71の座標を算出する。 同様に、 点 Ρ42, Ρ 52, Ρ 62の座標から点 Ρ 72の座標、 点 Ρ 43, Ρ 53, Ρ 63の座標から点 Ρ 73 の座標、 点 Ρ 44, Ρ 54, Ρ 64の座標から点 Ρ 74の座標を算出する。 また 、 点 P45, P 55, P 65の座標から点 P 75の座標、 点 P 46 , P 56 , P 66の座標から点 P 76の座標、 点 P47, P 57, P 67の座標から点 P 77 の座標をそれぞれ算出する。 こうして求められた各点 P 71〜P 77をつなぎ合 わせることにより、 代表軌跡 CCを生成することができる。
【0127】 こうして、 代表軌跡を求めたら、 代表軌跡の各点について、 その 周囲の軌跡までの距離の分散を求める (S 76) 。 この分散は、 代表軌跡 CC上 の各点 P 71〜P 77における代表軌跡 CMの進行方向と直交する方向に超平面 を仮定し、 この超平面と各軌跡 C 11〜C 1 3とが交差した点との距離の分散に よって求めることができる。 なお、 本実施形態では 3次元空間の例を示している ので、 超平面ではなく二次元の平面であるが、 説明の容易のため、 以降も超平面 と記述する。 この点について、 図 41を用いて説明すると、 代表軌跡 CM上の点 P 72における代表軌跡 CMの進行方向と直交する超平面 S P 2を仮定する。 こ の超平面 S P 2と、 各軌跡 C 1 1〜C 1 3とが交差する各点 P 42 A, P 52 A , P 53 Aを求める。 そして、 点 P 72と点 P 42 Aとの距離、 点 P 72と点 5 2 Aとの距離、 および点 P 72と点 62 Aとの距離の分散を求める。 そして、 こ の分散を、 たとえば下記 (4) 式に示す関数における引数 Xに代入する。
【0128】 ί (χ) = 1. 96 (x) 1 2 ■ · · (4)
なお、 ここで用いた係数の 1. 96は、 係数の一例である。
【0129】 そして、 図 42に示すように、 この (4) 式における引数 Xとし て求めた ί ( χ ) を入力した値を半径とする円 Ε 2を超平面 S Ρ 2上に設定する 。 また、 代表軌跡 CC上におけるその他の各点 Ρ 71、 Ρ 73〜Ρ 77について も、 同様の処理によって超平面 S Ρ 1, S P 3〜SP 7を求め、 その上に図 36 に示すような円 E l, E 3〜E 7を求める。 こうして、 分散を引数とした関数の 値を半径とする円 E 1〜E 7を各点 P 71~P 77に設定して (S 77) 、 これ らの円 E 1〜E 7をつなげることにより、 図 36に示すようなハイパーチューブ HTを生成することができる。 【0 1 3 0】 このようにしてハイパーチューブを生成した後に、 認識処理を行 うことができるようになる。 続いて、 ハイパーチューブを用いた変化認識の処理 について説明する。 図 4 3は、 本実施形態に係る変化情報認識方法の手順を示す フローチヤ一トである。
【0 1 3 1】 まず、 図示しない動画像撮像において、 認識対象物となる人の口 を含む顔の動画像を撮像し、 認識用系列情報として射影装置 7 4に出力する。 射 影装置 7 4においては、 入力された動画像に対して、 適当な大きさのウィンドウ を設定する (S 8 1 ) 。 ウィンドウを設定したら、 このウィンドウに合わせて、 出力された動画像の一部を切り取る (S 8 2 ) 。 このようにして動画像の一部を 切り取ることにより、 ウィンドウの大きさに切り取られた動画を得ることができ る。 続いて、 切り取ったウィンドウの大きさを適宜拡大縮小し、 最終的に動画の 大きさを学習用画像 (学習用系列情報 J 7 1作成する際に用いる画像) の大きさ に合わせる ( S 8 3 ) 。 こうして、 大きさを調整されたウィンドウにおける動画 を、 特徴空間生成装置 7 3で生成した特徴空間上に、 ハイパーチューブを作成し たのと同様の手順によって、 その軌跡として写像し、 入力系列軌跡を生成する ( S 8 4 ) 。 こして生成した入力系列軌跡は、 系列比較装置 7 7に出力される。 ま た、 系列比較装置 7 7には、 ハイパーチューブ記憶装置 7 6に記憶されている複 数のハイパーチューブおよびそのハイパーチューブに対応する記号が出力される 【0 1 3 2】 系列比較装置 7 7では、 射影装置 7 4から出力された入力系列軌 跡およびハイパーチューブ記憶装置 7 6から出力されたハイパーチューブを比較 し、 両者の適合度を求める (S 8 5 ) 。 両者の適合度は次のようにして求めるこ とができる。 上述のように、 ハイパーチューブ H Tは、 同一の変形に対して生じ る個体差を確率的に表現したモデルである。 このモデルは、 代表軌跡 C C上の各 位置についてそのばらつきを円の半径で表現した確率密度関数とみなすことがで きるので、 入力系列軌跡とハイパーチューブとの適合度は、 確率として計算する ことができる。 図 44 Aは、 ある変形を表すハイパーチューブ HTおよび入力系 列軌跡 I Lの軌跡を合わせて示したものである。 ここで、 ハイパーチューブ HT は、 代表軌跡 CCを有している。 ハイパーチューブ HTが示す変形単位は、 ハイ パーチューブ HT内の進行方向により 2種類、 正反対の変形を考えることができ る。 ここでは矢印 Yの方向に沿った変形単位であるとすると、 図 44 Bに示すよ うに、 ハイパーチューブの開始点を 0、 終了点を 1とする横軸上に、 代表軌跡 C じからの距離を横軸とするグラフに対応付けすることができる。 このグラフは、 ちょうどハイパーチューブを水平に引き伸ばしたものとみなすことができる。 【0 1 3 3】 ここで、 代表軌跡 CC上の位置 Xにおけるハイパーチューブの半 径を定義域 0≤ χ≤ 1に対する関数 p (x) とし、 代表軌跡 CC上の位置 Xから の入力系列軌跡 I Lに対する距離を f ( X ) とすると、 ハイパーチューブ i と入 力系列の適合度 S iは下記 (5) 式で表すことができる。 f ん、 ヽ
Si dx (5)
0
(5) 式において、 N (。, D (x) は、 平均 0、 分散 1の正規確率密度関数と する。 上記 (5) 式により、 入力系列軌跡 I Lと、 ハイパーチューブ HTとの適 合度を求めることができる。
【0 1 34】 このような適合度を複数のハイパーチューブ HTに対して求め、 全てのハイパーチューブ HTと入力系列軌跡 I Lとの適合度との計算が終了した か否かを判断し (S 8 6) 、 終了していない場合には、 ステップ S 8 5に戻って 他のハイパーチューブ HTと入力系列軌跡 I Lとの適合度を計算する。 一方、 す ベてのハイパーチューブ HTに対して適合度を計算したら、 その入力系列軌跡 I Lとの適合度が所定のしきい値より大きいハイパーチューブ HTを選択し (S 8 7) 、 そのハイパーチューブ HTおよびそれに対応する記号を記憶しておく。
【0 1 3 5】 入力系列は、 入力動画をウィンドウに合わせて切り取つたもので あるので、 ウィンドウを移動あるいは拡大縮小し、 入力動画における他の部分に ついても同様の一連の処理を繰り返す。 そのため、 入力動画の全ての領域につい て、 上記の処理を行ったか否かを判断する (S 8 8 ) 。 その結果、 いまだ処理さ れていない領域がある場合には、 切り取り用のウィンドウを移動または拡大縮小 し (S 8 9 ) 、 ステップ S 8 2に戻って、 同様の処理を繰り返す。 一方、 すべて の領域での処理が終了したと判断したときには、 選択されたハイパーチューブ H Tに対応する変化情報対応記号情報 J 7 4 (図 3 1 ) およびそのときのウィンド ゥの変化情報単位位置情報 J 7 3を図示しない出力装置に出力する (S 9 0 ) 。 このようにして、 学習用系列情報からハイパーチューブを生成し、 それを特徵空 間に配置して入力系列との適合度を計算することにより、 入力動画像中における 認識対象物の位置と変形の種別を検出することができる。
[ 0 1 3 6 ] なお、 本実施形態において、 ある動画像を入力すると、 その動画 像は特徴空間上の軌跡としてあらわされることになるが、 その軌跡と各ハイパー チューブとの評価値を計算する手段を備えることにより、 入力された軌跡の全部 または一部がある一定値以上 (または一定値以下) の評価値を持つ場合、 その中 で最も評価値が高い (または低い) ハイパーチューブに対応する変形を認識する 態様とすることができる。
[ 0 1 3 7 ] また、 本実施形態においては、 学習用系列情報から求めたハイパ 一チューブにより、 口の動きから発話を認識する態様について説明した力 s、 他の 変形情報に対しても同様のハイパーチューブを生成した変形認識を行うことがで きる。 たとえば、 変化情報が音声取得手段から取得された音声変化である場合、 「あ」 → 「い」 、 「あ」 → 「う」 への周波数の変化をハイパーチューブで表すこ とができる。 変化情報が動画像撮像手段で撮像された動画中におけるジエスチヤ の変化である場合、 手を閉じた状態から開いた状態への変化をハイパーチューブ で表すことができる。 変化情報が動画像撮像手段で撮像された歩行者の歩行状態 の変化である場合には、 1回の歩行動作における変形をハイパーチューブで表す ことができる。 さらに、 変化情報が動画像撮像手段で撮像された表情の変化であ る場合、 無表情から喜びの表情への変化をハイパーチューブで表すこともできる 。 変化情報が動画像撮像手段で撮像された回転物体の変化である場合には、 顔の 向きが 0度の状態から 9 0度の状態に変化する際の変化をハイパーチューブで表 すことができる。
【0 1 3 8】 次に、 本発明に第 8の実施形態について説明する。
【0 1 3 9】 図 4 5は、 本実施形態に係る変化情報認識装置のプロック構成図 である。 図 4 5に示すように、 本実施形態に係る変化情報認識装置 8は、 上記第 7の実施形態と比べて、 軌跡の連続性保存装置 8 8および部分系列切り取り装置 8 9が設けられている点において主に異なる。
【0 1 4 0】 連続性保存装置 8 8には、 ハイパーチューブにおける代表軌跡に 相当する軌跡の連続性が保存されている。 軌跡の連続性は、 軌跡の変化量が、 所 定のしきレヽ値以下となっているか否かによって判断され、 所定のしさレヽ値以下の ときに連続性があると判断する。 連続性保存装置 8 8には、 部分系列切り取り装 置 8 9が接続されており、 部分系列切り取り装置 8 9には、 連続性保存装置 8 8 に保存された軌跡の連続性が連続性保存装置 8 8から出力される。
【0 1 4 1〗 次に、 本実施形態に係る変化情報認識方法について説明する。 本 実施形態に係る変化情報認識方法においては、 上記第 7の実施形態と同様、 学習 用系列情報が学習装置 8 1に出力される。 学習装置 8 1では、 出力された学習用 系列情報 J 7 1から特徴空間生成装置 8 3において特徴空間を生成し、 ハイパー チューブ生成装置 8 5においてハイパーチューブを生成し、 生成されたハイパー チューブをハイパーチューブ記憶装置 8 6が記憶する。
【0 1 4 2】 一方、 認識装置 8 2においては、 図示しない動画像撮像手段によ つて撮像された動画に基づく情報が出力される。 この情報として、 上記第 7の実 施形態では、 認識用系列情報が出力されたが、 本実施形態では、 この点について は異なる。 本実施形態では、 図示しない動画像撮像手段によって撮像された動画 像からなる入力系列情報 J 8 2を、 部分切り取り装置 8 9によって部分系列情報 J 8 3に切り取る。 ここで、 部分系列切り取り装置 8 9には、 軌跡の連続性が出 力されており、 部分系列切り取り装置 8 9では、 この軌跡の連続性に基づいて入 力系列情報 J 8 2を切り取り、 部分系列情報 J 8 3を生成する。
【0 1 4 3】 ここで、 たとえば上記第 7の実施形態では、 入力動画の一部をゥ インドウに合わせて切り取るにあたり、 図 4 6に示すように動画を構成する一定 時間の間、 切り取るウィンドウを動かすことについては想定されていないもので ある。 このことは、 変形している物体が画像中で静止していることを前提として いるものであるので、 認識対象物が画像内で移動してしまうと、 認識対象物を検 出できなくなってしまうおそれがある。 実際のシーンでは、 認識対象物は移動し ていることも少なくなく、 このような場合には対応できないことになつてしまう
【0 1 4 4〗 これに対して、 本実施形態に係る変化認識方法では、 軌跡の変化 の連続性に対応させて、 動画像の部分系列情報を形成するように、 入力系列情報 を切り取つている。 認識対象物が移動していたとして、 図 4 7 Aに示すように、 ウィンドウ Wが正しく認識対象物となる口 Mを追跡できていたとすると、 図 4 7 Bに示すように、 特徴空間に射影される射影軌跡 Cは特定のハイパーチューブ H Tと適合度が高く、 かつ特徴空間内において滑らかな曲線を描く。 また、 通常の テレビ信号程度のフレームレート (たとえば 3 0 H z ) があれば、 シーンに写る 物体の移動は隣接したフレーム間ではわずかであり、 変化もあまり急激でない。 このため、 通常、 追跡されるウィンドウ Wの位置の変化も滑らかな軌跡を描くこ とになる。
【0 1 4 5】 したがって、 特徴空間内におけるハイパーチューブの軌跡の連続 性と、 入力系列情報におけるウィンドゥ Wの移動軌跡の連続性が同時に満たされ るようにウィンドウ Wを移動させることにより、 変形しながら移動する口 Mを検 出 '追跡し、 その変形の様子も同時に検出することができる。 こうして、 部分系 列情報 J 8 3を生成し、 部分系列情報を射影装置 8 4に出力する、 射影装置 8 4 では、 部分系列情報 J 8 3を特徴空間に射影して部分系列の軌跡情報 J 8 4を生 成し、 系列比較装置 8 7に出力する。 系列比較装置 8 7では、 射影装置 7 4から 出力された部分系列の軌跡およびハイパーチューブ記憶装置 7 6から出力された ハイパーチューブを比較し、 両者の適合度を上記第 7の実施形態と同様の方法に よって求める。 そして、 上記第 7の実施形態と同様にして選択されたハイパーチ ユーブ H Tに対応する記号情報 J 8 6およびそのときのウィンドウの位置情報 J 8 5を図示しない出力装置に出力する。 このようにして、 動画像中の認、識対象物 の位置と変形の種別を検出することができる。
[ 0 1 4 6 ] このように、 本実施形態に係る変化認識方法においては、 軌跡の 連続性を保存する連続性保存手段を設けたので、 動画像中で移動する認識対象物 の変形およびその位置を確実に認識することができる。
[ 0 1 4 7 ] なお、 上記実施形態における図 1および図 1 2では、 実施形態の 説明を容易にするために、 人の口を例にして説明したが、 物体の変形を伴うもの であれば容易に他のものにも容易に適用することができる。
【0 1 4 8】 以上のとおり、 本発明によれば、 認識対象物の変化状態を正確に 認識して、 たとえば人の話す言葉などを認識することができるようにした変化情 報認識装置および変化情報認識方法を提供することができる。
産業上の利用可能性
【0 1 4 9】 本発明は、 口の動きや口から発せられる音声、 または人の動作な ど、 認識対象物の変化状態を認識する変化情報認識装置および変化情報認識方法 に利用することができる。

Claims

請求の^ S囲
1 . 認識対象物の変化情報を取得する変化情報取得手段と、
前記認識対象物の基本的な変化状態を基本変化情報としてあらかじめ記憶する 基本変化情報記憶手段と、
前記変化情報取得手段で取得された前記認識対象物の変化情報と、 あらかじめ 記憶された前記基本変化情報とを比較して、 前記認識対象物の変化状態を認識す る変化状態比較手段と、
を備えることを特徴とする変化情報認識装置。
2 . 前記基本変化情報記憶手段が、前記認識対象物の変化状態を基本単 位に分割した変化情報単位として前記基本変化情報を記憶している請求の範囲第
1項に記載の変化情報認識装置。
3 . 前記変化情報取得手段が、前記認識対象物を撮像する撮像手段であ り、
前記変化情報が、 前記撮像手段によって取得した画像における発話に伴う口周 辺の画像変化に関する情報である請求の範囲第 1項または請求の範囲第 2項に記 載の変化情報認識装置。
4 . 前記変化情報取得手段が、前記認識対象物が発生する音を取得する 集音手段であり、
前記変化情報が、 前記集音手段によつて取得した前記認識対象物が発生する音 の周波数成分変化に関する情報である請求の範囲第 1項または請求の範囲第 2項 に記載の変化情報認識装置。
5 . 前記変化情報取得手段が、前記認識対象物を撮像する撮像手段であ り、
前記変化情報が、 前記撮像手段によって取得した画像における前記 識対象物 の動きに伴う画像変化に関する情報である請求の範囲第 1項または請求の範囲第 2項に記載の変化情報認識装置。
6 . 前記変化情報取得手段が、前記認識対象物を撮像する撮像手段であ り、
前記変化情報が、 前記撮像手段によって取得した画像における前記認識対象物 の回転に伴う画像変化に関する情報である請求の範囲第 1項または請求の範囲第 2項に記載の変化情報認識装置。
7 . 前記基本変化情報が、特徴空間上の情報の系列として設定された基 本変化系列情報であり、
前記変化情報取得手段によつて取得した前記認識対象物の変化系列情報を前記 特徴空間へ射影して射影変化情報を作成する変化情報射影装置をさらに備え、 前記変化状態比較手段が、 前記認識対象物の変化情報と前記基本変化情報との 比較に代えて、 前記射影変化情報と前記基本変化系列情報とを比較して、 前記検 出象物の変化状態を認識する請求の範囲第 1項または第 2項に記載の変化情報認
8 . 前記変化情報取得手段が、前記認識対象物を撮像する撮像手段であ り、
前記変化情報記憶手段が、 前記基本変化系列情報を前記特徴空間上のチューブ 状の領域としてあらかじめ記憶しており、
前記変化状態比較手段が、 前記変化情報取得手段によつて取得した連続する複 数枚の画像によって定義される前記認識対象物の変化状態を前記特徴空間上の線 状の射影軌跡として把握し、 前記チューブ状領域と前記射影軌跡とを比較して前 記認識対象物の変化状態を認識する請求の範囲第 7項に記載の変化情報認識装置
9 . 前記変化状態比較手段は、前記基本変化系列情報の連続性と、前記 射影変化情報の連続性とを比較することにより、 前記認識対象物の変化状態を認 識する請求の範囲第 7項または請求の範囲第 7項に記載の変化情報認識装置。
1 0 . 前記変化情報取得手段で取得された前記認識対象物の変化情報に 基づいて、 前記基本変化系列情報を作成する学習手段をさらに備える請求の範囲 第 7項または請求の範囲第 9項に記載の変化情報認識装置。
1 1 . 認識対象物の変化情報を取得する変化情報取得工程と、 前記認識対象物の基本的な変化状態を基本変化情報としてあらかじめ記憶する 基本変化情報予備記憶工程と、
前記変化情報取得工程において取得した前記認識対象物の変化情報と、 あらか じめ記憶された前記基本変化情報とを比較して、 前記認識対象物の変化状態を認、 識する変化状態比較工程と、
を備えることを特徴とする変化情報認識方法。
1 2 . 前記基本変化予備記憶工程で、前記認識対象物の変化状態を基本 単位に分割した変化情報単位を前記基本変化情報としてあらかじめ記憶しておく 請求の範囲第 1 1項に記載の変化情報認識方法。
1 3 . 前記変化情報取得工程において取得する変化情報が前記認識対象 物を撮像した画像に関する情報であり、 かつ、 前記基本変化情報予備記憶工程に おいて予め記憶される基本変化情報も画像に関する情報であり、 前記変化状態比 較工程において、 前記変化情報及び前記基本変化情報の画像に関する情報を比較 して前記認識対象物の変化状態を認識する請求の範囲第 1 1項に記載の変化情報 認識方法。
1 4 . 前記変化情報取得工程において取得する変化情報が前記認識対象 物が発生する音に関する情報であり、 かつ、 前記基本変化情報予備記憶工程にお いて予め記憶される基本変化情報も音に関する情報であり、 前記変化状態比較ェ 程において、 前記変化情報及び前記基本変化情報の音の周波数成分を比較して前 記認識対象物の変化状態を認識する請求の範囲第 1 1項に記載の変化情報認識方 法。
PCT/JP2004/005155 2003-04-09 2004-04-09 変化情報認識装置および変化情報認識方法 WO2004090867A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP04726766.1A EP1619660B1 (en) 2003-04-09 2004-04-09 Change information recognition device and change information recognition method
US11/240,598 US7302086B2 (en) 2003-04-09 2005-10-03 Change information recognition apparatus and change information recognition method
US11/976,691 US7508959B2 (en) 2003-04-09 2007-10-26 Change information recognition apparatus and change information recognition method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003105649A JP4075670B2 (ja) 2003-04-09 2003-04-09 変化情報認識装置および変化情報認識方法
JP2003-105649 2003-04-09

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US11/240,598 Continuation US7302086B2 (en) 2003-04-09 2005-10-03 Change information recognition apparatus and change information recognition method
US11/976,691 Continuation US7508959B2 (en) 2003-04-09 2007-10-26 Change information recognition apparatus and change information recognition method

Publications (1)

Publication Number Publication Date
WO2004090867A1 true WO2004090867A1 (ja) 2004-10-21

Family

ID=33156887

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/005155 WO2004090867A1 (ja) 2003-04-09 2004-04-09 変化情報認識装置および変化情報認識方法

Country Status (5)

Country Link
US (2) US7302086B2 (ja)
EP (2) EP1881484B1 (ja)
JP (1) JP4075670B2 (ja)
DE (1) DE602004022472D1 (ja)
WO (1) WO2004090867A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293455A (ja) * 2005-04-06 2006-10-26 Dainippon Printing Co Ltd 不適正データ確認システム
US7551801B2 (en) * 2006-04-17 2009-06-23 Honda Motor Co., Ltd. Classification of composite actions involving interaction with objects
JP2008310382A (ja) * 2007-06-12 2008-12-25 Omron Corp 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体
JP4922095B2 (ja) * 2007-08-01 2012-04-25 日本放送協会 感情表現抽出処理装置及びプログラム
KR100978929B1 (ko) * 2008-06-24 2010-08-30 한국전자통신연구원 기준 제스처 데이터 등록방법, 이동단말의 구동방법 및이를 수행하는 이동단말
US8903130B1 (en) * 2011-05-09 2014-12-02 Google Inc. Virtual camera operator
JP5837860B2 (ja) * 2012-06-11 2015-12-24 Kddi株式会社 動き類似度算出装置、動き類似度算出方法およびコンピュータプログラム
US10518480B2 (en) 2018-04-02 2019-12-31 Nanotronics Imaging, Inc. Systems, methods, and media for artificial intelligence feedback control in additive manufacturing
US11084225B2 (en) 2018-04-02 2021-08-10 Nanotronics Imaging, Inc. Systems, methods, and media for artificial intelligence process control in additive manufacturing
CN115210781A (zh) * 2021-01-26 2022-10-18 京东方科技集团股份有限公司 控制方法、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05249990A (ja) * 1992-03-04 1993-09-28 Sony Corp パターンマッチング方法およびパターン認識装置
JPH07146938A (ja) * 1993-11-25 1995-06-06 Omron Corp 信号波形データ比較装置およびその方法
JPH07261789A (ja) * 1994-03-22 1995-10-13 Mitsubishi Electric Corp 音声認識の境界推定方法及び音声認識装置
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH11353468A (ja) * 1998-06-11 1999-12-24 Nippon Hoso Kyokai <Nhk> 発話速度計測システム、方法および記録媒体
JP2000099071A (ja) * 1998-09-18 2000-04-07 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置及びその方法
JP2001147697A (ja) * 1999-11-19 2001-05-29 Matsushita Electric Ind Co Ltd 音響データ分析方法及びその装置
JP2001209814A (ja) * 2000-01-24 2001-08-03 Sharp Corp 画像処理装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07306692A (ja) * 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声認識装置及び音声入力装置
JPH09305195A (ja) 1996-05-13 1997-11-28 Omron Corp 音声認識装置および音声認識方法
JP3112254B2 (ja) * 1997-03-04 2000-11-27 富士ゼロックス株式会社 音声検出装置
JPH10274516A (ja) 1997-03-31 1998-10-13 Victor Co Of Japan Ltd 顔の方向検出装置
US6219539B1 (en) * 1997-04-08 2001-04-17 Nortel Networks Corporation Systems and methods for implementing private wireless communications
US6219639B1 (en) * 1998-04-28 2001-04-17 International Business Machines Corporation Method and apparatus for recognizing identity of individuals employing synchronized biometrics
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
JP3403363B2 (ja) 1999-11-01 2003-05-06 株式会社国際電気通信基礎技術研究所 3次元連続動作の検定装置
JP2002197465A (ja) 2000-03-31 2002-07-12 Fujitsu Ltd 自動口形状検出装置とそれを用いた自動単語認識装置
US7076429B2 (en) * 2001-04-27 2006-07-11 International Business Machines Corporation Method and apparatus for presenting images representative of an utterance with corresponding decoded speech

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05249990A (ja) * 1992-03-04 1993-09-28 Sony Corp パターンマッチング方法およびパターン認識装置
JPH07146938A (ja) * 1993-11-25 1995-06-06 Omron Corp 信号波形データ比較装置およびその方法
JPH07261789A (ja) * 1994-03-22 1995-10-13 Mitsubishi Electric Corp 音声認識の境界推定方法及び音声認識装置
JPH08187368A (ja) * 1994-05-13 1996-07-23 Matsushita Electric Ind Co Ltd ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置
JPH11353468A (ja) * 1998-06-11 1999-12-24 Nippon Hoso Kyokai <Nhk> 発話速度計測システム、方法および記録媒体
JP2000099071A (ja) * 1998-09-18 2000-04-07 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置及びその方法
JP2001147697A (ja) * 1999-11-19 2001-05-29 Matsushita Electric Ind Co Ltd 音響データ分析方法及びその装置
JP2001209814A (ja) * 2000-01-24 2001-08-03 Sharp Corp 画像処理装置

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ABE Y. ET AL.: "Jotikai sen'i sokubakugata HMM ni yoru on'in kijutsu", THE ACOUSTICAL SOCIETY OF JAPAN HEISEI 5 NENDO SHUKI KENKYU HAPPYOKAI, 5 October 1993 (1993-10-05), pages 9 - 10, XP002984729 *
FUNAYAMA T. ET AL.: "Fukusu no doteki na ami no model no kyocho to sono kaobuhin chushutsu eno oyo", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS GIJUTSU KENKYU HOKOKU UPATTERN NINSHIKI.RIKAI], vol. 95, no. 446, 22 December 1995 (1995-12-22), pages 15 - 22, XP002984730 *
KADOMARU T. ET AL.: "Koshin keijo henka no tokucho o riyoshita wasoku henka joho chushutsu ni kansuru kisoteki kento", THE ACOUSTICAL SOCIETY OF JAPAN 2000 NEN SHUKI KENKYU HAPPYOKAI KOEN RONBUNSHU I, 20 September 2000 (2000-09-20), pages 253 - 254, XP002984733 *
SAGAYAMA S.: "Topikkusu 16 DPvs.HMM", NIPPON ONKYO GAKKAISHI, vol. 57, no. 1, 25 December 2000 (2000-12-25), pages 68, XP002984728 *
See also references of EP1619660A4 *
SUGAWARA K. ET AL.: "Gazo joho o toriireta tango ninshiki system no jitsujikan jitsugen", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS GIJUTSU KENKYU HOKOKU UPATTERN NINSHIKI.MEDIA RIKAI], vol. 99, no. 710, 17 March 2000 (2000-03-17), pages 57 - 63, XP002984732 *
TAMOTO M. ET AL.: "Onsei no onkyoteki tokusei o mochiita kaohoko ninshiki", THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS GIJUTSU KENKYU HOKOKU UONSEI], vol. 96, no. 364, 15 November 1996 (1996-11-15), pages 1 - 4, XP002984731 *

Also Published As

Publication number Publication date
EP1881484B1 (en) 2009-08-05
JP4075670B2 (ja) 2008-04-16
US20080056582A1 (en) 2008-03-06
US20060029277A1 (en) 2006-02-09
EP1881484A1 (en) 2008-01-23
US7302086B2 (en) 2007-11-27
DE602004022472D1 (de) 2009-09-17
EP1619660B1 (en) 2014-05-07
EP1619660A1 (en) 2006-01-25
US7508959B2 (en) 2009-03-24
JP2004310606A (ja) 2004-11-04
EP1619660A4 (en) 2007-02-28

Similar Documents

Publication Publication Date Title
US7508959B2 (en) Change information recognition apparatus and change information recognition method
US7720775B2 (en) Learning equipment and learning method, and robot apparatus
Matthews et al. Extraction of visual features for lipreading
US11783615B2 (en) Systems and methods for language driven gesture understanding
Ong et al. Automatic sign language analysis: A survey and the future beyond lexical meaning
Azar et al. Trajectory-based recognition of dynamic Persian sign language using hidden Markov model
JP2005044330A (ja) 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
KR20010062767A (ko) 정보 처리 장치, 정보 처리 방법 및 저장 매체
Hassanat Visual speech recognition
Kaluri et al. An enhanced framework for sign gesture recognition using hidden Markov model and adaptive histogram technique.
Er-Rady et al. Automatic sign language recognition: A survey
Yang et al. Modeling dynamics of expressive body gestures in dyadic interactions
CN115169507B (zh) 类脑多模态情感识别网络、识别方法及情感机器人
Shinde et al. Real time two way communication approach for hearing impaired and dumb person based on image processing
Ballard et al. A multimodal learning interface for word acquisition
JP4518094B2 (ja) 変化情報認識装置および変化情報認識方法
KR101621304B1 (ko) 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템
Yousfi et al. Automatic speech recognition for the holy Qur ‘an, A review
JPH08115408A (ja) 手話認識装置
Goutsu et al. Multi-modal gesture recognition using integrated model of motion, audio and video
KR100795947B1 (ko) 치열영상을 이용한 생체인식 시스템과 그 인식 방법 및이를 기록한 기록매체
Gopinath et al. A Survey on Hand Gesture Recognition Using Machine Learning
Nakamura et al. Multimodal concept and word learning using phoneme sequences with errors
Kirandziska et al. Comparing emotion recognition from voice and facial data using time invariant features
Demidenko et al. Developing Automatic Markerless Sign Language Gesture Tracking and Recognition System

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2004726766

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11240598

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2004726766

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11240598

Country of ref document: US