WO2012070429A1 - 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム - Google Patents

感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム Download PDF

Info

Publication number
WO2012070429A1
WO2012070429A1 PCT/JP2011/076292 JP2011076292W WO2012070429A1 WO 2012070429 A1 WO2012070429 A1 WO 2012070429A1 JP 2011076292 W JP2011076292 W JP 2011076292W WO 2012070429 A1 WO2012070429 A1 WO 2012070429A1
Authority
WO
WIPO (PCT)
Prior art keywords
expression word
sensitivity
information
processing device
sentiment
Prior art date
Application number
PCT/JP2011/076292
Other languages
English (en)
French (fr)
Inventor
恭太 比嘉
野村 俊之
裕三 仙田
真澄 石川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2012545688A priority Critical patent/JPWO2012070429A1/ja
Priority to US13/824,403 priority patent/US9183632B2/en
Publication of WO2012070429A1 publication Critical patent/WO2012070429A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Definitions

  • the present invention relates to a sensitivity expression processing apparatus, a sensitivity expression processing method, and a sensitivity expression processing program.
  • the present invention has been made in order to solve the above-described problems, and a sensitivity expression word processing apparatus and a sensitivity that can make an impression of an atmosphere and an object at the time of shooting similar to those at the time of shooting.
  • An object is to provide an expression word processing method and a sensitivity expression word processing program.
  • the sensitivity expression word processing device of the present invention analyzes a captured image, calculates a sensitivity information indicating a temporal change of a field represented in the image and an action of an object, and the sensitivity in advance.
  • a sentiment expression word extracting unit that extracts the sentiment expression word corresponding to the sentiment information calculated by the sentiment information calculating unit from the sentiment expression words expressing the sentiment stored in association with the information.
  • the Kansei expression word processing method of the present invention comprises a Kansei information calculation step of analyzing a captured image and calculating Kansei information indicating a temporal change of a field represented in the image and an action of an object, and the Kansei in advance.
  • the sensitivity expression word processing program of the present invention causes a computer to execute each step included in the above sensitivity expression word processing method.
  • the Kansei expression word processing device, Kansei expression word processing method, and Kansei expression word processing program according to the present invention analyze the inputted photographed image to calculate the Kansei information, and are expressed in the photographed image based on the Kansei information.
  • Kansei expression words corresponding to the situation of the field, the state of the object, the change of the field and the movement of the object are extracted and output.
  • the photographed image includes a single frame image (hereinafter referred to as “still image”) and a frame image group (hereinafter referred to as “moving image”) constituting the video signal.
  • the above sensibility information is information indicating the situation of the field, the state of the object, the temporal change of the field and the action of the object represented in the captured image.
  • Examples of the information indicating the situation of the field and the state of the object include the number of human faces, the inclination of the face, the degree of smile, and the number of fingers extended.
  • Examples of the information indicating the temporal change of the field and the motion of the object include, for example, the number of areas with large motion (hereinafter referred to as “moving object”), the moving amount of the moving object, the transition information of the moving object, the lighting / This corresponds to a change in luminance of the image due to turning off (hereinafter referred to as “luminance change”).
  • the above emotional expression words are based on the visual conditions such as the situation of the field, the state of the object, the temporal change of the field, and the movement of the object.
  • As an onomatopoeia for example, “Wai Wai” representing the lively atmosphere of the place corresponds.
  • a mimetic word for example, “Noronoro” that expresses a slow motion of a moving object is applicable.
  • the sensitivity expression word processing device receives a still image signal as an input signal, calculates the number of human faces in the still image, the inclination of the face, and the degree of smile as sensitivity information. It is an Example at the time of extracting and outputting the sensitivity expression word corresponding to.
  • the emotion expression word processing device 1 is physically configured to include, for example, a CPU (Central Processing Unit), a storage device, and an input / output interface.
  • the storage device includes, for example, a ROM (Read Only Memory) and HDD (Hard Disk Drive) for storing programs and data processed by the CPU, and a RAM (Random Access Memory) mainly used as various work areas for control processing. ) Etc. are included. These elements are connected to each other via a bus.
  • the CPU executes the program stored in the ROM and processes the signals received via the input / output interface and the data expanded in the RAM, so that the functions of each unit of the sensitivity expression word processing device 1 described later can be achieved. Can be realized.
  • the affective expression word processing apparatus functionally includes a sensitivity information calculation unit 11 and a sensitivity expression word extraction unit 12.
  • the sensitivity information calculation unit 11 includes a face detection unit 111.
  • the face detection unit 111 analyzes the input still image to detect a face, and calculates the sensitivity information by calculating the number of faces, the inclination of the face, and the degree of smile.
  • a method for calculating the number of faces and the inclination of the face for example, a technique described in Japanese Patent Application Laid-Open No. 2007-233517 can be used.
  • a technique for calculating the degree of smile for example, a technique described in Japanese Patent Application Laid-Open No. 2009-141516 can be used.
  • the affective expression word extraction unit 12 extracts a sensitivity expression word corresponding to the sensitivity information calculated by the sensitivity information calculation unit 11 from the sensitivity expression word database 21, and outputs the extracted sensitivity expression word.
  • a data format for outputting a Kansei expression word for example, text data, metadata of still images such as Exif (Exchangeable Image Image File Format), tag information for video search, audio / acoustic data pre-associated with the Kansei expression word Can be used.
  • the affective expression word database 21 has one or a plurality of tables indicating the correspondence between the sensitivity information and the affective expression words.
  • the correspondence relationship between the sensitivity information and the sensitivity expression word may be one-to-one, one-to-many, many-to-one, or many-to-many.
  • a plurality of sensitivity expression words are associated with one sensitivity information, when selecting the sensitivity expression words, they may be selected at random, or may be selected according to a predetermined order. You may choose according to other criteria.
  • the sensitivity expression word database 21 in the first embodiment has a face number table, a face tilt table, and a smile degree table.
  • the face number table includes, as data items, for example, a face number item and a sensitivity expression word item.
  • the number of faces detected by the face detection unit 111 is stored in the number of faces item.
  • the sensitivity expression word item stores a sensitivity expression word corresponding to the number of faces.
  • a sensitivity expression word in the face number table a word that expresses the excitement of the field as the number of faces increases is used.
  • the face tilt table includes, for example, a face 1 tilt item, a face 2 tilt item, and a sensitivity expression word item as data items.
  • the face tilt detected by the face detection unit 111 is stored.
  • the face inclination is represented by using values from “ ⁇ 90” degrees to “90” degrees, where “0” is the face facing the face and the clockwise rotation is positive from the face-to-face state. Accordingly, when the two aligned faces are inclined toward each other, the inclination of the face 1 and the inclination of the face 2 become a positive value and a negative value.
  • Sensitivity expression words corresponding to the inclination of face 1 and the inclination of face 2 are stored in the sensitivity expression word item.
  • a sensibility expression word of the face inclination table a word that deeply expresses the friendliness as the inclinations of the two aligned faces increase toward each other is used.
  • the smile degree table has, for example, a smile degree item and a sensitivity expression word item as data items.
  • the smile level item stores a range of smile levels detected by the face detection unit 111.
  • the degree of smile is expressed using a value normalized from “0.0” to “1.0”.
  • a sensitivity expression word corresponding to the degree of smile is stored in the sensitivity expression word item.
  • a sensitivity expression word in the smile degree table a word that expresses joy and fun as the degree of smile increases and expresses anger and sadness as the smile degree decreases.
  • the number of faces, the inclination of the face, and the degree of smile may be expressed using values other than those described above.
  • the sensitivity information any one of the number of faces, the inclination of the face, and the degree of smile may be used, or a plurality of them may be used in combination.
  • the face detection unit 111 of the sentiment information calculation unit 11 detects a face represented in the still image (step S101).
  • the sentiment expression word extraction unit 12 determines whether or not the number of faces detected in step S101 is two or more (step S102). If this determination is YES (step S102; YES), the sentiment expression word extraction unit 12 corresponds to the number of faces “2 or more” from the face number table of the sentiment expression word database 21 shown in FIG.
  • the stored Kansei expression word “Wai Wai” is extracted and output (step S103). And this operation
  • step S102 determines whether the number of faces is one or not. Determination is made (step S104). If this determination is YES (step S104; YES), the emotional expression word extraction unit 12 selects the emotional expression word “Nick” stored in correspondence with the number of faces “1” from the face number table. Extract and output (step S105). And this operation
  • step S104 determines whether the number of faces is not 1 (step S104; NO)
  • the sentiment expression word extraction unit 12 corresponds to the number of faces “0” from the face number table.
  • the sentiment expression word “scene” stored in this way is extracted and output (step S106). And this operation
  • the sensitivity expression word processing device 1 in the first embodiment it is possible to extract and output the sensitivity expression words corresponding to the number of faces in the still image, the inclination of the face, and the degree of smile. it can. This makes it possible to clarify and emphasize the situation of the field and the state of the object when taking a still image, so that the atmosphere and the impression of the object can be imaged in the same way as when you are in the shooting location. It becomes possible.
  • the Kansei expression word processing apparatus of the second embodiment receives a still image signal as an input signal, calculates the number of fingers extended in the still image as Kansei information, and extracts a Kansei expression word corresponding to the Kansei information. It is an Example at the time of outputting.
  • the sensitivity expression word processing device 1 of the second embodiment has a sensitivity information calculation unit 11 and a sensitivity expression word extraction unit 12, and in this respect, the sensitivity expression word processing device of the first embodiment. 1 (see FIG. 1).
  • the sensitivity expression word processing device 1 of the second embodiment is different from the sensitivity expression word processing device 1 of the first embodiment in that the sensitivity information calculation unit 11 includes a face detection unit 112 and a finger detection unit 113. .
  • the sensitivity information calculation unit 11 includes a face detection unit 112 and a finger detection unit 113.
  • the face detection unit 112 detects the face represented in the still image, similarly to the face detection unit 111 of the first embodiment.
  • the face detection unit 112 calculates the center coordinates of the detected face area, the width of the face area, and the height of the face area as face information.
  • the finger detection unit 113 detects the finger (hand) shown in the still image and calculates the number of fingers extended, thereby calculating the sensitivity information.
  • the finger detection unit 113 uses the face information calculated by the face detection unit 112 to identify hand region candidates, and the finger detection unit 113 determines the number of fingers extended from the identified hand region. Detect numbers.
  • a method for specifying a hand region candidate for example, a method of specifying a region having the largest area among skin color regions near the face region as a hand region candidate can be used. Note that as a method for specifying a hand region candidate, a method described in JP-A-2003-346162 may be used, or another method may be used.
  • the sensitivity expression word database 21 in the second embodiment has a finger number table.
  • the data structure of the finger number table will be described with reference to FIG.
  • the finger number table has, for example, a finger number item and a sensitivity expression word item as data items.
  • the number of fingers field stores the number of fingers detected by the finger detection unit 113.
  • the sensitivity expression word item stores a sensitivity expression word corresponding to the number of fingers.
  • the face detection unit 112 of the sensitivity information calculation unit 11 detects a face represented in the still image and calculates face information (Ste S201).
  • the finger detection unit 113 of the sensitivity information calculation unit 11 detects the extended finger represented in the still image using the face information calculated in step S201 (step S202).
  • the emotional expression word extraction unit 12 determines whether or not the number of fingers detected in step S202 is zero (step S203). When this determination is YES (step S203; YES), the emotional expression word extraction unit 12 stores the number of fingers corresponding to “0” from the finger number table of the emotional expression word database 21 shown in FIG. The sentiment expression word “Goo” is extracted and output (step S204). And this operation
  • step S203 when it is determined in step S203 that the number of fingers is not zero (step S203; NO), the emotional expression word extraction unit 12 determines whether the number of fingers is two or not. (Step S205). If this determination is YES (step S205; YES), the sentiment expression word extraction unit 12 extracts the sentiment expression word “piece” stored in correspondence with the number “2” of fingers from the finger number table. Extract and output (step S206). And this operation
  • step S205 determines whether the number of fingers is five.
  • step S207 determines whether the number of fingers is five.
  • the emotional expression word extraction unit 12 selects the emotional expression word “par” stored in correspondence with the number of fingers “5” from the finger number table. Extract and output (step S208). And this operation
  • step S207 when it is determined in step S207 that the number of fingers is not five (step S207; NO), this operation is terminated without extracting the affective expression word.
  • the affective expression word processing device 1 in the second embodiment it is possible to extract and output a sensitivity expression word corresponding to the number of fingers extended in a still image. Thereby, it is possible to clarify and emphasize a gesture by a finger of a photographed person. In other words, the situation of the field and the state of the object when shooting a still image can be clarified and emphasized, so that the atmosphere and the impression of the object can be imaged as if they were at the shooting location. It becomes.
  • the number of fingers is used as the sensitivity information, but the present invention is not limited to this.
  • the number of human faces included in the sensitivity information of the first embodiment the inclination of the face, the degree of smile, and the like may be used in combination.
  • the Kansei expression word processing device receives a moving image signal as an input signal, and calculates the number of moving objects in the moving image, the moving amount of moving objects, the transition information of moving objects, and the luminance change as sensitivity information.
  • the emotion expression word processing device 1 of the third embodiment includes a sensitivity information calculation unit 11 and a sensitivity expression word extraction unit 12, and in this respect, the sensitivity expression word processing device of the first embodiment. 1 (see FIG. 1).
  • the emotion expression word processing device 1 of the third embodiment is different from the sensitivity expression word processing device 1 of the first embodiment in that the sensitivity information calculation unit 11 includes a moving object detection unit 114. In the following, differences from the first embodiment will be mainly described.
  • the moving object detection unit 114 detects the moving object by analyzing the input moving image, and calculates the sensitivity information by calculating the number of moving objects, the moving amount of the moving object, the transition information of the moving object, and the luminance change.
  • a difference between pixel values of the same coordinates between a current frame image and a past frame image is calculated.
  • a method of detecting a set of pixels larger than the threshold value as a moving object can be used.
  • the moving amount of the moving object is, for example, the difference between the center of gravity position of the moving object on the current frame image and the center of gravity position of the moving object represented on the past frame image corresponding to the vicinity of the moving object position on the current frame image. It is obtained by calculating.
  • the moving object transition information is obtained, for example, by determining the direction of the moving object's motion vector and encoding it, and calculating the time change of the encoded value.
  • a direction encoding table shown in FIG. 10 can be used. In this case, for example, when the moving body repeats the movement in the negative direction and the positive direction alternately with respect to the horizontal axis, the transition information is calculated as “0101”.
  • the change in luminance is obtained, for example, by calculating a difference between the average luminance value of the current frame image and the average luminance value of the past frame image, or calculating a value obtained by encoding the average difference.
  • the value “a” obtained by encoding the average difference is expressed by the following equations (1) to (3) when the average difference is “d” and the threshold is “T” (> 0). Can be calculated.
  • the sensitivity expression word database 21 in the third embodiment includes a moving object number table, a moving object movement amount table, a moving object transition information table, and a luminance change table.
  • the moving object number table has, for example, moving object number items and emotion expression word items as data items.
  • the number of moving objects detected by the moving object detection unit 114 is stored in the number of moving objects item.
  • the sensitivity expression word item stores a sensitivity expression word corresponding to the number of moving objects.
  • a sensitivity expression word in the number table of moving objects a word that expresses the level of noise as the number of moving objects increases is used.
  • the moving object moving amount table includes, for example, moving object moving amount items and sensitivity expression word items as data items.
  • the moving object movement amount item stores a moving object moving amount range calculated by the moving object detection unit 114.
  • the moving amount of the moving object is expressed using a value normalized to “0.0” to “1.0”.
  • the sensitivity expression word item stores a sensitivity expression word corresponding to the moving amount of the moving object.
  • a sensitivity expression word in the moving amount table of the moving object a word that expresses the moving speed faster as the moving amount of the moving object increases is used.
  • the moving object transition information table includes, for example, moving object transition information items and sensitivity expression word items as data items.
  • moving object transition information item moving object transition information calculated by the moving object detection unit 114 is stored.
  • the sensitivity expression word item stores a sensitivity expression word corresponding to the transition information of the moving object.
  • a sensitivity expression word of the moving object transition information table a word expressing a repetitive action corresponding to the periodicity recognized based on the moving object transition information is used.
  • the moving object transition information table shown in FIG. 13 when the moving object transition information is “0101” or “1010”, “Uroro” is extracted as a sensitivity expression word, and the moving object transition information is “0000” or In the case of “1111”, “stasta” is extracted as the sensitivity expression word, and in the case where the transition information of the moving object is “2323” or “3232,” “Pyeongpyon” is extracted as the sensitivity expression word.
  • the luminance change table includes, for example, a luminance change item and a sensitivity expression word item as data items.
  • a luminance change calculated by the moving object detection unit 114 is stored in the luminance change item.
  • the luminance change shown in FIG. 14 is represented by an encoded value calculated using the above equations (1) to (3).
  • the sensitivity expression word item stores a sensitivity expression word corresponding to the luminance change.
  • the number of moving objects, the moving amount of moving objects, the transition information of moving objects, and the luminance change may be expressed using values other than the values described above.
  • sensitivity information any one of the number of moving objects, the moving amount of moving objects, transition information of moving objects, and luminance change may be used, or a plurality may be used in combination.
  • the sensitivity information used in the third embodiment it may be used in combination with any one or more of the sensitivity information used in the first embodiment and the second embodiment.
  • the moving object detection unit 114 of the sensitivity information calculation unit 11 detects a moving object represented in the moving image and calculates transition information of the moving object. (Step S301).
  • the sentiment expression word extraction unit 12 determines whether or not the moving object transition information calculated in Step S301 is “0101” or “1010” (Step S302). When this determination is YES (step S302; YES), the affective expression word extraction unit 12 uses the moving object transition information “0101” and “1010” from the moving object transition information table of the affective expression word database 21 shown in FIG. The sentiment expression word “uroro” stored corresponding to “is extracted and output (step S303). And this operation
  • step S302 determines whether the moving object transition information is “0101” or “1010” (step S302; NO). If it is determined in step S302 that the moving object transition information is not “0101” or “1010” (step S302; NO), the affective expression word extraction unit 12 sets the moving object transition information to “0000”. "Or” 1111 "is determined (step S304). When this determination is YES (step S304; YES), the sentiment expression word extraction unit 12 stores the sentiment stored in correspondence with the moving body transition information “0000” and “1111” from the moving body transition information table. The expression word “stasta” is extracted and output (step S305). And this operation
  • step S304 determines whether the moving object transition information is “0000” or “1111” (step S304; NO).
  • the affective expression word extraction unit 12 indicates that the moving object transition information is “2323”. "Or” 3232 "is determined (step S306).
  • this determination is YES (step S306; YES)
  • the emotional expression word extraction unit 12 stores the movement information corresponding to the moving object “2323” and “3232” from the moving object transition information table.
  • the sentiment expression word “Pyeongpyon” is extracted and output (step S307), and this operation is finished.
  • step S306 if it is determined in step S306 that the moving object transition information is not “2323” or “3232” (step S306; NO), this operation is terminated without extracting the emotional expression word. .
  • the affective expression word processing device 1 in the third embodiment the number of moving objects in the moving image, the moving amount of the moving object, the transition information of the moving object, and the sensitivity expression words corresponding to the luminance change are extracted. Can be output. This makes it possible to clarify and emphasize the temporal change of the field and the movement of the object when shooting a moving image, so that the atmosphere and the impression of the object are imaged as if they were at the shooting location. It becomes possible. Furthermore, by looking at the sensibility expression words, it is possible to grasp temporal changes at the shooting site and motions of moving objects without browsing all moving images.
  • a sensitivity expression word processing device according to the fourth embodiment will be described.
  • the affective expression word processing device of the fourth embodiment superimposes the sensitivity expression words output from the sensitivity expression word extraction unit 12 of the sensitivity expression word processing device 1 of the first embodiment described above on a still image input from the outside. This is an embodiment when displaying on the display device 5.
  • the sensitivity expression word processing device 1 of the fourth embodiment has the sensitivity of the first embodiment in that it further includes a superposition unit 31 in addition to the sensitivity information calculation unit 11 and the sensitivity expression word extraction unit 12. This is different from the expression word processing device 1 (see FIG. 1). In the following, differences from the first embodiment will be mainly described.
  • the superimposing unit 31 includes a sensitivity expression word superimposed image generating unit 311.
  • the sensitivity expression word superimposed image generation unit 311 uses the input still image and the sensitivity expression word output by the sensitivity expression word extraction unit 12 to superimpose the sensitivity expression word superimposed image on the still image. Is generated.
  • the affective expression word superimposed image generation unit 311 generates an affective expression word superimposed image by superimposing a sensitivity expression word on a predetermined position of a still image based on predetermined font information.
  • the font information includes, for example, a font (character shape), a font size (character size), and a character color.
  • the superimposing unit 31 causes the display device 5 to display the sensitivity expression word superimposed image generated by the sensitivity expression word superimposed image generation unit 311.
  • FIG. 17 shows an example of a sensitivity expression word superimposed image displayed on the display device 5.
  • the emotional expression word “niconico” extracted according to the degree of smile is superimposed.
  • Kansei expression words corresponding to the number of faces in a still image, the inclination of the face, and the degree of smile are extracted. Can be displayed superimposed on a still image. This makes it possible to clarify and emphasize the situation of the field and the state of the object when taking a still image, so that the atmosphere and the impression of the object can be imaged in the same way as when you are in the shooting location. It becomes possible.
  • the sensitivity expression word processing device of the fifth embodiment uses the superimposition position and font information when superimposing the sensitivity expression words as face information calculated by the face detection unit 112. It is an Example at the time of determining based on.
  • the affective expression word processing device 1 of the fifth embodiment further includes a superposition condition determination unit 312 in the superposition unit 31, and includes the face detection unit 112 of the second embodiment instead of the face detection unit 111. It differs from the Kansei expression word processing device 1 (see FIG. 16) of the fourth embodiment. In the following, differences from the fourth embodiment will be mainly described.
  • the superimposition condition determination unit 312 determines the superimposition position of the sensitivity expression word according to the face information (the center coordinates of the face area, the width of the face area, and the height of the face area) calculated by the face detection unit 112. It is preferable to determine the position where the emotional expression word is superimposed, for example, at a position that does not overlap the face area or a position near the face area. Accordingly, it is possible to prevent the sensitivity expression word from overlapping the face area that is easy for humans to focus on, and thus it is possible to maintain the visibility of the image. In addition, by superimposing a sensitivity expression word in the vicinity of a face region that is easy for humans to focus on, it is possible to make an impression of the atmosphere and the object on the spot as if it were in the shooting location.
  • the superimposition condition determination unit 312 analyzes the input still image and determines font information including the font, font size, and character color of the sensitivity expression word to be superimposed. Specifically, for example, a still image can be analyzed and a font can be determined according to the shooting location. Further, the size of the object area in the still image is analyzed, and the font size can be increased when the object area is large, and the font size can be decreased when the object area is small. Further, the complementary color of the color having the highest appearance frequency in the region where the sensitivity expression word is superimposed can be changed to the character color. Thereby, the visibility of the image can be maintained.
  • the affective expression word superimposed image generation unit 311 generates a sensitivity expression word superimposed image by superimposing a sensitivity expression word on the position determined by the overlap condition determination unit 312 based on the font information determined by the overlap condition determination unit 312. To do.
  • the sensitivity expression words corresponding to the number of faces in the still image, the inclination of the face, and the degree of smile are extracted. Can be superimposed in the vicinity of the face area that does not overlap the face area. As a result, the situation of the field and the state of the object when taking a still image can be clarified and emphasized, so that the atmosphere and the impression of the object can be imaged in the same way as when in the shooting location. It becomes possible.
  • the sensitivity expression word processing device uses the face information calculated by the face detection unit 112 as the superimposition position and font information when superimposing the sensitivity expression words, and the like. It is an Example at the time of determining based on the hand area
  • the configuration of the affective expression word processing device in the sixth embodiment will be described.
  • the emotional expression word processing device 1 of the sixth embodiment is further provided with a finger detection unit 113 of the second embodiment, the sensitivity expression word processing device 1 of the fifth embodiment (see FIG. 18). And different. In the following, differences from the fifth embodiment will be mainly described.
  • the superimposition condition determination unit 312 determines the superimposition position of the sensitivity expression word according to the face information calculated by the face detection unit 112 and the hand region specified by the finger detection unit 113.
  • the position where the Kansei expression word is superimposed is, for example, a position that does not overlap the face area described in the fifth embodiment, a position near the face area, a position that does not overlap the hand area, or a position near the hand area. It is preferable to determine this.
  • Kansei expression words are extracted according to the number of faces in the still image, the inclination of the face, the degree of smile, and the number of fingers extended.
  • the sensitivity expression word can be superimposed on the vicinity of the face area or the vicinity of the hand area that does not overlap the face area or the hand area.
  • the Kansei expression word processing device of the seventh embodiment converts a still image input from the outside into a sketch-like image, and superimposes the sensitivity expression word on the converted sketch-like image. This is an embodiment when displaying on the display device 5.
  • the configuration of the affective expression word processing device in the seventh embodiment will be described.
  • the sensitivity expression word processing device 1 of the seventh embodiment is different from the sensitivity expression word processing device 1 (see FIG. 19) of the sixth embodiment in that it further includes an image conversion unit 313.
  • differences from the sixth embodiment will be mainly described.
  • the image conversion unit 313 converts the input still image into a sketch-like image.
  • a technique for converting into a sketch-like image for example, a technique described in WO 2006/106750 can be used.
  • By converting a still image into a sketch-like image fine shadows can be omitted from the still image and the number of colors can be reduced, so that edges can be emphasized.
  • the affective expression word superimposed image generation unit 311 generates a sensitivity expression word superimposed image by superimposing a sensitivity expression word on the sketch-like image converted by the image conversion unit 313.
  • the emotional expression word is superimposed at the position determined by the superimposition condition determination unit 312 using the font, font size, and character color determined by the superimposition condition determination unit 312.
  • FIG. 21 shows an example of a Kansei expression word superimposed image displayed on the display device 5.
  • the still image shown in FIG. 21 is obtained by converting a still image taken in the office into a sketch-like image, and the sensitivity expression word “potoon” is superimposed.
  • an input still image can be converted into a sketch-like image, and the sensitivity expression word can be superimposed on the converted sketch-like image.
  • main shadows, colors, and edges in the still image can be emphasized, so that the subject can be clarified and emphasized.
  • by superimposing emotional expressions on sketch-like images the situation of the field and the state of the object when taking a still image can be clarified and emphasized, so the impression of the atmosphere and object in the place Can be imaged in the same manner as when the user is at the shooting location.
  • the sensitivity expression word processing device of the eighth embodiment superimposes the sensitivity expression words output from the sensitivity expression word extraction unit 12 of the sensitivity expression word processing device 1 of the above-described third embodiment on a moving image input from the outside.
  • the display position is displayed on the display device 5 and the superimposition position and font information for superimposing the emotional expression word are determined based on the variation information indicating the motion of the moving object.
  • the sensitivity expression word processing device 1 of the eighth embodiment has the sensitivity of the third embodiment in that it further includes a superposition unit 31 in addition to the sensitivity information calculation unit 11 and the sensitivity expression word extraction unit 12. This is different from the expression word processing device 1 (see FIG. 9). In the following, differences from the third embodiment will be mainly described.
  • the superimposing unit 31 includes a superimposing condition determining unit 312 and a sensitivity expression word superimposed image generating unit 311.
  • the superimposing condition determination unit 312 calculates variation information based on the moving object detected by the moving object detection unit 114, and determines a position where the emotional expression word is superimposed according to the variation information.
  • the variation information for example, information indicating the motion of a moving object is applicable. Specifically, for example, when a pedestrian is shown in a moving image, a position to be superimposed is determined in accordance with variation information indicating the movement of the pedestrian. Thereby, for example, it is possible to superimpose a sensitivity expression word “STASTA” representing a walking motion on a moving image in accordance with the movement of the pedestrian.
  • variation information is not limited to information indicating the movement of a moving object.
  • information indicating a region with little color change, luminance change, or edge change obtained by analyzing a moving image may be calculated as variation information.
  • a street is reflected in a moving image, it is possible to detect a building wall or an empty area and superimpose a sensitivity expression word on the detected area.
  • the superimposition condition determination unit 312 analyzes the input moving image and determines font information including the font, font size, and character color of the sensitivity expression word to be superimposed. Specifically, for example, a moving image can be analyzed and a font can be determined according to a shooting location. Further, the size of the object area in the moving image is analyzed, and the font size can be increased when the object area is large, and the font size can be decreased when the object area is small. Further, the complementary color of the color having the highest appearance frequency in the region where the sensitivity expression word is superimposed can be changed to the character color. Thereby, the visibility of the image can be maintained.
  • the sensitivity expression word superimposed image generation unit 311 uses the input moving image and the sensitivity expression word output by the sensitivity expression word extraction unit 12 to superimpose the sensitivity expression word superimposed image on the moving image. Is generated.
  • the affective expression word superimposed image generation unit 311 generates a sensitivity expression word superimposed image by superimposing a sensitivity expression word on the position determined by the overlap condition determination unit 312 based on the font information determined by the overlap condition determination unit 312. To do.
  • the superimposing unit 31 causes the display device 5 to display the sensitivity expression word superimposed image generated by the sensitivity expression word superimposed image generation unit 311.
  • the affective expression word processing device 1 in the eighth embodiment the number of moving objects in the moving image, the moving amount of the moving object, the transition information of the moving object, and the sensitivity expression words corresponding to the luminance change are extracted.
  • This sensitivity expression word can be superimposed in accordance with the movement or change in the moving image. This makes it possible to clarify and emphasize the temporal change of the field and the movement of the object when shooting a moving image, so that the impression of the atmosphere and object in the place is the same as when shooting at the shooting location. It is possible to image.
  • a sensitivity information calculation unit that analyzes a captured image and calculates sensitivity information indicating a temporal change of a field represented in the image and an action of an object, and stores the information in advance in association with the sensitivity information.
  • a sentiment expression word extraction unit that extracts the sentiment expression word corresponding to the sentiment information calculated by the sentiment information calculation unit from the sentiment expression words expressing the sentiment Word processing device.
  • the sensibility information calculation unit includes the sensibility information including at least the number of moving objects that are large movement areas, the moving amount of the moving objects, transition information of the moving objects, or changes in luminance of the image.
  • the affective expression word processing device according to supplementary note 1, characterized in that it is calculated.
  • the sensitivity expression word extraction unit indicates the degree of noise so that the degree of noise increases as the number of moving objects increases.
  • the emotional expression word processing device wherein the expression word is extracted.
  • the sensitivity expression word extraction unit is configured so that the movement speed is expressed faster as the movement amount of the moving object increases.
  • the emotional expression word processing device according to appendix 2 or 3, characterized in that the emotional expression word representing is extracted.
  • the Kansei expression word extraction unit determines that the periodicity is recognized in the moving object based on the moving information of the moving object.
  • the emotional expression word processing device according to any one of appendices 2 to 4, wherein the emotional expression word representing a corresponding repeated action is extracted.
  • the sensitivity expression word extraction unit indicates the state when the illumination is turned on when the brightness changes to a higher value.
  • the emotional expression according to any one of appendices 2 to 5, wherein a word is extracted, and when the luminance changes to a lower value, the emotional expression word representing a state when the illumination is turned off is extracted. Word processing device.
  • the sensitivity expression word extraction unit expresses the sensitivity that expresses the excitement of the field so that the excitement of the field becomes larger as the number of faces increases.
  • the emotional expression word processing device according to appendix 8, wherein the expression word is extracted.
  • the sensitivity expression word extraction unit is configured so that the friendliness is expressed deeper as the inclinations of the two aligned faces become closer to each other.
  • the emotional expression word processing device according to appendix 8 or 9, wherein the emotional expression word representing goodness is extracted.
  • the sensitivity expression word extraction unit expresses the sensitivity that expresses joy and enjoyment so that the greater the smile level, the greater the joy and enjoyment is expressed. Any one of appendices 8 to 10, wherein an expression word is extracted, and the sensitivity expression word representing anger and sadness is extracted so that anger and sadness are expressed more greatly as the degree of smile decreases.
  • the sensitivity expression word extraction unit extracts the sensitivity expression word representing a clenched fist, If the number is two, extract the Kansei expression word representing peace sign; if the number of fingers is five, extract the Kansei expression word representing a fist open state;
  • the emotional expression word processing device according to any one of supplementary notes 8 to 11, characterized in that:
  • the sensitivity expression word processing device, the sensitivity expression word processing method, and the sensitivity expression word processing program according to the present invention are suitable for making an image of an atmosphere of a place or an object at the time of photographing similar to that at the time of photographing. .

Abstract

撮影時の場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせる。撮影された画像を分析し、撮影画像に表されている場の時間的変化や物体の動作を示す感性情報を算出する感性情報算出部11と、感性表現語データベース21において感性情報に対応付けて記憶されている感性を表現する感性表現語から、感性情報算出部11によって算出された感性情報に対応する感性表現語を抽出する感性表現語抽出部12と、を備える。

Description

感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム
 本発明は、感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラムに関する。
 離れた場所の雰囲気を相手に伝えたいことがある。このような場合、カメラ等で周囲の様子を撮影し、相手に見せることで撮影場所の雰囲気を伝えることができる。しかしながら、カメラ等で風景を撮影しただけでは、撮影場所の雰囲気を完全に伝えることができない。このような問題を解決する技術の一例として、特許文献1に記載の文字挿入装置がある。この文字挿入装置では、撮影時の発話内容や環境音などの聴覚的情報を文字に変換し、変換した文字を撮影画像に挿入することで、文字付き画像を生成している。
特開2003-18462号公報
 人間は、撮影画像に表されている場の状況や物体の状態、当該場の時間的変化や物体の動作などの視覚的情報から、その場の雰囲気や物体に対する印象をイメージする。例えば、多数の人間が存在する雑踏の映像を見た場合には、その場が「ゴチャゴチャ」していると感じる。また、多数の人間が存在していても誰も動き回っていないオフィスの映像を見た場合には、その場が「シーン」としていると感じる。しかしながら、撮影画像の中には、その場の状況や物体の状態、その場の時間的変化や物体の動作などの視覚的情報を認識することが難しい場合もある。このような場合、視覚的情報を表現する文字を見ることができれば、その場の雰囲気や物体に対する印象を、より明確にイメージすることが可能となる。
 特許文献1に記載の文字挿入装置は、聴覚的情報を変換した文字を画像に挿入しているため、視覚的情報から得られる場の雰囲気や物体の印象を表現することまではできない。
 本発明は、上述した課題を解決するためになされたものであり、撮影時の場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせることができる感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラムを提供することを目的とする。
 本発明の感性表現語処理装置は、撮影された画像を分析し、前記画像に表されている場の時間的変化や物体の動作を示す感性情報を算出する感性情報算出部と、予め前記感性情報に対応付けて記憶されている感性を表現する感性表現語から、前記感性情報算出部によって算出された前記感性情報に対応する前記感性表現語を抽出する感性表現語抽出部と、を備える。
 本発明の感性表現語処理方法は、撮影された画像を分析し、前記画像に表されている場の時間的変化や物体の動作を示す感性情報を算出する感性情報算出ステップと、予め前記感性情報に対応付けて記憶されている感性を表現する感性表現語から、前記感性情報算出部によって算出された前記感性情報に対応する前記感性表現語を抽出する感性表現語抽出ステップと、を含む。
 本発明の感性表現語処理プログラムは、上記感性表現語処理方法に含まれる各ステップをコンピュータに実行させる。
 本発明によれば、撮影時の場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせることができる。
第1実施形態における感性表現語処理装置の構成を例示するブロック図である。 顔の数テーブルのデータ構成を例示する図である。 顔の傾きテーブルのデータ構成を例示する図である。 笑顔の度合テーブルのデータ構成を例示する図である。 第1実施形態における感性表現語処理装置の動作を説明するためのフローチャートである。 第2実施形態における感性表現語処理装置の構成を例示するブロック図である。 指の数テーブルのデータ構成を例示する図である。 第2実施形態における感性表現語処理装置の動作を説明するためのフローチャートである。 第3実施形態における感性表現語処理装置の構成を例示するブロック図である。 方向符号化テーブルのデータ構成を例示する図である。 動体の数テーブルのデータ構成を例示する図である。 動体の移動量テーブルのデータ構成を例示する図である。 動体の遷移情報テーブルのデータ構成を例示する図である。 輝度変化テーブルのデータ構成を例示する図である。 第3実施形態における感性表現語処理装置の動作を説明するためのフローチャートである。 第4実施形態における感性表現語処理装置の構成を例示するブロック図である。 表示装置に表示される感性表現語重畳画像を例示する図である。 第5実施形態における感性表現語処理装置の構成を例示するブロック図である。 第6実施形態における感性表現語処理装置の構成を例示するブロック図である。 第7実施形態における感性表現語処理装置の構成を例示するブロック図である。 表示装置に表示される感性表現語重畳画像を例示する図である。 第8実施形態における感性表現語処理装置の構成を例示するブロック図である。
 以下、添付図面を参照して、本発明に係る感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラムの好適な実施形態について説明する。
 本発明に係る感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラムは、入力された撮影画像を分析して感性情報を算出し、この感性情報に基づいて、撮影画像に表されている場の状況や物体の状態、場の変化や物体の動作に対応する感性表現語を抽出して出力する。
 上記撮影画像には、映像信号を構成する一枚のフレーム画像(以下、「静止画像」と記載する。)や、フレーム画像群(以下、「動画像」と記載する。)が含まれる。
 上記感性情報は、撮影画像に表されている場の状況や物体の状態、その場の時間的変化や物体の動作を示す情報である。場の状況や物体の状態を示す情報としては、例えば、人間の顔の数や顔の傾き、笑顔の度合、伸ばした指の数が該当する。場の時間的変化や物体の動作を示す情報としては、例えば、動きの大きな領域(以下、「動体」と記載する。)の数や、動体の移動量、動体の遷移情報、照明の点灯/消灯による画像の輝度の変化(以下、「輝度変化」と記載する。)が該当する。
 上記感性表現語は、撮影画像に表されている場の状況や物体の状態、場の時間的変化や物体の動作などの視覚的情報から、撮影画像を見た人がイメージする場の雰囲気や物体に対する印象(感性)を表現する語である。感性表現語の代表的なものとして、擬音語や擬態語がある。擬音語としては、例えば、その場の賑やかな雰囲気を表現する「ワイワイ」が該当する。擬態語としては、例えば、動体のゆるやかな動作を表現する「ノロノロ」が該当する。
 [第1実施形態]
 第1実施形態の感性表現語処理装置は、静止画像の信号が入力信号として入力され、静止画像内の人間の顔の数や顔の傾き、笑顔の度合を感性情報として算出し、この感性情報に対応する感性表現語を抽出して出力する際の実施例である。
 最初に、図1を参照して、第1実施形態における感性表現語処理装置の構成について説明する。
 感性表現語処理装置1は、物理的には、例えば、CPU(Central Processing Unit)と、記憶装置と、入出力インターフェースとを含んで構成される。記憶装置には、例えば、CPUで処理されるプログラムやデータを記憶するROM(Read Only Memory)やHDD(Hard Disk Drive)、主として制御処理のための各種作業領域として使用されるRAM(Random Access Memory)等の要素が含まれる。これらの要素は、互いにバスを介して接続されている。CPUが、ROMに記憶されたプログラムを実行し、入出力インターフェースを介して受信された信号や、RAMに展開されたデータを処理することで、後述する感性表現語処理装置1の各部の機能を実現することができる。
 図1に示すように、第1実施形態における感性表現語処理装置は、機能的には、感性情報算出部11と感性表現語抽出部12とを有する。感性情報算出部11は、顔検出部111を含む。
 顔検出部111は、入力された静止画像を分析して顔を検出し、顔の数や顔の傾き、笑顔の度合を算出することで、感性情報を算出する。顔の数や顔の傾きを算出する手法として、例えば、特開2007-233517号公報に記載されている技術を用いることができる。また、笑顔の度合を算出する手法として、例えば、特開2009-141516号公報に記載されている技術を用いることができる。
 感性表現語抽出部12は、感性情報算出部11により算出された感性情報に対応する感性表現語を感性表現語データベース21から抽出し、抽出した感性表現語を出力する。感性表現語を出力するデータ形式として、例えば、テキストデータ、Exif(Exchangeable Image File Format)などの静止画像のメタデータ、動画検索用のタグ情報、感性表現語と予め関連付けられた音声・音響データを用いることができる。
 感性表現語データベース21は、感性情報と感性表現語との対応関係を示す一つまたは複数のテーブルを有する。感性情報と感性表現語との対応関係は1対1であってもよいし、1対多や多対1、多対多であってもよい。一つの感性情報に対して複数の感性表現語を対応付けた場合には、感性表現語を選択する際に、ランダムに選択してもよいし、予め定められた順番に従って選択してもよいし、その他の基準に従って選択してもよい。
 第1実施形態における感性表現語データベース21は、顔の数テーブル、顔の傾きテーブル、笑顔の度合テーブルを有する。
 図2を参照して、顔の数テーブルのデータ構成について説明する。顔の数テーブルは、データ項目として、例えば、顔の数項目および感性表現語項目を有する。顔の数項目には、顔検出部111により検出される顔の数が格納される。感性表現語項目には、顔の数に対応する感性表現語が格納される。顔の数テーブルの感性表現語として、顔の数が多いほど場の盛り上がりを大きく表現する語を用いる。
 図2に示す顔の数テーブルを用いると、顔の数が“0”である場合には感性表現語として“シーン”が抽出され、顔の数が“1”である場合には感性表現語として“ニコッ”が抽出され、顔の数が“2”以上である場合には感性表現語として“ワイワイ”が抽出される。
 図3を参照して、顔の傾きテーブルのデータ構成について説明する。顔の傾きテーブルは、データ項目として、例えば、顔1の傾き項目、顔2の傾き項目および感性表現語項目を有する。顔1の傾き項目および顔2の傾き項目には、顔検出部111により検出される顔の傾きがそれぞれ格納される。顔の傾きは、正対している顔を“0”とし、正対した状態から時計回りの回転を正として“-90”度~“90”度までの値を用いて表される。したがって、二つの並んだ顔が相互に近付く方向に傾いている場合には、顔1の傾きと顔2の傾きとが、正の値と負の値とになる。感性表現語項目には、顔1の傾きおよび顔2の傾きに対応する感性表現語が格納される。顔の傾きテーブルの感性表現語として、二つの並んだ顔の傾きが相互に近付く方向に大きくなるほど仲の良さを深く表現する語を用いる。
 図3に示す顔の傾きテーブルを用いると、顔1の傾きが“0”~“90”であり、かつ顔2の傾きが“-90”~“0”である場合には感性表現語として“ラブラブ”または“イチャイチャ”が抽出され、顔1の傾きが“-90”~“0”であり、かつ顔2の傾きが“0”~“90”である場合には感性表現語として“ラブラブ”または“イチャイチャ”が抽出される。
 図4を参照して、笑顔の度合テーブルのデータ構成について説明する。笑顔の度合テーブルは、データ項目として、例えば、笑顔の度合項目および感性表現語項目を有する。笑顔の度合項目には、顔検出部111により検出される笑顔の度合の範囲が格納される。笑顔の度合は、“0.0”~“1.0”に正規化された値を用いて表される。感性表現語項目には、笑顔の度合に対応する感性表現語が格納される。笑顔の度合テーブルの感性表現語として、笑顔の度合が高くなるほど喜びや楽しみを大きく表現し、笑顔の度合が低くなるほど怒りや悲しみを大きく表現する語を用いる。
 図4に示す笑顔の度合テーブルを用いると、笑顔の度合が“0.0”以上“0.1”未満である場合には感性表現語として“ハァ”または“フゥ”が抽出され、笑顔の度合が“0.1”以上“0.2”未満である場合には感性表現語として“フフッ”または“ムフッ”が抽出され、笑顔の度合が“0.9”以上“1.0”以下である場合には感性表現語として“ニコニコ”または“キラキラ”が抽出される。
 なお、顔の数や、顔の傾き、笑顔の度合は、上述した値以外の値を用いて表現してもよい。また、感性情報として、顔の数、顔の傾き、笑顔の度合のいずれか一つを用いてもよいし、複数を組み合わせて用いてもよい。
 次に、図5を参照して、第1実施形態における感性表現語処理装置の動作について説明する。この動作例では、感性情報として顔の数を用いた場合について説明する。
 最初に、静止画像の信号が感性表現語処理装置1に入力されると、感性情報算出部11の顔検出部111は、静止画像に表されている顔を検出する(ステップS101)。
 続いて、感性表現語抽出部12は、上記ステップS101で検出された顔の数が2つ以上であるか否かを判定する(ステップS102)。この判定がYESである場合(ステップS102;YES)に、感性表現語抽出部12は、図2に示す感性表現語データベース21の顔の数テーブルから、顔の数“2以上”に対応して記憶されている感性表現語“ワイワイ”を抽出して出力する(ステップS103)。そして、本動作を終了する。
 一方、上記ステップS102の判定で顔の数が2つ以上ではないと判定された場合(ステップS102;NO)に、感性表現語抽出部12は、顔の数が1つであるか否かを判定する(ステップS104)。この判定がYESである場合(ステップS104;YES)に、感性表現語抽出部12は、顔の数テーブルから、顔の数“1”に対応して記憶されている感性表現語“ニコッ”を抽出して出力する(ステップS105)。そして、本動作を終了する。
 一方、上記ステップS104の判定で顔の数が1ではないと判定された場合(ステップS104;NO)に、感性表現語抽出部12は、顔の数テーブルから、顔の数“0”に対応して記憶されている感性表現語“シーン”を抽出して出力する(ステップS106)。そして、本動作を終了する。
 上述したように、第1実施形態における感性表現語処理装置1によれば、静止画像内の顔の数や、顔の傾き、笑顔の度合に応じた感性表現語を抽出して出力することができる。これにより、静止画像を撮影したときの場の状況や物体の状態を明確化して強調することができるため、その場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせることが可能となる。
 [第2実施形態]
 次に、第2実施形態における感性表現語処理装置について説明する。第2実施形態の感性表現語処理装置は、静止画像の信号が入力信号として入力され、静止画像内の伸ばした指の数を感性情報として算出し、この感性情報に対応する感性表現語を抽出して出力する際の実施例である。
 最初に、図6を参照して、第2実施形態における感性表現語処理装置の構成について説明する。
 図6に示すように、第2実施形態の感性表現語処理装置1は、感性情報算出部11と感性表現語抽出部12とを有し、この点では第1実施形態の感性表現語処理装置1(図1参照)と同様である。しかしながら、第2実施形態の感性表現語処理装置1は、感性情報算出部11が顔検出部112と指検出部113とを含む点で、第1実施形態の感性表現語処理装置1と相違する。以下においては、主に第1実施形態と相違する点について説明する。
 顔検出部112は、第1実施形態の顔検出部111と同様に、静止画像に表されている顔を検出する。顔検出部112は、検出した顔領域の中心座標と顔領域の幅と顔領域の高さとを、顔情報として算出する。
 指検出部113は、静止画像に表されている指(手)を検出し、伸ばした指の数を算出することで、感性情報を算出する。指検出部113は、伸ばした指の数を算出する際に、顔検出部112により算出された顔情報を用いて、手領域の候補を特定し、特定した手領域の中から伸ばした指の数を検出する。手領域の候補を特定する手法として、例えば、顔領域付近にある肌色領域の中で最も面積が大きい領域を手領域の候補として特定する手法を用いることができる。なお、手領域の候補を特定する手法として、特開2003-346162号公報に記載されている手法を用いてもよいし、他の手法を用いてもよい。
 第2実施形態における感性表現語データベース21は、指の数テーブルを有する。図7を参照して、指の数テーブルのデータ構成について説明する。指の数テーブルは、データ項目として、例えば、指の数項目および感性表現語項目を有する。指の数項目には、指検出部113により検出される指の数が格納される。感性表現語項目には、指の数に対応する感性表現語が格納される。
 図7に示す指の数テーブルを用いると、伸ばした指の数が“0”本である場合には感性表現語として握り拳を表す“グー”が抽出され、伸ばした指の数が“2”本である場合には感性表現語としてピースサインを表す“ピース”が抽出され、伸ばした指の数が“5”本である場合には感性表現語として拳が開いた状態を表す“パー”が抽出される。
 次に、図8を参照して、第2実施形態における感性表現語処理装置の動作について説明する。
 最初に、静止画像の信号が感性表現語処理装置1に入力されると、感性情報算出部11の顔検出部112は、静止画像に表されている顔を検出して顔情報を算出する(ステップS201)。
 続いて、感性情報算出部11の指検出部113は、上記ステップS201で算出された顔情報を用いて、静止画像に表されている伸ばした指を検出する(ステップS202)。
 続いて、感性表現語抽出部12は、上記ステップS202で検出された指の数が0本であるか否かを判定する(ステップS203)。この判定がYESである場合(ステップS203;YES)に、感性表現語抽出部12は、図7に示す感性表現語データベース21の指の数テーブルから、指の数“0”に対応して記憶されている感性表現語“グー”を抽出して出力する(ステップS204)。そして、本動作を終了する。
 一方、上記ステップS203の判定で指の数が0ではないと判定された場合(ステップS203;NO)に、感性表現語抽出部12は、指の数が2本であるか否かを判定する(ステップS205)。この判定がYESである場合(ステップS205;YES)に、感性表現語抽出部12は、指の数テーブルから、指の数“2”に対応して記憶されている感性表現語“ピース”を抽出して出力する(ステップS206)。そして、本動作を終了する。
 一方、上記ステップS205の判定で指の数が2本ではないと判定された場合(ステップS205;NO)に、感性表現語抽出部12は、指の数が5本であるか否かを判定する(ステップS207)。この判定がYESである場合(ステップS207;YES)に、感性表現語抽出部12は、指の数テーブルから、指の数“5”に対応して記憶されている感性表現語“パー”を抽出して出力する(ステップS208)。そして、本動作を終了する。
 一方、上記ステップS207の判定で指の数が5本ではないと判定された場合(ステップS207;NO)には、感性表現語を抽出せずに、本動作を終了する。
 上述したように、第2実施形態における感性表現語処理装置1によれば、静止画像内の伸ばした指の数に応じた感性表現語を抽出して出力することができる。これにより、撮影された人物の指によるジェスチャを明確化して強調することができる。つまり、静止画像を撮影したときの場の状況や物体の状態を明確化して強調することができるため、その場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせることが可能となる。
 なお、上述した第2実施形態の感性表現語処理装置1では、感性情報として指の数を用いているが、これに限定されない。指の数に加え、第1実施形態の感性情報に含まれる人間の顔の数や、顔の傾き、笑顔の度合などを組み合わせて用いてもよい。
 [第3実施形態]
 次に、第3実施形態における感性表現語処理装置について説明する。第3実施形態の感性表現語処理装置は、動画像の信号が入力信号として入力され、動画像内の動体の数や、動体の移動量、動体の遷移情報、輝度変化を感性情報として算出し、この感性情報に対応する感性表現語を抽出して出力する際の実施例である。
 最初に、図9を参照して、第3実施形態における感性表現語処理装置の構成について説明する。
 図9に示すように、第3実施形態の感性表現語処理装置1は、感性情報算出部11と感性表現語抽出部12とを有し、この点では第1実施形態の感性表現語処理装置1(図1参照)と同様である。しかしながら、第3実施形態の感性表現語処理装置1は、感性情報算出部11が動体検出部114を含む点で、第1実施形態の感性表現語処理装置1と相違する。以下においては、主に第1実施形態と相違する点について説明する。
 動体検出部114は、入力された動画像を分析して動体を検出し、動体の数や、動体の移動量、動体の遷移情報、輝度変化を算出することで、感性情報を算出する。
 動体を検出する手法として、例えば、現在のフレーム画像と過去のフレーム画像(例えば、現在のフレーム画像の1フレーム前のフレーム画像)との間で同一座標の画素値の差を算出し、差が閾値よりも大きい画素の集合を動体として検出する手法を用いることができる。
 動体の移動量は、例えば、現在のフレーム画像上の動体の重心位置と、現在のフレーム画像上の動体位置付近に相当する過去のフレーム画像上に表されている動体の重心位置との差分を算出することで求められる。
 動体の遷移情報は、例えば、動体の動きベクトルの方向を判定して符号化し、符号化した値の時間変化を算出することで求められる。動体の動きベクトルの方向を符号化する場合には、例えば、図10に示す方向符号化テーブルを用いることができる。この場合、例えば、動体が水平軸に対して負の方向と正の方向への移動を交互に繰り返しているときには、遷移情報が“0101”と算出される。
 輝度変化は、例えば、現在のフレーム画像の輝度値の平均と、過去のフレーム画像の輝度値の平均との差を算出することや、平均の差を符号化した値を算出することで求められる。例えば、平均の差を符号化した値“a”は、平均の差を“d”とし、閾値を“T”(>0)とした場合に、以下の式(1)~式(3)により算出することができる。
 |d|<Tの場合
  a=0 … 式(1)
 d≧Tの場合
  a=1 … 式(2)
 d≦-Tの場合
  a=-1 … 式(3)
 第3実施形態における感性表現語データベース21は、動体の数テーブルと、動体の移動量テーブルと、動体の遷移情報テーブルと、輝度変化テーブルとを有する。
 図11を参照して、動体の数テーブルのデータ構成について説明する。動体の数テーブルは、データ項目として、例えば、動体の数項目および感性表現語項目を有する。動体の数項目には、動体検出部114により検出される動体の数が格納される。感性表現語項目には、動体の数に対応する感性表現語が格納される。動体の数テーブルの感性表現語として、動体の数が多くなるほど喧騒の程度を大きく表現する語を用いる。
 図11に示す動体の数テーブルを用いると、動体の数が“0”である場合には感性表現語として静寂を表す“シーン”が抽出され、動体の数が“1”である場合には感性表現語として“ウロウロ”が抽出され、動体の数が“5”以上である場合には感性表現語として喧騒を表す“ゴチャゴチャ”が抽出される。
 図12を参照して、動体の移動量テーブルのデータ構成について説明する。動体の移動量テーブルは、データ項目として、例えば、動体の移動量項目および感性表現語項目を有する。動体の移動量項目には、動体検出部114により算出される動体の移動量の範囲が格納される。動体の移動量は、“0.0”~“1.0”に正規化した値を用いて表される。感性表現語項目には、動体の移動量に対応する感性表現語が格納される。動体の移動量テーブルの感性表現語として、動体の移動量が大きくなるほど移動の速さを速く表現する語を用いる。
 図12に示す動体の移動量テーブルを用いると、動体の移動量が“0.0”以上“0.1”未満である場合には感性表現語として“ヨロヨロ”が抽出され、動体の移動量が“0.1”以上“0.2”未満である場合には感性表現語として“フラフラ”が抽出され、動体の移動量が“0.9”以上“1.0”以下である場合には感性表現語として“ダッシュ”が抽出される。
 図13を参照して、動体の遷移情報テーブルのデータ構成について説明する。動体の遷移情報テーブルは、データ項目として、例えば、動体の遷移情報項目および感性表現語項目を有する。動体の遷移情報項目には、動体検出部114により算出される動体の遷移情報が格納される。感性表現語項目には、動体の遷移情報に対応する感性表現語が格納される。動体の遷移情報テーブルの感性表現語として、動体の遷移情報に基づいて認められる周期性に対応する繰り返しの動作を表現する語を用いる。
 図13に示す動体の遷移情報テーブルを用いると、動体の遷移情報が“0101”または“1010”である場合には感性表現語として“ウロウロ”が抽出され、動体の遷移情報が“0000”または“1111”である場合には感性表現語として“スタスタ”が抽出され、動体の遷移情報が“2323”または“3232”である場合には感性表現語として“ピョンピョン”が抽出される。
 図14を参照して、輝度変化テーブルのデータ構成について説明する。輝度変化テーブルは、データ項目として、例えば、輝度変化項目および感性表現語項目を有する。輝度変化項目には、動体検出部114により算出される輝度変化が格納される。図14に示す輝度変化は、上記式(1)~式(3)を用いて算出される符号化値で表されている。感性表現語項目には、輝度変化に対応する感性表現語が格納される。輝度変化テーブルの感性表現語として、輝度がより高い値に変化するときには、照明が点灯するときの様子を表現する語を用い、輝度がより低い値に変化するときには、照明が消灯するときの様子を表現する語を用いる。
 図14に示す輝度変化テーブルを用いると、輝度変化が“-1”である場合には感性表現語として消灯されたことを表す“ヒュン”が抽出され、輝度変化が“1”である場合には感性表現語として点灯されたことを表す“ピカッ”が抽出される。
 なお、動体の数や、動体の移動量、動体の遷移情報、輝度変化は、上述した値以外の値を用いて表現してもよい。また、感性情報として、動体の数、動体の移動量、動体の遷移情報、輝度変化のいずれか一つを用いてもよいし、複数を組み合わせて用いてもよい。さらに、第3実施形態で用いる感性情報に加え、第1実施形態および第2実施形態で用いる感性情報のうちのいずれか一つまたは複数と組み合わせて用いてもよい。
 次に、図15を参照して、第3実施形態における感性表現語処理装置の動作について説明する。この動作例では、感性情報として動体の遷移情報を用いた場合について説明する。
 最初に、動画像の信号が感性表現語処理装置1に入力されると、感性情報算出部11の動体検出部114は、動画像に表されている動体を検出し、動体の遷移情報を算出する(ステップS301)。
 続いて、感性表現語抽出部12は、上記ステップS301で算出された動体の遷移情報が“0101”または“1010”であるか否かを判定する(ステップS302)。この判定がYESである場合(ステップS302;YES)に、感性表現語抽出部12は、図13に示す感性表現語データベース21の動体の遷移情報テーブルから、動体の遷移情報“0101”および“1010”に対応して記憶されている感性表現語“ウロウロ”を抽出して出力する(ステップS303)。そして、本動作を終了する。
 一方、上記ステップS302の判定で動体の遷移情報が“0101”または“1010”ではないと判定された場合(ステップS302;NO)に、感性表現語抽出部12は、動体の遷移情報が“0000”または“1111”であるか否かを判定する(ステップS304)。この判定がYESである場合(ステップS304;YES)に、感性表現語抽出部12は、動体の遷移情報テーブルから、動体の遷移情報“0000”および“1111”に対応して記憶されている感性表現語“スタスタ”を抽出して出力する(ステップS305)。そして、本動作を終了する。
 一方、上記ステップS304の判定で動体の遷移情報が“0000”または“1111”ではないと判定された場合(ステップS304;NO)に、感性表現語抽出部12は、動体の遷移情報が“2323”または“3232”であるか否かを判定する(ステップS306)。この判定がYESである場合(ステップS306;YES)に、感性表現語抽出部12は、動体の遷移情報テーブルから、動体の遷移情報““2323”および“3232”に対応して記憶されている感性表現語“ピョンピョン”を抽出して出力する(ステップS307)。そして、本動作を終了する。
 一方、上記ステップS306の判定で動体の遷移情報が“2323”または“3232”ではないと判定された場合(ステップS306;NO)には、感性表現語を抽出せずに、本動作を終了する。
 上述したように、第3実施形態における感性表現語処理装置1によれば、動画像内の動体の数や、動体の移動量、動体の遷移情報、輝度変化に応じた感性表現語を抽出して出力することができる。これにより、動画像を撮影したときの場の時間的変化や物体の動作を明確化して強調することができるため、その場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせることが可能となる。さらに、感性表現語を見ることで、動画像を全て閲覧しなくても、撮影現場の時間的変化や動体の動作を把握することが可能となる。
 [第4実施形態]
 次に、第4実施形態における感性表現語処理装置について説明する。第4実施形態の感性表現語処理装置は、上述した第1実施形態における感性表現語処理装置1の感性表現語抽出部12から出力される感性表現語を、外部から入力された静止画像に重畳して表示装置5に表示させる際の実施例である。
 図16を参照して、第4実施形態における感性表現語処理装置の構成について説明する。図16に示すように、第4実施形態の感性表現語処理装置1は、感性情報算出部11と感性表現語抽出部12とに加え、重畳部31をさらに有する点で第1実施形態の感性表現語処理装置1(図1参照)と相違する。以下においては、主に第1実施形態と相違する点について説明する。
 重畳部31は、感性表現語重畳画像生成部311を含む。感性表現語重畳画像生成部311は、入力された静止画像と、感性表現語抽出部12により出力される感性表現語とを用いて、静止画像に感性表現語を重畳させた感性表現語重畳画像を生成する。感性表現語重畳画像生成部311は、静止画像の予め定められた位置に、予め定められたフォント情報に基づいて感性表現語を重畳して感性表現語重畳画像を生成する。フォント情報には、例えば、フォント(文字形状)、フォントサイズ(文字の大きさ)および文字色が含まれる。
 重畳部31は、感性表現語重畳画像生成部311により生成された感性表現語重畳画像を表示装置5に表示させる。
 図17に、表示装置5に表示される感性表現語重畳画像の一例を示す。図17に示す静止画像には、笑顔の度合に応じて抽出された感性表現語“ニコニコ”が重畳されている。
 上述したように、第4実施形態における感性表現語処理装置1によれば、静止画像内の顔の数や、顔の傾き、笑顔の度合に応じた感性表現語を抽出し、この感性表現語を静止画像に重畳して表示させることができる。これにより、静止画像を撮影したときの場の状況や物体の状態を明確化して強調することができるため、その場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせることが可能となる。
 なお、上述した第4実施形態では、第1実施形態の感性表現語抽出部12から出力される感性表現語を静止画像に重畳する場合について説明したが、第2実施形態の感性表現語抽出部12から出力される感性表現語を静止画像に重畳する場合や、第3実施形態の感性表現語抽出部12から出力される感性表現語を動画像に重畳する場合についても同様に適用することができる。
 [第5実施形態]
 次に、第5実施形態における感性表現語処理装置について説明する。第5実施形態の感性表現語処理装置は、上述した第4実施形態の内容に加え、感性表現語を重畳する際の重畳位置やフォント情報等を、顔検出部112によって算出される顔情報に基づいて決定する際の実施例である。
 図18を参照して、第5実施形態における感性表現語処理装置の構成について説明する。図18に示すように、第5実施形態の感性表現語処理装置1は、重畳部31に重畳条件決定部312をさらに有し、顔検出部111の代わり第2実施形態の顔検出部112を有する点で第4実施形態の感性表現語処理装置1(図16参照)と相違する。以下においては、主に第4実施形態と相違する点について説明する。
 重畳条件決定部312は、顔検出部112により算出された顔情報(顔領域の中心座標、顔領域の幅、顔領域の高さ)に応じて感性表現語の重畳位置を決定する。感性表現語を重畳する位置は、例えば、顔領域に重ならない位置や、顔領域付近の位置に決定することが好ましい。これにより、人間が注目しやすい顔領域に感性表現語が重なることを防止することができるため、画像の視認性を保持することが可能となる。また、人間が注目しやすい顔領域付近に感性表現語を重畳することで、その場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせることが可能となる。
 重畳条件決定部312は、入力された静止画像を分析し、重畳する感性表現語のフォント、フォントサイズおよび文字色を含むフォント情報を決定する。具体的には、例えば、静止画像を分析し、撮影場所に応じてフォントを決定することができる。また、静止画像中の物体の領域の大きさを分析し、物体の領域が大きい場合にはフォントサイズを大きくし、物体の領域が小さい場合にはフォントサイズを小さくすることができる。さらに、感性表現語を重畳する領域内で出現頻度が最も高い色の補色を文字色にすることができる。これにより、画像の視認性を保持することが可能となる。
 感性表現語重畳画像生成部311は、重畳条件決定部312によって決定された位置に、重畳条件決定部312によって決定されたフォント情報に基づいて感性表現語を重畳し、感性表現語重畳画像を生成する。
 上述したように、第5実施形態における感性表現語処理装置1によれば、静止画像内の顔の数や、顔の傾き、笑顔の度合に応じた感性表現語を抽出し、この感性表現語を、顔領域に重ならない顔領域付近に重畳することが可能となる。これにより、静止画像を撮影したときの場の状況や物体の状態を、より明確化して強調することができるため、その場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせることが可能となる。
 [第6実施形態]
 次に、第6実施形態における感性表現語処理装置について説明する。第6実施形態の感性表現語処理装置は、上述した第5実施形態の内容に加え、感性表現語を重畳する際の重畳位置やフォント情報等を、顔検出部112によって算出される顔情報と指検出部113によって特定される手領域とに基づいて決定する際の実施例である。
 図19を参照して、第6実施形態における感性表現語処理装置の構成について説明する。図19に示すように、第6実施形態の感性表現語処理装置1は、第2実施形態の指検出部113をさらに有する点で第5実施形態の感性表現語処理装置1(図18参照)と相違する。以下においては、主に第5実施形態と相違する点について説明する。
 重畳条件決定部312は、顔検出部112により算出された顔情報および指検出部113によって特定された手領域に応じて、感性表現語の重畳位置を決定する。感性表現語を重畳する位置は、例えば、上述した第5実施形態で説明した顔領域に重ならない位置や、顔領域付近の位置の他に、手領域に重ならない位置や、手領域付近の位置に決定することが好ましい。
 上述したように、第6実施形態における感性表現語処理装置1によれば、静止画像内の顔の数や、顔の傾き、笑顔の度合、伸ばした指の数に応じた感性表現語を抽出し、この感性表現語を、顔領域や手領域に重ならない顔領域付近または手領域付近に重畳することができる。これにより、静止画像を撮影したときの場の状況や物体の状態を、より明確化して強調することができるため、その場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせることが可能となる。
 [第7実施形態]
 次に、第7実施形態における感性表現語処理装置について説明する。第7実施形態の感性表現語処理装置は、上述した第6実施形態の内容に加え、外部から入力された静止画像をスケッチ風画像に変換し、変換後のスケッチ風画像に感性表現語を重畳して表示装置5に表示させる際の実施例である。
 図20を参照して、第7実施形態における感性表現語処理装置の構成について説明する。図20に示すように、第7実施形態の感性表現語処理装置1は、画像変換部313をさらに有する点で第6実施形態の感性表現語処理装置1(図19参照)と相違する。以下においては、主に第6実施形態と相違する点について説明する。
 画像変換部313は、入力された静止画像をスケッチ風画像に変換する。スケッチ風画像に変換する手法として、例えば、WO2006/106750号公報に記載されている技術を用いることができる。静止画像をスケッチ風画像に変換することで、静止画像から細かい陰影を省略し、色数を減少することができるため、エッジを強調することが可能となる。
 感性表現語重畳画像生成部311は、画像変換部313によって変換されたスケッチ風画像に、感性表現語を重畳して感性表現語重畳画像を生成する。この際、感性表現語は、重畳条件決定部312によって決定された位置に、重畳条件決定部312によって決定されたフォント、フォントサイズおよび文字色を用いて重畳される。
 図21に、表示装置5に表示される感性表現語重畳画像の一例を示す。図21に示す静止画像は、オフィス内で撮影された静止画像がスケッチ風画像に変換されたものであり、感性表現語“ポツーン。。。”が重畳されている。
 上述したように、第7実施形態における感性表現語処理装置1によれば、入力された静止画像をスケッチ風画像に変換し、変換後のスケッチ風画像に感性表現語を重畳することができる。これにより、静止画像内の主要な陰影、色、エッジを際立たせることができるため、被写体を明確化して強調することができる。つまり、スケッチ風画像に感性表現語を重畳することで、静止画像を撮影したときの場の状況や物体の状態を、より明確化して強調することができるため、その場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせることが可能となる。
 [第8実施形態]
 次に、第8実施形態における感性表現語処理装置について説明する。第8実施形態の感性表現語処理装置は、上述した第3実施形態における感性表現語処理装置1の感性表現語抽出部12から出力される感性表現語を、外部から入力された動画像に重畳して表示装置5に表示させ、さらに、感性表現語を重畳する際の重畳位置やフォント情報等を、動体の動きなどを示す変動情報に基づいて決定する際の実施例である。
 図22を参照して、第8実施形態における感性表現語処理装置の構成について説明する。図22に示すように、第8実施形態の感性表現語処理装置1は、感性情報算出部11と感性表現語抽出部12とに加え、重畳部31をさらに有する点で第3実施形態の感性表現語処理装置1(図9参照)と相違する。以下においては、主に第3実施形態と相違する点について説明する。
 重畳部31は、重畳条件決定部312と感性表現語重畳画像生成部311とを含む。
 重畳条件決定部312は、動体検出部114により検出される動体に基づいて変動情報を算出し、変動情報に応じて感性表現語を重畳する位置を決定する。変動情報としては、例えば、動体の動きを示す情報が該当する。具体的に、例えば、動画像に歩行者が映っている場合、その歩行者の動きを示す変動情報に合わせて重畳する位置を決定する。これにより、例えば歩行動作を表す感性表現語“スタスタ”を歩行者の動きに合わせて動画像に重畳することが可能となる。
 なお、変動情報は、動体の動きを示す情報には限定されない。例えば、動画像を分析することで得られる色の変化、輝度の変化またはエッジの変化が少ない領域を示す情報を、変動情報として算出してもよい。この場合、例えば動画像に街頭が映っているときには、建物の壁や空の領域を検出し、この検出した領域に感性表現語を重畳することができる。
 重畳条件決定部312は、入力された動画像を分析し、重畳する感性表現語のフォント、フォントサイズおよび文字色を含むフォント情報を決定する。具体的には、例えば、動画像を分析し、撮影場所に応じてフォントを決定することができる。また、動画像中の物体の領域の大きさを分析し、物体の領域が大きい場合にはフォントサイズを大きくし、物体の領域が小さい場合にはフォントサイズを小さくすることができる。さらに、感性表現語を重畳する領域内で出現頻度が最も高い色の補色を文字色にすることができる。これにより、画像の視認性を保持することが可能となる。
 感性表現語重畳画像生成部311は、入力された動画像と、感性表現語抽出部12により出力される感性表現語とを用いて、動画像に感性表現語を重畳させた感性表現語重畳画像を生成する。感性表現語重畳画像生成部311は、重畳条件決定部312によって決定された位置に、重畳条件決定部312によって決定されたフォント情報に基づいて感性表現語を重畳し、感性表現語重畳画像を生成する。
 重畳部31は、感性表現語重畳画像生成部311により生成された感性表現語重畳画像を表示装置5に表示させる。
 上述したように、第8実施形態における感性表現語処理装置1によれば、動画像内の動体の数や、動体の移動量、動体の遷移情報、輝度変化に応じた感性表現語を抽出し、この感性表現語を、動画像内の動きや変化に合わせて重畳することができる。これにより、動画像を撮影したときの場の時間的変化や物体の動作を、より明確化して強調することができるため、その場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせることが可能となる。
 なお、上述した各実施形態は、単なる例示に過ぎず、各実施形態に明示していない種々の変形や技術の適用を排除するものではない。すなわち、本発明は、その趣旨を逸脱しない範囲で様々な形態に変形して実施することができる。例えば、上述した各実施形態は、適宜組み合わせることができる。
 上記の各実施形態の一部または全部は、以下の付記のようにも記載され得るが、本発明を以下に限定するものではない。
 (付記1) 撮影された画像を分析し、前記画像に表されている場の時間的変化や物体の動作を示す感性情報を算出する感性情報算出部と、予め前記感性情報に対応付けて記憶されている感性を表現する感性表現語から、前記感性情報算出部によって算出された前記感性情報に対応する前記感性表現語を抽出する感性表現語抽出部と、を備えることを特徴とする感性表現語処理装置。
 (付記2) 前記感性情報算出部は、少なくとも動きの大きな領域である動体の数、前記動体の移動量、前記動体の遷移情報、または前記画像の輝度の変化のいずれかを含む前記感性情報を算出する、ことを特徴とする付記1記載の感性表現語処理装置。
 (付記3) 前記感性表現語抽出部は、前記感性情報が前記動体の数を含む場合に、前記動体の数が多くなるほど喧騒の程度が大きく表現されるように、喧騒の程度を表す前記感性表現語を抽出する、ことを特徴とする付記2記載の感性表現語処理装置。
 (付記4) 前記感性表現語抽出部は、前記感性情報が前記動体の移動量を含む場合に、前記動体の移動量が大きくなるほど移動の速さが速く表現されるように、移動の速さを表す前記感性表現語を抽出する、ことを特徴とする付記2または3記載の感性表現語処理装置。
 (付記5) 前記感性表現語抽出部は、前記感性情報が前記動体の遷移情報を含む場合に、前記動体の遷移情報に基づいて前記動体の遷移に周期性が認められるときには、当該周期性に対応する繰り返しの動作を表す前記感性表現語を抽出する、ことを特徴とする付記2~4のいずれかに記載の感性表現語処理装置。
 (付記6) 前記感性表現語抽出部は、前記感性情報が前記画像の輝度の変化を含む場合に、前記輝度がより高い値に変化するときには、照明が点灯するときの様子を表す前記感性表現語を抽出し、前記輝度がより低い値に変化するときには、照明が消灯するときの様子を表す前記感性表現語を抽出する、ことを特徴とする付記2~5のいずれかに記載の感性表現語処理装置。
 (付記7) 前記感性情報算出部は、前記場の状況や物体の状態を示す前記感性情報をさらに算出する、ことを特徴とする付記1~6のいずれかに記載の感性表現語処理装置。
 (付記8) 前記感性情報算出部は、顔の数、顔の傾き、笑顔の度合、指の数のいずれかを含む前記感性情報を算出する、ことを特徴とする付記7記載の感性表現語処理装置。
 (付記9) 前記感性表現語抽出部は、前記感性情報が前記顔の数を含む場合に、前記顔の数が多いほど場の盛り上がりが大きく表現されるように、場の盛り上がりを表す前記感性表現語を抽出する、ことを特徴とする付記8記載の感性表現語処理装置。
 (付記10) 前記感性表現語抽出部は、前記感性情報が前記顔の傾きを含む場合に、二つの並んだ顔の傾きが相互に近付く方向に大きくなるほど仲の良さが深く表現されるように、仲の良さを表す前記感性表現語を抽出する、ことを特徴とする付記8または9記載の感性表現語処理装置。
 (付記11) 前記感性表現語抽出部は、前記感性情報が前記笑顔の度合を含む場合に、前記笑顔の度合が高くなるほど喜びや楽しみが大きく表現されるように、喜びや楽しみを表す前記感性表現語を抽出し、前記笑顔の度合が低くなるほど怒りや悲しみが大きく表現されるように、怒りや悲しみを表す前記感性表現語を抽出する、ことを特徴とする付記8~10のいずれかに記載の感性表現語処理装置。
 (付記12) 前記感性表現語抽出部は、前記感性情報が前記指の数を含む場合に、前記指の数が0本であるときには、握り拳を表す前記感性表現語を抽出し、前記指の数が2本である場合には、ピースサインを表す前記感性表現語を抽出し、前記指の数が5本である場合には、拳が開いた状態を表す前記感性表現語を抽出する、ことを特徴とする付記8~11のいずれかに記載の感性表現語処理装置。
 (付記13) 前記感性表現語は、少なくとも擬音語または擬態語のいずれかである、ことを特徴とする付記1~12のいずれかに記載の感性表現語処理装置。
 (付記14) 撮影された画像を分析し、前記画像に表されている場の時間的変化や物体の動作を示す感性情報を算出する感性情報算出ステップと、予め前記感性情報に対応付けて記憶されている感性を表現する感性表現語から、前記感性情報算出部によって算出された前記感性情報に対応する前記感性表現語を抽出する感性表現語抽出ステップと、を含むことを特徴とする感性表現語処理方法。
 (付記15) 付記14に記載の各ステップをコンピュータに実行させるための感性表現語処理プログラム。
 この出願は、2010年11月24日に出願された日本出願特願2010-261045を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明に係る感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラムは、撮影時の場の雰囲気や物体に対する印象を、撮影場所にいるときと同様にイメージさせることに適している。
 1…感性表現語処理装置、5…表示装置、11…感性情報算出部、12…感性表現語抽出部、21…感性表現語データベース、31…重畳部、111、112…顔検出部、113…指検出部、114…動体検出部、311…感性表現語重畳画像生成部、312…重畳条件決定部、313…画像変換部。

Claims (10)

  1.  撮影された画像を分析し、前記画像に表されている場の時間的変化や物体の動作を示す感性情報を算出する感性情報算出部と、
     予め前記感性情報に対応付けて記憶されている感性を表現する感性表現語から、前記感性情報算出部によって算出された前記感性情報に対応する前記感性表現語を抽出する感性表現語抽出部と、
     を備えることを特徴とする感性表現語処理装置。
  2.  前記感性情報算出部は、少なくとも動きの大きな領域である動体の数、前記動体の移動量、前記動体の遷移情報、または前記画像の輝度の変化のいずれかを含む前記感性情報を算出する、
     ことを特徴とする請求項1記載の感性表現語処理装置。
  3.  前記感性表現語抽出部は、前記感性情報が前記動体の数を含む場合に、前記動体の数が多くなるほど喧騒の程度が大きく表現されるように、喧騒の程度を表す前記感性表現語を抽出する、
     ことを特徴とする請求項2記載の感性表現語処理装置。
  4.  前記感性表現語抽出部は、前記感性情報が前記動体の移動量を含む場合に、前記動体の移動量が大きくなるほど移動の速さが速く表現されるように、移動の速さを表す前記感性表現語を抽出する、
     ことを特徴とする請求項2または3記載の感性表現語処理装置。
  5.  前記感性表現語抽出部は、前記感性情報が前記動体の遷移情報を含む場合に、前記動体の遷移情報に基づいて前記動体の遷移に周期性が認められるときには、当該周期性に対応する繰り返しの動作を表す前記感性表現語を抽出する、
     ことを特徴とする請求項2~4のいずれか1項に記載の感性表現語処理装置。
  6.  前記感性表現語抽出部は、前記感性情報が前記画像の輝度の変化を含む場合に、前記輝度がより高い値に変化するときには、照明が点灯するときの様子を表す前記感性表現語を抽出し、前記輝度がより低い値に変化するときには、照明が消灯するときの様子を表す前記感性表現語を抽出する、
     ことを特徴とする請求項2~5のいずれか1項に記載の感性表現語処理装置。
  7.  前記感性情報算出部は、前記場の状況や物体の状態を示す前記感性情報をさらに算出する、
     ことを特徴とする請求項1~6のいずれか1項に記載の感性表現語処理装置。
  8.  前記感性情報算出部は、顔の数、顔の傾き、笑顔の度合、指の数のいずれかを含む前記感性情報を算出する、
     ことを特徴とする請求項7記載の感性表現語処理装置。
  9.  撮影された画像を分析し、前記画像に表されている場の時間的変化や物体の動作を示す感性情報を算出する感性情報算出ステップと、
     予め前記感性情報に対応付けて記憶されている感性を表現する感性表現語から、前記感性情報算出部によって算出された前記感性情報に対応する前記感性表現語を抽出する感性表現語抽出ステップと、
     を含むことを特徴とする感性表現語処理方法。
  10.  請求項9に記載の各ステップをコンピュータに実行させるための感性表現語処理プログラム。
PCT/JP2011/076292 2010-11-24 2011-11-15 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム WO2012070429A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012545688A JPWO2012070429A1 (ja) 2010-11-24 2011-11-15 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム
US13/824,403 US9183632B2 (en) 2010-11-24 2011-11-15 Feeling-expressing-word processing device, feeling-expressing-word processing method, and feeling-expressing-word processing program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-261045 2010-11-24
JP2010261045 2010-11-24

Publications (1)

Publication Number Publication Date
WO2012070429A1 true WO2012070429A1 (ja) 2012-05-31

Family

ID=46145775

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/076292 WO2012070429A1 (ja) 2010-11-24 2011-11-15 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム

Country Status (3)

Country Link
US (1) US9183632B2 (ja)
JP (1) JPWO2012070429A1 (ja)
WO (1) WO2012070429A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011122522A1 (ja) * 2010-03-30 2011-10-06 日本電気株式会社 感性表現語選択システム、感性表現語選択方法及びプログラム
EP3007456A4 (en) * 2013-05-30 2016-11-02 Sony Corp CLIENT DEVICE, METHOD, SYSTEM AND CONTROL PROGRAM

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003289499A (ja) * 2002-03-28 2003-10-10 Sharp Corp データ編集方法、データ編集装置、データ記録装置および記録媒体
JP2010066844A (ja) * 2008-09-09 2010-03-25 Fujifilm Corp 動画コンテンツの加工方法及び装置、並びに動画コンテンツの加工プログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6619860B1 (en) * 1997-11-14 2003-09-16 Eastman Kodak Company Photobooth for producing digitally processed images
JP2003018462A (ja) 2001-06-28 2003-01-17 Canon Inc 文字挿入装置および文字挿入方法
US6931147B2 (en) * 2001-12-11 2005-08-16 Koninklijke Philips Electronics N.V. Mood based virtual photo album
US7003139B2 (en) * 2002-02-19 2006-02-21 Eastman Kodak Company Method for using facial expression to determine affective information in an imaging system
JP3863809B2 (ja) 2002-05-28 2006-12-27 独立行政法人科学技術振興機構 手の画像認識による入力システム
JP4278027B2 (ja) 2002-10-28 2009-06-10 株式会社報商製作所 消火用具の収納箱
US7233684B2 (en) * 2002-11-25 2007-06-19 Eastman Kodak Company Imaging method and system using affective information
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
US7607097B2 (en) 2003-09-25 2009-10-20 International Business Machines Corporation Translating emotion to braille, emoticons and other special symbols
US20060047515A1 (en) 2004-08-25 2006-03-02 Brenda Connors Analyzing human movement patterns
JP4375580B2 (ja) 2005-03-30 2009-12-02 日本電気株式会社 画像処理装置、画像処理方法、および画像処理プログラム
US7532752B2 (en) * 2005-12-30 2009-05-12 Microsoft Corporation Non-photorealistic sketching
JP2007233517A (ja) 2006-02-28 2007-09-13 Fujifilm Corp 顔検出装置および方法並びにプログラム
US20070294273A1 (en) * 2006-06-16 2007-12-20 Motorola, Inc. Method and system for cataloging media files
US8126220B2 (en) * 2007-05-03 2012-02-28 Hewlett-Packard Development Company L.P. Annotating stimulus based on determined emotional response
KR20080110489A (ko) * 2007-06-14 2008-12-18 소니 가부시끼 가이샤 정보 처리 장치 및 방법, 및 컴퓨터 프로그램
US8117546B2 (en) * 2007-08-26 2012-02-14 Cyberlink Corp. Method and related display device for displaying pictures in digital picture slide show
US8195598B2 (en) * 2007-11-16 2012-06-05 Agilence, Inc. Method of and system for hierarchical human/crowd behavior detection
JP2009141516A (ja) 2007-12-04 2009-06-25 Olympus Imaging Corp 画像表示装置,カメラ,画像表示方法,プログラム,画像表示システム
US8462996B2 (en) * 2008-05-19 2013-06-11 Videomining Corporation Method and system for measuring human response to visual stimulus based on changes in facial expression
TW201021550A (en) 2008-11-19 2010-06-01 Altek Corp Emotion-based image processing apparatus and image processing method
US20110263946A1 (en) * 2010-04-22 2011-10-27 Mit Media Lab Method and system for real-time and offline analysis, inference, tagging of and responding to person(s) experiences
DE102010018460B4 (de) 2010-04-27 2017-02-16 Siemens Healthcare Gmbh Verfahren zur Ermittlung wenigstens einer Änderung einer tubulären Gewebestruktur eines Lebewesens, Recheneinheit und Datenträger

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003289499A (ja) * 2002-03-28 2003-10-10 Sharp Corp データ編集方法、データ編集装置、データ記録装置および記録媒体
JP2010066844A (ja) * 2008-09-09 2010-03-25 Fujifilm Corp 動画コンテンツの加工方法及び装置、並びに動画コンテンツの加工プログラム

Also Published As

Publication number Publication date
JPWO2012070429A1 (ja) 2014-05-19
US20130182907A1 (en) 2013-07-18
US9183632B2 (en) 2015-11-10

Similar Documents

Publication Publication Date Title
CN109729426B (zh) 一种视频封面图像的生成方法及装置
CN108665492B (zh) 一种基于虚拟人的舞蹈教学数据处理方法及系统
KR100845390B1 (ko) 영상 처리기, 영상 처리 방법, 기록 매체, 및 반도체 장치
WO2012070430A1 (ja) 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム
KR101263686B1 (ko) 증강 현실을 이용한 노래방 시스템 및 장치, 이의 노래방 서비스 방법
de Lima et al. Draw your own story: Paper and pencil interactive storytelling
KR100845969B1 (ko) 동적객체 영역 추출방법 및 장치
EP2239652A1 (en) Providing an interactive visual representation on a display
KR101483054B1 (ko) 상호작용을 지원하는 모바일 기반 증강현실 제작 시스템 및 방법
WO2012070428A1 (ja) 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム
EP3562144A1 (en) User terminal device and the control method thereof
KR20180037519A (ko) 기계 학습 기반의 실감 미디어 저작 방법 및 장치
US10955911B2 (en) Gazed virtual object identification module, a system for implementing gaze translucency, and a related method
WO2012070429A1 (ja) 感性表現語処理装置、感性表現語処理方法および感性表現語処理プログラム
KR20190074911A (ko) 실감형 영상 콘텐츠 제공 방법 및 이를 이용한 서버
Gomez et al. Spatial awareness and intelligibility for the blind: audio-touch interfaces
CN111651054A (zh) 音效控制方法、装置、电子设备及存储介质
Kakarla et al. A real time facial emotion recognition using depth sensor and interfacing with Second Life based Virtual 3D avatar
Rasool et al. Image-driven haptic rendering
Patel et al. Hand-gesture recognition for automated speech generation
TWI411300B (zh) 可調式網格視訊偵測與監控之方法與系統
Amatya et al. Translation of Sign Language Into Text Using Kinect for Windows v2
US11842729B1 (en) Method and device for presenting a CGR environment based on audio data and lyric data
JP7285045B2 (ja) 画像合成装置、画像合成方法及びプログラム
Malerczyk Dynamic Gestural Interaction with Immersive Environments

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11843408

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012545688

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13824403

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11843408

Country of ref document: EP

Kind code of ref document: A1