WO2004093015A1 - 画像認識装置及び画像認識プログラム - Google Patents

画像認識装置及び画像認識プログラム Download PDF

Info

Publication number
WO2004093015A1
WO2004093015A1 PCT/JP2003/004672 JP0304672W WO2004093015A1 WO 2004093015 A1 WO2004093015 A1 WO 2004093015A1 JP 0304672 W JP0304672 W JP 0304672W WO 2004093015 A1 WO2004093015 A1 WO 2004093015A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
time
unit
concealment
tool
Prior art date
Application number
PCT/JP2003/004672
Other languages
English (en)
French (fr)
Inventor
Hisashi Miyamori
Original Assignee
National Institute Of Information And Communications Technology Incorporated Administrative Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute Of Information And Communications Technology Incorporated Administrative Agency filed Critical National Institute Of Information And Communications Technology Incorporated Administrative Agency
Priority to EP03717571A priority Critical patent/EP1617374A4/en
Priority to JP2004570857A priority patent/JP4482690B2/ja
Priority to US10/552,143 priority patent/US7515735B2/en
Priority to PCT/JP2003/004672 priority patent/WO2004093015A1/ja
Priority to AU2003227491A priority patent/AU2003227491A1/en
Publication of WO2004093015A1 publication Critical patent/WO2004093015A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image

Definitions

  • the present invention relates to an image recognizing apparatus capable of appropriately recognizing an image content, which has conventionally been difficult to recognize, in sports content such as a broadcasted sports program. Background art
  • a method for recognizing image contents such as “successful passing” and “successful smashing” is needed. For example, by manually inputting which section of the video information is “successful in passing” or “smashed in succession”, the content of the image is recognized, and The positions of poles, players and courtlines.
  • a method of recognizing the image content by comprehensively judging the temporal change of the spatial relative relationship can be considered.
  • the present invention employs the following means.
  • the movements of players in sports that compete between areas partitioned by obstacles such as nets are recorded on a program being broadcasted in the sport or on a recording medium such as a material video before being broadcasted or a VTR.
  • An image recognition device for recognizing from the content to be obtained, a video information acquisition unit for acquiring video information showing at least one player's action during play from the content, and the video information Image information acquired by the acquisition unit It is determined whether a tool such as a pole, which is a target for counting the score of the sport by moving between the areas included in the report, is in a state of being concealed by a predetermined target body
  • a concealment state determination unit and a concealment start time when the use tool is determined to be in a state of being concealed from the state not concealed by the object, and concealed by the object.
  • the hitting time information specifying unit for specifying the hitting time at which the tool was hit, based on the concealment release time when it is determined that the device has not been concealed from the state in which the tool has been concealed, and rule information for performing the sport.
  • the concealment state determination unit determines that the concealment state has been changed from a state in which the tool is not concealed to the object by the concealment state determination unit.
  • the impact time information identifying unit strikes the tool based on the concealment release time and the concealment release time when the concealment state determining unit determines that the concealed state has been changed from the concealed state to the unconcealed state.
  • the hitting time specified is specified, and based on the specified hitting time, the video information showing the action of the player during play, and the rule information for executing the rule, the image content recognizing unit reliably assures the player.
  • the behavior is specified so that, for example, the recognition of forehand swing, knock-and-swing and overhead swing due to overlap or occlusion does not occur.
  • An image recognition device excellent in image recognition can be provided.
  • the concealment state determination unit may determine whether or not the tool is within a predetermined distance of the object.
  • a determination unit, and the distance determination unit determines that the tool is within a predetermined distance of the object, and changes from a state in which the tool is not concealed to the object to a state in which the tool is concealed.
  • the time is identified as the concealment start time, and the distance determination unit determines that the tool is within a predetermined distance of the object, and the tool is concealed by the object. It is desirable to have a concealment start release time specifying unit that specifies the time when the state changes from the hidden state to the unconcealed state as the concealment release time.
  • the video information acquisition unit uses an obstacle such as a net or a boundary line indicating the area and a boundary outside the area.
  • a domain element extraction unit that extracts, from the video information, equipment information that indicates the position of the athlete and the equipment information that indicates the position of the athlete and the equipment that moves between the areas and counts the score of the sport. I prefer to be.
  • the player position information indicates an area including the player and the equipment that the player always uses during play. It is desired to be location information.
  • the domain element extraction unit may use the facility information extracted by the domain element extraction unit.
  • the domain element extraction unit may use the facility information and the player position information extracted by the domain element extraction unit. There is a method of extracting use tool information from the video information based on the information.
  • the use facility information, the player position information, the use tool information, and the rule information are to be subjected to image extraction. Anything that is based on knowledge of a sporting event is acceptable.
  • An acoustic information acquisition unit that acquires acoustic information synchronized with the information from the content, wherein the impact time information identification unit acquires the combination of the concealment start time and the concealment release time and the acoustic information acquisition unit. It is desirable to specify the impact time based on the acoustic information.
  • the impact time information identifying unit may determine the time at which the acoustic information indicates a value greater than a predetermined level. There is a method of specifying the time.
  • the acoustic information acquisition unit is provided with a filter unit that passes a predetermined frequency band, and the acoustic information is stored in the filter unit. It is desirable that the sound has passed through the evening area, and in particular, the sound generated when the athlete's shoes are rubbed against the coat during play, the sound of the wind, and other environmental sounds such as noise are suitably used.
  • the filter section is constituted by a non-pass filter.
  • the batting time information specifying unit determines the batting time based on batting sound candidate data having a predetermined time including the batting sound extracted from the acoustic information. It is preferable to specify
  • a plurality of percussion sound candidate data is extracted from the acoustic information so that the percussion sound candidate data of the next time and the percussion sound candidate data of the next time have mutually overlapping times, and the plurality of percussion sound candidate data are extracted.
  • the hit time information specifying unit may specify the hit time.
  • the plurality of percussion sound candidate data are configured to have the same data length, and the plurality of percussion sound candidate data are extracted from the acoustic information at regular time intervals. With this configuration, the impact sound can be extracted efficiently.
  • a striking sound pattern information storage unit for storing striking sound pattern information obtained by patterning the sound of the shading sound, and the striking time information specifying unit includes a striking sound pattern stored in the striking sound pattern information storage unit. It is desirable to specify the impact time based on evening information and the acoustic information.
  • the action of a player in a sport that competes between areas defined by obstacles such as nets is described as a program during the broadcast of the sport or a program before the broadcast.
  • An image recognition device that recognizes from material recorded on a recording medium such as a VTR or a VTR, and an image showing at least one player's action during play from the content
  • a video information acquisition unit for acquiring information; and a transfer between the areas included in the video information acquired by the video information acquisition unit.
  • a concealment state determination unit that determines whether or not a tool such as a pole to be moved and counted for the score of the sport is concealed by a predetermined target object; and the concealment state determination unit.
  • the concealment start time when it is determined that the use tool has changed from a state in which the object is not concealed to the object to a state in which the object is concealed, and a state in which the object is concealed from the state in which the object is concealed.
  • the hitting time information specifying unit that specifies the hitting time of hitting the use tool, the video information obtained by the video information obtaining unit, and the hitting time information specifying unit
  • An image content recognizing unit for recognizing the image content including the action of the player indicated by the video information based on the position of the tool at the specified hitting time and the device.
  • the image information such as a hitting sound generated at the time of hitting a tool such as a pole which moves between the areas and counts the score of the sport is used.
  • An acoustic information acquisition unit that acquires synchronized acoustic information from the content, wherein the impact time information identification unit acquires the set of the concealment start time and the concealment release time and the acoustic information acquisition unit.
  • the strike time may be specified based on the acoustic information.
  • FIG. 1 is a device configuration diagram of an image recognition device according to an embodiment of the present invention.
  • FIG. 2 is a functional block diagram according to the first embodiment.
  • FIG. 3 is a diagram showing a coat model used for extracting a coat line from video information in the embodiment.
  • FIG. 4 is a diagram showing a net model used for extracting a net line from video information in the embodiment.
  • FIG. 5 is a diagram showing a coat line and a net line extracted from video information in the embodiment.
  • Sixth is a diagram showing detection of a player area in the embodiment.
  • FIG. 7 is a diagram showing detection of a pole area in the embodiment.
  • FIG. 8 is a diagram showing tracking of a pole position in the embodiment.
  • FIG. 9 is a diagram showing a storage mode of a rule information storage unit in the embodiment.
  • FIG. 10 is a diagram showing a mode of identifying the action of the player in the embodiment.
  • FIG. 11 is a flowchart showing a process of performing image recognition from video information in the embodiment.
  • FIG. 12 is a diagram showing the relationship between the coefficient a and the scale F value of the overall detection accuracy.
  • FIG. 13 is a functional block diagram of an image recognition device according to another embodiment of the present invention.
  • FIG. 14 is a flowchart showing a process of performing image recognition from video information in the embodiment.
  • FIG. 15 is a functional block diagram of an image recognition device according to another embodiment of the present invention. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 is a device configuration diagram showing a device configuration of an image recognition device according to the present embodiment.
  • FIG. 2 is a functional block diagram in the embodiment.
  • the image recognition device is characterized by content related to sports recorded on a broadcast program or a recording medium displayed using a recording / reproducing device such as a television receiver or a VTR.
  • a recording / reproducing device such as a television receiver or a VTR
  • Main components include a CPU 14 that operates and functions as an image recognition device 1, and a user interface 15 such as a keyboard and a mouse that receives user information of the user. Element.
  • content refers to the movement of the player and the coat is reflected vertically from diagonally above.
  • the video includes shots taken by such angles, the referees, and shots for the audience, as well as audio from commentators.
  • a tennis program will be described as an example of “contents”.
  • the operation of the CPU 14 and the like causes the domain element extraction unit 101 and the rule as shown in FIG. It has functions as an information storage unit 102, a concealment state determination unit 201, an impact time information identification unit 105, an image content recognition unit 106, and the like.
  • an information storage unit 102 a concealment state determination unit 201, an impact time information identification unit 105, an image content recognition unit 106, and the like.
  • the domain element extraction unit 101 uses the facility information such as obstacles such as nets, a coat as a partitioned area and a coat line as a boundary line indicating a boundary outside the coat, Athlete position information indicating the position of the athlete, and equipment used to move between the above-mentioned courts and count the score of the sport concerned are obtained from the video information displayed on the television receiver. It extracts a part of the function as a video information acquisition unit that acquires video information that reflects at least one player's action during play from the content. It is configured as follows.
  • the used facility information to be extracted is a coat line and a net line
  • the extracted player position information is the position information of the player 1 and the position of the player 2 that are to compete.
  • the tool information to be extracted is referred to as tennis pole (hereinafter referred to as “pole”).
  • the usage extracted by the domain element extraction unit 101 The facility information, player position information, and equipment information are hereinafter collectively referred to as domain elements.
  • the use facility information is extracted from coat feature points Pc, ..., Pc! 4 (hereinafter collectively referred to as “P c”), a coat model that defines the coat lines L C l , ' ⁇ ⁇ , and L c 9 (hereinafter collectively referred to as “L c”).
  • P c coat feature points
  • L C l coat lines
  • L c L c 9
  • net feature points P ni,..., P n 3 (hereinafter, collectively referred to as “P n”) indicating typical points of the net line
  • L n L n 2 (hereinafter referred to as “L n”) is extracted from the video information by referring to the net model that defines the line and the net line in this order.
  • a method of giving the initial feature point P c (0) as an input a method in which an operator inputs using the user interface 15 or a method in which the device 1 is automatically Either the method of detecting and inputting the initial feature point P c (0).
  • the binary image B (t) of the original image is ANDed with the neighborhood of the coat line Lc (t-1) to obtain a binary value consisting only of the coat neighborhood.
  • co-line binary image It is set to generate Be (t). Then, this is Hough-transformed for each line, peak detection is performed within the range limited by each detection window Wc (t-1), the coat feature point Pc (t) is updated, and again By setting the coat line L c (t) to Huff transform and updating the detection window W c (t), the coat line is extracted from the video information.
  • a line L n (0) and a detection window W n (0) are prepared.
  • an image B n obtained by removing the coat line binary image from the binary image of the original image (t) B (t)
  • One Be (t) is generated as a net-line binary image, and this is used to perform Hough transform and peak detection within the detection window to obtain feature points P n (t) is updated, and the setting is made to extract the net line from the video information.
  • coat lines and net lines can be extracted as shown in FIG.
  • player position information is extracted by specifying the area where the overlap is maximum in the binary image from which the coat line and net line have been removed from the video information. It is configured as follows.
  • 8 ((t) BIN (I (t) — I (t-s)) and B 2 (t)-BIN (I (t + s) — I (t)) I have.
  • BIN is a function indicating that the argument in () is binarized.
  • the configuration is such that poles are extracted by switching between the detection mode and the tracking mode according to the distance from the player position information extracted in this way.
  • the set of one pole candidate Ba remaining in the area can be identified as the pole orbit BW of the section at that time.
  • the template T b (x, y) is a kind of tool provided to extract or et pole video information, in this embodiment, expanded in the video Oh That had was tentatively b x X b y the size of the pole to be collapsed, and set as a b x X b y either et te Npure one bets an enlarged slightly periphery to the outside of this ing.
  • the tracking mode, the template Bok T b (x, y) is to track the pole track BW Ri by the template Tomah etching with.
  • the pole trajectory BW can be regarded as almost a straight line in a short time, and the search is performed using the position obtained by adding the previously detected movement amount as it is to the current frame as the predicted center.
  • the detection mode is executed, and if not, the tracking mode is repeated. It is set to do.
  • the pole trajectory BW in an arbitrary time interval can be obtained.
  • the trajectory BW of the pole is displayed superimposed on video information at an arbitrary time in order to express the trajectory BW of the pole easily.
  • the rule information storage unit 102 stores rule information necessary for performing the sport, and is formed in a predetermined area of the external storage device 12 or the internal memory 13. More specifically, as shown in FIG. 9, for example, as shown in FIG. 9, the server converts the indexed rule information index “service” to the rule information “service immediately before starting the service”. Back towards the baseline net, both feet between the center mark and the virtual extension of the sideline. Stand on the ground. Throw the pole with your hand in any direction in the air, and hit the racket before the pole falls to the ground. The service is deemed to have been completed the moment the racket and pole meet.
  • the rule information index "Ball on the coat line” is defined as the rule information index "Polls falling on the coat line are separated by the coat line. It is deemed to have fallen within the court. "
  • the concealment state determination unit 201 determines whether or not the pole extracted by the domain element extraction unit 101 is in a state of being concealed by the predetermined target player area P. is there . In the present embodiment, the concealment state determination unit 201 determines whether or not the pole extracted by the domain element extraction unit 101 is within a predetermined distance from the use area P. The distance determination unit 201a and the distance determination unit 201a determine that the pole is within a predetermined distance with respect to the player area p, and the ball is concealed from a state where it is not concealed in the player area p. The time when the state becomes the concealment start time is specified as the concealment start time, and the distance is determined by the distance determination unit 201a with respect to the player area p. The concealment start release time specification unit 201b is configured to specify the time when the state is changed from the state concealed by P to the state not concealed as the concealment release time.
  • the pole is within a predetermined range of the player area p. It is assumed that the detection pole positions at the time when it is determined are b (1) to b (7). Then, among the pole positions b (1) to b (7), the time at which the pole position immediately before being concealed in the player area p is specified as the concealment start time t0, and the player is selected. The time at which the pole position immediately after appearing from the area p can be specified is set as the concealment release time t1, and the concealment start release time specification unit 201b specifies the time.
  • the state in which the pole is hidden behind the player area p is defined as the “concealed state”.
  • the state in which the pole overlaps in front of the player area p is referred to as “concealed state”.
  • the predetermined target object to be concealed is not limited to the player area P, but may be information on facilities used such as a net line and a coat line.
  • the batting time information specifying unit 105 specifies the batting time t a based on the concealment start time t 0 and the concealment release time t 1 specified by the concealment start release time specifying unit 200 b. It is.
  • the concealment start time t 0 and the concealment release time t 1 specified by the concealment start release time specifying unit 2 0 1 b are substituted into the following equation (Equation 1) to calculate: good is, to identify the blow time t a.
  • the value of the coefficient a to be set is not limited to this, for example, different values are set for the player on the side and the player on the back side.
  • the value of the impact time ta obtained as described above may be, for example, a value approximated to an integer by an appropriate method or a value rounded to a number within the range of significant figures.
  • the number of significant digits can be appropriately set according to the embodiment.
  • the image content recognition unit 106 includes the coat line and the net line extracted by the domain element extraction unit 101, the player position information, the position of the pole, and the hit time information identification unit. based the position of use devices in specified striking time t a 1 0 5, to the rule information stored in the rule information storing section 1 0 2, recognizes the image contents including the operation of the player indicated by the image information It does.
  • the yo Ri specifically, Remind as the first 0 Figure obtains the pole position P i (t a) at the striking time t a which is identified by the batting during time information specifying unit 1 0 5, this pole Position P j (t a
  • the position of the athlete for example, if the pole is above the identification line at the top of the circumscribed rectangle surrounding the athlete at this pole hit time t a , "overhead-swing”; Or Knockside , It is set to judge the movement of the player as “forehand_swing” and “backhand-swing” respectively.
  • the identification line is set at the upper part of the player area which is determined at a fixed ratio according to the vertical length of the circumscribed square of the player.
  • a coat line and a net line are respectively extracted from the video information showing the movement of the player during play (step S101), and these coat lines are extracted from the video information.
  • the player position information is extracted using the binary image from which the net line has been removed (step S102).
  • a pole is extracted from the video information based on the extracted player position information (step S103).
  • the batting time information identification unit 105 determines , to identify the hit time t a basis of the concealment start releasing time specifying unit 2 0 1 b at the determined hiding start time and (to) and hiding cancel time t 1 (step S 1 0 5).
  • the pole is Ri is concealed Ri overlapped players Even in cases such as when image recognition malfunctions, "forehand_swing”, which indicates forehand swing operation, and "backhand—swi,” which indicates knock-knock and end-swing operation. ng ", and” o Verhead_swing ", which indicates overhead swing motion (step S106).
  • the concealment state determination unit 201 determines that the tool has changed from a state not concealed by the object to a state concealed by the concealment state determination unit 201. Based on the start time and the concealment release time when the concealment state determination unit 201 determines that the state has been changed from the state concealed by the target object to the state not concealed, the strike time information identification unit 10 0 5 specifies the time at which the tool was hit, and further, based on the specified time of the hit, the video information showing the action of the player during play, and the rule information for performing the rule, the image content.
  • Recognition unit 106 reliably identifies player movement Therefore, for example, image recognition excellent in image recognition that can avoid misidentification of forehand swing, knockhand swing, and overhead swing due to overlapping or concealment
  • the equipment can be provided relatively inexpensively. It goes without saying that image recognition can be suitably performed when the pole and the player are not overlapped or concealed.
  • the content is a tennis program
  • the domain element extracted from the video information is used
  • the facility information is the coat line and the net line.
  • a recording / reproducing device such as a television or VTR, etc.
  • the medium that is the target of content for performing image recognition is not limited to this embodiment.
  • the image content including the player's motion indicated by the video information is converted into “foreand_swing”, which indicates a forehand swing operation, and “knock-and-swing”, which indicates a knock-and-swing operation.
  • backhand—swing “Overhead swing”, which represents an overhead swing motion, is configured to be recognized by three types of motions. It is also possible to recognize "stay”, which indicates that the player stays in the game, and "move”, which indicates the player's movement.
  • the rule information stored in the rule information storage unit 102 is defined and stored in a more complicated manner including various actions of the players, the image content recognition unit 106 becomes more complicated. It is also possible to recognize the movements of different players.
  • b x X b y a given template T b (X, y), including Paul had been constructed in the jar by extracting whether et al Paul video information using, without the use of this tape Npure door Polls may be extracted in advance.
  • the image recognition device is a sports television that is recorded on a broadcast program or a recording medium displayed using a recording / reproducing device such as a television receiver or a VTR. It recognizes the behavior of the players during the characteristic game from the content related to the game. Further, the device configuration of this image recognition apparatus is the same as that of the first embodiment, and thus the description is omitted.
  • the image recognition device 1 will be described in terms of function.
  • a concealment state determination unit 201 including a rule information storage unit 102, a distance determination unit 210 a and an concealment start release time specification unit 201 b, an acoustic information acquisition unit 103, and a hitting sound Pattern information storage unit 104, blow time information identification unit 105, image content recognition unit 106, etc. Function.
  • the domain element extraction unit 101, the rule information storage unit 102, and the concealment state determination unit 201 are the same as those in the first embodiment, and thus description thereof is omitted.
  • the acoustic information acquisition unit 103 acquires acoustic information including the impact sound generated at the time of hitting the pole from the content.
  • the acoustic information is acquired by a 16-bit resolution, a sample rate 4. It is set to sample at 4.1 kHz.
  • a filter unit (not shown) is provided in the acoustic information acquisition unit 103, for example, a sound or wind sound generated when a player's shoes and coat are rubbed during play.
  • it is configured such that acoustic information other than the impact sound such as noise is filtered, and only the impact sound can be suitably extracted.
  • this filter section is a bandpass filter that allows a predetermined frequency band to pass through digital circuits such as an FIR filter and an IIR filter.
  • digital circuits such as an FIR filter and an IIR filter.
  • the signal components in the frequency band of 100 ⁇ ⁇ to 150 Hz are set to pass.
  • the striking sound pattern information storage unit 104 stores a change in sound due to a hitting condition between the pole and the rack, such as a striking sound when smashing or a striking when a forehand stroke is performed. Striking sound is classified into stroke types, such as sound, and is divided into patterns. The amplitude value is stored in a predetermined area of the external storage device 12 or the internal memory 13 in association with the amplitude value. In addition, sounds other than the sound generated when the pole hits the racket, such as the sound when the pole bounces off the coat, may be stored in a pattern.
  • the batting time information specifying unit 105 is based on the concealment start time t 0 and the concealment removal time t 1 specified by the concealment start release time specifying unit 201 b (method M 1), and The striking time t a is specified based on the striking sound pattern information stored in the sound pattern information storage unit 104 and the acoustic information acquired by the acoustic information acquiring unit 103 (method M 2). More specifically, the time when the pole approaches within a certain distance from the player area p is defined as t — d 0, and the time when the pole moves away from the player outside a certain distance. Let t — d 1.
  • the impact time is detected using the acoustic information of the method M2, and if the impact time is detected, the value is determined as the impact time t. as the a to adopt.
  • t a approx METHODS M l (a X t 0 + (1 - a) X t 1) to identify by Ri blow time t a to.
  • approx (x) represents a function that approximates x in a suitable way.
  • the cause of the “missing detection” is that the acoustic information necessary to specify the impact time is good due to the microphone installation conditions, the mixing conditions in broadcasting, and the conditions of the data transmission path. Cases that cannot be obtained. Furthermore, if the hitting time obtained by the method M2 and the hitting time obtained by the method M1 are in a matching relationship, the time is specified as the hitting time. However, the accuracy of the specific impact time can be significantly improved.
  • the method M 2 will be described in detail.
  • the striking time information specifying unit 105 stores the acoustic information acquired by the acoustic information acquiring unit 103 in units of 208 points ( ⁇ 0.046 seconds) and 1 2 FFT processing is performed while sequentially shifting the start time at points (0.0209 seconds), and the frequency characteristic pattern of the acoustic information converted into the frequency domain at each time is stored in the hitting sound pattern information storage unit 1. It is set to match with the batting sound pattern information stored in 04. Their to, the results of these checking, if match over the frequency response pattern and the impact sound pattern information of the audio information to identify the matching time and blow time t a of this pole, the specific The operation is performed so as to output the hitting time t a to the image content recognition unit 106.
  • the correlation between the frequency characteristic pattern of the acoustic information and the striking sound pattern information is determined by using a correlation function, and when the correlation function indicates a value larger than a preset threshold value, it is regarded as a match. Is set to.
  • the image content recognizing unit 106 is the same as that of the first embodiment, and a description thereof will be omitted.
  • a co-line and a net line are respectively extracted from the video information showing the movement of the player during play (step S201), and these coats are extracted from the video information.
  • the player position information is extracted using the binary image from which the lines and net lines have been removed (step S202).
  • a pole is extracted from the video information based on the extracted player position information (step S203). If the pole is within a predetermined range with respect to the player area p (step S204), the filtering unit filters the sound information including the hitting sound generated when the pole is hit from the content. (Step S205), and performs FFT processing on the acoustic information obtained by filtering while sequentially shifting the start time at predetermined intervals (step S205). 206).
  • the frequency characteristic pattern of the batting sound candidate data obtained by converting into the frequency domain by the FFT processing at each time is compared with the batting sound pattern stored in the batting sound pattern information storage unit 104.
  • the matching time is determined. identified as blow time t a of the pole (step S 2 0 9), if they do not match (step S 2 0 8), frequency of impact sound candidate data in the next time
  • the characteristic pattern is compared with the hitting sound pattern (step S207).
  • step S208 if they do not match the predetermined number of times (step S210), the batting time information specifying unit 105 obtains the information by the concealment start release time specifying unit 201b. identifying the striking time t a based on a concealed starting time t 0 and hiding cancel time t 1 (step S 2 1 1).
  • the position of the player and the rule information at the batting time t a thus specified, for example, as shown in Fig. 10, when the pole overlaps or is concealed by the player
  • forehand_swing which represents forehand swing
  • backhand-swing which represents back-and-swing
  • on-head-swing which may cause malfunctions in image recognition.
  • o Verhead—swing as shown in step S212 and above, in which the equipment used in the video is athletes or nets.
  • the concealment state determination unit 201 When it is difficult to specify the position of the tool by overlapping or being obscured by obstacles such as an obstacle, or when it is difficult to recognize an image using acoustic information, the concealment state determination unit 201 The tool used is hidden by the object The concealment start time when the concealment state determination unit 201 determines that the state has been changed from the non-covered state to the concealed state, and the concealment state determination unit determines that the state has been changed from the concealed state to the non-concealed state. 2 0 1 Based on the concealment release time and the time determined in the above, the batting time information specifying unit 105 specifies the batting time at which the tool was hit, and further, the specified batting time and the action of the player during play are specified.
  • the image content recognition unit 106 In order for the image content recognition unit 106 to reliably identify the player's action based on the reflected video information and rule information for performing the rule, for example, the overlap or concealment Image recognition with excellent image recognition that can avoid recognition errors that could not be avoided with video information alone, such as mistakes in identification of noise, hand swing, knock hand swing, and overhead swing. Equipment can be provided relatively inexpensively. Needless to say, image recognition can be suitably performed when the pole and the player do not overlap or are concealed.In addition, identification is performed based on the acoustic information including the impact sound acquired by the acoustic information acquisition unit 103. If the hitting time is specified using the hitting time obtained and the hitting time obtained by the method of the method M2, a more accurate image recognition device can be provided.
  • the noise can be appropriately filtered in the filter section, so that the robustness can be achieved.
  • Image recognition with high target recognition rate since a plurality of hitting sound candidate data is obtained from the acoustic information and the hitting time is specified based on the data, it is possible to specify the exact hitting time. In this case, a plurality of hitting sound candidate data are exchanged between the preceding and following hitting sound candidate data. Since the time is set so as to overlap with the time, it is possible to prevent a problem that the hit time cannot be specified by mistake.
  • the content is a tennis program
  • the domain information extracted from the video information is used.
  • the facility information is the coat line and the net line. It goes without saying that the used facility information to be extracted will be changed from now on if other sports programs are replaced. In addition, player position information and equipment information will be changed in the same manner.
  • the medium that is the target of the content for performing image recognition, such as recognizing the behavior of a player during a characteristic game, is not limited to the present embodiment.
  • the image content including the player's motion indicated by the video information is represented by "forehand-swing", which indicates a forehand swing operation, ⁇ A, which indicates a knuckle and an end-swing motion.
  • "backhand-swing” was configured to recognize by three types of movements, “overhead-swing”, which indicates over-head swinging motion. However, based on the relationship with the pole position and player position, etc. It is also possible to recognize "stay”, which indicates that the player stays on the spot, and “move”, which indicates the player's moving action.
  • the rule information stored in the rule information storage unit 102 is defined and stored in a more complex form including various actions of the players, the image content recognition unit 106 may be more complicated. It is also possible to recognize the movements of different players.
  • b x X b y a given template that contains the pole of T b (X, y) had to have use a configured to cormorants'll be extracted whether we pole video information, without using the template of this Polls may be extracted.
  • the acoustic information acquisition unit 103 is provided with a filter unit composed of a bandpass filter.
  • a filter unit composed of a bandpass filter.
  • an embodiment using a filter other than the nonpass filter is also conceivable.
  • the frequency band to be passed is not limited to 100 Hz to 1500 Hz.
  • the acoustic information acquisition unit 103 resolves the acoustic information including the striking sound generated when the pole is struck from the content with a resolution of 16 bits and a sampling rate of 44.1 kHz. It was set to acquire by sampling, but the resolution and sampling rate settings are not limited to this.
  • the acoustic information acquired by the acoustic information acquisition unit 103 is converted by the hit time information identification unit 105 into units of 2048 points ( ⁇ 0.046 seconds) and 1288 points (0 0 0 2 9 seconds) FFT processing is performed while sequentially shifting the start time at intervals.
  • the number of points for performing FFT processing is not limited to this, and may be set to another value.
  • the correlation between the frequency characteristic pattern of the acoustic information and the percussion sound pattern is determined using a correlation function, and when the correlation function indicates a value larger than a preset threshold value, it is regarded as a match.
  • the correlation function indicates a value larger than a preset threshold value, it is regarded as a match.
  • the image content recognition unit 106 based on the video information acquired by the video information acquisition unit and the position of the tool used at the impact time identified by the impact time information identification unit 105.
  • the image recognition device 1 is configured so as to recognize an image content including a player action indicated by the video information.
  • the system can be configured with a simple configuration, and, for example, it can be applied to a device in which no rule is set, so that the versatility can be expanded.
  • the striking time information identifying unit identifies the striking time at which the striking sound occurred, based on the acoustic information including the striking sound acquired by the acoustic information acquiring unit, and further identifies the striking time.
  • Image content recognition based on the impact time, video information showing the player's actions during play, and rule information for performing the rules.
  • ⁇ B can reliably identify the player's actions. Avoids false swing, knock-no-swing, and over-head swing discrimination errors due to dullness and concealment, and recognition errors that were inevitable with only video information. ⁇ »ut3 ⁇ 4 clothing Can be provided at relatively low cost

Abstract

ネット等の障害物で区画された領域間で対戦するスポーツを記録したコンテンツから選手の動作を認識する画像認識装置であって、前記コンテンツから選手のプレイ中の動作が映った映像情報を取得する映像情報取得部と、前記領域間を移動し得点のカウント対象となるボール等の使用用具が、所定の対象体に隠蔽される状態にあるか否かを判定する隠蔽状態判定部と、前記隠蔽状態判定部で前記使用用具が隠蔽されたと判定された隠蔽開始時刻と隠蔽解除されたと判定された隠蔽解除時刻とに基づき、前記使用用具の打撃時刻を特定する打撃時刻情報特定部と、当該スポーツのルール情報を格納するルール情報格納部と、前記映像情報取得部で取得した映像情報と前記打撃時刻情報特定部で特定した打撃時刻における使用用具の位置と前記ルール情報格納部に格納されるルール情報とに基づき、その映像情報が示す選手の動作を含む画像内容を認識する画像内容認識部とを備える。

Description

明細書 画像認識装置及び画像認識プロ グラム 技術分野
本発明は、 放映されたスポーツ番組等スポーツ に関す る コ ンテンツにおいて、 従来認識が困難であっ た画像内 容に対して も好適に画像認識できる画像認識装置に関す る ものである。 背景技術
近年、 イ ンタ一ネ ッ ト社会の発展と と も に、 コ ン ビュ 一夕機器、 通信環境、 イ ンタ フェイ スが高速化、 広帯域 化し、 様々 な映像データが大量に随所に蓄積される よ う になる等、 さ ま ざまな分野においてユーザが利用できる デジタル映像情報が増加の一途をた どっ てお り 、 これ ら 膨大な情報にアクセス し映像中の 自分の見たい個所を素 早く 探し出す技術がますます重要視されている。
例えば、 テニスな どのスポーツ映像の各場面か ら 、 利 用者が希望する画面を抽出する場合、 「パッ シング成功 」 や 「スマ ッ シュ成功」 といっ た画像内容を認識するた めの方法と して、 例えば、 手入力によ っ て映像情報の ど の区間が 「パ ッ シング成功」 か 「スマ ッ シュ成功」 かを 逐次入力 して画像内容を認識した り 、 コ ン ピュータ によ つ てポール、 選手、 コー ト ライ ンのそれぞれの位置を抽 出 しそれら空間的相対関係の時間変化を総合的に判定す る こ と によ り 画像内容を認識 した り する方法が考え られ る。
と こ ろが、 手入力 によ る画像認識を行う 場合には、 確 実に画像内容を認識する こ とができるが、 人件費が大き く なつ た り 長時間のコ ンテンツ を処理する場合には作業 者に大きな負担を与えて し まっ た り する と いつ た問題点 があっ た。 また、 コ ン ピュータ による 自動認識で画像認 識を行う場合には、 映像情報のみを処理対象とする と、 選手やネッ ト等にポールが重なっ た り 隠れた り した際に そのポールの追跡を失敗し、 重要な位置や時刻を特定で きない部分が生 じ、 結果的に画像認識すべきイ ベン ト を 検出できなかっ た り 誤っ た画像認識を行う といっ た不具 合があっ た。 発明の開示
上記の課題を解決するために、 本発明は、 次のよ う な 手段を講じたものである。
すなわち、 本発明は、 ネ ッ ト等の障害物で区画された 領域間で対戦するスポーツにおける選手の動作を、 その スポーツの放映中の番組又は放映前の素材映像や V T R 等の記録媒体に記録される コ ンテンツか ら認識する画像 認識装置であっ て、 前記コ ンテンツか ら少な く と も一方 の選手のプレイ 中の動作が映っ た映像情報を取得する映 像情報取得部と、 前記映像情報取得部で取得した映像情 報に含まれてなる前記領域間を移動 し当該スポーツの得 ' 点のカ ウン ト対象となるポール等の使用用具が、 所定の 対象体に隠蔽される状態にあ るか否かを判定する隠蔽状 態判定部と、 前記隠蔽状態判定部で前記使用用具が前記 対象体に隠蔽されない状態か ら 隠蔽される状態へとなつ た と判定された ときの隠蔽開始時刻 と前記対象体に隠蔽 される状態か ら隠蔽されない状態になっ たと判定された ときの隠蔽解除時刻 と に基づき、 前記使用用具を打撃 し た打撃時刻を特定する打撃時刻情報特定部と、 当該スポ ーッ を行う ためルール情報を格納するルール情報格納部 と、 前記映像情報取得部で取得 した映像情報と前記打撃 時刻情報特定部で特定した打撃時刻における使用用具の 位置と前記ルール情報格納部に格納されるルール情報 と に基づき、 その映像情報が示す選手の動作を含む画像内 容を認識する画像内容認識部と を備えている こ と を特徴 とする。
このよ う なものであれば、 映像中において使用用具が 選手ゃネ ッ ト等の障害物に重なっ た り 隠蔽された り して 使用用具の位置特定が困難な と き等、 画像認識が困難な 場合でも、 隠蔽状態判定部において、 使用用具が前記対 象体に隠蔽されない状態か ら隠蔽される状態へとなっ た と隠蔽状態判定部で判定された ときの隠蔽開始時刻と、 前記対象体に隠蔽される状態か ら隠蔽されない状態にな つ た と隠蔽状態判定部で判定された ときの隠蔽解除時刻 と に基づき、 打撃時刻情報特定部が前記使用用具を打撃 した打撃時刻を特定し、 さ ら に、 特定した打撃時刻と選 手のプレイ 中の動作が映っ た映像情報と当該ルールを行 う ためのルール情報と に基づき画像内容認識部が確実に 選手の動作を特定するため、 例えば、 重な り や隠蔽によ る フ ォ アハ ン ドスイ ン グ、 ノ ッ クノヽ ン ド スイ ング及びォ —バーヘッ ドスイ ングの認識誤 り が生 じる こ と の無い画 像認識に優れた画像認識装置を提供する こ とができる。
なお、 隠蔽開始時刻 と隠蔽解除時刻と を好適に特定す る には、 前記隠蔽状態判定部に、 前記使用用具が前記対 象体に対して所定距離内にあ るか否かを判定する距離判 定部と、 前記距離判定部で前記使用用具が前記対象体に 対して所定距離内にあ る と判定し且つ前記使用用具が前 記対象体に隠蔽されない状態か ら隠蔽される状態へとな つ たと きの時刻を隠蔽開始時刻 と して特定し、 前記距離 判定部で前記使用用具が前記対象体に対して所定距離内 にある と判定 し且つ前記使用用具が前記対象体に隠蔽さ れる状態か ら隠蔽されない状態へとなっ た ときの時刻を 隠蔽解除時刻と して特定する隠蔽開始解除時刻特定部と を備えている こ とが望ま し い。
また、 本発明の望ま し い態様と しては、 t aで示され る前記打撃時刻と t 0 で示される前記隠蔽開始時刻と t 1 で示される隠蔽解除時刻 とが、 下式 (数 1 ) に示す関 係を有している ものが挙げ られる。
【数 1 】 t a = a x t 0 + ( 1 — a ) X t 1 ただし、 パ ラ メ一夕 a は、 0 ≤ a≤ 1 また、 コ ンテンツか ら選手の特徴的な動作を抽出する ためには、 前記映像情報取得部が、 ネ ッ ト等の障害物や 前記領域及びその領域外の境界を示す境界線等の使用施 設情報と選手の位置を示す選手位置情報と前記領域間を 移動し当該スポーツの得点のカ ウ ン ト対象となる使用用 具情報と を映像情報か ら抽出する ド メイ ン要素抽出部を 備えている こ とが好ま しい。
この場合、 コ ンテンツか ら選手の特徴的な動作をよ り 効率的に抽出するためには、 前記選手位置情報が、 選手 とその選手がプレイ 中常に持っ て使用する用具と を含む 領域を示す位置情報である こ とが望まれる。
さ ら に、 本発明において前記映像情報か ら選手位置情 報を抽出する具体的な態様と しては、 前記 ド メイ ン要素 抽出部が、 該 ド メイ ン要素抽出部で抽出 した使用施設情 報に基づき前記映像情報か ら選手位置情報を抽出する方 法が挙げられる。 また、 前記映像情報か ら使用用具情報 を抽出する具体的な態様と しては、 前記 ド メイ ン要素抽 出部が、 該 ド メイ ン要素抽出部で抽出 した使用施設情報 及び選手位置情報に基づき前記映像情報か ら使用用具情 報を抽出する方法が挙げられる。
また、 コ ンテンツか らその分野に関する コ ンテンツ要 素を好適に抽出するため には、 前記使用施設情報、 前記 選手位置情報、 前記使用用具情報及び前記ル一ル情報が 、 画像抽出の対象となるスポーツ種目 に関する知識に基 づく も のであればよい。 よ り 精度良 く 画像認識を行える よ う にするためには、 前記領域間を移動し当該スポーツの得点のカ ウ ン ト対象 となるポール等の使用用具の打撃時に発生する打撃音等 前記映像情報と同期した音響情報を前記コ ンテンッか ら 取得する音響情報取得部を備え、 前記打撃時刻情報特定 部が、 前記隠蔽開始時刻と前記隠蔽解除時刻と の組みと 前記音響情報取得部で取得した音響情報と に基づき打撃 時刻を特定する こ とが望ま しい。
なお、 打撃時刻を特定する方法と しては、 前記打撃時 刻情報特定部が、 前記音響情報が、 所定の レベルよ り 大 きな値を示した際に、 この大きな値を示す時刻を打撃時 刻 と特定する方法が挙げられる。
また、 音響情報に含まれる打撃音以外の ノ イ ズ音を除 去するため には、 前記音響情報取得部が、 所定の周波数 帯域を通過させる フィ ルタ部を設け、 前記音響情報がこ のフ ィ ル夕部を通過した ものである こ とが望ま し く 、 特 に、 プレイ 中の選手のシューズと コ一 ト とが擦れた際に 生じる音や風の音やその他雑音等の環境音を好適に除去 するためには、 前記フ ィ ルタ部が、 ノ ン ドパス フ ィ ルタ で構成される こ とが望ま しい。
さ ら に、 効率よ く 打撃時刻を特定するためには、 前記 音響情報か ら抽出 した前記打撃音を含む所定時間を有す る打撃音候補データ に基づき、 前記打撃時刻情報特定部 が打撃時刻を特定する こ とが好ま し い。
また、 確実に打搫時刻を抽出するためには、 一の時刻 の打撃音候補データ とその次の時刻の打撃音候補データ とが相互に重なる時刻を有する よ う に前記音響情報か ら 複数個の打撃音候補データ を抽出 し、 この複数個の打撃 音候補データ に基づき、 前記打撃時刻情報特定部が打撃 時刻を特定すればよい。 さ ら に この とき、 前記複数個の 打撃音候補データ を各々 同一のデータ長を有する よ う に 構成する と共に、 複数個の打撃音候補データ を前記音響 情報か ら一定時間間隔で抽出する よ う に構成すれば、 打 撃音を効率的に抽出できる。
さ ら に、 打撃音の発生 した時刻をよ り 確実に確定する ためには、 前記使用用具と選手がプレイ 中常に持っ て使 用する ラケ ッ ト等の用具と の当た り 具合等によ る音の変 ィ匕をパター ン化 した打撃音パターン情報を格納する打撃 音パターン情報格納部を備え、 前記打撃時刻情報特定部 が、 こ の打撃音パターン情報格納部に格納される打撃音 パ夕一ン情報と前記音響情報とに基づき前記打撃時刻を 特定する こ とが望まれる。
なお、 本発明の望ま しい他の態様 と しては、 ネ ッ ト等 の障害物で区画された領域間で対戦するスポーツにおけ る選手の動作を、 そのスポーツの放映中の番組又は放映 前の素材映像や V T R等の記録媒体に記録される コ ンテ ンッか ら認識する画像認識装置であ っ て、 前記コ ンテン ッか ら少な く と も一方の選手のプレイ 中の動作が映っ た 映像情報を取得する映像情報取得部と、 前記映像情報取 得部で取得した映像情報に含まれてなる前記領域間を移 動し当該スポーツの得点のカ ウ ン ト対象となるポール等 の使用用具が、 所定の対象体に隠蔽される状態にあ るか 否かを判定する隠蔽状態判定部と、 前記隠蔽状態判定部 で前記使用用具が前記対象体に隠蔽されない状態か ら隠 蔽される状態へ となっ た と判定された ときの隠蔽開始時 刻と前記対象体に隠蔽される状態か ら隠蔽されない状態 になっ た と判定されたと きの隠蔽解除時刻と に基づき、 前記使用用具を打撃した打撃時刻を特定する打撃時刻情 報特定部と、 前記映像情報取得部で取得した映像情報と 前記打撃時刻情報特定部で特定した打撃時刻における使 用用具の位置と に基づき、 その映像情報が示す選手の動 作を含む画像内容を認識する画像内容認識部と を備えて いる も のが挙げ られる。
また、 画像認識の精度を向上させるためには、 前記領 域間を移動し 当該スポーツの得点のカ ウ ン ト対象となる ポール等の使用用具の打撃時に発生する打撃音等前記映 像情報と同期 した音響情報を前記コ ンテンツか ら取得す る音響情報取得部を備え、 前記打撃時刻情報特定部が、 前記隠蔽開始時刻と前記隠蔽解除時刻 と の組みと前記音 響情報取得部で取得した音響情報と に基づき打撃時刻を 特定する よ う にすればよい。 図面の簡単な説明
第 1 図は、 本発明の実施形態における画像認識装置の機 器構成図である。 第 2 図は、 同実施形態における機能ブロ ッ ク 図である。 第 3 図は、 同実施形態における映像情報か ら コー ト ライ ンの抽出に用 いる コ ー トモデルを示す図であ る。
第 4 図は、 同実施形態における映像情報か ら ネ ッ ト ライ ンの抽出に用いるネ ッ トモデルを示す図であ る。
第 5 図は、 同実施形態における映像情報か ら抽出 したコ — ト ライ ン及びネ ッ ト ライ ンを示す図である。
第 6 は、 同実施形態における選手領域の検出を示す図で ある。
第 7 図は、 同実施形態におけるポール領域の検出を示す 図である。
第 8 図は、 同実施形態におけるポール位置の追跡を示す 図である。
第 9 図は、 同実施形態におけるルール情報格納部の格納 態様を示す図である。
第 1 0 図は 、 同実施形態における選手の動作を識別する 態様を示す図である。
第 1 1 図は 、 同実施形態における映像情報か ら画像認識 を行う 過程を示すフ ロー図である。
第 1 2 図は 、 係数 a と総合的な検出精度の尺度 F値と の 関係を示す図である。
第 1 3 図は 、 本発明の他の実施形態における画像認識装 置の機能プロ ッ ク 図であ る。
第 1 4 図は 、 同実施形態における映像情報か ら画像認識 を行う過程を示すフ ロー図である。 第 1 5 図は、 本発明の他の実施形態における画像認識装 置の機能ブロ ッ ク 図であ る。 発明を実施するための最良の形態
<第 1 実施形態 >
以下、 本発明の一実施形態にづいて第 1 .図〜第 1 2 図 を参照 して説明する。
第 1 図は、 本実施形態における画像認識装置の機器構 成を示す機器構成図であ る。 第 2 図は、 同実施形態にお ける機能ブロ ッ ク 図であ る。
本実施形態に係る画像認識装置は、 テ レ ビジョ ン受像 機 T Vや V T R等の記録再生装置を用いて表示する放映 中の番組や記録媒体などに記録されるスポーツに関する コ ンテンツか ら、 特徴的な試合中の選手の動作を認識す る も のであっ て、 第 1 図に示すよ う に、 テレビジ ョ ン受 像機 T Vや V T R等の記録再生装置と接続される入出力 イ ン夕 フ ェイ ス 1 1 と、 データやプロ グラム等を記憶す る H D D等の外部記憶装置 1 2 や内部メモ リ 1 3 と、 前 記外部記憶装置 1 2 等に記憶させたプロ グラムに したが つ て作動し当該装置を画像認識装置 1 と して機能させる C P U 1 4 と、 ユーザの利用者情報を受け付けるキーポ ー ドゃマウス等のュ一ザイ ン夕 フ ェイ ス 1 5 等と を主な 構成要素 と している。 なお、 こ こで 「コ ンテンツ」 とは 、 選手の動作、 コー ト斜め上か ら縦方向にコー ト が映る よ う なア ングルで撮影されたシ ョ ッ ト、 審判、 観客のァ ッ プとなる シ ョ ッ ト等を含む映像や解説者等の音声を含 むも の と している。 本実施形態では、 「コ ンテンツ」 の一 例と してテニス番組を例に挙げて説明する。
一方、 この画像認識装置 1 を機能面で説明する と、 前 記 C P U 1 4等が動作する こ と によ り 、 第 2 図に示すよ う に、 ド メイ ン要素抽出部 1 0 1 、 ルール情報格納部 1 0 2 、 隠蔽状態判定部 2 0 1 、 打撃時刻情報特定部 1 0 5 、画像内容認識部 1 0 6 等 と しての機能を有している。 以下、 これら各部を詳述する。
ド メイ ン要素抽出部 1 0 1 は、 ネ ッ ト等の障害物や区 画された領域たる コー ト及びそのコー ト外の境界を示す 境界線たる コー ト ライ ン等の使用施設情報と、 選手の位 置を示す選手位置情報と、 前記コー ト間等を移動し 当該 スポーツの得点のカ ウ ン ト対象となる使用用具情報 と を テレ ビジ ョ ン受像機に表示さ れる映像情報か ら抽出する ものであっ て、 前記コ ンテンツか ら少な く と も一方の選 手のプレイ 中の動作が映っ た映像情報を取得する 映像情 報取得部と しての機能の一部を発揮する よ う に構成され てい る。 なお、 本実施形態では、 抽出する使用施設情報 をコ ー ト ライ ン とネ ッ ト ライ ンと し、 また、 抽出する選 手位置情報を対戦する プレイ ヤ 1 の位置情報とプレイ ヤ 2 の位置情報と し、 さ ら に、 抽出する使用用具情報をテ ニスポール (以下、 「ポール」 と称する。) と している。 さ ら に、 こ の ドメイ ン要素抽出部 1 0 1 で抽出 した使用 施設情報、 選手位置情報、 使用用具情報を、 以下、 ド メ ィ ン要素と総称する 。
よ り 具体的には、 使用施設情報の抽出は、 第 3 図に示 すよ う に、 コー ト ライ ンの代表的な点を示すコ ー ト特徴 点 P c 、 · · · 、 P c ! 4 (以下、 「 P c 」 と総称する。 )、 コー ト ライ ン L C l 、 ' · · 、 L c 9 (以下、 「 L c 」 と総称する。) を定めたコー トモデルと、 第 4 図に示すよ う に、 ネ ッ ト ライ ンの代表的な点を示すネッ ト特徴点 P n i 、 · · · 、 P n 3 (以下、 「 P n 」 と総称する。)、 ネ ッ ト ライ ン L n L n 2 (以下、 「 L n 」 と総称する。) を 定めたネ ッ ト モデルと を参照 し、 コ 一 ト ライ ン、 ネ ッ ト ライ ンの順に映像情報か ら抽出するよ う に設定 している まず、 コー ト ライ ンの抽出は、 映像情報か ら前記コ一 ト特徴点を検出する こ と によ っ て抽出する よ う に してい る。 さ ら に詳述する と、 時刻 t = 0 において、 初期特徴 点 P c ( 0 ) を入力 と して与え、 次に、 P c ( 0 ) で決 ま る コー ト ライ ン L c ( 0 ) について、 各ライ ンをハ フ 平面に変換し、 ハ フ平面上における各ピーク点を中心に 大き さ w t h 、 w r 。 の検出窓 W c ( 0 ) を用意する よ う に設定してい る。 なお、 初期特徴点 P c ( 0 ) を入力 と して与える方法と しては、 オペ レータが前記ユーザイ ン 夕 フ ェイ ス 1 5 を利用 して入力する方法、 又は、 該装置 1 が自動的に初期特徴点 P c ( 0 ) を検知 し入力する方 法、 のいずれかの方法を採用する こ とができる。 また、 時刻 t = t において、 まず、 原画像の 2 値化画像 B ( t ) と コー ト ライ ン L c ( t 一 1 ) の近傍領域と の A N D を と り 、 コー ト近傍のみか らなる 2 値化画像 (以下、 「コ 一 ト ライ ン 2 値画像」 と呼ぶ。) B e ( t ) を生成する よ う に設定している。 そして、 これを各ライ ン毎にハフ変 換し、 各検出窓 W c ( t - 1 ) で制限される範囲でピー ク検出を行い、 コー ト特徴点 P c ( t ) を更新し、 再び 、 コー ト ライ ン L c ( t ) をハフ変換し、 検出窓 W c ( t ) も更新する こ と によ り 、 映像情報か ら コー ト ライ ン を抽出する よ う に設定している。 なお、 パンニングな ど によっ てコー ト特徴点が画面か ら外れた場合には、 コー ト 中央のコー ト特徴点 P C i ( t ) ( i = 9 、 1 0 、 1 2 、 1 3 o r l 0 、 1 1 、 1 3 、 1 4 ) は画面内に常に映 つ てい る こ と を仮定し、 連結知識を用いて画面外の点を 推定して更新するよ う に設定している。 同様の理由で、 い く つかの初期特徴点は省略しても よい。 なお、 連結知 識 とは、 例えば、 コー ト 中央のコー ト特徴点 P c , ( t ) ( i = 9 、 1 0 、 1 2 、 1 3 ) を連結すればコー トモデ ル上に意味付け可能な区画を構成でき る といっ た当該ス ポーッ を行う知識に基づき定義される ものである。
次に、 ネ ッ ト ライ ンの抽出は、 時刻 t = 0 での初期特 徴点 P n ( 0 ) を入力 と して与え、 コー ト ライ ンと 同様 に、 各ライ ン毎にネ ッ ト ライ ン L n ( 0 )、 検出窓 W n ( 0 ) を用意し、 一方、 時刻 t = t においては、 原画像の 2 値化画像か ら コー ト ライ ン 2 値画像を除いた画像 B n ( t ) = B ( t ) 一 B e ( t ) をネ ッ ト ライ ン 2 値画像 と して生成 し、 これを用 いてハ フ変換、 検出窓内で ピー ク検出を行っ て特徴点 P n ( t ) を更新し、 映像情報か らネ ッ ト ライ ンを抽出するよ う に設定している。
以上のよ う に して、 第 5 図に示すよ う に、 コー ト ライ ン及びネ ッ ト ライ ンを抽出する こ とができる。
次に、 映像情報か ら これ ら コ ー ト ライ ン及びネ ッ ト ラ イ ンを除去した 2 値画像において重な り が最大となる領 域を特定する こ とで選手位置情報を抽出するよ う に構成 してい る。
よ り 具体的には、 時刻 t = t において前後 s フ レーム 離れた画像 との差分を求め適当な閾値で 2 値画像 B ェ ( t )、 B 2 ( t ) を生成する。 なお、 こ こで、 8 ェ ( t ) = B I N ( I ( t ) — I ( t - s ) ) , B 2 ( t ) - B I N ( I ( t + s ) — I ( t )) と している。 こ こで B I N は ( ) 内の引数を 2 値化する こ と を示す関数である。 そ して、 これら 2 つの差分画像の A N D演算を行っ た結 果得 られる 2 値画像を B d i f f ( t ) と、 時刻 t = t に おける画像 I ( t ) の点で予め用意した選手のュニフ ォ ーム等の代表色に対応する色ク ラスタ内に含まれる もの を 1 と した 2 値画像 B l a b e l ( t ) と に基づきコー ト ラ イ ン及びネ ッ ト ライ ンを消去する。 さ ら に、 選手領域と の重な り 部分を除去した と考え られる領域については拡 大縮小処理によ って領域を補完する。 そして このよ う に して得 られた 2 つの画像の〇 R演算を行い、 第 6 図に示 すよ う な 2 値画像 B ( t ) を得る。 こ のよ う に して得た 2 値画像 B ( t ) 内で連結領域の ラベ リ ングを行い、 ノ ィ ズの影響を避けるため、 これを数フ レーム観測し、 コ 一 ト近傍内にある一定以上の面積を もつ領域を選手初期 位置とする。 そして、 時刻 t = t における一定以上の面 積を もつ領域のう ち、 時刻 t = t 一 1 の選手領域の近傍 に存在し、 かつ、 面積差が最も小さ い領域を時刻 t = t における選手領域 P と判定し、 選手位置情報を得 られる よ う に設定している。
そして、 こ のよ う に して抽出 した選手位置情報との距 離に応じて、 検出モー ド と追跡モー ド と を切 り 替える こ とでポールを抽出するよ う に構成 している。
さ ら に詳述する と、 検出モー ド とは、 予め用意した大 きさ b x X b yのポールを含む所定のテンプレー ト T b ( X、 y ) に基づき、 第 7 図に示すよ う に、 時刻 t におい て選手領域 P を消去 した画像 I ' Β内の選手近傍領域に おいて、 テンプレー ト T b ( x、 y ) に一致するポール 候補 B a 位置を全て検出する ものであ っ て、 時刻 t = t + 1 、 t + 2 、 ' * ' についても同様にポール候補を検出 し、 選手位置を中心に放射状に連続して検出されるボー ル候補 B a を絞り 込み、 最終的に残っ た 1 つのポール候 補 B a の組みをその時区間のポール軌道 B Wと特定する こ とができる 。 こ こで、 前記テンプレー ト T b ( x、 y ) とは、 映像情報か らポールを抽出するために設ける一 種のツールであっ て、 本実施形態では、 映像中に拡大あ る い は縮小表示されるポールの大き さ を暫定的に b x X b y と し、 こ の b x X b yか ら外周を外側へ若干拡大した ものをテ ンプレ一 ト と して設定している。
追跡モー ド と は、 前記テンプレー 卜 T b ( x 、 y ) と のテンプレー トマ ッチングによ り ポール軌道 B Wを追跡 する ものである。 ただし、 ポール軌道 B Wは微小時間で ほぼ直線とみなせる と仮定し、 前回検出された移動量を そのま ま現フ レームに加えた位置を予測中心と して探索 を行う 。 そ して、 選手領域とポール候補 B a位置と の距 離がある閾値よ り 小さ く なつ た ら 、 前記検出モー ド を実 行し、 そう でなければ、 こ の追跡モー ド を繰 り 返し行う よ う に設定している。
そ して、 以上のよ う に して、 第 8 図に示すよ う に、 任 意の時間区間におけるポール軌道 B Wを得る こ とができ る。 なお、 第 8 図は、 ポールの軌道 B Wをわか り やすく 表現するために、 任意の時刻の映像情報に重ねて表示し ている。
ルール情報格納部 1 0 2 は、 当該スポーツを行う ため に必要なルール情報を格納する ものであ っ て、 前記外部 記憶装置 1 2 や内部メモ リ 1 3 の所定領域に形成してい る。 よ り 具体的に こ のルール情報は、 例えば、 第 9 図に 示すよ う に、 イ ンデッ クス化 したルール情報イ ンデッ ク ス 「サー ビス」 をルール情報 「サー ビス を開始する直前 、 サーバーはベース ライ ンのネ ッ ト に向かっ て後方、 セ ンタ一マーク とサイ ド ライ ンの仮想延長線間に両足と も 地面につけて立つ。 手でポールを空中いずれの方向にで も ほう り 投げ、 そのポールが地面に落ち る まえに ラケ ッ トで打つ。 サー ビス はラケ ッ ト とポールが接した瞬間に 完了 した も の とみなす。」 と定義し、 ルール情報イ ンデッ ク ス 「コー ト ライ ン上の落球」 をルール情報 「コ一 ト ラ イ ン上に落ち たポールは、 そのコー ト ライ ンによ っ て区 切 られたコー ト 内に落ちた とみなされる。」と定義した も の等を格納 している。
隠蔽状態判定部 2 0 1 は、 前記 ド メイ ン要素抽出部 1 0 1 で抽出されたポールが、 所定の対象体たる選手領域 P に隠蔽される状態にあ るか否かを判定する も のである 。 なお、 本実施形態では、 この隠蔽状態判定部 2 0 1 に 、 前記 ド メイ ン要素抽出部 1 0 1 で抽出されたポールが 使用領域 P に対して所定距離内に近づいたか否かを判定 する距離判定部 2 0 1 a と、 前記距離判定部 2 0 1 a で ポールが選手領域 p に対して所定距離内にあ る と判定し 且つボールが選手領域 p に隠蔽されない状態か ら隠蔽さ れる状態へとなっ た ときの時刻を隠蔽開始時刻 と して特 定し、 前記距離判定部 2 0 1 a でポールが選手領域 p に 対して所定.距離内にある と判定し且つポールが選手領域 P に隠蔽される状態か ら隠蔽されない状態へとなっ た と きの時刻を隠蔽解除時刻 と して特定する隠蔽開始解除時 刻特定部 2 0 1 b と を備えるよ う に構成 している。
さ ら に詳述する と、 第 1 0 図に示すよ う に、 前記距離 判定部 2 0 1 a で、 ポールが選手領域 p の所定範囲にあ る、 と判定された際の検出ポール位置が、 b ( 1 ) 〜 b ( 7 ) であっ たとする。 そ して、 こ のポール位置 b ( 1 ) 〜 b ( 7 ) のう ち、 選手領域 p に隠蔽される直前のポ ール位置を特定し得る時刻を隠蔽開始時刻 t 0 と し、 選 手領域 p か ら 出現 した直後のポール位置を特定し得る時 刻を隠蔽解除時刻 t 1 と して、 隠蔽開始解除時刻特定部 2 0 1 b が特定する。
なお、 本実施形態では、 ポールが選手領域 p の後方に 隠れた状態を 「隠蔽される状態」 と定義しているが、 ポ ールが選手領域 p の前方に重なる状態も含めて 「隠蔽さ れる状態」 と定義してもよい。 また、 隠蔽される所定の 対象体は、 選手領域 P に限 らず、 ネ ッ ト ライ ンやコー ト ライ ンな どの使用施設情報とする こ と もできる。
打撃時刻情報特定部 1 0 5 は、 前記隠蔽開始解除時刻 特定部 2 0 1 b で特定された隠蔽開始時刻 t 0 と隠蔽解 除時刻 t 1 と に基づいて、 打撃時刻 t a を特定する も の である。
よ り 具体的には、 隠蔽開始解除時刻特定部 2 0 1 b で 特定された隠蔽開始時刻 t 0 と隠蔽解除時刻 t 1 と を、 下式 (数 1 ) に代入して演算する こ と によ り 、 打撃時刻 t a を特定する。
【数 1 】 t a = a X t O + ( 1 - a ) X t 1
なお、 本実施形態では、 第 1 2 図に基づき、 総合的な 検出精度の高かっ た 0 . 5 又は 0 . 6 のいずれか一方の 値を、 係数 a に設定しているが、 例えば、 a の値に手前 側の選手と奥側の選手とで別々 の値を設定するなど、 設 定する係数 a の値は、 これ ら に限 ら れる も のではない。 こ こ で 「総合的な検出精度」 とは、 F = 2 P R / ( P + ) によ り 求め ら れる。 ただし、 P 及び R は、 適合率 ( P ) =抽出された正しいデータ数 /抽出されたデータ数 、 再現率 ( R ) =抽出された正しいデータ数/抽出すべ きデータ数、 であ る。
また、 上述のよ う に して得 られる打撃時刻 t a の値は 、 適当な方法で整数に近似したも の と した り 、 有効数字 の範囲の数に丸めたもの とするな ど、 その値の有効桁数 な どは実施態様に応じて適宜設定する こ とができる。
画像内容認識部 1 0 6 は、 前記 ド メイ ン要素抽出部 1 0 1 で抽出 したコ ー ト ライ ン及びネ ッ ト ライ ン と選手位 置情報とポールの位置と、 前記打撃時刻情報特定部 1 0 5 で特定 した打撃時刻 t a における使用用具の位置と 、 前記ルール情報格納部 1 0 2 に格納されるルール情報と に基づき、 その映像情報が示す選手の動作を含む画像内 容を認識する も のである。
よ り 具体的には、 第 1 0 図に示すよ う に、 前記打撃時 刻情報特定部 1 0 5 で特定された打撃時刻 t a における ポール位置 P i ( t a ) を求め、 こ のポール位置 P j ( t a
) と選手位置とか ら 、 例えば、 こ のポール打撃時刻 t a においてポールが選手を囲む外接四角形上部の識別ライ ンよ り 上方にあれば " o v e r h e a d— s w i n g " 、 選手重心に対してフ ォ アサイ ド ある いはノ ッ クサイ ド にあれば、 それぞれ " f o r e h a n d _ s w i n g "、 " b a c k h a n d— s w i n g " と選手の動作を判定 する よ う に設定している。 なお、 前記識別ライ ンは、 選 手外接四角形の縦方向の長さ に応じ一定の比率で決ま る 選手領域上部に設定してい る。
次に、 本実施形態の画像認識装置の動作を第 1 1 図に 示すフ ロー図を用 いて説明する。
まず、 選手のプレイ 中の動作が映っ た映像情報か ら コ 一 ト ライ ンとネ ッ ト ライ ン と をそれぞれ抽出 し (ステ ツ プ S 1 0 1 )、映像情報か ら これら コー ト ライ ン及びネ ッ ト ライ ンを除去した 2 値画像を用いて選手位置情報を抽 出する (ステッ プ S 1 0 2 )。 そして抽出した選手位置情 報に基づき映像情報か らポールを抽出する (ステッ プ S 1 0 3 )。 次に、 隠蔽状態判定部 2 0 1 で、 抽出したボー ルが選手領域 p に対して所定範囲にある と判定されれば (ステッ プ S 1 0 4 )、 打撃時刻情報特定部 1 0 5 が、 隠 蔽開始解除時刻特定部 2 0 1 b で求めた隠蔽開始時刻 ( t o ) と隠蔽解除時刻 t 1 と に基づき打撃時刻 t a を特 定する (ステッ プ S 1 0 5 )。 このよ う に して特定した打 撃時刻 t a におけるポール位置と選手位置及びルール情 報に基づき、 例えば、 第 1 0 図に示すよ う に、 ポールが 選手に重なっ た り 隠蔽された り する場合等特に画像認識 に不具合を生じ る よ う な場合でも、 フ ォ アハン ドスイ ン グ動作を表す " f o r e h a n d _ s w i n g "、 ノ ッ ク ノ、ン ドスイ ング動作を表す " b a c k h a n d— s w i n g "、 オーバーへ ッ ドスィ ング動作を表す " o V e r h e a d _ s w i n g " の 3 種類の動作で認識する こ とが できる (ステッ プ S 1 0 6 )。
以上のよ う に して、 映像中 において使用用具が選手や ネ ッ ト等の障害物に重なっ た り 隠蔽された り して使用用 具の位置特定が困難な と き等、 画像認識が困難な場合で も、 隠蔽状態判定部 2 0 1 において、 使用用具が前記対 象体に隠蔽されない状態か ら隠蔽される状態へとなっ た と隠蔽状態判定部 2 0 1 で判定された ときの隠蔽開始時 刻 と、 前記対象体に隠蔽される状態か ら隠蔽されない状 態になっ たと隠蔽状態判定部 2 0 1 で判定された と きの 隠蔽解除時刻 と に基づき、 打撃時刻情報特定部 1 0 5 が 前記使用用具を打撃 した打撃時刻を特定し、 さ ら に、 特 定した打撃時刻と選手のプレイ 中の動作が映っ た映像情 報と 当該ルールを行う ためのルール情報と に基づき画像 内容認識部 1 0 6 が確実に選手の動作を特定するため、 例えば、 重な り や隠蔽によ る フ ォ アハ ン ドスイ ング、 ノ ッ クハ ン ドスィ ング及びオーバーへッ ドスィ ングの識別 誤 り を回避する こ とができる画像認識に優れた画像認識 装置を比較的安価に提供する こ とができる。 ポールと選 手とが重なっ た り 隠蔽された り しない場合での画像認識 が好適に行える こ とは言う ま 'でもない。
なお、 本実施形態において、 コ ンテンツをテニス番組 と し、 その映像情報か ら抽出する ドメイ ン要素を使用施 設情報をコー ト ライ ン及びネ ッ ト ライ ンと したが、 コ ン テンッが他のスポーツ番組等に替われば抽出する使用施 設情報も これ らか ら変更さ れる こ と は言う までも無い。 また、 選手位置情報、 使用用具情報に関 しても これと 同 様に変更する こ と となる。
さ ら に、 テ レビジ ョ ン受像機 T Vや V T R等の記録再 生装置を用 いて表示する放映中の番組や記録媒体な どに 記録されるスポーツに関する コ ンテンツか ら、 特徴的な 試合中の選手の動作を認識するよ う に構成していたが、 例えば、 スタ ジアムで当該スポーツを撮影した放映され る前の素材映像やイ ンターネ ッ ト 上にアーカイ ブ化され ている映像情報か ら、 特徴的な試合中の選手の動作を認 識するな ど、 画像認識を行う コ ンテ ンツ の対象となる媒 体は本実施形態に限 られる も のではない。
また、 画像内容認識部 1 0 6 において映像情報が示す 選手の動作を含む画像内容を、 フ ォ アハ ン ドスイ ング動 作を表す " f o r e a n d _ s w i n g "、 ノ ッ クノヽ ン ドスイ ング動作を表す" b a c k h a n d— s w i n g " オーバーへッ ドスイ ング動作を表す " o v e r h e a d — s w i n g " の 3 種類の動作で認識するよ う に構成 し ていたが、 ポール位置や選手位置との関係等に基づき、 選手がその場に留ま る動作を表す " s t a y "、 選手の移 動動作を表す " m o v e " を認識する こ と もできる。 ま た、 ルール情報格納部 1 0 2 に格納するルール情報を、 選手のさ ま ざまな動作を含めたよ り 複雑なものに定義し て格納すれば、 画像内容認識部 1 0 6 においてよ り 複雑 な選手の動作を認識する こ と も可能であ る。
なお、 b x X b yのポールを含む所定のテンプレー ト T b ( X 、 y ) を用いて映像情報か ら ポールを抽出する よ う に構成 していたが、 こ のテ ンプレー ト を用いずにポ一 ルを抽出 しても構わない。
<第 2 実施形態 >
以下、 本発明の他の一実施形態について第 1 3 図〜第
1 4 図等を参照して説明する。
なお、 特に説明なき もので、 且つ、 第 1 実施形態と 同 一の名称及び符号が与え られている も のは、 第 1 実施形 態と 同一の構成及び機能を有する も の とする。
本実施形態における画像認識装置は、 第 1 実施形態の もの と同様、 テ レビジョ ン受像機 T Vや V T R等の記録 再生装置を用いて表示する放映中の番組や記録媒体な ど に記録されるスポーツに関する コ ンテンツか ら、 特徴的 な試合中の選手の動作を認識する ものである。 また、 こ の画像認識装置の機器構成は、 第 1 実施形態と同様の も のである ので説明を省略する。
そ して、 こ の画像認識装置 1 を機能面で説明する と、 前記 C P U 1 4 等が動作する こ と によ り 、 第 1 3 図に示 すよ う に、 ド メイ ン要素抽出部 1 0 1 、 ルール情報格納 部 1 0 2 、 距離判定部 2 0 1 a と隠蔽開始解除時刻特定 部 2 0 1 b と を備える隠蔽状態判定部 2 0 1 、 音響情報 取得部 1 0 3 、 打撃音パターン情報格納部 1 0 4 、 打撃 時刻情報特定部 1 0 5 、 画像内容認識部 1 0 6 等と して の機能を有している。
以下、 これら各部を詳述する。
ド メイ ン要素抽出部 1 0 1 、 ルール情報格納部 1 0 2 及び隠蔽状態判定部 2 0 1 は、 第 1 実施形態の もの と 同 様である ので説明を省略する。
音響情報取得部 1 0 3 は、 ポールの打撃時に発生する 打撃音等を含む音響情報を前記コ ンテンッか ら取得する も のであっ て、 この音響情報を、 分解能 1 6 b i t 、 サ ンプリ ングレー ト 4 4 . 1 k H z にてサンプリ ングして 取得するよ う に設定している。 また、 本実施形態では、 こ の音響情報取得部 1 0 3 に図示しない フ ィ ルタ部を設 け、 例えば、 プレイ 中の選手のシューズと コー ト とが擦 れた際に生じる音や風の音やその他雑音等打撃音以外の 音響情報をフ ィ ルタ リ ングして打撃音のみを好適に抽出 できる よ う に構成している。 よ り 具体的に、 こ のフ ィ ル 夕部は、 所定の周波数帯域を通過させるバン ドパス フ ィ ルタ を F I R フ ィ ルタや I I R フ イ リレタ等のデジタル回 路によっ て構成した ものであ っ て、 本実施形態では、 1 0 0 Η ζ 〜 1 5 0 0 H z の周波数帯域の信号成分を通過 させる よ う に設定している。
打撃音パターン情報格納部 1 0 4 は、 ポールと ラケ ッ 卜 と の当た り 具合等によ る音の変化を、 スマ ッ シュ した 時の打搫音ゃフォアハン ドス 卜 ローク を した時の打撃音 な どス 卜 ローク の種類に分類してパター ン化 した打撃音 パターン情報と して所定の周波数とその周波数における 振幅値と を対応づけて格納する も のであ っ て、 前記外部 記憶装置 1 2 や内部メモ リ 1 3 の所定領域に形成してい る。 なお、 ポールがコー ト で跳ね返る と きの音な ど、 ポ ールと ラ ケッ 卜 とが当たる こ と によ り 発生する音以外の 音をパターン化して格納していてもよい。
打撃時刻情報特定部 1 0 5 は、 前記隠蔽開始解除時刻 特定部 2 0 1 b で特定された隠蔽開始時刻 t 0 と隠蔽解 除時刻 t 1 と に基づいて (方法 M 1 )、 及び、 打撃音パタ 一ン情報格納部 1 0 4 に格納される打撃音パターン情報 と前記音響情報取得部 1 0 3 で取得した音響情報と に基 づいて (方法 M 2 )、 打撃時刻 t a を特定する ものであ る よ り 具体的には、 ポールが選手領域 p に対してある一 定距離内 に近づいた時刻を t — d 0 と し、 ポールがその 選手か ら ある一定距離外に遠ざかっ た時刻を t — d 1 と する。 そ して、 期間 [ t — d 0、 t — d 1 ] の間におい て、 方法 M 2 の音響情報を用 いた打撃時刻の検出を行い 、 打撃時刻が検出されればその値を打撃時刻 t a と して 採用する。 も し、 検出漏れによ り 採用 されなければ、 方 法 M l の t a = a p p r o x ( a X t 0 + ( 1 - a ) X t 1 ) によ り 打撃時刻 t a を特定する。' こ こで、 a p p r o x ( x ) は x を適当な方法で近似する 関数を表す。 ま た、 「検出漏れ」 が発生する原因には、 マイ ク の設置条件 や放送における ミ キシング条件、 データ伝送路の条件な どによ り 、 打撃時刻の特定に必要な音響情報が良好な条 件で得 られない場合な どが挙げられる。 さ ら に、 方法 M 2 で得た打撃時刻 と方法 M 1 で得た打撃時刻とがマ ッ チ ングする関係にある ときに、 その時刻を打撃時刻 と して 特定する よ う に構成すれば、 打撃時刻の特定の精度を格 段に向上させる こ とができる。
以下、 方法 M 1 、 M 2 について詳述するが、 方法 M 1 につ いては、 第 1 実施形態で打撃時刻 t a を求め る方法 と 同様であ るので説明を省略する。
方法 M 2 について詳述する。
こ の と き の打撃時刻情報特定部 1 0 5 は、 前記音響情 報取得部 1 0 3 で取得した音響情報を 2 0 4 8 点 ( ^ 0 . 0 4 6 秒) 単位で且つ 1 2 8 点 ( 0 . 0 0 2 9 秒) 間隔で開始時刻を順次ずら しなが ら F F T処理を行い、 各時刻における周波数領域に変換した音響情報の周波数 特性パター ンを前記打撃音パターン情報格納部 1 0 4 に 格納される打撃音パターン情報と照合するよ う に設定し ている。 そ して、 これら の照合の結果、 音響情報の周波 数特性パターン と前記打撃音パター ン情報とがー致して いれば、 その一致した時刻を こ のポールの打撃時刻 t a と特定し 、 特定 した打撃時刻 t a を画像内容認識部 1 0 6 に出力するよ う に動作する。 なお、 本実施形態では、 音響情報の周波数特性パターンと打撃音パターン情報 と の一致を相関関数を用い、 こ の相関関数が予め設定した 閾値よ り 大きな値を示す際に一致した とみなすよ う に設 定してい る。 画像内容認識部 1 0 6 は、 第 1 実施形態と同様のも の であるため、 説明を省略する。
次に、 本実施形態の画像認識装置の動作を第 1 4 図に 示すフ ロー図を用いて説明する。
まず、 選手のプレイ 中の動作が映っ た映像情報か ら コ — ト ライ ン とネ ッ ト ライ ン と をそれぞれ抽出 し (ステ ツ プ S 2 0 1 )、映像情報か ら これ ら コ ー ト ライ ン及びネ ッ ト ライ ンを除去した 2 値画像を用いて選手位置情報を抽 出する (ステッ プ S 2 0 2 )。 そ して抽出 した選手位置情 報に基づき映像情報か らポールを抽出する (ステッ プ S 2 0 3 )。ポールが選手領域 p に対して所定範囲にあれば (ステッ プ S 2 0 4 )、前記コ ンテンツか らポールの打撃 時に発生する打撃音を含む音響情報をフィ ルタ部でフ ィ ル夕 リ ングして取得し (ステ ッ プ S 2 0 5 )、 フ ィ ルタ リ ングして取得した音響情報に対し、 所定の間隔で開始時 刻を順次ずら しなが ら F F T処理を行う (ステッ プ S 2 0 6 )。 そして、 各時刻における F F T処理によ り 周波数 領域に変換して得た打撃音候補データの周波数特性パタ —ンを打撃音パター ン情報格納部 1 0 4 に格納される打 撃音パターンと照合し (ステ ッ プ S 2 0 7 )、 照合した結 果、 打撃音候補データの周波数特性パターン と前記打撃 音パターン情報 とがー致していれば (ステッ プ S 2 0 8 )、 その一致した時刻を このポールの打撃時刻 t a と特定 し (ステッ プ S 2 0 9 )、 一致していなければ (ステッ プ S 2 0 8 )、次の時刻における打撃音候補データ の周波数 特性パターンと前記打撃音パターン との照合を行う (ス テツ プ S 2 0 7 )。
一方、 ステッ プ S 2 0 8 において、 所定回数一致しな ければ (ステッ プ S 2 1 0 )、 打撃時刻情報特定部 1 0 5 が、 隠蔽開始解除時刻特定部 2 0 1 b で求めた隠蔽開始 時刻 t 0 と隠蔽解除時刻 t 1 と に基づき打撃時刻 t a を 特定する (ステッ プ S 2 1 1 )。
こ のよ う に して特定した打撃時刻 t a における ポール 位置と選手位置及びルール情報に基づき、 例えば、 第 1 0 図に示すよ う に、 ポールが選手に重なっ た り 隠蔽され た り する場合等特に画像認識に不具合を生 じる よ う な場 合でも、 フ ォ アハ ン ドスイ ング動作を表す " f o r e h a n d _ s w i n g "、バッ クノ、ン ドスイ ング動作を表す b a c k h a n d一 s w i n g 、ォーノ 一ヘ ッ ドスィ ング動作を表す " o V e r h e a d— s w i n g " の 3 種類の動作で認識する こ とができる (ステ ッ プ S 2 1 2 以上のよ う に して、 映像中 において使用用具が選手や ネ ッ ト等の障害物に重なっ た り 隠蔽された り して使用用 具の位置特定が困難な と きや、 音響情報を用いても画像 認識が困難な場合でも、 隠蔽状態判定部 2 0 1 において 、 使用用具が前記対象体に隠蔽されない状態か ら隠蔽さ れる状態へとなっ たと隠蔽状態判定部 2 0 1 で判定され た ときの隠蔽開始時刻と、 前記対象体に隠蔽される状態 か ら隠蔽されない状態になっ たと隠蔽状態判定部 2 0 1 で判定された ときの隠蔽解除時刻と に基づき、 打撃時刻 情報特定部 1 0 5 が前記使用用具を打撃した打撃時刻を 特定し、 さ ら に、 特定した打撃時刻 と選手のプレイ 中の 動作が映っ た映像情報と 当該ルールを行う ためのル一ル 情報と に基づき画像内容認識部 1 0 6 が確実に選手の動 作を特定するため、 例えば、 重な り や隠蔽によ る フ ォ ア ノ、 ン ドスィ ング、 ノ ッ クハ ン ドスィ ング及びオーバーへ ッ ドスイ ングの識別誤 り と いっ た映像情報だけでは避け られなかっ た認識誤 り を回避する こ とができる画像認識 に優れた画像認識装置を比較的安価に提供する こ とがで きる。 ポールと選手 とが重なっ た り 隠蔽された り しない 場合での画像認識が好適に行える こ と は言う までもない また、 音響情報取得部 1 0 3 が取得した打撃音を含む 音響情報に基づき特定した打撃時刻 と、 方法 M 2 の手法 で得 られる打撃時刻 と を用いて打撃時刻を特定する よ う すれば、 よ り 精度の高い画像認識装置を提供する こ と も できる。 このよ う な場合、 打撃音以外のノ イ ズ音が取得 した音響情報に含まれていて も、 フ ィ ルタ部で こ の ノ ィ ズ音を好適にフ ィ ルタ リ ングできるため、 ロバス ト 的で 認識率の高い画像認識が可能となる。 さ ら に、 音響情報 か ら複数個の打撃音候補データ を取得し、 これに基づき 打撃時刻を特定する よ う に構成しているため、 正確な打 撃時刻の特定が可能となる。 さ ら に こ の と き、 複数個の 打撃音候補デ一夕 を、 前後の打撃音候補データ間で相互 に重なる時刻を有するよ う に しているため、 誤っ て打撃 時刻を特定できない と いっ た不具合も防止できる。
なお、 本実施形態において、 コ ンテンツをテニス番組 と し、 その映像情報か ら抽出する ド メ イ ン要素を使用施 設情報をコー ト ライ ン及びネ ッ ト ライ ン と したが、 コ ン テンッが他のスポーツ番組等に替われば抽出する使用施 設情報も これ らか ら変更される こ とは言う までも無い。 また、 選手位置情報、 使用用具情報に関 しても これと 同 様に変更する こ と となる。
さ ら に、 テ レ ビジ ョ ン受像機 T Vや V T R等の記録再 生装置を用いて表示する放映中の番組や記録媒体な どに 記録されるスポーツ に関する コ ンテンツか ら、 特徴的な 試合中の選手の動作を認識するよ う に構成していたが、 例えば、 スタジアムで当該スポーツ を撮影 した放映され る前の素材映像やイ ンターネ ッ ト上にアーカイ ブ化され ている映像情報か ら 、 特徴的な試合中の選手の動作を認 識するな ど、 画像認識を行う コ ンテンツの対象となる媒 体は本実施形態に限 られる も のではない。
また、 画像内容認識部 1 0 6 において映像情報が示す 選手の動作を含む画像内容を、 フ ォ アハン ドスイ ング動 作を表す " f o r e h a n d― s w i n g "、 ^A、ッ クノ、 ン ドスイ ング動作を表す" b a c k h a n d― s w i n g オーバーへッ ドスイ ング動作を表す " o v e r h e a d — s w i n g " の 3 種類の動作で認識する よ う に構成し ていたが、 ポール位置や選手位置との関係等に基づき、 選手がその場に留まる動作を表す " s t a y "、 選手の移 動動作を表す " m o v e " を認識する こ と もできる。 ま た、 ルール情報格納部 1 0 2 に格納するルール情報を、 選手のさ まざまな動作を含めたよ り 複雑な ものに定義 し て格納すれば、 画像内容認識部 1 0 6 においてよ り 複雑 な選手の動作を認識する こ と も可能であ る。
なお、 b x X b y のポールを含む所定のテンプレー ト T b ( X 、 y ) を用 いて映像情報か ら ポールを抽出する よ う に構成していたが、 こ のテンプレー ト を用いずにポー ルを抽出しても構わない。
また、 音響情報取得部 1 0 3 にパン ドパス フ ィ ル夕で 構成される フィ ルタ部を設けたが、 ノ ン ドパス フ ィ ルタ 以外のフ ィ ルタ を用いる実施態様も考え られる。 さ ら に 、 通過させる周波数帯域も 1 0 0 Η ζ 〜 1 5 0 0 H z に 限られる ものではない。
なお、 音響情報取得部 1 0 3 が、 ポールの打撃時に発 生する打撃音等を含む音響情報を前記コ ンテンツか ら分 解能 1 6 b i t 、 サンプリ ングレー ト 4 4 . 1 k H z に てサンプリ ングして取得する よ う に設定 していたが、 分 解能及びサンプリ ングレー ト の設定はこれに限 られる も のではない。
また、 前記音響情報取得部 1 0 3 で取得した音響情報 を、 前記打撃時刻情報特定部 1 0 5 が 2 0 4 8 点 ( ^ 0 . 0 4 6 秒) 単位で且つ 1 2 8 点 ( 0 . 0 0 2 9 秒) 間隔で開始時刻を順次ず ら しなが ら F F T処理を行う よ う に設定していたが、 F F T処理を行う ポイ ン ト数等は これに限 らず他の値に設定しても構わない。
さ ら に、 音響情報の周波数特性パターン と打擊音パ夕 一ン との一致を相関関数を用 い、 こ の相関関数が予 め設定した閾値よ り 大きな値を示す際に一致した とみな すよ う に設定していたが、 音響情報の周波数特性パ夕一 ン と打撃音パターン情報と の一致をみなす方法は他に も 考え られる
また、 図 1 5 に示すよ う に、 画像内容認識部 1 0 6 が 映像情報取得部で取得した映像情報と打撃時刻情報特定 部 1 0 5 で特定した打撃時刻における使用用具の位置と に基づき、 その映像情報が示す選手の動作を含む画像内 容を認識する よ う に、 該画像認識装置 1 を構成する実施 態様も考え られる。 こ のよ う に構成すれば、 簡単な構成 でシステムを構成する こ とができ る と と も に、 例えば、 ル一ルが設定されていない ものに も応用できるので汎用 性を広げられる。
その他、 各部の具体的構成についても上記実施形態に 限 られる ものではな く 、 本発明の趣旨を逸脱しない範囲 で種々変形が可能であ る。 産業上の利用可能性
上述したよ う に、 本発明によれば、 映像中において使 用用具が選手ゃネ ッ ト等の障害物に重なっ た り 隠蔽され た り して使用用具の位置特定が困難なとき等、 映像情報 だけでは画像認識が困難な場合でも、 音響情報取得部が 取得した打撃音を含む音響情報に基づき打撃時刻情報特 定部がその打撃音の発生した打撃時刻を特定し、 さ ら に 、 特定した打撃時刻 と選手のプレイ 中の動作が映つ た映 像情報と 当該ルールを行う ためのル一ル情報と に基づき 画像内容認 咅 Bが確実に選手の動作を特定するため、 例 えば、 重な り や隠蔽によ る フ ォ ァ八 ン ドスイ ング、 ノ ッ クノヽ ン ドスイ ング及びオー バ ーへッ ドスイ ングの識別誤 り と いつ た映像情報だけでは避け られなかっ た認識誤 り を回避する し とができ る画像認 d feれた画像 ¾¾» ut¾ 衣
Figure imgf000035_0001
を比較的安価に提供する こ とができる

Claims

請求の範囲
1 . ネ ッ ト等の障害物で区画された領域間で対戦するス ポ一ッにおける選手の動作を、 そのスポーツの放映中の 番組又は放映前の素材映像や V T R等の記録媒体に記録 される コ ンテンツか ら認識する画像認識装置であっ て、 前記コ ンテンツか ら少な く と も一方の選手のプレイ 中の 動作が映っ た映像情報を取得する映像情報取得部と、 前 記映像情報取得部で取得した映像情報に含まれてなる前 記領域間を移動 し当該スポーツの得点のカ ウ ン ト対象と なるポール等の使用用具が、 所定の対象体に隠蔽される 状態にあるか否かを判定する隠蔽状態判定部と、 前記隠 蔽状態判定部で前記使用用具が前記対象体に隠蔽されな い状態か ら隠蔽される状態へとなっ た と判定された と き の隠蔽開始時刻 と前記対象体に隠蔽される状態か ら隠蔽 されない状態になっ た と判定された ときの隠蔽解除時刻 と に基づき、 前記使用用具を打撃した打撃時刻を特定す る打撃時刻情報特定部と、 当該スポーツ を行う ためルー ル情報を格納するルール情報格納部と、 前記映像情報取 得部で取得した映像情報 と前記打撃時刻情報特定部で特 定した打撃時刻における使用用具の位置と前記ルール情 報格納部に格納されるルール情報と に基づき、 その映像 情報が示す選手の動作を含む画像内容を認識する画像内 容認識部とを備えている こ と を特徴とする画像認識装置
2 . 前記隠蔽状態判定部に、 前記使用用具が前記対象体 に対して所定距離内にあるか否かを判定する距離判定部 と、 前記距離判定部で前記使用用具が前記対象体に対し て所定距離内にある と判定し且つ前記使用用具が前記対 象体に隠蔽されない状態か ら隠蔽される状態へとなっ た ときの時刻を隠蔽開始時刻と して特定し、 前記距離判定 部で前記使用用具が前記対象体に対して所定距離内にあ る と判定 し且つ前記使用用具が前記対象体に隠蔽される 状態か ら隠蔽されない状態へとなっ たと きの時刻を隠蔽 解除時刻と して特定する隠蔽開始解除時刻特定部と を備 えている こ と を特徴とする請求項 1 記載の画像認識装置
3 . t aで示される前記打撃時刻 と t O で示される前記 隠蔽開始時刻と t 1 で示される隠蔽解除時刻とが、 下式 (数 1 ) に示す関係を有している こ と を特徴とする請求 の範囲第 1 項又は第 2 項記載の画像認識装置。
【数 1 】 t a = a X t O + ( 1 — a ) X t 1 ただし、 係数 a は、 0 ≤ a ≤ l
4 . 前記映像情報取得部が、 ネ ッ ト等の障害物や前記領 域及びその領域外の境界を示す境界線等の使用施設情報 と選手の位置を示す選手位置情報と前記領域間を移動し 当該スポーツの得点のカ ウ ン ト対象となる使用用具情報 と を映像情報か ら抽出する ド メイ ン要素抽出部を備えて いる こ と を特徴とする請求の範囲第 1 項、 第 2 項又は第 3 項記載の画像認識装置。
5 . 前記選手位置情報が、 選手とその選手がプレイ 中常 に持っ て使用する用具と を含む領域を示す位置情報であ る こ と を特徴とする請求の範囲第 4項記載の画像認識装 置。
6 . 前記 ド メ イ ン要素抽出部が、 該 ド メ イ ン要素抽出部 で抽出 した使用施設情報に基づき前記映像情報か ら選手 位置情報を抽出する こ と を特徴とする請求の範囲第 4 項 又は第 5 項記載の画像認識装置。
7 . 前記 ドメ イ ン要素抽出部が、 該 ド メイ ン要素抽出部 で抽出 した使用施設情報及び選手位置情報に基づき前記 映像情報か ら使用用具情報を抽出する こ と を特徴とする 請求の範囲第 4 項、 第 5 項又は第 6 項記載の画像認識装 置。
8 . 前記使用施設情報、 前記選手位置情報、 前記使用用 具情報及び前記ル一ル情報が、 画像抽出の対象となるス ポ一ッ種目 に関する知識に基づく ものである こ と を特徴 とする請求の範囲第 4 項、 第 5 項、 第 6 項又は第 7 項記 載の画像認識装置。
9 . 前記領域間を移動し当該スポーツの得点のカ ウ ン ト 対象となるポール等の使用用具の打撃時に発生する打撃 音等前記映像情報と同期 した音響情報を前記コ ンテンッ か ら取得する音響情報取得部を備え、 前記打撃時刻情報 特定部が、 前記隠蔽開始時刻と前記隠蔽解除時刻との組 みと前記音響情報取得部で取得した音響情報と に基づき 打撃時刻を特定する こ と を特徴とする請求の範囲第 1 項 、 第 2 項、 第 3 項、 第 4 項、 第 5 項、 第 6 項、 第 7 項又 は第 8 項記載の画像認識装置。
1 0 . 前記打撃時刻情報特定部が、 前記音響情報が、 所 定の レベルよ り 大きな値を示した際に、 こ の大きな値を 示す時刻を打撃時刻と特定する こ と を特徴とする請求の 範囲第 9 項記載の画像認識装置。
1 1 . 前記音響情報取得部が、 所定の周波数帯域を通過 させる フ ィ ルタ部を備え、 前記音響情報がこ のフ ィ ルタ 部を通過した ものである こ と を特徴とする請求の範囲第 9 項又は第 1 0 項記載の画像認識装置。
1 2 . 前記フ ィ ルタ部が、 ノ ン ドパス フ ィ ル夕で構成さ れる こ と を特徴とする請求の範囲第 1 1 項記載の画像認 識装置。
1 3 . 前記音響情報か ら抽出 した前記打撃音を含む所定 時間を有する打撃音候補デ一夕 に基づき、 前記打撃時刻 情報特定部が打撃時刻を特定する こ と を特徴とする請求 の範囲第 9 項、 第 1 0 項、 第 1 1 項又は第 1 2 項記載の 画像認識装置。
1 4 . 一の時刻の打撃音候補データ とその次の時刻の打 撃音候補データ とが相互に重なる時刻を有するよ う に前 記音響情報か ら複数個の打撃音候補データ を抽出 し、 こ の複数個の打撃音候補データ に基づき、 前記打撃時刻情 報特定部が打撃時刻を特定する こ と を特徴とする請求の 範囲第 9 項、 第 1 0 項、 第 1 1 項、 又は第 1 2 項記載の 画像認識装置。
1 5 . 前記複数個の打撃音候補データ を各々 同一のデー 夕長を有する よ う に構成する と共に、 複数個の打撃音候 補データ を前記音響情報か ら一定時間間隔で抽出する よ う に構成 している こ と を特徴とする請求の範囲第 1 4 項 記載の画像認識装置。
1 6 . 前記使用用具と選手がプレイ 中常に持っ て使用す る ラケ ッ ト等の用具との当た り 具合等による音の変化を パターン化した打撃音パターン情報を格納する打撃音パ 夕一 ン情報格納部を備え、 前記打撃時刻情報特定部が、 こ の打撃音パター ン情報格納部に格納される打撃音パ夕 一ン情報と前記音響情報と に基づき前記打撃時刻を特定 する こ と を特徴とする請求の範囲第 9 項、 第 1 0 項、 第 1 1 項、 第 1 2 項、 第 1 3 項、 第 1 4項又は第 1 5 項記 載の画像認識装置。
1 7 . ネ ッ ト等の障害物で区画された領域間で対戦する スポーツにおける選手の動作を、 そのスポーツの放映中 の番組又は放映前の素材映像や V T R等の記録媒体に記 録される コ ンテンツか ら認識する画像認識装置であっ て 、 前記コ ンテンツか ら少な く と も一方の選手のプレイ 中 の動作が映っ た映像情報を取得する映像情報取得部と、 前記映像情報取得部で取得した映像情報に含まれてなる 前記領域間を移動し当該スポーツの得点のカ ウ ン ト対象 となるボール等の使用用具が、 所定の対象体に隠蔽され る状態にあ るか否かを判定する隠蔽状態判定部と、 前記 隠蔽状態判定部で前記使用用具が前記対象体に隠蔽され ない状態か ら 隠蔽される状態へとなっ た と判定された と きの隠蔽開始時刻 と前記対象体に隠蔽される状態か ら隠 蔽されない状態になっ た と判定された ときの隠蔽解除時 刻 と に基づき、 前記使用用具を打撃 した打撃時刻を特定 する打撃時刻情報特定部と、 前記映像情報取得部で取得 した映像情報と前記打撃時刻情報特定部で特定した打撃 時刻における使用用具の位置と に基づき、 その映像情報 が示す選手の動作を含む画像内容を認識する画像内容認 識部と を備えている こ と を特徴とする画像認識装置。
1 8 . 前記領域間を移動し当該スポーツの得点のカ ウ ン ト対象となるポール等の使用用具の打撃時に発生する打 撃音等前記映像情報と同期 した音響情報を前記コ ンテン ッか ら取得する音響情報取得部を備え、 前記打撃時刻情 報特定部が、 前記隠蔽開始時刻と前記隠蔽解除時刻 と の 組みと前記音響情報取得部で取得した音響情報と に基づ き打撃時刻を特定する こ と を特徴とする請求の範囲第 1 7 項記載の画像認識装置。
1 9 . コ ン ピュータ を作動させて、 ネ ッ ト等の障害物で 区画さ れた領域間で対戦するスポーツにおける選手の動 作を、 そのスポーツの放映中の番組又は放映前の素材映 像や V T R等の記録媒体に記録される コ ンテンツか ら認 識する画像認識装置を稼動する プロ グラムであっ て、 当 該コ ン ピュータ を、 前記コ ンテンツか ら少な く と も一方 の選手のプレイ 中の動作が映っ た映像情報を取得する映 像情報取得手段と、 前記映像情報取得部で取得した映像 情報に含まれてなる前記領域間を移動し当該スポーツの 得点のカ ウ ン ト対象となるポール等の使用用具が、 所定 の対象体に隠蔽される状態にあるか否かを判定する隠蔽 状態判定手段と、 前記隠蔽状態判定手段で前記使用用具 が前記対象体に隠蔽されない状態か ら隠蔽される状態へ となっ た と判定された と きの隠蔽開始時刻 と前記対象体 に隠蔽される状態か ら隠蔽されない状態になっ た と判定 されたときの隠蔽解除時刻と に基づき、 前記使用用具を 打撃した打撃時刻を特定する打撃時刻情報特定手段と、 当該スポーツを行う ためルール情報を格納するルール情 報格納手段と、 前記映像情報取得手段で取得した映像情 報と前記打撃時刻情報特定手段で特定した打撃時刻にお ける使用用具の位置と前記ルール情報格納手段に格納さ れるルール情報と に基づき、 その映像情報が示す選手の 動作を含む画像内容を認識する画像内容認識手段と して 機能させる こ と を特徴とする画像認識プロ グラム。
2 0 . コ ン ピュータ を作動させて、 ネ ッ ト等の障害物で 区画された領域間で対戦するスポーツにおける選手の動 作を、 そのスポーツの放映中 の番組又は放映前の素材映 像や V T R等の記録媒体に記録される コ ンテンツか ら認 識する画像認識装置を稼動する プロ グラムであっ て、 当 該コ ンピュータ を、 前記コ ンテンツか ら少な く と も一方 の選手のプレイ 中の動作が映っ た映像情報を取得する映 像情報取得手段と、 前記映像情報取得部で取得した映像 情報に含まれてなる前記領域間を移動し当該スポーツの 得点のカ ウ ン ト対象となるポール等の使用用具が、 所定 の対象体に隠蔽される状態にあるか否かを判定する隠蔽 状態判定手段と、 前記隠蔽状態判定手段で前記使用用具 が前記対象体に隠蔽されない状態か ら隠蔽される状態へ となっ たと判定された と きの隠蔽開始時刻 と前記対象体 に隠蔽される状態か ら隠蔽されない状態になったと判定 された ときの隠蔽解除時刻 とに基づき、 前記使用用具を 打撃した打撃時刻を特定する打撃時刻情報特定手段と、 前記映像情報取得手段で取得した映像情報と前記打撃時 刻情報特定手段で特定した打撃時刻における使用用具の 位置と に基づき、 その映像情報が示す選手の動作を含む 画像内容を認識する画像内容認識手段と して機能させる こ と を特徴とする画像認識プロ グラム。
PCT/JP2003/004672 2003-04-11 2003-04-11 画像認識装置及び画像認識プログラム WO2004093015A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP03717571A EP1617374A4 (en) 2003-04-11 2003-04-11 PICTURE IDENTIFIER AND PICTURE IDENTIFICATION PROGRAM
JP2004570857A JP4482690B2 (ja) 2003-04-11 2003-04-11 画像認識装置及び画像認識プログラム
US10/552,143 US7515735B2 (en) 2003-04-11 2003-04-11 Image recognition system and image recognition program
PCT/JP2003/004672 WO2004093015A1 (ja) 2003-04-11 2003-04-11 画像認識装置及び画像認識プログラム
AU2003227491A AU2003227491A1 (en) 2003-04-11 2003-04-11 Image recognizing device and image recognizing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2003/004672 WO2004093015A1 (ja) 2003-04-11 2003-04-11 画像認識装置及び画像認識プログラム

Publications (1)

Publication Number Publication Date
WO2004093015A1 true WO2004093015A1 (ja) 2004-10-28

Family

ID=33193208

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/004672 WO2004093015A1 (ja) 2003-04-11 2003-04-11 画像認識装置及び画像認識プログラム

Country Status (5)

Country Link
US (1) US7515735B2 (ja)
EP (1) EP1617374A4 (ja)
JP (1) JP4482690B2 (ja)
AU (1) AU2003227491A1 (ja)
WO (1) WO2004093015A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005303566A (ja) * 2004-04-09 2005-10-27 Tama Tlo Kk ブロック分割領域における動きベクトルの分布を利用した特定シーン抽出方法及び装置
DE102009037316A1 (de) * 2009-08-14 2011-02-17 Karl Storz Gmbh & Co. Kg Steuerung und Verfahren zum Betreiben einer Operationsleuchte
JP5536491B2 (ja) * 2010-03-01 2014-07-02 ダンロップスポーツ株式会社 ゴルフスイングの診断方法
GB2496429B (en) 2011-11-11 2018-02-21 Sony Corp A method and apparatus and program
JP6148480B2 (ja) 2012-04-06 2017-06-14 キヤノン株式会社 画像処理装置、画像処理方法
CN103390174A (zh) * 2012-05-07 2013-11-13 深圳泰山在线科技有限公司 基于人体姿态识别的体育教学辅助系统和方法
US10223580B2 (en) * 2013-03-26 2019-03-05 Disney Enterprises, Inc. Methods and systems for action recognition using poselet keyframes
US9230366B1 (en) * 2013-12-20 2016-01-05 Google Inc. Identification of dynamic objects based on depth data
CN104688237B (zh) * 2015-02-11 2017-06-20 深圳泰山体育科技股份有限公司 体质检测的测时方法及系统
WO2017103674A1 (en) * 2015-12-17 2017-06-22 Infinity Cube Ltd. System and method for mobile feedback generation using video processing and object tracking
KR102565485B1 (ko) * 2016-01-11 2023-08-14 한국전자통신연구원 도시 거리 검색 서비스 제공 서버 및 방법
TWI584228B (zh) * 2016-05-20 2017-05-21 銘傳大學 場線之擷取重建方法
CN107948716A (zh) * 2017-11-28 2018-04-20 青岛海信宽带多媒体技术有限公司 一种视频播放方法、装置及机顶盒
US10719712B2 (en) * 2018-02-26 2020-07-21 Canon Kabushiki Kaisha Classify actions in video segments using play state information
KR101973655B1 (ko) * 2018-03-05 2019-08-26 주식회사 디아이블 스포츠 코트 자동인식 및 그에 따른 인/아웃 판단 방법 및 장치
US20220270367A1 (en) * 2019-03-24 2022-08-25 Dibl Co., Ltd. Method and device for automatically recognizing sport court and determining in/out on basis of same
US11704892B2 (en) * 2021-09-22 2023-07-18 Proposal Pickleball Inc. Apparatus and method for image classification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0820788A2 (en) * 1996-05-27 1998-01-28 K.K. Asobou's System and method for confirming and correcting offensive and/or defensive postures in a team ball game
JPH11339009A (ja) * 1998-05-26 1999-12-10 Sony Corp 解析データ生成装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3902266B2 (ja) 1996-05-27 2007-04-04 データスタジアム株式会社 団体球技における攻撃、守備体勢を確認し矯正するための 方法と装置
EP0905644A3 (en) * 1997-09-26 2004-02-25 Matsushita Electric Industrial Co., Ltd. Hand gesture recognizing device
US6072494A (en) * 1997-10-15 2000-06-06 Electric Planet, Inc. Method and apparatus for real-time gesture recognition
US6141041A (en) * 1998-06-22 2000-10-31 Lucent Technologies Inc. Method and apparatus for determination and visualization of player field coverage in a sporting event
US6816185B2 (en) 2000-12-29 2004-11-09 Miki Harmath System and method for judging boundary lines
US6567536B2 (en) * 2001-02-16 2003-05-20 Golftec Enterprises Llc Method and system for physical motion analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0820788A2 (en) * 1996-05-27 1998-01-28 K.K. Asobou's System and method for confirming and correcting offensive and/or defensive postures in a team ball game
JPH11339009A (ja) * 1998-05-26 1999-12-10 Sony Corp 解析データ生成装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MIYAMORI H.: "Improvement of Behavior Identification Accuracy for Content-based Retrieval by Collaborating Audio and Visual Information", INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU, vol. 2002, no. 26, 8 March 2002 (2002-03-08), pages 89 - 94, XP002956678 *
See also references of EP1617374A4 *

Also Published As

Publication number Publication date
AU2003227491A1 (en) 2004-11-04
JP4482690B2 (ja) 2010-06-16
US7515735B2 (en) 2009-04-07
EP1617374A4 (en) 2008-08-13
JPWO2004093015A1 (ja) 2006-07-06
US20070104368A1 (en) 2007-05-10
EP1617374A1 (en) 2006-01-18

Similar Documents

Publication Publication Date Title
WO2004093015A1 (ja) 画像認識装置及び画像認識プログラム
Assfalg et al. Soccer highlights detection and recognition using HMMs
Cheng et al. Fusion of audio and motion information on HMM-based highlight extraction for baseball games
JP2008511186A (ja) フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法
JPH10136297A (ja) デジタルビデオデータから索引付け情報を抽出する方法と装置
WO2006009521A1 (en) System and method for replay generation for broadcast video
JP6649231B2 (ja) 検索装置、検索方法およびプログラム
KR101128521B1 (ko) 오디오 데이터를 이용한 이벤트 검출 방법 및 장치
TWI408950B (zh) 分析運動視訊之系統、方法及具有程式之電腦可讀取記錄媒體
WO2004012150A1 (ja) 画像認識装置及び画像認識プログラム
JP4271930B2 (ja) 複数の状態に基づいて連続した圧縮映像を解析する方法
US8768945B2 (en) System and method of enabling identification of a right event sound corresponding to an impact related event
JP4546762B2 (ja) 映像イベント判別用学習データ生成装置及びそのプログラム、並びに、映像イベント判別装置及びそのプログラム
WO2004013812A1 (ja) 画像認識装置及び画像認識プログラム
Kijak et al. Temporal structure analysis of broadcast tennis video using hidden Markov models
Chen et al. Motion entropy feature and its applications to event-based segmentation of sports video
Kim et al. Extracting semantic information from basketball video based on audio-visual features
KR100963744B1 (ko) 축구 동영상의 이벤트 학습 및 검출방법
JP2010081531A (ja) 映像処理装置及びその方法
Chen et al. Event-based segmentation of sports video using motion entropy
Assfalg et al. Detection and recognition of football highlights using HMM
JP4098551B2 (ja) 複数のフレームを含む圧縮されているビデオを分析する方法およびシステム
Bertini et al. Common visual cues for sports highlights modeling
Bertini et al. Soccer videos highlight prediction and annotation in real time
Chen et al. Sports video analysis

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AU CN JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2003717571

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2004570857

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2007104368

Country of ref document: US

Ref document number: 10552143

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2003717571

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 10552143

Country of ref document: US