WO2006068269A1 - 映像構造化装置及び方法 - Google Patents

映像構造化装置及び方法 Download PDF

Info

Publication number
WO2006068269A1
WO2006068269A1 PCT/JP2005/023748 JP2005023748W WO2006068269A1 WO 2006068269 A1 WO2006068269 A1 WO 2006068269A1 JP 2005023748 W JP2005023748 W JP 2005023748W WO 2006068269 A1 WO2006068269 A1 WO 2006068269A1
Authority
WO
WIPO (PCT)
Prior art keywords
character string
video
frame image
information
image
Prior art date
Application number
PCT/JP2005/023748
Other languages
English (en)
French (fr)
Inventor
Noboru Nakajima
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2006549078A priority Critical patent/JPWO2006068269A1/ja
Priority to US11/793,807 priority patent/US7949207B2/en
Publication of WO2006068269A1 publication Critical patent/WO2006068269A1/ja
Priority to US13/111,551 priority patent/US8126294B2/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/327Table of contents
    • G11B27/329Table of contents on a disc [VTOC]
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/775Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/907Television signal recording using static stores, e.g. storage tubes or semiconductor memories
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal

Definitions

  • the present invention relates to video archiving and monitoring, and a method for presenting structural information related to video content, and more particularly to a video structuring apparatus and method for efficiently accessing a predetermined location in a video.
  • a television signal recording / reproducing apparatus disclosed in Japanese Patent Application Laid-Open No. 2004-80587 is known as an example of a structure information presentation method related to video content.
  • This television signal recording / reproducing apparatus writes a digital video signal, which is a digital format television signal, for each program, or reads and writes the written digital video signal for each program, and a digital video signal.
  • a thumbnail image with a reduced screen size is generated from a screen of at least one frame at an arbitrary time point in each program among digital video signals read from the control unit and the recording / reproducing unit for performing writing and reading processing
  • a thumbnail generation unit and a thumbnail synthesis unit that synthesizes and outputs a thumbnail list screen of each program generated by the thumbnail generation unit.
  • a thumbnail list area for storing a thumbnail list screen is provided in the recording / playback unit.
  • the control unit generates a thumbnail image by the thumbnail generation unit and synthesizes a thumbnail list screen from the generated thumbnail image by the thumbnail synthesis unit. Then, the synthesized thumbnail list screen is stored in the thumbnail list area.
  • the first frame of each program, or a screen of one frame or more at an arbitrary point in time, such as a screen five minutes after the start of the program is used as a thumbnail image.
  • the television signal recording / reproducing apparatus disclosed in Japanese Patent Application Laid-Open No.
  • 2004-80587 uses a plurality of frame images as thumbnails at regular time intervals or scene change timings.
  • An index that appropriately represents the content of image content is not necessarily structured in association with a video source. Therefore, in this television signal recording / playback device, there is a high possibility that it will not appear on the S-index of the video file required by the user, so the access efficiency to the image required by the user is high. However, this is a bad problem.
  • Japanese Patent Application Laid-Open No. 11-167583 discloses that a video is first input to a video storage medium and a telop character recognition 'search terminal.
  • the ro information at the time when is stored is stored in the video storage unit, and the telop character recognition 'search terminal performs telop character display frame detection, telop character area extraction, and telop character recognition processing.
  • a method for storing the telop character recognition result and ro information at the time when the telop character is displayed as an index file in the index file storage unit is disclosed.
  • time information is accumulated as ro information, and a character code is output as a telop character recognition result, for example.
  • a user inputs the desired video from the video search information input storage unit of the video search terminal from an interface such as a WWW (World wide web) browser, for example, the input character
  • the code is searched from the index file stored in the index file storage unit of the telop character recognition 'search terminal, and the video having the corresponding ro information is extracted from the video storage unit.
  • the searched video is displayed on the video display unit of the video search terminal, for example, a computer display.
  • the telop character included in the index file is text information obtained by character recognition, and thus may include misrecognition. It is highly text information. Since meaningless text information due to this misrecognition appears on the index, if the search efficiency when the user selects a desired scene does not increase, a malfunction will occur.
  • Japanese Unexamined Patent Application Publication No. 2003-345809 discloses a voice transcription device that writes a news voice corresponding to a news video into a character string, and a character in which the character string appears in the news video.
  • the character recognition device that recognizes the character string and the similarity between the words in the speech transcription result corresponding to the character appearance section detected by the character recognition device are obtained, and this similarity is used.
  • a database construction system that includes a registration device that associates and registers in the database.
  • passage search is performed for transcription of news speech using all words in the telop and CG flip character string recognized by the character recognition device.
  • the database construction system reduces the risk of extracting unrelated sentences due to the influence of the thesaurus of one word, and news that is not related to the database. The risk of video registration is reduced.
  • search results are in units of passages, so it is possible to register news videos in the database in such a way that the context of the results can be understood and the context can be easily divided.
  • Japanese Patent Application Laid-Open No. 2003-333265 discloses receiving image data from the outside and extracting attribute information of the image data from a predetermined portion of the image data. Notification using an attribute extraction unit, a notification destination storage unit that stores notification information indicating that image data has been received in association with attribute information in advance, and attribute information extracted by the attribute extraction unit
  • An information management apparatus is disclosed that includes a notification destination determination unit that extracts a destination from a notification destination storage unit, and an output unit that notifies notification information to a notification destination extracted by the notification destination determination unit. According to this information management apparatus, when external information is received from the outside, information indicating that the external information has been received can be output to a notification destination to which the information is to be notified.
  • the output unit extracts the internal information from the internal information storage unit based on the internal information ID, and stores the internal information together with related information and image data in the browsing information database based on the notification destination.
  • the output unit Notification information indicating that it has been received can be transmitted to the user terminal based on the notification destination received from the notification destination determination unit, and the internal information ID received from the internal information search unit can be transmitted to the user terminal together with the notification information. It is possible to send.
  • Japanese Patent Laid-Open No. 3-141484 discloses that when the number of characters included in a character string is known, the character string is optically read and one character is read from the character string image.
  • a character cutout method for cutting out a partial screen corresponding to is disclosed.
  • this character segmentation method a one-dimensional sequence feature is extracted from a character string image, and a model function that defines the character segmentation position corresponding to the number of characters and the one-dimensional sequence feature is defined.
  • the one-dimensional sequence feature and its model function are nonlinearly matched, and the character cutout position of the character string image corresponding to the character cutout position of the model function is obtained from the nonlinear correspondence function in nonlinear matching, and the obtained character cutout is obtained.
  • a partial image corresponding to one character is cut out from the position.
  • the character segmentation device disclosed in Japanese Patent Laid-Open No. 3-141484 requires a user because an index that appropriately represents the contents of the image content is not structured in association with the video source. There is a problem that it is not possible to access a specific part of the video efficiently.
  • Japanese Patent Laid-Open No. 2001-34709 discloses a feature vector that is generated from an input character pattern and that is stored in accordance with a condition stored in each node of a previously generated decision tree.
  • a fast recognition search system that selects child nodes sequentially according to the identification results and repeats this classification until reaching the terminal node.
  • This fast recognition search system includes a generating unit that generates a template of a multidimensional feature vector stored in a recognition dictionary from a set of patterns to which a preset correct answer category has been assigned, and a template created by the generating unit.
  • Template dictionary storage means that associates and stores templates that contribute to template generation, and the currently focused template, the set of patterns corresponding to each of the templates, and the appearance frequency of correct categories are classified into subsets.
  • a subset generation means for outputting a template belonging to the subset and a threshold value for separation into the subset, and a subset of the templates sequentially generated by the subset generation means before the corresponding separation.
  • Hierarchical dictionary means for storing in association with a subset of templates and the hierarchical dictionary storage means.
  • a decision tree classification means that classifies the input pattern in order of the input hierarchical structure and outputs the child nodes of the classified result, and is effective for determining the template from the leaf nodes of the hierarchical structure.
  • the subset generation means generates a decision tree by including in the subsets on both sides of the threshold the categories that exist across the determined threshold.
  • this fast-recognition search system when generating a decision tree by optimizing the classification method for identifying subsequent categories according to the distribution of templates belonging to the leaf nodes of the decision tree, By registering the template that exists across the boundary of both nodes in both nodes, the search can be executed at high speed in a stable time without backtracking.
  • the high-speed recognition / retrieval system disclosed in Japanese Patent Application Laid-Open No. 2001-34709 does not require a user because an index that appropriately expresses the contents of image content is not associated with a video source.
  • the problem is that it is not possible to access a specific part of the video to be performed efficiently.
  • Patent Document 1 Japanese Unexamined Patent Application Publication No. 2004-80587
  • Patent Document 2 Japanese Patent Application Laid-Open No. 11-167583
  • Patent Document 3 Japanese Unexamined Patent Publication No. 2003-345809
  • Patent Document 4 Japanese Patent Laid-Open No. 2003-333265
  • Patent Document 5 JP-A-3-141484
  • Patent Document 6 Japanese Unexamined Patent Publication No. 2001-34709
  • An object of the present invention is to structure a character string display appropriately representing the contents of image content in association with a video source, and to improve the access efficiency to a specific part of the video required by the user. It is an object of the present invention to provide an image structuring apparatus and method capable of performing the above.
  • Another object of the present invention is to analyze the content of a video and present the obtained structural information as an index list of character string display, thereby enabling efficient access to the target video. It is to provide an apparatus and method.
  • Another object of the present invention is to provide an image structure capable of presenting an index with reduced influence of recognition errors included in a character recognition result when character strings existing in an image are recognized. It is to provide an apparatus and method.
  • Another object of the present invention is to provide a video structuring apparatus capable of displaying to a user a character string display or a recognized character string expressing the content of a video as an index for cueing the video, and It is to provide a method.
  • Another object of the present invention is to display a character string display or recognition character string expressing the content of a video to the user as an index for cueing the video, and the user displays the character string display.
  • a video structuring apparatus capable of cueing and reproducing the video after the frame image specified by the selected character string display or recognized character string And providing a method.
  • Another object of the present invention is to display the recognized character string to the user by giving priority to the display of the recognized character string according to the recognition reliability when the character string in the video is recognized. Displaying character strings that better represent the contents of the video as an index for cueing the video.
  • An object of the present invention is to provide an image structuring apparatus and method that can be used by a user.
  • Another object of the present invention is to display the character string display by an image with priority to the user according to the low recognition reliability when the character string in the video is recognized, To provide a video structuring apparatus and method that allows a user to use a display of a character string that more appropriately represents the content of a video as an index for cueing the video.
  • Another object of the present invention is to provide an image structure device and method that allows a user to know that a character string has appeared in an image when the images are sequentially input. There is to be.
  • Another object of the present invention is to provide a video structuring apparatus and a video structuring apparatus that allow the user to know that a preset character string has appeared in the video when the video is sequentially input. Is to provide a method.
  • the video structuring apparatus receives a video signal, outputs a video frame image, and frame identification information for identifying the frame image;
  • the frame image and the frame identification information are received from the input means, and it is determined whether or not a character string exists in the frame image.
  • the frame image is Generate character string position information about the character string existing in the character string existing frame image as the character string existing frame image, character string position information, frame identification information for identifying the character string existing frame image, character
  • the character string extraction means for outputting the column existence frame image, and the frame identification information, the character string existence frame image, and the character string position information are obtained from the character string extraction means,
  • the video information storage means for associating the information stored in the index file and the power of the video information storage means, the index file is read, and the range in which the character string exists from the character string existing frame image is read based on the character string position information.
  • the video structuring apparatus receives a video signal, and receives a video frame image, frame identification information for identifying the frame image, and video data of the video signal.
  • a video input means that outputs a frame image and frame identification information from the video input means to determine whether or not a character string exists in the frame image and determines that a character string exists in the frame image.
  • the character string position information and the character string existence frame image are identified by generating the character string position information for the character string existing in the character string existence frame image using the frame image as the character string existence frame image.
  • Character string extraction means for outputting frame identification information and character string existence frame image, structure information presenting means, and character identification from the character string extraction means.
  • the frame image and character string position information are acquired and associated and stored in the index file
  • the video data and frame identification information are acquired from the video input means and stored in association
  • the frame identification information is stored from the structure information presenting means.
  • the video data recorded in association with the frame identification information acquired from the structure information presenting means is read, and the video data after the frame image corresponding to the frame identification information acquired from the structure information presenting means is output.
  • Video information storage means and video playback means for acquiring video data output from the video information storage means and outputting and displaying the data on the display means.
  • the structure information presenting means reads the index file from the video information storage means, extracts the range where the character string exists from the character string existing frame image based on the character string position information, and displays the character string by the extracted image. Is displayed on the display means, and when the user inputs information indicating that the character string display is selected, the frame identification information associated with the selected character string display is stored in the video information storage means. Output.
  • the video structuring apparatus receives the video signal and outputs a video frame image and frame identification information for identifying the frame image;
  • the frame image and the frame identification information are received from the input means, and it is determined whether or not a character string exists in the frame image. If it is determined that the character string exists in the frame image, the frame image is Character string position information about a character string existing in the character string existing frame image is generated as a character string existing frame image, character string position information, frame identification information for identifying the character string existing frame image, text Character string extraction means for outputting a character string existence frame image, frame identification information, character string existence frame image and character string position information are obtained from the character string extraction means, and character strings are obtained based on the character string position information.
  • Character recognition means for outputting information, frame identification information, a character string existing frame image and character string position information are acquired from the character string extraction means, and character string recognition means power, recognition character string and frame identification information, Image information storage means that acquires character string position information and associates the acquired images and information with each other and stores them in an index file, and image information storage means power index
  • Image information storage means that acquires character string position information and associates the acquired images and information with each other and stores them in an index file
  • image information storage means power index
  • a frame that reads the file, cuts out the range where the character string exists from the character string existing frame image based on the character string position information, identifies the character string display by the cut image and the recognized character string, and identifies the character string existing frame image Structural information presenting means capable of being displayed on the display means in association with the identification information.
  • the video structuring apparatus receives a video signal and outputs a frame image of the video, frame identification information for identifying the frame image, and video data of the video signal.
  • a frame image and frame identification information are received from the video input means and whether a character string exists in the frame image, and when it is determined that a character string exists in the frame image
  • Character string extraction means for outputting information and character string existence frame image, frame identification information, character string existence frame image and character string position from character string extraction means Information, and based on the character string position information, cut out a range where the character string exists from the character string existing frame image, perform character string recognition processing on the cut image, and recognize the character string by the character code.
  • a character string recognizing means that outputs the recognized character string, frame identification information, and character string position information, a structure information presenting means, and a character string extracting means from the character string extracting means.
  • the character string position information is acquired, the recognized character string, the frame identification information, and the character string position information are acquired from the character string recognition means.
  • the acquired image and information are stored in the index file in association with each other, the video data acquired from the video input means and the frame identification information are stored in association with each other, and the structure information is obtained when the frame identification information is acquired from the structure information display means.
  • Video information storage means for reading the video data recorded in association with the frame identification information acquired from the presentation means and outputting video data after the frame image corresponding to the frame identification information acquired from the structure information presentation means;
  • video playback means for acquiring video data output from the video information storage means and outputting the acquired video data to the display means for display.
  • the structure information presenting means reads out the index file from the video information storage means, extracts the range where the character string exists from the character string existing frame image based on the character string position information, and extracts the cut out image.
  • the character string display and the recognized character string can be output and displayed on the display means, and when the user inputs the information indicating that the character string display or the recognized character string is selected, the selection is performed.
  • the frame identification information associated with the displayed character string display or recognized character string is output to the video information storage means.
  • the character string recognizing means may be a video information accumulating means by calculating the recognition reliability of the character string.
  • the recognition reliability for example, the likelihood value in character recognition corresponding to each character in the character string image, the reciprocal of the average value of the distance values, or the like can be used.
  • the video information storage unit stores the recognition reliability acquired from the character string recognition unit in the index file in association with the character string position information, and the structure information presenting unit stores the recognition reliability. Comparison with a predetermined threshold is performed.
  • the structure information presenting means outputs the recognized character string to the display means without displaying the character string display by the image when it is determined that the recognition reliability of the character string recognition is larger than the predetermined threshold value. May be displayed.
  • the structure information presenting means compares the recognition reliability with a predetermined threshold value, and if the reliability of the character string recognition is determined to be smaller than the predetermined threshold value, displays the recognized character string. Instead, the character string display by the image may be output and displayed on the display means. In this way, by selecting whether to prioritize the display of the recognized character string according to the degree of recognition reliability, the user can select either the character string display or the recognized character string. A more appropriate representation of the video content can be used as an index for video cueing. [0031] Further, in the present invention, when it is determined that there is new character string position information, the structure information presenting means causes the display means to display information indicating that the character string exists in the video, and / or Audio may be output from the audio output means. With this configuration, the user can know that a character string has appeared in the video when the video is sequentially input, and the video content can be appropriately displayed. The expressed character string display or recognized character string can be used as an index for cueing a video.
  • the video structuring apparatus receives a video signal and outputs a frame image of the video, and receives the frame image from the video input means and receives the frame image. It is determined whether or not there is a character string in the image, and if it is determined that the character string exists in the frame image, a character string extraction unit that outputs information indicating that the character string exists; When information indicating that a character string exists is acquired from the column extraction means, the information indicating that the character string exists in the video is displayed on the display means, and the structure information is displayed so that audio is output from the Z or audio output means. Means.
  • the video structuring apparatus receives a video signal and outputs a frame image of the video, and receives the frame image from the video input unit and receives the frame image. If it is determined whether or not a character string exists in the image, and if it is determined that the character string exists in the frame image, the character existing in the character string existing frame image in which the character string exists If character string position information is obtained from the character string extraction means that generates the character string position information and outputs the character string position information, and the character string position information is obtained from the character string extraction means, And a structure information presenting means for displaying information to the effect on the display means and / or outputting sound from the sound output means.
  • the video structuring apparatus receives a video signal, outputs a video frame image, and frame identification information for identifying the frame image;
  • a frame image is received from the input means and a determination is made as to whether or not a character string exists in the frame image, and if it is determined that a character string exists in the frame image, the character string in which the character string exists
  • Character string extraction means for outputting the existing frame image and character string position information about the character string existing in the frame image, and the character string existence frame image and the character string position information are acquired from the character string extraction means.
  • the character string recognition processing is performed on the cut out image to obtain the recognized character string by the character code, and the recognized character string and the character string position information
  • the character string recognition means that outputs and the recognition character string is acquired from the character string recognition means, and whether or not the acquired recognition character string is a character string included in the keyword group that is preset is determined ⁇ If it is determined that the acquired recognized character string is a character string included in the keyword, the information indicating that the character string exists in the video is displayed on the display means, and Z Or a structure information presenting means for outputting sound from the sound output means.
  • an index such as a character string display or a recognition character string that appropriately expresses the content of video content is associated with video data (video source) and presented. It is possible to efficiently access a specific part of the video that is required by the. In many video contents, it is expected that the text information appearing in the video accurately reflects the content of the video, and the index generated at the appearance timing of the text information is associated with the video data. By doing so, users will be able to access the necessary parts of the video efficiently. Even if the video contains text information that is not related to the content of the video, such as “Breaking News”, the user sees the text string display, It is possible to immediately determine whether or not to view the video of “Breaking News”.
  • the recognition reliability of the recognized character string By switching between character string display by image and display of recognized character string based on the image, access to a specific part of the video can be made more reliable, video search can be performed efficiently, and the user can It is possible to reduce the burden of the selection operation.
  • the user can know that a character string has appeared in the video, and A user who has been notified that a new character string has appeared shall display the character string or the recognition sentence.
  • By inputting information to select a character string it is possible to cue and reproduce and view the video after the frame image corresponding to the selected character string display or recognized character string.
  • the user can use a character string display or recognition character string appropriately representing the content of the video as an index for cueing the video, and further, the content of the video By selecting a character string display or a recognized character string that appropriately represents the desired image, it is possible to cue a desired image.
  • FIG. 1 is a block diagram showing a configuration example of a video structuring system including a video structuring apparatus according to the present invention.
  • FIG. 2 is a block diagram showing an image structure device of the first embodiment of the present invention.
  • FIG. 3 is a diagram showing time-series frame images obtained by decoding a video file of video identification information “ABC. MPGj”.
  • FIG. 4 is a diagram showing an example of index information output by a character string extraction unit based on the video file shown in FIG. 3.
  • FIG. 5 is a diagram showing an example of the content of a first index file including the index information shown in FIG.
  • FIG. 6 is a diagram showing an example of index list display.
  • FIG. 7 is a block diagram showing a signal processing system in the video structuring apparatus according to the second embodiment of the present invention.
  • FIG. 8 is a flowchart for explaining image structure processing in the image structure apparatus shown in FIG.
  • FIG. 9 is a flowchart showing an example of a character string extraction process.
  • FIG. 10 is a block diagram showing a video structure display device according to a third embodiment of the present invention.
  • FIG. 11 is a block diagram showing an image structure display device according to a fourth embodiment of the present invention.
  • FIG. 12 is a diagram showing an example of the contents of a second index file.
  • FIG. 13 is a diagram showing an example of an index list display.
  • FIG. 14 is a block diagram showing a video structure display device according to a fifth embodiment of the present invention.
  • 15 It is a block diagram showing an image structure display device according to a sixth embodiment of the present invention.
  • 16 It is a block diagram showing an image structure display device of a seventh embodiment of the present invention.
  • 17 It is a block diagram showing an image structure display device of an eighth embodiment of the present invention.
  • 18 It is a block diagram showing an image structure display device according to a ninth embodiment of the present invention.
  • FIG. 19 is a diagram showing another example of index list display.
  • FIG. 20 is a diagram showing another example of index list display.
  • Video structure equipment 100, 200, 300, 400, 500, 600, 700, 800, 900 Video structure equipment
  • Video playback unit 320, 520, 920 Video playback unit
  • FIG. 1 shows an example of the configuration of a video structuring system including a video structuring apparatus according to the present invention.
  • This video structuring system includes an imaging device 12 that forms a subject image on a light receiving surface, photoelectrically converts it and outputs the video signal, and converts the captured video signal into video data for transmission.
  • a video structuring apparatus 100 according to the present invention.
  • the image structuring device the image structure device 200, 300, 400, 500, 600, 700, 800, 900 in each embodiment described later may be used. Is possible.
  • the video output device 20 converts the captured video signal into video data for wireless transmission, and transmits this video data to the base station 24 and the video structuring device 100 via the antenna 18. It is configured.
  • the video output device 20 is also configured to convert the captured video signal into video data for recording and record it in the video database 16. Further, the video output device 20 is configured to read out video data recorded in the video database 16, convert it into video data for transmission, and output it to the communication network 30.
  • the video data may be composite video signals.
  • a cable television network may be used.
  • the video output device 20 reads the video data recorded in the video database 16 and converts it into video data for wireless transmission.
  • the video data is transmitted to the base station via the antennas 18 and 22. 24 and the function of transmitting to the image structuring apparatus 100 are also provided.
  • the video output device 20 has a function of receiving video data transmitted from the base station 24 or the video structure device 100 using a wireless or wired communication means using the antenna 18 or the like, and recording it in the video database 16. It also has.
  • the base station 24 receives the video data output from the antenna 18 of the video output device 20 using the antenna 22, converts the video data into video data transmitted by wire, and then transmits the video data via the communication network 30. A function for outputting to the structuring apparatus 100 is provided.
  • the base station 24 further receives various types of information such as video data and video index information transmitted by the video structuring apparatus 100, and via the antenna 22, the video output apparatus 20, a mobile phone (not shown), a mobile terminal, etc. It also has a function to transmit to other communication devices.
  • the video structuring apparatus 100 receives a video signal output from the imaging device 14 or the video output apparatus 20 via a video input unit or a video signal input unit described later, and extracts a time-series frame image from the video signal.
  • Frame identification information that identifies a frame image that includes a character string portion such as a telop, and character string position information that identifies the position of the character string portion or the character string position in the frame image. It has a function to generate index information that associates.
  • the frame identification information here includes, for example, time information, counter information, and page information.
  • the image structuring device 100 is The generated index information is output to other communication devices via the communication network 30 or wireless communication means.
  • the imaging device 14 may include a microphone and the like that can output an audio signal.
  • the video structuring apparatus 100 also has a function of recording the generated index information on a recording unit or a recording medium provided in the video structuring apparatus 100. Furthermore, the video structuring apparatus 100 extracts an image of the character string portion included in the frame image based on the frame identification information included in the generated index information and the character string position information that specifies the position of the character string. It also has a function of generating display data for index list display.
  • the character string image includes a character string display and a character string image. This display data is output from the video structure display device 100 to the display device 172, whereby an index list can be displayed for the user.
  • a user browses an index list display including a character string display or a character string image, and the user's desired character via an input device 170 such as a keyboard or a mouse.
  • an input device 170 such as a keyboard or a mouse.
  • an image file including the frame image is read based on frame identification information information associated with the character string display.
  • playback can be started from the position of the frame.
  • FIG. 2 shows a video structuring apparatus according to the first embodiment of the present invention having the above-described configuration.
  • the video structuring apparatus 200 shown in FIG. 2 receives digitized video data or video signals as input, and frame identification information for identifying frame images or time-series frame images and their individual frame images.
  • a video image input unit 210 that outputs video identification information and a frame image or a time-series frame image are input from the video input unit 210, and it is determined whether or not a character string exists in the frame image.
  • the character string extraction unit When it is determined that the string exists, the character string extraction unit that outputs the frame identification information of the character string existence frame image in which the character string exists and the character string position information such as the coordinate value of the character string in the frame image 212 And index information in which the character string existing frame image, character string position information, and frame identification information are associated with each other are stored as a first index file.
  • An image information storage unit 216 for storing data, the first index stored A structural information presenting unit 218 that reads a file and outputs a frame image in which a character string exists or a character string image corresponding to character string position information to the display device 172;
  • the video signal includes an RGB signal, a composite video signal, and the like.
  • the video input unit 210 when the video input unit 210 receives the digitized video data or the video signal such as the RGB signal or the composite video signal, the video input unit 210 identifies the entire video and the digitalized video. It has a function of outputting data and frame identification information for identifying the frame image when reproducing each frame image in the video data to the video information storage unit 216. Further, when receiving the video data or the video signal, the video input unit 210 generates a frame image or a time-series frame image from the input video signal, and individually identifies each frame image. For identifying the entire video, and a function of outputting individual frame images or time-series frame images to the character string extraction unit 212.
  • the character string extraction unit 212 receives video identification information such as a file name and a program title in which video is recorded, a frame image, and the second frame identification information from the video input unit 210, and inputs them. If a character string exists in the input frame image, and if it is determined that a character string exists in the input frame image, the video identification information, the character string existing frame image, In order to identify a specific frame image in which a character string exists, frame information and a character string existing in the frame image as index information are used as index information. Output for.
  • a character string existing frame image is a frame image detected as a character string exists, but here, even if it is a thumbnail image or the like obtained by reducing such a frame image as necessary. Good.
  • the character string position information is constituted by, for example, a coordinate value indicating where the detected character string is located in the frame image.
  • the structure information presenting unit 218 presents a character string display using an image to the user based on the index information acquired in this way.
  • the frame identification information is for identifying individual frame images.
  • information such as shooting time information, frame image number, or counter information may be used.
  • time information Time information for synchronized playback Time information such as PTS (Presentation Time Stamp), DTS (Decoding Time Stamp), and reference time information SCR (System Clock Reference) may be used.
  • PTS Presentation Time Stamp
  • DTS Decoding Time Stamp
  • SCR System Clock Reference
  • the character string extraction unit 212 receives the video identification information, the first frame image, and the frame identification information for identifying each frame image from the video input unit 210. It is determined whether or not a character string exists in the frame image. Next, when it is determined that a character string exists in the frame image, the video identification information, the character string existence frame image, and the frame identification information for identifying a specific frame image in which the character string exists are provided. Then, the character string position information such as the coordinate value of the character string existing in the frame image is output to the video information storage unit 216 as the first index information.
  • the character string extraction unit 212 does not output frame identification information and character string position information.
  • the character string extraction unit 212 determines whether or not a character string exists in the frame image of the second frame image, and determines that a character string exists in the frame image. Outputs frame identification information for specifying a character string existing frame image in which the character string exists, and character string position information such as a coordinate value of the character string existing in the frame image. The character string extraction unit 212 sequentially repeats this process for each subsequent frame image.
  • the character string extraction unit 212 differentiates the input frame image to generate a differential image. Each pixel value of the differential image is binarized with a predetermined threshold value, and the obtained binary image is projected in the horizontal and vertical directions, and a projection pattern is obtained by generating a histogram for the pixels.
  • the character string extraction unit 212 determines a continuous area where the projection pattern has a value equal to or greater than a predetermined value as a character string candidate area. At this time, the size of the continuous area is less than the default value. May be excluded from the character region candidates as noise. Then, the final character string position information can be generated by applying the layout analysis process to each character string candidate region determined based on the projection pattern.
  • the character string position information may be information representing a rectangle that minimally surrounds one character string, or may be information representing a shape obtained by combining a plurality of rectangles.
  • FIG. 3 shows a time-series frame image obtained by decoding a video file whose video identification information is “ABC. MPGj” and a character string included in the frame image, for example.
  • the video input unit 210 decodes the video file “ABC. MPG”, as shown in the figure, one or a plurality of frame images are obtained.
  • a video signal such as an RGB signal or a YC signal (composite signal) is input to the video input unit 210, one or a plurality of time series frame images are converted into numerical values as shown in FIG. The ability to obtain a single frame image.
  • the character string extraction unit 212 receives from the video input unit 210 video identification information of the file “ABC. MPG”, individual frame images, and frame identification information for identifying the individual frame images. Then, it is determined whether or not a character string exists in these frame images.
  • the video file name is used as the video identification information.
  • the program title of the table (EPG) can also be used.
  • As the frame identification information shooting time information is used in the illustrated example.
  • the processing in the video structure display device 200 shown in FIG. 2 will be described by taking as an example a case where a series of frame images as shown in FIG. 3 is input.
  • the character string extraction unit 212 Image identification information “ABC. MPG” for identifying the entire image, image data of the frame image 101 reduced as necessary, frame identification information for identifying the character string existing frame image 101 in which the character string exists, and its The coordinates PalOl (120, 400) and Pbl01 (600, 450) of the character string existing in the frame image are output to the video information storage unit 216 as index information.
  • the frame identification information for identifying the character string existing frame image 101 for example, the file name “ABC — 01231433.JPG” can be used.
  • the coordinate system of the character string in the example shown in FIG. 3 a coordinate system using the upper left pixel of the frame image as the origin is used.
  • the coordinate value of the top left corner of the rectangle that encloses the character string is defined as Pa
  • the coordinate value of the bottom right vertex of the rectangle that encloses the character string is defined as Pb.
  • the character string extraction unit 212 identifies the entire video.
  • the character string position information including the coordinates Pal02 (20, 100) and Pbl02 (120, 150) is output to the video information storage unit 216 as index information.
  • the frame identification information here, for example, the file name “ABC-02540467.JPG” is used.
  • FIG. 4 shows an example of the index information output from the character string extraction unit 212 based on the video file shown in FIG.
  • the index information output by the character string extraction unit 212 includes video identification information “ABC. MPG” for identifying the video file, frame identification information for identifying the frame image in which the character string exists, and the like.
  • video identification information is, for example, a file name “ABC-01231433.JPG”
  • character string position information is, for example, the coordinates Pal01 (120, 400) and Pbl01 (600, 450).
  • the video information storage unit 216 includes video identification information output from the character string extraction unit 212, a character string existing frame image in which the character string exists, frame identification information for identifying the character string existing frame image, The first index information associated with the character string position information is stored as a first index file.
  • the video information storage unit 216 stores the video identification information, video data, and frame identification information output from the video input unit 210 as video data.
  • FIG. 5 is a diagram showing an example of a first index file including the index information shown in FIG.
  • the first index file (INDEX01.XML) includes one or more index information of the video file “ABC. MPG” shown in FIG. 4 and other video files (for example, Index information for “DEF. MPG” etc. is also listed.
  • the IntuX file in 1 is not limited to the one having a database structure such as XML or extensiDle markup language, but has a file format for display in HTML (hypertext markup language), etc. Other file formats can be used.
  • the structure information presentation unit 218 reads the index file stored by the video information storage unit 216, generates index list display information, and outputs it to the display device 172.
  • the display device 172 displays the index list as shown in FIG. 6 and notifies the user.
  • Fig. 6 shows an example of an indicia list display.
  • the title 120 of the index list display the video identification information display field 122 for identifying the video file, and the character string existing frame image in which the character string exists are identified.
  • a character string display by an image obtained by cutting out a range where a character string exists from a frame image using frame identification information 24 such as shooting time, frame identification information, frame image video data, and character string position information.
  • the character string display 126 may be displayed in the order desired by the user, or the user location. It may be displayed at a desired position. It is also possible to display the index list at user-desired time intervals.
  • the user can select the desired character string display 126, playback point information such as the shooting time, and the like by operating the input device 170 such as a mouse or a keyboard.
  • the playback point information is information indicating where the video is played back, and is represented by frame identification information. If the user selects a desired character string display 126 or the like and designates a video playback point, the video final of the selected video identification information is read and specified by the corresponding frame identification information 124. The image after the frame image is displayed on the display device 172. In the example shown here, the shooting time is used as playback point information.
  • FIG. 7 shows a configuration of a signal processing system in the video structuring apparatus according to the second embodiment of the present invention.
  • the video structuring apparatus shown in FIG. 7 is realized by a program installed in a computer system controlling hardware resources of the computer system.
  • the video identification information is reduced as necessary.
  • a character string existing frame image such as a thumbnail
  • frame identification information for identifying a specific character string existing frame image in which the character string exists character string position information such as a coordinate value of a character string existing in the frame image, Can be output as index information.
  • the image structuring device 950 receives a video signal from the imaging device 14 that forms a subject image on a light receiving surface, performs photoelectric conversion, and outputs the video signal.
  • the video structuring apparatus 950 receives an audio signal collected by the image processing unit 951 that converts an input video signal into video data for recording and a video recording device 14 and converts it into audio data or video data for recording.
  • An antenna 20 for transmitting and receiving various information and a transmission / reception unit 968 are provided.
  • the video structure device 950 includes a compression / decompression unit 953, a recording medium mounting unit 978, and a recording unit. It includes a media interface 979, an input interface 971, a display interface 973, an information processing 980, a memory 981, a recording 984, and a calendar B temple 990.
  • the compression / decompression unit 953 performs compression control on video data or audio data by a technique typified by MPEG (motion picture expert group), and performs expansion / expansion control on the compressed video. Further, the compression / decompression unit 953 performs a process of compressing the image data by a technique represented by a joint picture expert group (JPEG) or controlling the decompression / expansion of the compressed image.
  • JPEG joint picture expert group
  • the recording medium mounting unit 978 is for detachably mounting the recording medium 977, and the recording medium interface 979 is for recording and reading various information with respect to the recording medium 977. It is.
  • the recording medium 977 is a detachable recording medium such as a semiconductor such as a memory card, an optical recording medium typified by a DVD, a CD, or a magnetic recording medium.
  • the input interface 971 is an input device such as a keyboard and a mouse used for inputting various instructions such as start or end of index list display, selection of video files, display of character strings, or selection of character string images. Sends / receives information to / from 170.
  • the display interface 973 outputs an image signal for display to the display device 172 that displays information such as images and characters.
  • the information processing unit 980 is configured by a CPU, for example, and includes a video signal input process, a process of generating a frame image and frame identification information from the video signal, and a character string in the frame image. Whether or not, generation processing of character string position information, association processing of various information, processing to cut out the range where the character string exists from the frame image
  • the memory 981 is used as a work area during program execution.
  • the recording unit 984 includes a processing program executed by the video structuring apparatus 950 and various constants, an address used for communication connection with a communication device on a network, a dial-up telephone number, attribute information, a URL (Uniform Resource Locators), a gateway It consists of a hard disk that records various information such as information and DNS (Domain Name System).
  • the calendar clock keeps time.
  • the information processing unit 980 and its peripheral circuits are connected to the bus 99. 9 are connected to each other so that high-speed information can be transmitted between them.
  • the information processing unit 980 can control these peripheral circuits based on an instruction of a processing program that operates on the information processing unit 980.
  • the above-described video structuring apparatus 950 may be a dedicated apparatus having processing capability for structuring video information.
  • a video recorder video camera, digital still camera, mobile phone equipped with a camera, PHS (Personal Handyphone System, PDA (Personal Data Assistance, Personal Digital Assistants) Equipment), or a general-purpose processing device such as a personal computer.
  • PHS Personal Handyphone System
  • PDA Personal Digital Assistants
  • a general-purpose processing device such as a personal computer.
  • the image processing unit 951, the transmission / reception units 965 and 968, the recording medium interface 979, the recording unit 984, and the like can each function as a video signal input unit, and digitized video data or RGB It is possible to receive video signals such as signals and composite video signals.
  • a video signal can be input to the video structuring apparatus 950 from an external device by providing the transmission / reception unit 968 with the function of a television vision tuner.
  • the display device 172 such as a liquid crystal display device or CRT (cathode ray tube) displays various information such as a character string image, a recognition character ⁇ U, an image, a character, and an index list display, and uses these information. It is used to notify the person.
  • An audio output device 956 such as a speaker is used to convey information that a character string is present in the video to the user based on the audio signal output from the sound generation processing unit 957.
  • the information processing unit 980 has a function of generating a frame image of the video and frame identification information for identifying the frame image from the input video signal, and whether or not a character string is present in the generated frame image. If it is determined that a character string exists in the frame image, character string position information such as the coordinate value of the character string existing in the character string existing frame image in which the character string exists is obtained. And a function of generating a character string image by cutting out a range where the character string exists from the character string existence frame image based on the character string position information.
  • the start instruction of the video structuring process is input from the user
  • the video signal is output from the video output device 20
  • the video structure set for the calendar clock 980 of the video structure display device 950 The processing performed by the information processing unit 980 of the video structuring apparatus 950 is “video structuring processing” when the start time of the structuring processing has elapsed or when the start of other video structuring processing is instructed. (Box S1200)
  • the information processing unit 980 performs a process of waiting for a video signal to be transmitted from the video output device 20 or the imaging device 14.
  • the imaging device 14 or the like when the video output device 20, the imaging device 14 or the like outputs a video signal in RGB, YC, MPEG or other formats, the image of the video structuring device 950 is displayed.
  • the input unit 951, the transmission / reception unit 965, or the transmission / reception unit 968 receives these video signals by “video input processing” (box S 1210) and transmits the digitized time-series video data via the bus 999 to the information processing unit 980.
  • an RGB or YC video signal is input from the video output device 20 or the imaging device 14
  • an RGB video signal, a YC composite video signal, or the like is input to the image processing unit 951.
  • the image processing unit 951 attaches frame identification information for identifying the frame image when reproducing each frame image of the video data, and converts the digitized time-series video data into the information processing unit 980, the compression / decompression unit 953, Output to memory 981 etc. via bus 999.
  • the audio signal is input to the audio processing unit 955, and the audio processing unit 955 transmits the digitized audio data via the bus 999.
  • the audio processing unit 955 transmits the digitized audio data via the bus 999.
  • the information processing unit 980 adds video identification information for identifying the entire video to the time-series image data output from the image processing unit 951, and compresses / decompresses the time-series image data. 953 performs compression processing (encoding processing) based on MPEG standards. In this state, the information processing unit 980 reproduces the video identification information for identifying the entire video, the digital time-series video data, and each frame image of the video data.
  • the frame identification information for identifying the frame image is associated and managed.
  • As the video identification information for identifying the entire video for example, a file name or a program title in which the video is recorded is used.
  • the image processing unit 951 receives the input video data as an information processing unit 980, a compression / decompression unit 953, a memory 981, etc. Output via bus 999.
  • the transmission / reception unit 965 or the transmission / reception unit 968 sends the input video data to the information processing unit 980, the compression / decompression unit via the bus 999. Output to 953, memory 981, etc.
  • the information processing unit 980 transfers the acquired video data, such as MPEG, to the compression / decompression unit 953 and performs decompression processing (decoding processing) to obtain time-series image data.
  • the information processing unit 980 manages video identification information, time-series video data, and frame identification information for identifying a frame image when reproducing each frame image of the video data in association with each other.
  • information such as information regarding the photographing time, frame image number, or counter information may be used as frame identification information for identifying individual frame images.
  • time information such as time information PTS (Presentation ime stamp), DTS (Decoding Time Stamp), ⁇ time information SCR (System Clock Reference) for synchronous reproduction may be used.
  • the information processing unit 980 receives video identification information, a first frame image, and the like from the memory 981 or the compression / decompression unit 953 via the bus 999.
  • Frame identification information for identifying the individual frame image is received, and it is determined whether or not a character string exists in the frame image. If it is determined that a character string exists in the frame image, the information processing unit 980 identifies the video identification information, the character string existence frame image, and a frame that identifies a specific frame image in which the character string exists.
  • the identification information and the character string position information such as the coordinate value of the character string existing in the frame image are recorded in the memory 981 or the recording unit 984 as the first index information.
  • the character string existing frame image may be a thumbnail image reduced as necessary.
  • a specific frame image with a character string has the same character string in multiple frame images In this case, the first frame image in the plurality of frame images is preferable. If it is determined that there is no character string in the frame image, the frame identification information and the character string position information are not recorded.
  • the information processing unit 980 sequentially determines whether or not a character string exists in the frame image for each of the second and subsequent frame images, and if a character string exists in the frame image. If it is determined, the frame identification information that identifies the character string existing frame image in which the character string exists and the character string position information such as the coordinate value of the character string existing in the frame image are recorded.
  • FIG. 9 shows an example of specific processing in the character string extraction processing (box S1212).
  • step S1260 the character string extraction process starts, and in step S1262, the information processing unit 980 identifies the video identification information, the nth frame image (Fn), and the frame identification that identifies the frame image (Fn). Information is received and stored temporarily in the memory 981 or the recording unit 984. In step S1264, the information processing unit 980 determines whether or not there is a frame image from which a character string is to be extracted.
  • step S1266 If the process of extracting the character strings for all the image data has already been completed and there is no new frame image, the character string extraction process ends in step S1266, and the information processing unit 980 Returning to the processing routine shown in Fig. 8, the next character string extraction processing is executed.
  • step S1268 Fn / Fc is used to thin out the frame image for extracting the character string for each Fc. Calculate to determine whether the result is an integer.
  • Fc is a natural number constant. If it is determined that the value of FnZFc is not an integer, the information processing unit 980 returns to step S1262 and receives the frame image of the next number Fn + 1.
  • step S1268 when it is determined in step S1268 that the value of Fn / Fc is an integer, the information processing unit 980 executes differential image generation processing in step S1270.
  • the information processing unit 980 receives the frame input in step S1262.
  • the differential image is differentiated to generate a differential image, and the differential image is temporarily stored in the memory 981 or the recording unit 984.
  • the information processing section 980 executes differential image binarization processing in step S 1272.
  • the information processing unit 980 reads the sub image generated in S 1270 and the threshold value for binarization from the memory 981 or the recording unit 984, and outputs each pixel of the sub image.
  • the value is binarized using the threshold value, and the binarized image data is temporarily stored in the memory 981 or the recording unit 984.
  • information processing section 980 performs projection pattern generation processing in step S 1274.
  • the information processing unit 980 reads the binarized image data from the memory 981 or the recording unit 984, projects the binarized image in the horizontal direction and the vertical direction, respectively, and generates a histogram relating to pixels.
  • a projection pattern is obtained by generating.
  • the information processing unit 980 determines a continuous area having a value greater than or equal to a predetermined value in the projection pattern as a character string candidate area. At this time, if the size of the continuous region is less than the predetermined value, the candidate character string region may be excluded as noise.
  • the information processing unit 980 generates final character string position information by applying layout analysis processing to each character string candidate region.
  • the layout analysis processing is performed as follows: “Preliminary collection of IAPR workshop on Document analysis systemsj 406” Techniques such as “Document layout analysis by extended spl it detection method” can be used.
  • this layout analysis processing image regions other than characters are extracted, and regions are divided using these positions as boundaries to divide them into partial regions.
  • the position information of this character string is, for example, coordinate values such as Pal01 and PblOl shown in FIG.
  • step S1276 the information processing unit 980 performs character recognition processing on the character string candidate area acquired in step S1274. Thereafter, in step S 1278, information processing section 980 determines whether or not a character string exists in the character string candidate area from the result of the character recognition process. If it is determined that the string does not exist, information The processing unit 980 returns to step S1262 and receives the frame image of the next number Fn + 1. On the other hand, if it is determined that the character string exists, the information processing unit 980 determines in step S1280 that the character string recognized from the character string candidate area is the character string that existed when the character recognition process was performed last time. It is determined whether or not.
  • step S1280 If it is determined in step S1280 that the character string is not different from the previous character string, that is, if it is determined that the character string is the same, the information processing unit 980 returns to step S1262, Receives the next frame image of Fn + 1. On the other hand, if it is determined that the previous character string is different from the character string recognized this time, the information processing unit 980 executes index information recording processing in step S 1284. In the index information recording process, the information processing unit 980 displays the video identification information input in step S1262, a frame image in which a character string exists, that is, a character string existing frame image, and a frame image in which the character string exists.
  • the frame identification information to be identified and the character string position information acquired in step S 1274 are temporarily recorded in the memory 981 or the recording unit 984 as the associated index information.
  • a time-series frame image obtained by decoding the video identification information “ABC. MPG” at this time, a character string included in the frame image, frame identification information for identifying the frame image, and character string position information An example is shown in Figure 3.
  • the index information of the video file shown in FIG. 3 is information in the format shown in FIG. 4, for example.
  • the character string existence frame image in which the character string exists is reduced as necessary to reduce the recording capacity and to be easily displayed when the index list is displayed. It may be recorded.
  • the information processing section 980 executes “video information storage processing” (box S1216).
  • the information processing unit 980 includes video identification information temporarily stored in the memory 981 or the recording unit 984, a frame image in which a character string exists, frame identification information for identifying the frame image, The first index information associated with the character string position information is read and the first Accumulate as an index file.
  • An example of the first index file is shown in FIG.
  • the information processing unit 980 displays these video signals. Is encoded into a moving image file such as MPEG by the compression / decompression unit 953 and recorded in the recording unit 984 and the recording medium 977.
  • a moving image file such as MPEG
  • the information processing unit 980 From this, a video file for recording is generated and recorded in the recording unit 984 and the recording medium 977.
  • These moving image files have unique video identification information for identification, and record frame identification information for identifying individual frame images when they are decoded.
  • the information processing unit 980 executes “structure information presentation processing” (box S1218).
  • the information processing unit 980 reads the first index file recorded in the recording unit 984 or the recording medium 977 and performs the index list display as shown in FIG. Generate a display file for. Then, the frame image in which the character string described in the first index file exists is read out from the recording unit 984 or the recording medium 977, and developed in the memory 981. Then, based on the character string position information, the information processing unit 980 attaches the character string image generated by cutting out the character string candidate area where the character string exists from the frame image to the index list display. The information processing unit 980 outputs the display signal of the index list display thus generated to the display device 172 via the display interface 973. A display example of the index list display is shown in FIG. When the structure information presentation process ends, the information processing unit 980 executes a process of determining whether an end instruction is input, which is shown in step S1232.
  • step S1232 the information processing unit 980 determines whether or not the user inputs an instruction to end the video structuring process via the input device 170. If, for example, the user power S index list display end button is selected and an end instruction is input as shown in box S 1230, the information processing unit 980 determines that an end instruction has been input. , Step In step S1240, the image structuring process is terminated. On the other hand, if it is determined that no termination instruction has been input from the user, the information processing unit 980 returns to the video input process (button S1210). Thereby, the video structuring process is continuously executed.
  • the user browses the index list display shown in FIG. 6, and the user operates the input device 170 such as a mouse or a keyboard to select a desired character string display 126 or a character string image.
  • the information processing unit 980 reads the video file of the selected video identification information from the recording unit 984 or the like, decodes it, and specifies the frame specified by the corresponding frame identification information 124.
  • the video after the image is output to display device 172 for display.
  • the frame identification information is represented by the shooting time.
  • the character string extraction unit 312 identifies video identification information such as a file name and a program title in which video is recorded, a frame image, and individual frame images.
  • Frame identification information is input from the video input unit 310.
  • the character string extraction unit 312 determines that a character string exists in the input frame image, the character identification information, the character string existence frame image, and the specific frame in which the character string exists are included.
  • the frame identification information for identifying the image and the character string position information such as the coordinate value of the character string existing in the frame image are output to the video information storage unit 316 as index information.
  • the character string existence frame image is a thumbnail image reduced as necessary.
  • the structure information presentation unit 318 presents a character string image to the user.
  • the video playback unit 320 plays back the video after the playback point specified by the user.
  • the processing executed by the video input unit 310 and the character string extraction unit 312 in the video structuring device 300 of the third embodiment is the same as the video input unit 210 and the characters in the video structuring device 200 shown in FIG. Since the processing is the same as that executed by the column extraction unit 212, detailed description thereof is omitted here.
  • the video information storage unit 316 is a character string extraction unit 312.
  • the image identification information output by the user, the character string existing frame image in which the character string exists, the frame identification information for identifying the frame image, and the character string position information are associated with each other.
  • the index information of 1 is stored as the first index file.
  • the video information storage unit 316 stores the video identification information, the video data, and the frame identification information output from the video input unit 310 as video data.
  • the structure information presentation unit 318 reads the index file stored by the video information storage unit 316, generates index list display information, and outputs the index list display to the display device 172.
  • the display device 172 displays an index list as shown in FIG. 6 and notifies the user.
  • the structure information presenting unit 318 sets the playback start point.
  • Corresponding video identification information and frame identification information are selected and output to the video information storage unit 316.
  • the video information storage unit 316 acquires the video identification information and the frame identification information from the structure information presenting unit 318, the video information storage unit 316 reads the video data corresponding to the acquired video information and outputs it to the video reproduction unit 320 together with the frame identification information. .
  • the video information storage unit 316 displays the video file and the frame identification information. Output to.
  • the video playback unit 320 decodes the acquired video file, displays the frame image after the frame identification information, and presents the video after the playback point to the user.
  • the video information storage unit 316 outputs the time-series frame images after the frame identification information to the video playback unit 320. In this case, the video playback unit 320 displays the frame image after the frame identification information and presents the video after the playback point to the user.
  • FIG. 11 shows an image structuring apparatus according to the fourth embodiment of the present invention.
  • the character string extraction unit 412 includes video identification information such as a file name and program title in which video is recorded, a frame image, and a frame identification that identifies each frame image. Information is input from the video input unit 410.
  • the character string extraction unit 412 determines that a character string is present in the input frame image, the character string extraction frame image, the character string existence frame image, and the specific frame image in which the character string exists are included.
  • the frame identification information for identifying the character string and the character string position information such as the coordinate value of the character string existing in the frame image are output as index information to the video information storage unit 416, and the character string existing frame image and The frame identification information and the character string position information are also output to the character string recognition unit 414.
  • the character string existence frame image is a thumbnail image reduced as necessary.
  • the character string recognizing unit 414 cuts out the range specified by the character string position information from the character string existing frame image as image data, recognizes the character ⁇ IJ included in the cut out image data as a character string, that is, a character code.
  • the extracted character string is extracted and output to the video information storage unit 416.
  • the structure information presentation unit 418 presents a character string image or a recognized character string to the user.
  • the processing until the video input unit 410 in the video structuring apparatus 400 of the fourth embodiment and the process until the character string extraction unit 412 outputs index information to the video information storage unit 416 are as shown in FIG.
  • the character string extraction unit 412 determines that a character string exists in the frame image
  • the character string extraction unit 412 outputs the first index information to the video information storage unit 416, and the character string existence frame image and the frame.
  • the identification information and the character string position information are output to the character string recognition unit 414. If it is determined that there is no character string in the frame image, the character string extraction unit 412 sends the character string existence frame image, the frame identification information, and the character string recognition unit 414 to the character string recognition unit 414. Character string position information is not output.
  • the character string recognition unit 414 uses the image data of the character string existing within the range specified by the character string position information in the character string existence frame image and the dictionary data for character string recognition,
  • the character string is extracted as a recognized character ⁇ 1J (character code).
  • the character string recognition processing here, for example, a character segmentation method and apparatus described in JP-A-3-141484, or a high-speed recognition search system described in JP-A-2001-34709.
  • the recognition reliability of the result of character string recognition may be calculated.
  • the recognition reliability of the character string for example, the likelihood value in character recognition corresponding to each character in the character string image, the reciprocal of the average value of the distance values, or the like can be used.
  • the character string recognition unit 414 next obtains the obtained recognized character string, the frame identification information of the frame image in which the character string exists, the character string position information, the character string
  • the recognition reliability of the character string obtained as a result of the column recognition is output to the video information storage unit 416.
  • the video information storage unit 416 outputs video identification information, a character string existing frame image in which a character string exists, and frame identification information for identifying the frame image, which are output from the character string extraction unit 412 and the character string recognition unit 414.
  • the second index information in which the character string position information is associated with the recognized character string and the recognition reliability is stored as a second index file.
  • the video information storage unit 416 stores the video identification information, video data, and frame identification information output from the video input unit 410 as video data.
  • FIG. 12 shows an example of the second index file.
  • the recognition character string and the recognition reliability of the character string include frame identification information. Accumulated in association.
  • information on the photographing time is used as the frame identification information.
  • the structure information presentation unit 418 reads the second length file stored by the video information storage unit 416, generates index list display information, and outputs it to the display device 172.
  • the display device 172 displays the index list as shown in FIG. 13 and notifies the user.
  • Figure 13 shows an example of index list display.
  • the index list display includes a title 120 of the index list display, a video identification information display field 122 for identifying a video file, a shooting time for identifying a frame image in which a character string exists, and the like.
  • the user can select the desired character string display 126, recognized character string 138, playback point information such as the shooting time, etc. by operating the input device 170 such as a mouse or a keyboard. It has become.
  • the desired character string display 126 etc. and designates the playback point of the video
  • the video file of the selected video identification information is read out and the frame image specified by the corresponding frame identification information 124 It is also possible to display the video image on the display device 172.
  • the shooting time is used as playback point information.
  • the character string display 126 based on the index image uses a part of the character string existence frame image, only the character string obtained as a result of character recognition is displayed. Unlike the case, the character string display 126 does not match the content of the video, and the possibility of the occurrence of the phenomenon is reduced. Therefore, the user can list the contents of the video by browsing the index list display, and can easily cue the video.
  • the display method can be controlled between the display of the character string by the image and the display of the recognized character string according to the reliability of the character string recognition result, so that the user can trust the recognized character string.
  • the index can be selected, and it is possible to improve the work efficiency when the user searches the video.
  • FIG. 14 shows a video structuring apparatus according to the fifth embodiment of the present invention.
  • the character string extraction unit 512 includes the name of the file in which the video is recorded and the program.
  • Video identification information such as a gram title, a frame image, and frame identification information for identifying each frame image are input from the video input unit 510.
  • the character string position information such as the coordinate value of the character string existing therein is output as index information to the video information storage unit 516, and the character string existing frame image, the frame identification information, and the character string position information are output.
  • the data is output to the character string recognition unit 514.
  • the character string recognition unit 514 extracts the character string as a recognized character string (character code) from the image data of the character string existing within the range specified by the character string position information in the character string existence frame image,
  • the recognized character string, frame identification information, character string position information, and recognition reliability are output to the video information storage unit 516.
  • the structure information presentation unit 518 presents an image of a character string or a recognized character string to the user.
  • the structural information presenting unit 518 receives the user's information from the video information storage unit 516.
  • the video file of the video identification information is read based on the selection, and the video after the frame image specified by the corresponding frame identification information 124 is displayed on the display device 172.
  • the processing performed by the video input unit 510, the character string extraction unit 512, and the character string recognition unit 514 in the video structuring apparatus 500 of the fifth embodiment, and the processing that the video information storage unit 516 stores information Part of the processing until the structural information presenting unit 518 presents the structural information is the video input unit 410, the character string extracting unit 412, the character string recognizing unit 514, the video in the video structuring apparatus 400 shown in FIG. Since the processing is the same as that performed by the information storage unit 416 and the structure information presentation unit 418, detailed description thereof is omitted here.
  • the video information storage unit 516 includes the video identification information, the character string existing frame image, the frame identification information for identifying the frame image, and the characters output from the character string extraction unit 512 and the character string recognition unit 514. Second index information associating the column position information, the recognized character string, and the recognition reliability is stored as a second index file.
  • the video information storage unit 516 includes video identification information, video data, and frames output from the video input unit 510. The identification information is stored as video data.
  • the structure information presentation unit 518 reads the second length file stored by the video information storage unit 516, generates index list display information, and outputs the index list display to the display device 172.
  • the display device 172 displays an index list as shown in FIG. 13 and notifies the user.
  • the user operates the input device 170 such as a mouse or a keyboard to select a desired character string display 126, a recognized character string 138, playback point information such as a shooting time, and the like, and a video playback start point. Can be specified.
  • the structure information presenting unit 518 selects the video identification information and the frame identification information corresponding to the playback start point, and outputs them to the video information storage unit 516.
  • the video information storage unit 516 acquires the video identification information and the frame identification information from the structure information presentation unit 518, the video information storage unit 516 reads the video data corresponding to the acquired video information, and outputs the video data together with the frame identification information to the video reproduction unit 520.
  • the video information storage unit 516 displays the video file and the frame identification information as the video playback unit 520. Output to. In this case, the video playback unit 520 decodes the acquired video file, displays the frame image after the frame identification information, and presents the video after the playback point to the user.
  • the video playback unit 5 20 is configured to acquire and display time-series frame images
  • the video information storage unit 516 outputs the time-series frame images after the frame identification information to the video playback unit 520. To do. In this case, the video playback unit 520 displays the frame image after the frame identification information and presents the video after the playback point to the user.
  • the character string display 126 based on the index image uses a part of the character string existence frame image, only the character string obtained as a result of character recognition is displayed. Unlike the case, the character string display 126 does not match the content of the video, and the possibility of the occurrence of the phenomenon is reduced. Users can view the contents of the video by browsing the index list display, and can easily cue the video.
  • the display method can be controlled between the display of the character string by the image and the display of the recognized character string according to the reliability of the character string recognition result, the user can trust the recognized character string. Select index It is possible to improve the work efficiency when the user searches the video.
  • FIG. 15 shows a video structuring apparatus according to the sixth embodiment of the present invention.
  • the character string extraction unit 612 determines whether a character string exists in the input frame image. If the character string extraction unit 612 determines that a character string exists, the character string position such as the character string existence frame image and the coordinate value of the character string existing in the frame image is displayed. The information is output to the structure information presentation unit 618. Then, the structure information presentation unit 618 displays and uses information indicating that the frame image corresponding to the character string position information or the character string image is immediately displayed, or that the character string exists in the frame image. The person in charge.
  • the video input unit 610 can input digitized video data or video signals such as RGB signals and composite video signals, and output the video data for display to the structure information presenting unit 618. It can be configured.
  • the video input unit 610 also inputs digitized video data or video signals such as RGB signals and composite video signals, generates frame images from the input video signals, and outputs them to the character string extraction unit 612. To do.
  • the character string extraction unit 612 receives a frame image from the video input unit 610, and determines whether or not a character string exists in the frame image. Next, when the character string extraction unit 612 determines that a character string exists in the frame image, the character string existing frame image and the coordinates of the character string existing in the frame image are displayed. The character string position information such as a value is output to the structure information presentation unit 618.
  • the structure information presentation unit 618 normally generates a display video based on the video data input from the video input unit 610, outputs the video to the display device 172, and presents it to the user. .
  • the structure information presenting unit 618 receives from the character string extraction unit 612 a character such as the character string existing in the frame image, the character string existing frame image, and the coordinate value of the character string existing in the frame image.
  • a character such as the character string existing in the frame image, the character string existing frame image, and the coordinate value of the character string existing in the frame image.
  • the column position information is acquired, information indicating that the character string exists in the frame image is displayed and notified to the user. Notification that the character string exists in the frame image may be made by notifying the character string appearance information by voice, or displaying a new character string display in the index list display as shown in FIG. You may go and update the index list display.
  • the structure information presentation unit 618 includes a frame image. At the timing when it is determined that the character string exists, the activation switch of the display device 172 may be turned on to alert the user. If the structure information presenting unit 618 determines that a character string exists in the frame image, the structure information presenting unit 618 may send an e-mail notifying the presence of the character string to a predetermined mail address.
  • FIG. 16 shows a video structuring apparatus according to the seventh embodiment of the present invention.
  • the character string extraction unit 712 receives a frame image and frame identification information for identifying each frame image from the video input unit 710, and receives the input frame image. If it is determined that there is a character string, the character string existence frame image, the frame identification information, and the character string position information such as the coordinate value of the character string existing in the frame image are 3 is output to the structure information presenting unit 718 as index information, and a character string existing frame image, frame identification information, and character string position information are output to the character string recognition unit 714.
  • the character string recognition unit 714 extracts the character string as a recognized character string (character code) from the image data of the character string existing within the range specified by the character string position information in the character string existence frame image.
  • the recognized character string, frame identification information, character string position information, and recognition reliability are output to the structure information presenting unit 718.
  • the video structuring apparatus 700 includes a video input unit 710 that receives digitized video data or a video signal such as an RGB signal or a composite video signal as an input.
  • the frame identification information for identifying the frame image when reproducing each frame image of the video data can be output to the structure information presenting unit 718.
  • the video input unit 710 receives the digitized video data or video signal, generates a frame image or a time-series frame image from the input video signal, and outputs the frame image and the frame identification.
  • the information is output to the character string extraction unit 712.
  • the character string extraction unit 712 first receives the first frame image from the video input unit 710, and determines whether or not there is a character string in the frame image. Next, when it is determined that a character string exists in the frame image, the video identification information, the character string existing frame image, and the frame identification for identifying the specific frame image in which the character string exists are included. The information and the character string position information such as the coordinate value of the character string existing in the frame image are output to the structure information presenting unit 718 as the third index information. At the same time, the string The extraction unit 712 outputs the character string existence frame image, the frame identification information, and the character string position information to the character string recognition unit 714.
  • the character string existence frame image may be a thumbnail image reduced as necessary.
  • the specific frame image in which the character string exists is preferably the first frame image in such a plurality of frame images when the same character string exists in the plurality of frame images.
  • the character string extraction unit 712 does not output the character string existing frame image, the frame identification information, and the character string position information.
  • the character string extraction unit 212 determines whether or not a character string exists in the frame image of the second frame image, and determines that a character string exists in the frame image. Is a character string existing frame image in which the character string exists, frame identification information for identifying the character string existing frame image, character string position information such as a coordinate value of the character string existing in the frame image, and Is output. The character string extraction unit 212 sequentially repeats this process for the subsequent frame images.
  • the character string recognizing unit 714 uses the dictionary data for character string recognition from the image data of the character string existing within the range specified by the character string position information in the character string existing frame image.
  • the character ⁇ 1J included in the image data is extracted as a recognized character ⁇ 1J (character code).
  • a character string recognition process for example, a character segmentation method and apparatus described in Japanese Patent Laid-Open No. 3-141484 are disclosed.
  • a high-speed recognition / search system described in Japanese Patent Laid-Open No. 2001-34709 and a recognition search speed-up method.
  • the recognition reliability of the result of character string recognition may be calculated.
  • the recognition reliability of the character string for example, a likelihood value in character recognition corresponding to each character in the character string image, a reciprocal of an average value of distance values, or the like can be used.
  • the character string recognition unit 714 obtains the obtained recognized character string, the character string position information, the frame identification information of the frame image in which the character string exists, and the character string recognition result.
  • the structure information presentation unit 718 normally generates a display video based on the video data input from the video input unit 710, outputs the video to the display device 172, and presents it to the user.
  • the structure information presenting unit 718 receives from the character string extracting unit 712 and the character string recognizing unit 714 that the character string exists in the frame image, the character string existing frame image, and the character string existing in the frame image.
  • the third index information including the character string position information such as the coordinate value and the frame identification information is obtained, information indicating that the character string exists in the frame image is displayed and notified to the user.
  • the new character string display 126 or the recognized character string 138 is displayed in the index list display shown in FIG. 13, and the index list display is updated.
  • notification that a character string exists in the frame image may be performed by notifying the character string appearance information by voice.
  • the structure information presenting unit 718 may turn on the activation switch of the display device 172 to alert the user at the timing when it is determined that a character string exists in the frame image.
  • the user wants the user to use it in the notification and registers the desired character string in the recording unit or the like in advance.
  • the structure information presenting unit 718 reads the character string registered in the recording unit or the like in advance. Is displayed on the display device 1 72. Furthermore, according to the recognition reliability, the form of notification that the character string exists in the frame image for the user and the content of notification may be changed.
  • the user may be notified of the presence of the character string when a preset specific character string exists in the video.
  • the structural information presenting unit 718 acquires the recognized character string from the character string recognizing unit 712, it determines whether or not the acquired recognized character string is a character string included in a preset keyword group. to decide.
  • the acquired recognition character string is preset. If it is determined that the character string is included in the keyword, the information indicating that the character string exists in the video is displayed on the display device 172, or the sound is output from the sound output device in advance. The user is notified that the set character string has appeared.
  • the structure information presenting unit 718 may transmit an e-mail notifying the presence of the character string to a predetermined e-mail address.
  • the user may be notified of the recognized character string itself by embedding the recognized character string recognized and output by the character string recognition unit 714 in this e-mail.
  • embedding of the recognized character string may be executed according to the recognition reliability when the character string is recognized. For example, the recognition character string should be included in the email only when the recognition reliability is 50% or higher.
  • FIG. 17 shows a video structuring apparatus according to the eighth embodiment of the present invention.
  • This video structuring apparatus 800 has both the functions of the video structuring apparatus 400 shown in FIG. 11 and the functions of the video structuring apparatus 700 shown in FIG.
  • the structure information presentation unit 818 is configured to display an index list and notify the user of the presence of a character string.
  • the video input unit 810 of the video structuring apparatus 800 includes the functions of the video input unit 410 in the video structuring apparatus 400 shown in FIG. 11 and the video input unit in the video structuring apparatus 700 shown in FIG. It has 710 functions.
  • the character string extraction unit 812 of the video structuring apparatus 800 includes the function of the character string extraction unit 412 shown in FIG. 11 and the function of the character string extraction unit 712 shown in FIG.
  • the function of the character string recognition unit 414 and the function of the character string recognition unit 714 shown in FIG. 11 are provided.
  • the video information storage unit 816 of the video structuring apparatus 800 has the function of the video information storage unit 716 shown in FIG. 16, and the structural information presentation unit 818 is a function and diagram of the structural information presentation unit 418 shown in FIG. And the function of the structural information presentation unit 718 shown in FIG.
  • the structure information presenting unit 818 displays an index list as shown in Fig. 13 on the display device 172, and notifies the user.
  • the structure information presenting unit 818 displays the information indicating that the character string exists in the frame image and notifies the user.
  • Index list table The new character string display 126 or the recognized character string 138 is displayed in the display, and the index list display is updated.
  • notification that a character string exists in the frame image may be performed by notifying the character string appearance information by voice.
  • the structure information presenting unit 718 may turn on the activation switch of the display device 172 to alert the user at the timing when it is determined that a character string exists in the frame image.
  • the structure information presenting unit 818 reads out the pre-registered character string from the recording unit or the like and displays it. Display on device 172. Furthermore, according to the recognition reliability, the notification form that the character string exists in the frame image for the user and the notification content may be changed.
  • the structure information presenting unit 818 may transmit an e-mail notifying the presence of the character string to a predetermined mail address.
  • the character string recognition unit 814 recognizes and outputs the recognized character string in this e-mail.
  • the loading of the recognized character string may be executed according to the recognition reliability when the character string is recognized. For example, a recognition character string may be included in an email only when the recognition reliability is 50% or higher.
  • FIG. 18 shows a video structuring apparatus according to the ninth embodiment of the present invention.
  • This video structuring apparatus 900 has both the functions of the video structuring apparatus 500 shown in FIG. 14 and the functions of the video structuring apparatus 700 shown in FIG.
  • the video playback unit 920 is configured to display the video after the playback point selected by the user on the display device 172. It is made.
  • the video input unit 910 of the video structuring apparatus 900 includes the functions of the video input unit 510 of the video structuring apparatus 500 shown in FIG. 14 and the video input unit 710 of the video structuring apparatus 700 shown in FIG. With functionality.
  • the character string extraction unit 912 of the video structuring apparatus 900 includes the function of the character string extraction unit 512 shown in FIG. 14 and the function of the character string extraction unit 712 shown in FIG. 14 has the function of the character string recognition unit 514 shown in FIG. 14 and the function of the character string recognition unit 714 shown in FIG.
  • the video information storage unit 916 of the video structuring apparatus 900 has the function of the video information storage unit 716 shown in FIG. 16, and the structural information presentation unit 918 is the function of the structural information presentation unit 518 shown in FIG. And the function of the structural information presentation unit 718 shown in FIG.
  • the structure information presentation unit 918 displays the index list as shown in FIG. 13 on the display device 172, and notifies the user.
  • the structure information presentation unit 918 notifies the user by displaying the information that the character string exists in the frame image. Further, the new character string display 126 or the recognized character string 138 is displayed in the index list display to update the index list display.
  • Notification that a character string exists in the frame image may be made by notifying the character string appearance information by voice.
  • the structure information presenting unit 718 may turn on the activation switch of the display device 172 to alert the user at the timing when it is determined that the character string exists in the frame image.
  • the structure information presenting unit 918 reads the pre-registered character string from the recording unit or the like and displays it. Display on device 172. Furthermore, according to the recognition reliability, the notification form that the character string exists in the frame image for the user and the notification content may be changed.
  • the structure information presentation unit 818 determines that a character string exists in the frame image.
  • an e-mail notifying the existence of a character string may be sent to a predetermined e-mail address.
  • the recognized character string recognized and output by the character string recognizing unit 814 may be included in this e-mail.
  • loading the recognized character string may be executed according to the recognition reliability when the character string is recognized.
  • the user browses the index list display displayed on the display device 172 and operates the input device 170 such as a mouse or a keyboard to display a desired character string display 126 and recognized characters.
  • the playback start point of the video can be specified by selecting playback point information such as column 138 and the shooting time.
  • the structure information presentation unit 918 selects the video identification information and the frame identification information corresponding to the playback start point, and the video information storage unit 916 Output to.
  • the video information storage unit 916 When the video information storage unit 916 acquires the video identification information and the frame identification information from the structure information presentation unit 918, the video information storage unit 916 reads the video data corresponding to the acquired video information and outputs the video data together with the frame identification information to the video playback unit 920. .
  • the video playback unit 920 When the video playback unit 920 is configured to be able to decode a video file and acquire a time-series frame image, the video information storage unit 916 displays the video file and the frame identification information as a video playback unit. Output to 920. In this case, the video playback unit 920 decodes the acquired video file, displays the frame image after the frame identification information, and presents the video after the playback point to the user.
  • the video information storage unit 916 displays the time-series frame images after the frame identification information. Output to 920. In this case, the video playback unit 920 displays the frame image after the frame identification information and presents the video after the playback point to the user.
  • the structure information presenting unit 918 acquires the recognized character string from the character string recognizing unit 912, whether or not the acquired recognized character string is a character string included in the keyword group that is preset. Judgment.
  • the structural information presentation unit 918 determines that the acquired recognition character string is a character string included in a preset keyword. Displays a message indicating that a character string is present in the video on the display device 172 or outputs a sound from the voice output device to notify the user that a preset character string has appeared. Do it.
  • the character string display 126 based on the index image uses a part of the character string existing frame image, only the character string obtained as a result of character recognition is displayed. Unlike the above, the character string display 126 does not coincide with the content of the video, and the possibility of occurrence of the phenomenon is reduced. Users can view the contents of the video by browsing the index list display, and can easily cue the video. In addition, since the display method can be controlled according to the reliability of the character string recognition result, the user can select the index by trusting the recognized character string, and the user can search the video. Ability to improve work efficiency.
  • index list display in the present invention is not limited to the force index list display shown in FIG. 6 and FIG.
  • FIG. 19 shows another example of index list display.
  • the index list display shown in FIG. 6 and FIG. 13 based on the character string position information, the range where the character string exists is cut out from the character string existing frame image, and the character string display by the cut out image is displayed as the frame identification information. The image is displayed on the display device in association with each other.
  • the character string existing frame image 128 is reduced and displayed on the index list display.
  • FIG. 20 shows still another example of the index list display.
  • the character string display 126 by the image and the recognition character string 138 are displayed simultaneously, but in the case shown in FIG. 20, the character string display 126 by the image is displayed according to the recognition reliability.
  • the display with the recognition character string 139 is switched.
  • the threshold ⁇ 1 for judging whether or not to display a recognized character string is set to 50%
  • the threshold ⁇ 3 for judging whether or not to highlight a recognized character string is set to ⁇ 3.
  • the case where 80% is set and the threshold value ⁇ 2 for determining whether or not to display a character string by an image is set to 90% will be described.
  • the display method can be controlled between the character string display by the image and the display of the recognized character string in accordance with the recognition reliability of the result of the character string recognition.
  • the index can be selected by trusting the character string, and it is possible to improve the work efficiency when the user searches the video.
  • the video structuring apparatus according to the first and third to ninth embodiments of the present invention described above is for executing the above-described processes, similarly to the video structuring apparatus according to the second embodiment. It can also be realized by installing the program in a computer system. Therefore, the computer program for realizing the video structuring apparatus of the first to ninth embodiments is also included in the scope of the present invention.
  • the present invention by displaying an index list for video search based on the presence of a character string, it is possible to facilitate video search and video cueing by a user.
  • the present invention can be applied to systems such as video recorders, video cameras, and digital still cameras.
  • the present invention provides a mobile phone equipped with a camera, PHS (Personal Handyphone System), Non-Nanore Computer, PDA (Personal Data Assistance, Personal Digital Assistants), etc. Can do.

Abstract

 映像構造化装置は、フレーム画像中に文字列が存在するか否かを判断して文字列が存在すると判断した場合には、その文字列が存在した文字列存在フレーム画像の中に存在する文字列についての文字列位置情報を生成し、文字列位置情報と、文字列存在フレーム画像を識別するフレーム識別情報と、文字列存在フレーム画像とを出力する文字列抽出手段と、フレーム識別情報と文字列存在フレーム画像と文字列位置情報とをそれぞれ関連付けてインデックスファイルに蓄積する映像情報蓄積手段と、インデックスファイルに蓄積されている文字列存在フレーム画像と文字列位置情報とに基づいて、文字列が存在する範囲を切り出した画像による文字列表示をフレーム識別情報と関連付けて表示手段に表示させる構造情報呈示手段と、を有する。

Description

明 細 書
映像構造化装置及び方法
技術分野
[0001] 本発明は、映像のアーカイブ及び監視と、映像内容に関する構造情報の呈示方法 とに関し、特に、映像内の所定の箇所に効率的にアクセスするための映像構造化装 置及び方法に関する。
背景技術
[0002] 近年のデジタル映像技術の発展に伴って、多くの映像が動画ファイルとしてハード ディスク等の記憶装置に蓄積されている。動画ファイルは多くの時系列の画像を含ん でいるので、一般に、動画ファイルの中から所望の映像の内容を検索することは困難 となっている。
[0003] 映像内容に関する構造情報の呈示方式の一例として、特開 2004— 80587号公報 に開示されたテレビジョン信号記録再生装置が知られている。このテレビジョン信号 記録再生装置は、デジタル形式のテレビジョン信号であるデジタルビデオ信号を番 組ごとに書き込み、あるいは、書き込まれたデジタルビデオ信号を各番組ごとに読み 出す記録再生部と、デジタルビデオ信号の書き込み、及び、読み出し処理を実施す る制御部と、記録再生部から読み出されるデジタルビデオ信号の内、各番組の任意 時点の少なくとも 1フレームの画面から画面寸法が縮小されたサムネイル画像を生成 するサムネイル生成部と、サムネイル生成部で生成された各番組のサムネイル画像 力、らサムネイル一覧画面を合成して出力するサムネイル合成部と、を備えている。記 録再生部内には、サムネイル一覧画面を格納するサムネイル一覧領域が設けられて いる。制御部は、記録再生部に対して各番組のデジタルビデオ信号を書き込むたび に、サムネイル生成部によってサムネイル画像を生成し、生成した各番組のサムネィ ル画像からサムネイル合成部によってサムネイル一覧画面を合成し、この合成したサ ムネイル一覧画面をサムネイル一覧領域に格納する。このテレビジョン信号記録再生 装置では、各番組の最初の 1フレーム、又はタイマー等を利用して番組開始から 5分 後の画面などの任意時点の 1フレーム以上の画面をサムネイル画像としている。 [0004] し力 ながら、特開 2004— 80587号公報に開示されたテレビジョン信号記録再生 装置は、一定の時間間隔又はシーンチェンジのタイミングで複数のフレーム画像をサ ムネイルとして利用しているので、必ずしも画像コンテンツの内容を適切に表現したィ ンデッタスが映像ソースと関連付けて構造化されているとは限らないものである。した がって、このテレビジョン信号記録再生装置では、利用者が必要とする映像ファイル の特定部分力 Sインデックス上に現れない可能性が高いために、利用者が必要とする 画像へのアクセス効率が悪レ、とレ、う不具合を生じてレ、る。
[0005] 映像中のテロップ文字を認識する方法として、特開平 11一 167583号公報には、 まず映像を映像蓄積媒体とテロップ文字認識'検索端末に入力し、映像蓄積媒体側 では、映像と映像が蓄積された時点での ro情報を映像蓄積部に蓄積し、テロップ文 字認識'検索端末側では、テロップ文字表示フレームの検出、テロップ文字領域の抽 出、テロップ文字の認識の各処理を行い、テロップ文字認識結果とそのテロップ文字 の表示された時点での ro情報をインデックスファイルとしてインデックスファイル蓄積 部に蓄積する方法が開示されている。 ro情報としては、例えば時間情報が蓄積され 、テロップ文字の認識結果としては、例えば文字コードが出力される。利用者が、例 えば WWW (World wide web)ブラウザなどのインタフエ一スから、その所望とする 映像について、映像検索端末の映像検索情報入力記憶部から文字コードで入力す ると、入力された文字コードは、テロップ文字認識'検索端末のインデックスファイル 蓄積部に蓄積されているインデックスファイルの中から検索され、対応する ro情報を 持つ映像が映像蓄積部から引き出される。その結果、映像検索端末の映像表示部、 例えばコンピュータディスプレイには、検索された映像が表示されることとなっている。
[0006] し力、しながら、特開平 11— 167583号公報に基づくシステムでは、インデックスファ ィルに含まれるテロップ文字は、文字認識により得られたテキスト情報であるために、 誤認識を含む可能性が高いテキスト情報である。この誤認識による無意味なテキスト 情報がインデックス上に現れるために、利用者が所望のシーンを選択する際の検索 効率が上がらないとレ、う不具合を生じてレ、る。
[0007] 特開 2003— 345809号公報には、ニュース映像に対応するニュース音声を文字 列に書き起こす音声書き起こし装置と、ニュース映像において文字列が現れる文字 出現区間を検出するとともに、文字列を認識する文字認識装置と、文字認識装置で 検出された文字出現区間に対応する音声書き起こし結果中の単語間の類似度を求 め、この類似度を利用して、音声書き起こし結果から、文字認識装置で認識された文 字列と類似するパッセージを検索する検索装置と、文字認識装置の認識結果と検索 装置で検索されたパッセージに対応するニュース映像とを関連付けてデータベース に登録する登録装置とを備えたデータベース構築システムが開示されている。このデ ータベース構築システムでは、文字認識装置によって認識されたテロップや CGフリツ プ文字列中の全単語を用いてニュース音声の書き起こしに対してパッセージ検索を 行っている。このようなパッセージ検索を行うことにより、データベース構築システムで は、一つの単語のシソーラスの影響に引きづられて関係のない文を抽出してしまう危 険性が軽減され、データベースに関係のないニュース映像が登録される危険性を低 減できる。このデータベース構築システムでは、検索結果をパッセージ単位としてい るので結果の前後関係が理解しやすぐ前後関係が分力りやすい形でニュース映像 をデータベースに登録することが可能になる。
[0008] し力 ながら、特開 2003— 345809号公報のデータベース構築システムでは、音 声に含まれない文字情報はデータベースに登録されないので、利用者が所望のシ ーンを選択する際の検索の効率が上がらないとレ、う不具合を生じてレ、た。
[0009] 画像データを管理する情報管理装置として、特開 2003— 333265号公報には、外 部から画像データを受信して画像データの予め定められた部分からその画像データ の属性情報を抽出する属性抽出部と、画像データを受信した旨を示す通知情報を 通知すべき通知先を、予め属性情報に対応付けて格納する通知先格納部と、属性 抽出部が抽出した属性情報を用いて通知先を通知先格納部から抽出する通知先決 定部と、通知先決定部が抽出した通知先に通知情報を通知する出力部と、を備える 情報管理装置が開示されている。この情報管理装置によれば、外部から外部情報を 受信したときに、外部情報を受信した旨を示す情報を、その情報を通知すべき通知 先に出力することができる。ここで出力部は、内部情報 IDに基づいて内部情報格納 部から内部情報を抽出し、関連情報及び画像データとともにこの内部情報を、通知 先に基づいて閲覧情報データベースに格納している。また出力部は、画像データを 受信した旨を示す通知情報を、通知先決定部から受け取った通知先に基づいてュ 一ザ端末に送信することができるとともに、内部情報検索部から受け取った内部情報 IDを通知情報とともにユーザ端末に送ることが可能である。
[0010] し力、しながら、特開 2003— 333265号公報の情報管理装置では、画像コンテンツ の内容を適切に表現したインデックスが映像ソースと関連付けて構造ィ匕されていない ので、利用者が必要とする映像の特定の部分へのアクセスが効率的でないという不 具合を生じている。
[0011] 画像から文字を切り出す方法として、特開平 3— 141484号公報には、文字列に含 まれる文字数が既知であるときに、文字列を光学的に読み取り、その文字列画像から 1文字に相当する部分画面を切り出す、文字切り出し方法を開示している。この文字 切り出し方法では、文字列画像から 1次元系列特徴を抽出するとともに、文字数と 1 次元系列特徴に対応する、文字切り出し位置の特定が可能なモデル関数を定義す る。そしてこの方法では、 1次元系列特徴とそのモデル関数とを非線形にマッチング し、非線形マッチングにおける非線形対応関数からモデル関数の文字切り出し位置 に対応する文字列画像の文字切り出し位置を求め、求めた文字切り出し位置から 1 文字に相当する部分画像を切り出している。この文字切り出し方法によれば、文字列 に含まれる文字数が与えられたときに、文字幅や文字間隔の変動が比較的大きい文 字列画像や、文字と文字が接触している文字列画像から 1文字ずつを切り出すこと ができ、し力もパラメータの数が比較的少なく単純な方法で切り出しを行うことが可能 になる。
[0012] し力 ながら、特開平 3— 141484号公報の文字切り出し装置は、画像コンテンツ の内容を適切に表現したインデックスが映像ソースと関連付けて構造ィ匕されていない ので、利用者が必要とする映像の特定の部分へのアクセスが効率良く行うことができ ないという不具合を秘めている。
[0013] 高速認識検索システムとして、特開 2001— 34709号公報には、入力された文字 パターンから特徴ベクトルを生成し、予め生成された決定木の各ノードに記憶された 条件にしたがってその特徴ベクトルを識別し、その識別結果にしたがって子ノードを 順次選択し、この分類を終端ノードに到達するまで繰り返し行う高速認識検索システ ムが開示されている。この高速認識検索システムは、予め設定された正解カテゴリを 付与してあるパターンの集合から、認識辞書に記憶された複数次元の特徴ベクトル のテンプレートを生成する生成手段と、生成手段で作成されたテンプレートとテンプ レートの生成に寄与したパターンとを関連付けて記憶するテンプレート辞書記憶手段 と、現在着目しているテンプレート及びそのテンプレートそれぞれに対応するパター ンの集合と正解カテゴリの出現頻度とを部分集合に分類しかつ部分集合に属するテ ンプレートと部分集合への分離を行うためのしきい値とを出力する部分集合生成手 段と、部分集合生成手段が逐次生成するテンプレートの部分集合を該当する分離前 のテンプレートの部分集合に関連付けて記憶する階層辞書手段と、階層辞書記憶手 段に記憶された階層構造を上位階層力も順に入力して入力パターンを分類しかつ 分類された結果の子ノードを出力する決定木分類手段と、階層構造のリーフノードか らテンプレートを決定するために効果的な特徴量を読出してそれらの特徴量を用い て大分類を行うカテゴリ決定手段とを備えている。ここで部分集合生成手段は、決定 されたしきい値に跨って存在するカテゴリをしきい値の両側の部分集合に含めて決 定木を生成する。この高速認識検索システムによれば、決定木のリーフノードに属す るテンプレートの分布に応じて、以降のカテゴリを特定するための分類方法を最適化 し、決定木の生成を行う際に、部分集合の境界面に跨って存在するテンプレートを両 方のノードに含めて登録することによって、バックトラックを伴わずに安定な所要時間 で高速に検索を実行できる。
[0014] し力しながら、特開 2001— 34709号の高速認識検索システムは、画像コンテンツ の内容を適切に表現したインデックスが映像ソースと関連付けて構造ィヒされていない ので、利用者が必要とする映像の特定の部分へのアクセスが効率良く行うことができ ないという不具合を秘めている。
[0015] 以下、本明細書中で引用した特許文献を列挙する。いずれも日本国の特許公開公 報である。
特許文献 1 :特開 2004— 80587号公報
特許文献 2:特開平 11一 167583号公報
特許文献 3:特開 2003— 345809号公報 特許文献 4 :特開 2003— 333265号公報
特許文献 5:特開平 3— 141484号公報
特許文献 6:特開 2001— 34709号公報
発明の開示
発明が解決しょうとする課題
[0016] 結局、上述した従来技術には、利用者が必要とする画像へのアクセス効率が悪い、 利用者が所望のシーンを選択する際の検索効率が上がらない、利用者が必要とする 映像の特定の部分へのアクセスが効率的でない、などの問題点がある。
[0017] 本発明の目的は、画像コンテンツの内容を適切に表現した文字列表示を映像ソー スと関連付けて構造化し、利用者が必要とする映像の特定の部分へのアクセス効率 を向上させることが可能な映像構造化装置及び方法を提供することにある。
[0018] 本発明の別の目的は、映像の内容を解析し、得られる構造情報を文字列表示のィ ンデッタスリストとして呈示することで、 目的の映像に効率的にアクセスすることが可能 な映像構造化装置及び方法を提供することにある。
[0019] 本発明の別の目的は、映像の中に存在する文字列を文字認識した際の文字認識 結果に含まれる認識誤りの影響を低減したインデックスを呈示することが可能な、映 像構造化装置及び方法を提供することにある。
[0020] 本発明の別の目的は、映像の内容を表現した文字列表示又は認識文字列を映像 の頭出し用のインデックスとして利用者に対して表示することが可能な、映像構造化 装置及び方法を提供することにある。
[0021] 本発明の別の目的は、映像の内容を表現した文字列表示又は認識文字列を映像 の頭出し用のインデックスとして利用者に対して表示するとともに、利用者がその文 字列表示又は認識文字列を選択する旨の情報を入力することによって、その選択し た文字列表示又は認識文字列で特定されるフレーム画像以降の映像を頭出し再生 することが可能な、映像構造化装置及び方法を提供することにある。
[0022] 本発明の別の目的は、映像中の文字列を文字認識した時の認識信頼度の大きさ に応じて認識文字列の表示を優先させて利用者に対して表示することによって、映 像の内容をより適切に表現した文字列の表示を映像の頭出し用のインデックスとして 利用者が利用することが可能な、映像構造化装置及び方法を提供することにある。
[0023] 本発明の別の目的は、映像中の文字列を文字認識した時の認識信頼度の小ささ に応じて画像による文字列表示を優先させて利用者に対して表示することによって、 映像の内容をより適切に表現した文字列の表示を映像の頭出し用のインデックスとし て利用者が利用することが可能な、映像構造化装置及び方法を提供することにある
[0024] 本発明の別の目的は、映像が逐次入力されてくるような場合に、映像中に文字列 力出現したことを利用者が知ることが可能な映像構造ィ匕装置及び方法を提供するこ とにある。
[0025] 本発明の別の目的は、映像が逐次入力されてくるような場合に、映像中に予め設 定した文字列が出現したことを利用者が知ることが可能な映像構造化装置及び方法 を提供することにある。
課題を解決するための手段
[0026] 本発明の第 1の様相によれば、映像構造化装置は、映像信号を受け取って、映像 のフレーム画像と、フレーム画像を識別するフレーム識別情報とを出力する映像入力 手段と、映像入力手段からフレーム画像及びフレーム識別情報を受け取ってそのフ レーム画像中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が 存在すると判断した場合には、そのフレーム画像を文字列存在フレーム画像として文 字列存在フレーム画像の中に存在する文字列についての文字列位置情報を生成し 、文字列位置情報と、文字列存在フレーム画像を識別するフレーム識別情報と、文 字列存在フレーム画像とを出力する文字列抽出手段と、文字列抽出手段からフレー ム識別情報と文字列存在フレーム画像と文字列位置情報とを取得し、取得した情報 をそれぞれ関連付けてインデックスファイルに蓄積する映像情報蓄積手段と、映像情 報蓄積手段力、らインデックスファイルを読み出し、文字列位置情報に基づいて文字 列存在フレーム画像から文字列が存在する範囲を切り出し、切り出した画像による文 字列表示を、文字列存在フレーム画像を識別するフレーム識別情報と関連付けて表 示手段に表示させる構造情報呈示手段と、を有する。この映像構造化装置において 、文字列位置情報は、例えば、文字列の座標値などによって構成されている。 [0027] 本発明の第 2の様相によれば、映像構造化装置は、映像信号を受け取って、映像 のフレーム画像と、フレーム画像を識別するフレーム識別情報と、映像信号の映像デ 一タとを出力する映像入力手段と、映像入力手段からフレーム画像及びフレーム識 別情報を受け取ってそのフレーム画像中に文字列が存在するか否力 ^判断し、その フレーム画像中に文字列が存在すると判断した場合には、そのフレーム画像を文字 列存在フレーム画像として文字列存在フレーム画像の中に存在する文字列について の文字列位置情報を生成し、文字列位置情報と、文字列存在フレーム画像を識別 するフレーム識別情報と、文字列存在フレーム画像とを出力する文字列抽出手段と、 構造情報呈示手段と、文字列抽出手段からフレーム識別情報と文字列存在フレーム 画像と文字列位置情報とを取得して関連付けてインデックスファイルに蓄積し、映像 入力手段から映像データ及びフレーム識別情報とを取得して関連付けて蓄積し、構 造情報呈示手段からフレーム識別情報を取得したときには構造情報呈示手段から取 得したフレーム識別情報と関連付けられて記録されている映像データを読み出して、 構造情報呈示手段から取得したフレーム識別情報に対応するフレーム画像以降の 映像データを出力する映像情報蓄積手段と、映像情報蓄積手段が出力する映像デ ータを取得して表示手段に出力して表示させる映像再生手段と、を有する。ここで構 造情報呈示手段は、映像情報蓄積手段からインデックスファイルを読み出して、文字 列位置情報に基づいて文字列存在フレーム画像から文字列が存在する範囲を切り 出し、切り出した画像による文字列表示を表示手段に出力して表示させ、利用者から その文字列表示を選択する旨の情報が入力されると、選択した文字列表示と関連付 けられているフレーム識別情報を映像情報蓄積手段に出力する。
[0028] 本発明の第 3の様相によれば、映像構造化装置は、映像信号を受け取って、映像 のフレーム画像と、フレーム画像を識別するフレーム識別情報とを出力する映像入力 手段と、映像入力手段からフレーム画像及びフレーム識別情報を受け取ってそのフ レーム画像中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が 存在すると判断した場合には、そのフレーム画像を文字列存在フレーム画像として文 字列存在フレーム画像の中に存在する文字列についての文字列位置情報を生成し 、文字列位置情報と、文字列存在フレーム画像を識別するフレーム識別情報と、文 字列存在フレーム画像とを出力する文字列抽出手段と、文字列抽出手段からフレー ム識別情報と文字列存在フレーム画像と文字列位置情報とを取得し、文字列位置情 報に基づいて文字列存在フレーム画像から文字列が存在する範囲を切り出し、切り 出した画像に対して文字列認識処理を行って文字コードによる認識文字列を取得し て、その認識文字列とフレーム識別情報と文字列位置情報とを出力する文字列認識 手段と、文字列抽出手段からフレーム識別情報と文字列存在フレーム画像と文字列 位置情報とを取得し、文字列認識手段力、ら認識文字列とフレーム識別情報と文字列 位置情報とを取得し、これらの取得した画像及び情報を関連付けてインデックスファ ィルに蓄積する映像情報蓄積手段と、映像情報蓄積手段力 インデックスファイルを 読み出し、文字列位置情報に基づいて文字列存在フレーム画像から文字列が存在 する範囲を切り出し、切り出した画像による文字列表示と認識文字列とを、文字列存 在フレーム画像を識別するフレーム識別情報と関連付けて表示手段に表示させるこ とが可能な構造情報呈示手段と、を備える。
本発明の第 4の様相によれば、映像構造化装置は、映像信号を受け取って、映像 のフレーム画像と、フレーム画像を識別するフレーム識別情報と、映像信号の映像デ 一タとを出力する映像入力手段と、映像入力手段からフレーム画像及びフレーム識 別情報を受け取ってそのフレーム画像中に文字列が存在するか否かを判断し、その フレーム画像中に文字列が存在すると判断した場合には、そのフレーム画像を文字 列存在フレーム画像として文字列存在フレーム画像の中に存在する文字列について の文字列位置情報を生成し、文字列位置情報と、文字列存在フレーム画像を識別 するフレーム識別情報と、文字列存在フレーム画像とを出力する文字列抽出手段と、 文字列抽出手段からフレーム識別情報と文字列存在フレーム画像と文字列位置情 報とを取得し、文字列位置情報に基づいて文字列存在フレーム画像から文字列が 存在する範囲を切り出し、切り出した画像に対して文字列認識処理を行って文字コ ードによる認識文字列を取得して、その認識文字列とフレーム識別情報と文字列位 置情報とを出力する文字列認識手段と、構造情報呈示手段と、文字列抽出手段から フレーム識別情報と文字列存在フレーム画像と文字列位置情報とを取得し、文字列 認識手段から認識文字列とフレーム識別情報と文字列位置情報とを取得し、これら の取得した画像及び情報を関連付けてインデックスファイルに蓄積し、映像入力手 段から取得した映像データとフレーム識別情報とを関連付けて蓄積し、構造情報呈 示手段からフレーム識別情報を取得したときには構造情報呈示手段から取得したフ レーム識別情報と関連付けて記録されている映像データを読み出して、構造情報呈 示手段から取得したフレーム識別情報に対応するフレーム画像以降の映像データを 出力する映像情報蓄積手段と、映像情報蓄積手段が出力する映像データを取得し 、取得した映像データを表示手段に出力して表示させる映像再生手段と、を有する。 ここで構造情報呈示手段は、映像情報蓄積手段力、らインデックスファイルを読み出し て、文字列位置情報に基づレ、て文字列存在フレーム画像から文字列が存在する範 囲を切り出し、切り出した画像による文字列表示及び認識文字列を表示手段に出力 して表示させることが可能であり、利用者から表示された文字列表示又は認識文字 列を選択する旨の情報が入力されると、その選択された文字列表示又は認識文字列 と関連付けられているフレーム識別情報を映像情報蓄積手段に出力する。
本発明において文字列認識手段は、文字列の認識信頼度を算出して映像情報蓄 積手段にするものであってよい。認識信頼度としては、例えば、文字列画像中の個々 の文字に対応する文字認識における尤度値や、距離値の平均値の逆数などを用い ること力 Sできる。認識信頼度が算出される場合、映像情報蓄積手段は、文字列認識 手段から取得した認識信頼度を、文字列位置情報と関連付けてインデックスファイル に蓄積し、構造情報呈示手段は、認識信頼度と所定のしきい値と比較を行う。ここで 構造情報呈示手段は、文字列認識の認識信頼度が所定のしきい値より大きいと判断 した場合には、画像による文字列表示を表示させずに認識文字列を表示手段に出 力して表示させるようにしてもよい。あるいは構造情報呈示手段は、認識信頼度と所 定のしきい値と比較を行って文字列認識の信頼度が所定のしきい値より小さいと判 断した場合には、認識文字列の表示をさせずに画像による文字列表示を表示手段 に出力して表示させるようにしてもよい。このように認識信頼度の大きさに応じて、文 字列表示を優先させる力 認識文字列の表示を優先させるかを選択することにより、 利用者は、文字列表示と認識文字列のうち、映像の内容をより適切に表現したものを 映像の頭出し用のインデックスとして利用することが可能となる。 [0031] さらに本発明では、構造情報提示手段は、新たな文字列位置情報が存在すると判 断した場合に、映像中に文字列が存在する旨の情報を表示手段に表示させ、及び /又は音声出力手段から音声を出力させてもよい。このように構成することにより、利 用者は、映像が逐次入力されてくるような場合に映像中に文字列が出現したことを知 ること力 Sでき、さらには、映像の内容を適切に表現した文字列表示又は認識文字列を 映像の頭出し用のインデックスとして利用することができるようになる。
[0032] 本発明の第 5の様相によれば、映像構造化装置は、映像信号を受け取って、映像 のフレーム画像を出力する映像入力手段と、映像入力手段からフレーム画像を受け 取ってそのフレーム画像中に文字列が存在するか否かを判断し、そのフレーム画像 中に文字列が存在すると判断した場合には、文字列が存在する旨の情報を出力す る文字列抽出手段と、文字列抽出手段から文字列が存在する旨の情報を取得した 場合には、映像中に文字列が存在する旨の情報を表示手段に表示させ及び Z又は 音声出力手段から音声を出力させる構造情報呈示手段と、を有する。
[0033] 本発明の第 6の様相によれば、映像構造化装置は、映像信号を受け取って、映像 のフレーム画像を出力する映像入力手段と、映像入力手段からフレーム画像を受け 取ってそのフレーム画像中に文字列が存在するか否かを判断し、そのフレーム画像 中に文字列が存在すると判断した場合には、その文字列が存在した文字列存在フレ ーム画像の中に存在する文字列にっレ、ての文字列位置情報を生成し、文字列位置 情報を出力する文字列抽出手段と、文字列抽出手段から文字列位置情報を取得し た場合には、映像中に文字列が存在する旨の情報を表示手段に表示させ及び/又 は音声出力手段から音声を出力させる構造情報呈示手段と、を有する。
[0034] 本発明の第 7の様相によれば、映像構造化装置は、映像信号を受け取って、映像 のフレーム画像と、フレーム画像を識別するフレーム識別情報とを出力する映像入力 手段と、映像入力手段からフレーム画像を受け取ってそのフレーム画像中に文字列 が存在するか否力、を判断し、そのフレーム画像中に文字列が存在すると判断した場 合には、文字列が存在する文字列存在フレーム画像と、フレーム画像の中に存在す る文字列についての文字列位置情報とを出力する文字列抽出手段と、文字列抽出 手段から文字列存在フレーム画像と文字列位置情報とを取得し、文字列位置情報に 基づいて文字列存在フレーム画像から文字列が存在する範囲を切り出し、切り出し た画像に対して文字列認識処理を行って文字コードによる認識文字列を取得して、 その認識文字列と文字列位置情報とを出力する文字列認識手段と、文字列認識手 段から認識文字列を取得し、取得した認識文字列が予め設定されてレ、るキーワード 群に含まれる文字列であるか否力 ^判断し、取得した認識文字列が予め設定されて レ、るキーワードに含まれる文字列であると判断した場合には、映像中に文字列が存 在する旨の情報を表示手段に表示させ及び Z又は音声出力手段から音声を出力さ せる構造情報呈示手段と、を有する。このような構成を採用することにより、利用者は 、映像が逐次入力されてくるような場合に、予め設定した文字列が映像中に出現した ことを知ることが可能となる。
[0035] 本発明によれば、映像コンテンツの内容を適切に表現した文字列表示や認識文字 列等のインデックスと、映像データ(映像ソース)とを関連付けて呈示するようにしたの で、利用者が必要とする映像の特定の部分へのアクセスを効率良く行うことが可能と なる。多くの映像コンテンツの場合、映像の中に現れる文字情報は的確に映像の内 容を反映したものであることが期待され、文字情報の出現のタイミングで生成されたィ ンデッタスを映像データと関連付けておくことで、利用者は効率的に映像の必要部分 にアクセスできるようになる。なお、「ニュース速報」などの映像の内容とは関連しない 文字情報が映像中に含まれている場合であっても、利用者が文字列表示によるイン デッタスを見ることによって、その利用者は、「ニュース速報」の部分の映像を閲覧す るか否かを即時に判断することができる。
[0036] 本発明によれば、映像中に現れる文字情報を自動認識して文字コード化し、得ら れる認識文字列をインデックスとして利用する場合であっても、認識した文字列の認 識信頼度に基づいて画像による文字列表示と認識文字列の表示を切り換えることに より、映像の特定部分へのアクセスをより確実なものとすることができ、映像の検索を 効率良くして、利用者による選択操作の負担を軽減することが可能となる。
[0037] さらに本発明によれば、映像が逐次入力されてくるような場合であっても、映像中に 文字列が出現したことを利用者は知ることができるようになるとともに、映像中に新た な文字列が出現した旨の通知を受けた利用者は、それらの文字列表示又は認識文 字列を選択する旨の情報を入力することによって、その選択した文字列表示又は認 識文字列に対応するフレーム画像以降の映像を頭出し再生して閲覧することが可能 となる。
[0038] 本発明によれば、利用者は、映像の内容を適切に表現した文字列表示又は認識 文字列を映像の頭出し用のインデックスとして利用することが可能となり、さらには、 映像の内容を適切に表現した文字列表示又は認識文字列を選択することによって、 所望の映像の頭出しを行うことが可能となる。
図面の簡単な説明
[0039] [図 1]本発明に基づく映像構造化装置を含む映像構造化システムの構成例を示すブ ロック図である。
[図 2]本発明の第 1の実施形態の映像構造ィヒ装置を示すブロック図である。
[図 3]映像識別情報「ABC. MPGjの映像ファイルをデコードして得た時系列のフレ ーム画像を示す図である。
[図 4]図 3に示した映像フアイルに基づレ、て文字列抽出部が出力するインデックス情 報の一例を示す図である。
[図 5]図 4に示したインデックス情報を含む第 1のインデックスファイルの内容の一例を 示す図である。
[図 6]インデックスリスト表示の一例を示す図である。
[図 7]本発明の第 2の実施形態の映像構造化装置における信号処理系を示すブロッ ク図である。
[図 8]図 7に示す映像構造ィヒ装置における映像構造ィヒ処理を説明するフローチヤ一 トである。
[図 9]文字列抽出処理の一例を示すフローチャートである。
[図 10]本発明の第 3の実施形態の映像構造ィ匕装置を示すブロック図である。
[図 11]本発明の第 4の実施形態の映像構造ィ匕装置を示すブロック図である。
[図 12]第 2のインデックスファイルの内容の一例を示す図である。
[図 13]インデックスリスト表示の一例を示す図である。
[図 14]本発明の第 5の実施形態の映像構造ィ匕装置を示すブロック図である。 園 15]本発明の第 6の実施形態の映像構造ィ匕装置を示すブロック図である。 園 16]本発明の第 7の実施形態の映像構造ィ匕装置を示すブロック図である。 園 17]本発明の第 8の実施形態の映像構造ィ匕装置を示すブロック図である。 園 18]本発明の第 9の実施形態の映像構造ィ匕装置を示すブロック図である。
[図 19]インデックスリスト表示の他の例を示す図である。
[図 20]インデックスリスト表示の他の例を示す図である。
符号の説明
10 映像構造化システム
12, 14 撮像装置
16 映像データベース
18, 22 アンテナ
20 映像出力装置
24 基地局
30 通信網
100, 200, 300, 400, 500, 600, 700, 800, 900 映像構造ィ匕装置
101 , 102 フレーム画像
103 文字列
104, 105 撮影時刻
106 文字列
120 インデックスリスト表示の題名
122 映像識別情報表示欄
124 フレーム識別情報
126 文字列表示
128 文字列存在フレーム画像
138, 139 認識文字歹 IJ
170 入力装置
172 表示装置
210, 310, 410, 510, 610, 710, 810, 910 映像入力部 212, 312, 412, 512, 612, 712, 812, 912 文字歹啪出部
216, 316, 416, 516, 816, 916 映像情報蓄積部
218, 318, 418, 518, 618, 718, 818, 918 構造情報呈示部
320, 520, 920 映像再生部
414, 514, 714, 814, 914 文字歹認識部
951 画像処理部
953 圧縮伸張部
955 音声処理部
956 音声出力装置
957 発音処理部
965, 968 送受信部
971 入力インタフェース
973 表示インタフェース
977 記録媒体
978 記録媒体装着部
979 記録媒体インタフェース
980 情報処理部
981 メモリ
984 記録部
990 カレンダ時計
999 ノくス
発明を実施するための最良の形態
図 1は、本発明に基づく映像構造化装置を含む映像構造化システムの構成の一例 を示している。この映像構造化システムは、被写体像を受光面に結像させて光電変 換してその映像信号を出力する撮像装置 12と、撮像した映像信号を送信用の映像 データに変換して通信網 30に対して出力する映像出力装置 20と、本発明に基づく 映像構造化装置 100を備えている。映像構造化装置としては、後述する各実施形態 での映像構造ィ匕装置 200, 300, 400, 500, 600, 700, 800, 900を用レヽることも 可能である。
[0042] 映像出力装置 20は、撮像した映像信号を無線送信用の映像データに変換し、この 映像データをアンテナ 18を介して基地局 24や映像構造化装置 100に送信すること ができるように構成されている。また映像出力装置 20は、撮像した映像信号を記録 用の映像データに変換して映像データベース 16に記録することもできるように構成さ れている。さらに映像出力装置 20は、映像データベース 16に記録されている映像デ ータを読み出して、送信用の映像データに変換して通信網 30に対して出力すること ができるように構成されている。なお、映像データは、コンポジット映像信号等であつ てもよレ、。通信網 30として、ケーブルテレビ用のネットワークを用いてもよい。
[0043] またさらに、映像出力装置 20は、映像データベース 16に記録されている映像デー タを読み出して、無線送信用の映像データに変換し、この映像データをアンテナ 18 、 22を介して基地局 24や映像構造化装置 100に送信する機能も備えている。映像 出力装置 20は、基地局 24や映像構造ィ匕装置 100が無線又は有線の通信手段を用 レヽて送信した映像データをアンテナ 18等を用レ、て受信し、映像データベース 16に 記録する機能も備えている。
[0044] 基地局 24は、映像出力装置 20のアンテナ 18から出力された映像データをアンテ ナ 22を用いて受信し、有線で伝送される映像データに変換した後に通信網 30を介 して映像構造化装置 100に出力する機能を備えている。基地局 24は、さらに、映像 構造化装置 100が送信した映像データや映像のインデックス情報等の各種情報を 受信して、アンテナ 22を介して映像出力装置 20や、図示しない携帯電話、携帯端末 等の通信機器に送信する機能も備えている。
[0045] 映像構造化装置 100は、撮像装置 14あるいは映像出力装置 20が出力した映像信 号を後述する映像入力部又は映像信号入力部を介して受け取り、映像信号から時 系列のフレーム画像を抽出し、テロップなどの文字列部分を含んでいるフレーム画像 を特定するフレーム識別情報と、そのフレーム画像内に占める文字列部分の位置若 しくは範囲に関する文字列の位置を特定する文字列位置情報とを関連付けたインデ ックス情報を生成する機能を有する。ここでのフレーム識別情報は、例えば、時刻情 報、カウンタ情報、ページ情報を含んでいる。そして、映像構造化装置 100は、この 生成したインデックス情報を、通信網 30若しくは無線などの通信手段を介して、他の 通信機器に出力する。また、撮像装置 14は、マイクロホンなどを内蔵して音声信号を 出力ことが可能なものであってもよい。
[0046] また映像構造化装置 100は、生成したインデックス情報を映像構造化装置 100内 に設られている記録部や記録媒体に記録する機能を備えている。さらに、映像構造 化装置 100は、生成したインデックス情報に含まれるフレーム識別情報と文字列の位 置を特定する文字列位置情報とに基づいて、フレーム画像に含まれる文字列部分の 画像を抽出してインデックスリスト表示用の表示データを生成する機能も備えている。 文字列部分の画像には、文字列表示や文字列画像などが含まれる。この表示デー タは、映像構造ィ匕装置 100から表示装置 172に出力され、これによつて利用者に対 してインデックスリスト表示を行うことができる。
[0047] この映像構造化システムでは、利用者が、文字列表示又は文字列画像等を含むィ ンデッタスリスト表示を閲覧して、キーボードやマウス等の入力装置 170を介してその 利用者の所望の文字列表示又は文字列画像等を選択すると、その文字列表示等と 関連付けられているフレーム識別情報情報等に基づいてそのフレーム画像を含む画 像ファイルを読み出される。その結果、この映像構造化システムでは、そのフレーム の位置から再生を開始することができる。
[0048] 図 2は、上述したような構成を有する、本発明の第 1の実施形態の映像構造化装置 を示している。図 2に示す映像構造化装置 200は、デジタル化された映像データ、又 は映像信号を入力として、フレーム画像又は時系列のフレーム画像とその個々のフ レーム画像を識別するためのフレーム識別情報と映像識別情報とを出力する映像入 力部 210と、映像入力部 210からフレーム画像又は時系列のフレーム画像が入力さ れ、そのフレーム画像中に文字列が存在するか否かを判断して文字列が存在すると 判断した場合にはその文字列が存在する文字列存在フレーム画像のフレーム識別 情報とそのフレーム画像内における文字列の座標値等の文字列位置情報とを出力 する文字列抽出部 212と、文字列存在フレーム画像と文字列位置情報とフレーム識 別情報とを関連付けたインデックス情報を第 1のインデックスファイルとして蓄積すると ともに、映像データを蓄積する映像情報蓄積部 216と、蓄積された第 1のインデックス ファイルを読み出して、文字列が存在するフレーム画像、又は文字列位置情報に対 応した文字列画像を表示装置 172に対して出力する構造情報呈示部 218と、を備え ている。ここで映像信号には、 RGB信号やコンポジット映像信号等が含まれる。
[0049] この構成において、映像入力部 210は、デジタルィ匕された映像データ、又は RGB 信号やコンポジット映像信号等の映像信号を受け取ると、その映像全体を識別する 映像識別情報と、デジタルィヒした映像データと、映像データにおける各フレーム画像 を再生する際にフレーム画像を識別するためフレーム識別情報とを映像情報蓄積部 216に出力する機能を有する。さらに映像入力部 210は、これらの映像データや映 像信号を受け取ったときに、入力した映像信号からフレーム画像又は時系列のフレ ーム画像を生成するとともに、個々のフレーム画像を個別に識別するためのフレーム 識別情報を付して、その映像全体を識別する映像識別情報と、個々のフレーム画像 又は時系列のフレーム画像とを文字列抽出部 212に出力する機能も備えている。
[0050] 文字列抽出部 212は、映像入力部 210から、映像が記録されているファイル名や プログラムタイトル等の映像識別情報と、フレーム画像と、その第 2フレーム識別情報 とが入力され、入力されたフレーム画像中に文字列が存在するかどうかを判断し、入 力されたフレーム画像中に文字列が存在すると判断した場合には、その映像識別情 報と、文字列存在フレーム画像と、文字列が存在する特定のフレーム画像を識別す るためフレーム識別情報と、そのフレーム画像の中に存在する文字列にっレ、ての文 字列位置情報とをインデックス情報として映像情報蓄積部 216に対して出力する。文 字列存在フレーム画像とは、文字列が存在するものとして検出されたフレーム画像の ことであるが、ここでは、必要に応じて、そのようなフレーム画像を縮小したサムネイル 画像などであってもよい。文字列位置情報は、例えば、検出された文字列がフレーム 画像中においてどこに位置するかを示す座標値によって構成される。構造情報呈示 部 218は、このように取得されたインデックス情報に基づいて、画像による文字列表 示を利用者に呈示する。
[0051] 本実施形態においてフレーム識別情報は、いずれも個々のフレーム画像を識別す るためのものである。これらのフレーム識別情報として、撮影時刻に関する情報、フレ ーム画像番号、又はカウンタ情報等の情報を用いてもよい。また、時間情報として、 同期再生のための時間情報 PTS (Presentation Time Stamp)や DTS (Decodi ng Time Stamp)、基準時間情報 SCR (System Clock Reference)等の時間 情報を用いるようにしてもょレ、。
[0052] 文字列抽出部 212は、先ず、映像入力部 210から、映像識別情報と、第 1のフレー ム画像と、その個々のフレーム画像を識別するためのフレーム識別情報とを入力して 、そのフレーム画像中に文字列が存在するか否かを判断する。次に、そのフレーム 画像中に文字列が存在すると判断した場合には、その映像識別情報と、文字列存在 フレーム画像と、文字列が存在する特定のフレーム画像を識別するためのフレーム 識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情 報とを、第 1のインデックス情報として映像情報蓄積部 216に出力する。このとき、文 字列が存在する特定のフレーム画像は、同一の文字列が存在するフレーム画像が 複数ある場合には、これらの同一の文字列が存在するフレーム画像のうち、最初のフ レーム画像であることが好ましい。なお、フレーム画像中に文字列が存在しない場合 には、文字列抽出部 212は、フレーム識別情報及び文字列位置情報の出力を行わ ない。
[0053] そして、文字列抽出部 212は、 2番目のフレーム画像について、そのフレーム画像 中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が存在すると 判断した場合には、その文字列が存在した文字列存在フレーム画像を特定するフレ ーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位 置情報とを出力する。文字列抽出部 212は、以降の各フレーム画像に対し、順次、こ の処理を繰り返す。
[0054] ここで、文字列抽出部 212において文字列を抽出する処理の一例について説明す る。文字列抽出部 212は、まず、入力されたフレーム画像を微分して微分画像を生 成する。微分画像の各画素値を既定のしきい値で二値化し、得られる二値画像を水 平、垂直方向に射影して、画素に関するヒストグラムを生成することで射影パターンを 得る。
[0055] 次に、文字列抽出部 212は、射影パターンが既定値以上の値を持つ連続領域を、 文字列候補領域として定める。このとき、連続領域の大きさが既定値に満たなレ、もの は、ノイズとして文字領域候補から除外してもよい。そして、射影パターンに基づいて 定めた各文字列候補領域に対してレイアウト解析処理を適用することで、最終的な 文字列位置情報を生成することができる。
[0056] レイアウト解析処理の例として、例えば 1998年の「IAPR workshop on Docu ment analysis 3 3 61113」の予稿集406ぺージから415ぺージに記載の「00( 11111 ent layout analysis by extended split detection methodjなどの手法を 用いることができる。このレイアウト解析処理では、文字以外の画像領域を抽出し、そ れらの位置を境界として領域分割を行って部分領域に分割する。これを部分領域に 再帰的に適用することで、最終的に文字列の位置情報を、例えば画像中の座標値 等として、取得することができる。
[0057] なお、文字以外の多くのノイズが背景の映像から過抽出されてしまうことにより、文 字列候補領域にノイズが残ることが予想されるが、上記のレイアウト解析方法を用い ることによって、これらのノイズは、文字列以外の領域として再帰処理の途中で消去さ れる。したがって、ここで述べた方法によれば、文字列のみを抽出することができる。 文字列位置情報は、 1つの文字列を最小包囲する矩形を表わす情報としてもよいし 、複数の矩形を合わせた形状を表わす情報としてもよい。
[0058] 図 3は、例えば映像識別情報が「ABC. MPGjである映像ファイルをデコードして 得た時系列のフレーム画像と、そのフレーム画像に含まれる文字列を表した図である
[0059] 映像入力部 210が映像ファイル「ABC. MPG」をデコードすると、図に示すように、 1又は複数枚のフレーム画像が得られる。映像入力部 210に対して RGB信号又は Y C信号 (コンポジット信号)等の映像信号を入力した場合には、時系列のフレーム画 像を数値化することによって、やはり図 3に示すような 1又は複数枚のフレーム画像を 得ること力 Sできる。
[0060] 文字列抽出部 212は、映像入力部 210から、ファイル「ABC. MPG」の映像識別 情報と、個々のフレーム画像と、その個々のフレーム画像を識別するフレーム識別情 報とを受け取って、これらフレーム画像中に文字列が存在するか否力、を判断する。図 示した例では、映像識別情報として、映像ファイル名が使用されているが、電子番組 表(EPG)のプログラムタイトルなどを用いることもできる。フレーム識別情報としては、 図示した例では、撮影時刻情報が用いられている。以下、図 3に示すような一連のフ レーム画像が入力された場合を例にあげて、図 2に示した映像構造ィ匕装置 200での 処理を説明する。
[0061] この例では、撮影時刻 104 (1 : 23 : 14, 33)のフレーム画像 101に、「撮像中に含ま れる文字列」という文字列 103が存在するので、文字列抽出部 212は、映像全体を 識別する映像識別情報「ABC. MPG」と、必要に応じて縮小したフレーム画像 101 の映像データと、文字列が存在する文字列存在フレーム画像 101を識別するフレー ム識別情報と、そのフレーム画像の中に存在する文字列の座標 PalOl (120, 400) 及び Pbl01 (600, 450)力 なる文字列位置情報とを、インデックス情報として映像 情報蓄積部 216に出力する。文字列存在フレーム画像 101を識別するフレーム識別 情報としては、例えば、ファイル名「ABC_01231433. JPG」を用いることができる。
[0062] 図 3に示す例での文字列の座標系としては、フレーム画像の左上の画素を原点に した座標系が用いられている。ここでは、文字列を最小に包囲する矩形の左上の頂 点の座標値を Paと定義し、文字列を最小に包囲する矩形の右下の頂点の座標値を Pbと定義している。
[0063] 同様に、撮影時刻 105 (2 : 54 : 04' 67)のフレーム画像 102には、「文字列」という 文字列 106が存在するので、文字列抽出部 212は、映像全体を識別する映像識別 情報「ABC. MPG」と、必要に応じて縮小したフレーム画像 102の映像データと、文 字列存在フレーム画像 102を識別するフレーム識別情報と、そのフレーム画像の中 に存在する文字列の座標 Pal02 (20, 100)及び Pbl02 (120, 150)からなる文字 列位置情報とを、インデックス情報として映像情報蓄積部 216に出力する。ここでの フレーム識別情報としては、例えば、ファイル名「ABC— 02540467. JPG」が使用さ れる。
[0064] 図 4は、図 3に示した映像ファイルに基づいて文字列抽出部 212が出力するインデ ックス情報の一例を示している。図 4に示すように、文字列抽出部 212が出力するィ ンデッタス情報には、映像ファイルを識別する映像識別情報「ABC. MPG」と、文字 列が存在するフレーム画像を識別するフレーム識別情報と、そのフレーム画像の中 に存在する文字列の文字列位置情報とが含まれている。フレーム識別情報は、例え ばファイル名「ABC— 01231433. JPG」等であり、文字列位置情報は、例えば、座 標 Pal01 (120, 400)及び Pbl01 (600, 450)等である。
[0065] 映像情報蓄積部 216は、文字列抽出部 212が出力した映像識別情報と、文字列 が存在する文字列存在フレーム画像と、その文字列存在フレーム画像を識別するフ レーム識別情報と、その文字列位置情報とを関連付けた第 1のインデックス情報とを 、第 1のインデックスファイルとして蓄積する。また映像情報蓄積部 216は、映像入力 部 210が出力した映像識別情報、映像データ及びフレーム識別情報を映像データと して蓄積する。
[0066] 図 5は、図 4に示したインデックス情報を含む第 1のインデックスファイルの一例を示 す図である。
[0067] 図示するように、第 1のインデックスファイル(INDEX01. XML)には、図 4に示した 映像ファイル「ABC. MPG」の 1又は複数のインデックス情報とともに、他の映像ファ ィル (例えば「DEF. MPG」など)のインデックス情報もまとめて記載してある。なお、 1のインアツクスフアイノレとしては、 XML、extensiDle markup languageノ等に よるデータベース構造を有するものに限定されるものではなぐ HTML (hypertext markup language)等による表示用のファイル形式のものや、その他のファイル形 式のものを用いることができる。
[0068] 構造情報呈示部 218は、映像情報蓄積部 216が蓄積したインデックスファイルを読 み出してインデックスリスト表示情報を生成し、表示装置 172に出力する。表示装置 1 72は、図 6に示すようなインデックスリスト表示を行って利用者に通知する。図 6は、ィ ンデッタスリスト表示の一例を示してレ、る。
[0069] 図 6に示すようにインデックスリスト表示には、インデックスリスト表示の題名 120と、 映像ファイルを識別する映像識別情報表示欄 122と、文字列が存在する文字列存 在フレーム画像を識別するための、撮影時刻等のフレーム識別情報丄 24と、フレーム 識別情報とフレーム画像の映像データと文字列位置情報とを用いてフレーム画像か ら文字列が存在する範囲を切り出した画像による文字列表示 126とが表示されてい る。文字列表示 126は、利用者所望の順序で表示するようにしてもよいし、利用者所 望の位置に表示するようにしてもよい。また、利用者所望の時間間隔でインデックスリ ストの表示を行うようにしてもょレ、。
[0070] なお利用者は、マウス又はキーボード等の入力装置 170を操作することにより、所 望の文字列表示 126や、撮影時刻等の再生ポイント情報等を選択することが可能で ある。再生ポイント情報は、映像をどこから再生するかを示す情報であり、フレーム識 別情報で表わされるものである。もし利用者が所望の文字列表示 126等を選択して 映像の再生ポイントを指定した場合には、選択された映像識別情報の映像フアイノレ が読み出され、対応するフレーム識別情報 124で特定されるフレーム画像以降の映 像が表示装置 172に表示される。ここに示す例では、再生ポイント情報として撮影時 刻が用いられている。
[0071] 図 7は、本発明の第 2の実施形態の映像構造化装置における信号処理系の構成を 示している。図 7に示す映像構造化装置は、コンピュータシステムにインストールされ たプログラムがコンピュータシステムのハードウェア資源を制御することによって実現 されるものである。そして、この映像構造化装置では、映像が入力したときに、この入 力した映像のフレーム画像中に文字列が存在すると判断した場合には、その映像識 別情報と、必要に応じて縮小したサムネイル等の文字列存在フレーム画像と、文字 列が存在する特定の文字列存在フレーム画像を識別するフレーム識別情報と、その フレーム画像の中に存在する文字列の座標値等の文字列位置情報とをインデックス 情報として出力することが可能となっている。
[0072] 映像構造化装置 950は、被写体像を受光面に結像させて光電変換してその映像 信号を出力する撮像装置 14から映像信号が入力されるものである。映像構造化装 置 950は、入力映像信号を記録用の映像データに変換する画像処理部 951と、撮 像装置 14が集音した音声信号が入力されて記録用の音声データ又は映像データに 変換する音声処理部 955と、通信網 30に対して映像データ、音声データ、又はその 他の各種情報の入出力を行う送受信部 965と、無線の通信網に対して映像データ、 音声データ、又はその他の各種情報の送受信を行うアンテナ 20及び送受信部 968 とを備えている。
[0073] さらに映像構造ィヒ装置 950は、圧縮伸張部 953と、記録媒体装着部 978と、記録 媒体インタフェース 979と、入力インタフェース 971と、表示インタフェース 973と、情 幸艮処理咅 980と、メモリ 981と、記録咅 984と、カレンダ B寺計 990とを備えてレ、る。
[0074] 圧縮伸張部 953は、映像データ又は音声データに対し、 MPEG (motion pictur e expert group)に代表される手法で映像を圧縮制御したり、圧縮した映像を伸 張展開制御する。さらに圧縮伸張部 953は、映像データに対して、 JPEG (joint pic ture expert group)に代表される手法で画像を圧縮制御したり、圧縮した画像を 伸張展開制御する処理を行う。
[0075] 記録媒体装着部 978は、記録媒体 977を着脱可能に装着するものであり、記録媒 体インタフェース 979は、記録媒体 977に対して各種の情報を記録したり読み出した りするためのものである。記録媒体 977は、メモリーカード等の半導体や、 DVD、 CD 等に代表される光記録媒体、磁気記録媒体等の着脱可能な記録媒体である。
[0076] 入力インタフェース 971は、インデックスリスト表示の開始若しくは終了、映像フアイ ルの選択、文字列表示又は文字列画像の選択等の各種指示を入力するために用い られる、キーボード、マウス等の入力装置 170に対して情報の送受信を行う。また、表 示インタフェース 973は、画像や文字等の情報を表示する表示装置 172に表示用の 画像信号を出力する。
[0077] 情報処理部 980は、例えば CPUによって構成されるものであって、映像信号の入 力処理、映像信号からフレーム画像やフレーム識別情報を生成する処理、フレーム 画像中に文字列が存在するか否かの判断処理、文字列位置情報の生成処理、各種 情報の関連付け処理、フレーム画像の中から文字列が存在する範囲を切り出す処理
、その他映像構造化装置 950全体の制御を行う処理などを実行する。メモリ 981は、 プログラム実行時の作業領域として用いられる。記録部 984は、映像構造化装置 95 0が実行する処理プログラムや各種定数、ネットワーク上の通信機器と通信接続する 際のアドレス、ダイヤルアップ電話番号、属性情報、 URL (Uniform Resource L ocators)、ゲートウェイ情報、 DNS (Domain Name System)等の各種情報を記 録するハードディスク等によって構成されている。カレンダ時計は、時刻を刻むもので ある。
[0078] この映像構造化装置 950において、情報処理部 980とその周辺の回路とはバス 99 9で接続されており、相互に高速な情報の伝達を行うことが可能となっている。そして 情報処理部 980におレ、て動作する処理プログラムの指示に基づレ、て、情報処理部 9 80は、これらの周辺の回路を制御することができる。
[0079] なお、上記の映像構造化装置 950は、映像情報の構造化に関する処理能力を備 えた専用の装置であってもよい。あるいは映像構造化装置 950として、ビデオレコー ダ、ビデオカメラ、デジタルスチルカメラ、カメラを搭載した携帯電話機、 PHS (Perso nal Handyphone Systemノ、 PDA (Personal Data Assistance, Personal Digital Assistants :個人向け携帯型情報通信機器)、パーソナルコンピュータ等 の汎用的な処理装置を用いるようにしてもょレ、。
[0080] ここで、画像処理部 951、送受信部 965、 968、記録媒体インタフェース 979、記録 部 984等は、それぞれ映像信号入力部として機能し得るものであり、デジタル化され た映像データ、又は RGB信号やコンポジット映像信号等の映像信号を受け取ること が可能となっている。なお、送受信部 968に対してテレビビジョンチューナーの機能 を持たせることにより、外部の機器から映像信号を映像構造化装置 950に入力するこ とも可能である。
[0081] 液晶表示装置又は CRT (陰極線管)等の表示装置 172は、文字列画像や認識文 字歹 U、画像、文字、インデックスリスト表示等の各種情報を表示し、これらの情報を利 用者に通知するために用いられている。スピーカ等の音声出力装置 956は、発音処 理部 957が出力する音声信号に基づいて、映像中に文字列が存在する旨の情報を 音声によって利用者に伝えるために用いられる。
[0082] 情報処理部 980は、入力した映像信号から、映像のフレーム画像と、そのフレーム 画像を識別するフレーム識別情報とを生成する機能と、生成したフレーム画像中に 文字列が存在するか否かを判断し、そのフレーム画像中に文字列が存在すると判断 した場合には、その文字列が存在した文字列存在フレーム画像の中に存在する文 字列の座標値等の文字列位置情報を生成する機能と、文字列位置情報に基づいて 文字列存在フレーム画像から文字列が存在する範囲を切り出して文字列画像を生 成する機能と、を備えている。
[0083] 次に、図 7に示した映像構造ィ匕装置における処理について、図 8のフローチャート を用いて説明する。
[0084] 利用者から映像構造化処理の開始指示が入力された場合、映像出力装置 20から 映像信号が出力された場合、映像構造ィ匕装置 950のカレンダ時計 980に対して設 定した映像構造化処理の開始時刻が経過した場合、あるいは、その他映像構造ィ匕 処理の開始が指示された場合には、映像構造化装置 950の情報処理部 980が実施 する処理は、「映像構造化処理」(ボックス S1200)に移行する。そして、情報処理部 980は、映像出力装置 20や撮像装置 14から映像信号が送信されて来るのを待ち受 ける処理を行う。
[0085] 「映像出力処理」(ボックス S 1202)において、映像出力装置 20や撮像装置 14等が 、 RGB, YC、 MPEGあるいはその他のフォーマットによる映像信号を出力すると、映 像構造化装置 950の画像入力部 951、送受信部 965又は送受信部 968などは、「映 像入力処理」(ボックス S1210)によってこれらの映像信号を受け取り、デジタル化し た時系列の映像データをバス 999を介して情報処理部 980、圧縮伸張部 953、メモ リ 981などに出力する。
[0086] 映像出力装置 20や撮像装置 14などから RGB又は YC等の映像信号が入力した場 合には、画像処理部 951に、 RGBの映像信号や YCのコンポジット映像信号等が入 力する。画像処理部 951は、映像データの各フレーム画像を再生する際にフレーム 画像を識別するフレーム識別情報を付して、デジタルィ匕した時系列の映像データを 情報処理部 980、圧縮伸張部 953、メモリ 981等にバス 999を介して出力する。同様 に、映像出力装置 20や撮像装置 14が音声信号を出力した場合には、音声処理部 9 55にその音声信号が入力し、音声処理部 955は、バス 999を介し、デジタル化した 音声データを映像データと関連付けて情報処理部 980、圧縮伸張部 953、メモリ 98 1等に出力する。
[0087] 次に情報処理部 980は、画像処理部 951が出力した時系列の画像データに対し てその映像全体を識別する映像識別情報を付与し、時系列の画像データに対して 圧縮伸張部 953によって MPEG等の規格に基づいた圧縮処理(エンコード処理)を 行う。この状態で情報処理部 980は、映像全体を識別する映像識別情報と、デジタ ル化した時系列の映像データと、映像データの各フレーム画像を再生する際にフレ ーム画像を識別するフレーム識別情報とを関連付けて管理してレ、る。映像全体を識 別する映像識別情報としては、例えば、映像が記録されているファイル名やプロダラ ムタイトルなどが用いられる。
[0088] 一方、映像出力装置 20や撮像装置 14から MPEG等の映像信号が入力した場合 には、画像処理部 951は、入力した映像データを情報処理部 980、圧縮伸張部 953 、メモリ 981等にバス 999を介して出力する。また、映像出力装置 20から MPEG等で 符号化された映像データが入力した場合には、送受信部 965又は送受信部 968は 、入力した映像データをバス 999を介して情報処理部 980、圧縮伸張部 953、メモリ 981等に出力する。
[0089] 次に情報処理部 980は、取得した MPEG等による映像データを圧縮伸張部 953 に転送して伸張処理(デコード処理)を行なわせ、時系列の画像データを取得する。 この状態で情報処理部 980は、映像識別情報と、時系列の映像データと、映像デー タの各フレーム画像を再生する際にフレーム画像を識別するフレーム識別情報とを 関連付けて管理している。上記の場合と同様に、個々のフレーム画像を識別するフ レーム識別情報として、撮影時刻に関する情報、フレーム画像番号、又はカウンタ情 報等の情報を用いてもよい。また、時間情報として、同期再生のための時間情報 PT S (Presentation Ί ime stamp)や DTS (Decoding Time Stamp)、 φ時間 情報 SCR (System Clock Reference)等の時間情報を用いるようにしてもよい。
[0090] 次の「文字列抽出処理」(ボックス S 1212)において、情報処理部 980は、バス 999 を介し、メモリ 981又は圧縮伸張部 953から、映像識別情報と、第 1のフレーム画像と 、その個々のフレーム画像を識別するフレーム識別情報とを受け取り、そのフレーム 画像中に文字列が存在するか否かを判断する。ここでフレーム画像中に文字列が存 在すると判断した場合には、情報処理部 980は、その映像識別情報と、文字列存在 フレーム画像と、文字列が存在する特定のフレーム画像を識別するフレーム識別情 報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報とを第 1のインデックス情報として、メモリ 981又は記録部 984に記録する。ここで文字列存 在フレーム画像は、必要に応じて縮小したサムネイル画像などであってもよい。文字 列が存在する特定のフレーム画像は、複数のフレーム画像に同一の文字列が存在 する場合には、そのような複数のフレーム画像における最初のフレーム画像であるこ とが好ましい。なお、フレーム画像中に文字列が存在しないと判断した場合には、フ レーム識別情報及び文字列位置情報の記録は行われない。
[0091] そして、情報処理部 980は、 2番目以降の各フレーム画像について、順次、そのフ レーム画像中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が 存在すると判断した場合には、その文字列が存在する文字列存在フレーム画像を特 定するフレーム識別情報と、そのフレーム画像の中に存在する文字列の座標値等の 文字列位置情報とを記録する。
[0092] 図 9は、文字列抽出処理(ボックス S1212)における具体的な処理の一例を示して いる。
[0093] 情報処理部 980が実行する処理が図 8の「文字列抽出処理」(ボックス S1212)に 進むと、図 9に示す一連の処理が開始される。ます、ステップ S1260において文字列 抽出処理が開始し、情報処理部 980は、ステップ S1262において、映像識別情報と 、第 n番目のフレーム画像 (Fn)と、そのフレーム画像 (Fn)を識別するフレーム識別 情報とを受け取って、これらをメモリ 981又は記録部 984に一時的に格納する処理を 行う。そして、情報処理部 980は、ステップ S1264において、文字列を抽出する対象 となるフレーム画像が存在するか否力を判断する。もし、全ての画像データに対して 文字列を抽出する処理が既に終了していて、新たなフレーム画像が存在しない場合 には、ステップ S1266において文字列抽出処理が終了し、情報処理部 980は、図 8 に示す処理ルーチンに戻って、文字列抽出処理の次の処理を実行する。一方、情 報処理部 980は、文字列を抽出する新たなフレーム画像が存在すると判断した場合 には、ステップ S1268において、文字列を抽出するフレーム画像を Fcごとに間引くた めに Fn/Fcを計算して、その結果が整数であるか否かを判断する。ここで Fcは自然 数の定数であるとする。もし FnZFcの値が整数でないと判断した場合には、情報処 理部 980は、ステップ S1262に戻って、次の番号 Fn+ 1のフレーム画像を受け取る 。これに対しステップ S1268において Fn/Fcの値が整数であると判断した場合には 、情報処理部 980は、ステップ S1270において、微分画像生成処理を実行する。微 分画像生成処理では、情報処理部 980は、ステップ S1262において入力されたフレ ーム画像を微分して、微分画像を生成し、この微分画像をメモリ 981又は記録部 984 に一時的に格納する。
[0094] 次に、情報処理部 980は、ステップ S 1272において、微分画像二値化処理を実行 する。微分画像二値化処理では、情報処理部 980は、 S 1270において生成した微 分画像と二値化のためのしきい値とをメモリ 981又は記録部 984から読み出して、微 分画像の各画素値をそのしきい値を用いて二値化し、この二値化後の画像データを メモリ 981又は記録部 984に一時的に格納する。
[0095] 次に、情報処理部 980は、ステップ S 1274において、射影パターン生成処理を実 行する。射影パターン生成処理では、情報処理部 980は、二値化した画像データを メモリ 981又は記録部 984から読み出して、二値化後の画像を水平方向及び垂直方 向にそれぞれ射影し、画素に関するヒストグラムを生成することで、射影パターンを得 る。次に、情報処理部 980は、この射影パターンにおいて既定値以上の値を持つ連 続領域を文字列候補領域として定める。このとき、連続領域の大きさが既定値に満た ないものは、ノイズとして文字列領域候補力 除外してもよい。各文字列候補領域に 対して、レイアウト解析処理を適用することで、情報処理部 980は、最終的な文字列 位置情報を生成する。
[0096] 第 1の実施形態において説明した場合と同様に、レイアウト解析処理としては、 199 8年の「IAPR workshop on Document analysis systemsjの予根集 406へ ~~ン ら 415ページに己載の「Document layout analysis by extended spl it detection method」などの手法を用いることができる。このレイアウト解析処理 では、文字以外の画像領域を抽出し、それらの位置を境界として領域分割を行って 部分領域に分割する。これを部分領域に再帰的に適用することで、最終的に文字列 の位置情報を、例えば画像中の座標値等として、取得すること力 Sできる。この文字列 の位置情報は、例えば図 3に示した Pal01、 PblOl等の座標値である。
[0097] 次に、ステップ S1276におレ、て、情報処理部 980はステップ S 1274において取得 した文字列候補領域について、文字認識処理を実施する。その後、情報処理部 980 は、ステップ S 1278において、文字認識処理の結果から、文字列候補領域に文字列 が存在するか否力、を判断する。もし、文字列が存在しないと判断した場合には、情報 処理部 980は、ステップ S1262に戻って、次の番号 Fn+ 1のフレーム画像を受け取 る。一方、もし文字列が存在すると判断した場合には、情報処理部 980は、ステップ S 1280において、文字列候補領域から認識された文字列が、前回文字認識処理を行 つたときに存在した文字列と同一か否かを判断する。
[0098] ステップ S1280において前回の文字列と異なる文字列でないと判断した場合、す なわち同一の文字列であると判断した場合には、情報処理部 980は、ステップ S 126 2に戻って、次の番号 Fn+ 1のフレーム画像を受け取る。これに対し、前回の文字列 と今回認識した文字列とが異なると判断した場合には、情報処理部 980は、ステップ S 1284において、インデックス情報記録処理を実行する。インデックス情報記録処理 において情報処理部 980は、ステップ S1262において入力された映像識別情報と、 文字列が存在してレ、るフレーム画像すなわち文字列存在フレーム画像と、その文字 列が存在するフレーム画像を識別するフレーム識別情報と、ステップ S 1274におい て取得した文字列位置情報とを、それぞれ関連付けたインデックス情報としてメモリ 9 81又は記録部 984に一時的に記録する。このときの映像識別情報「ABC. MPG」を デコードして得られる時系列のフレーム画像と、そのフレーム画像に含まれる文字列 と、フレーム画像を識別するフレーム識別情報と、文字列位置情報との例は、図 3に 示されている。また、図 3に示した映像ファイルのインデックス情報は、例えば図 4に 示す形式の情報となる。インデックス情報記録処理が終了すると、情報処理部 980は 、ステップ S1262に戻って、次の番号 Fn+ 1のフレーム画像を受け取る処理を実行 する。
[0099] 上述した文字列抽出処理において、文字列が存在する文字列存在フレーム画像 は、記録容量を減少させるとともにインデックスリスト表示の際に表示しやすいように、 必要に応じて縮小したサムネイル画像として記録してもよい。
[0100] 図 8に戻って、文字列抽出処理(ボックス S1212)が終了すると、情報処理部 980 は「映像情報蓄積処理」(ボックス S1216)を実行する。映像情報蓄積処理では、情 報処理部 980は、メモリ 981又は記録部 984等に一時的に格納した映像識別情報と 、文字列が存在するフレーム画像と、そのフレーム画像を識別するフレーム識別情報 と、その文字列位置情報とを関連付けた第 1のインデックス情報を読み出して、第 1の インデックスファイルとして蓄積する。第 1のインデックスファイルの一例が図 5に示さ れている。
[0101] 前述の「映像出力処理」(ボックス S1202)において映像出力装置 20や撮像装置 1 4等が RGB、 YC等の映像信号を入力した場合には、情報処理部 980は、これらの 映像信号をデジタル化し、圧縮伸張部 953によって MPEG等の動画ファイルに符号 化し、記録部 984や記録媒体 977に記録する。また、「映像出力処理」(ボックス S12 02)において、映像出力装置 20や撮像装置 14等が、 MPEG等によって符号化され た映像信号を入力した場合には、情報処理部 980は、この映像信号から記録用の動 画ファイルを生成して、記録部 984や記録媒体 977に記録する。これらの動画フアイ ルには識別用の固有の映像識別情報が付されており、デコードした際に個々のフレ ーム画像を識別するためのフレーム識別情報が記録されている。映像情報の蓄積処 理が終了すると、情報処理部 980は、「構造情報呈示処理」(ボックス S1218)を実行 する。
[0102] 構造情報呈示処理では情報処理部 980は、記録部 984又は記録媒体 977等に記 録されている第 1のインデックスファイルを読み出して、図 6に示すようなインデックスリ スト表示を行うための表示ファイルを生成する。そして、第 1のインデックスファイルに 記載されている文字列が存在するフレーム画像を記録部 984又は記録媒体 977等 力 読み出してメモリ 981に展開する。そして情報処理部 980は、文字列位置情報に 基づいて、文字列が存在する文字列候補領域をフレーム画像から切り出して生成し た文字列画像をインデックスリスト表示に添付する。情報処理部 980は、このようにし て生成したインデックスリスト表示の表示信号を、表示インタフェース 973を介して表 示装置 172に出力する。インデックスリスト表示の表示例が図 6に示されている。構造 情報呈示処理が終了すると、情報処理部 980は、ステップ S1232に示す、終了指示 が入力したかを判定する処理を実行する。
[0103] ステップ S1232において情報処理部 980は、利用者が入力装置 170を介して映像 構造化処理の終了指示を入力したか否かの判断を行う。もし利用者力 Sインデックスリ スト表示終了ボタンを選択するなどして、ボックス S 1230で示すように終了指示入力 を行った場合には、情報処理部 980は、終了指示の入力がなされたと判断し、ステツ プ S1240において、映像構造化処理を終了させる。一方、利用者から終了指示の 入力がなされていないと判断した場合には、情報処理部 980は、映像入力処理(ボッ タス S1210)に戻る。これによつて、映像構造化処理が継続して実行される。
[0104] なお、図 6に示すインデックスリスト表示を利用者が閲覧し、利用者がマウス又はキ 一ボード等の入力装置 170を操作して所望の文字列表示 126あるいは文字列画像 等を選択して映像の再生ポイントを指定した場合には、情報処理部 980は、選択さ れた映像識別情報の映像ファイルを記録部 984等から読み出してデコードし、対応 するフレーム識別情報 124で特定されるフレーム画像以降の映像を表示装置 172に 出力して表示させる。図 6に示した例では、フレーム識別情報は、撮影時刻で表わさ れている。
[0105] 次に、本発明の第 3の実施形態の映像構造化装置について、図 10を参照して説 明する。図 10に示す映像構造化装置 300では、文字列抽出部 312には、映像が記 録されているファイル名やプログラムタイトル等の映像識別情報と、フレーム画像と、 その個々のフレーム画像を識別するフレーム識別情報とが、映像入力部 310から入 力される。そして、文字列抽出部 312は、この入力されたフレーム画像中に文字列が 存在すると判断した場合には、その映像識別情報と、文字列存在フレーム画像と、文 字列が存在する特定のフレーム画像を識別するフレーム識別情報と、そのフレーム 画像の中に存在する文字列の座標値等の文字列位置情報とをインデックス情報とし て映像情報蓄積部 316に出力する。文字列存在フレーム画像は、必要に応じて、縮 小されたサムネイル画像などとされる。構造情報呈示部 318は文字列の画像を利用 者に呈示する。利用者が、映像の再生ポイントを示す文字列表示 126等を指定した 場合には、映像再生部 320は、利用者から指定された再生ポイント以降の映像を再 生する。
[0106] 第 3の実施形態の映像構造化装置 300での映像入力部 310及び文字列抽出部 3 12が実行する処理は、図 2に示した映像構造化装置 200における映像入力部 210 及び文字列抽出部 212が実行する処理とそれぞれ同一であるので、ここでは詳細な 説明を省略する。
[0107] この映像構造化装置 300において、映像情報蓄積部 316は、文字列抽出部 312 が出力した映像識別情報と、文字列が存在する文字列存在フレーム画像と、そのフ レーム画像を識別するフレーム識別情報と、その文字列位置情報とを関連付けた第
1のインデックス情報を、第 1のインデックスファイルとして蓄積する。ここで映像情報 蓄積部 316は、映像入力部 310が出力した映像識別情報、映像データ、及びフレー ム識別情報を映像データとして蓄積する。
[0108] 構造情報呈示部 318は、映像情報蓄積部 316が蓄積したインデックスファイルを読 み出してインデックスリスト表示情報を生成し、インデックスリスト表示を表示装置 172 に出力する。表示装置 172は、図 6に示すようなインデックスリスト表示を行って利用 者に通知する。
[0109] 利用者が、マウスやキーボード等の入力装置 170を操作して所望の文字列表示 12 6又は撮影時刻等の再生開始ポイント情報を選択すると、構造情報呈示部 318は、 再生開始ポイントに対応する映像識別情報とフレーム識別情報とを選び出して、映 像情報蓄積部 316に出力する。映像情報蓄積部 316は、構造情報呈示部 318から 映像識別情報とフレーム識別情報とを取得すると、取得した映像情報に対応する映 像データを読み出して、フレーム識別情報とともに映像再生部 320に出力する。映像 再生部 320が、映像ファイルをデコードして時系列のフレーム画像を取得することが 可能な構成である場合には、映像情報蓄積部 316は、映像ファイルとフレーム識別 情報とを映像再生部 320に出力する。映像再生部 320は、取得した映像ファイルを デコードして、フレーム識別情報以降のフレーム画像を表示して、利用者に再生ボイ ント以降の映像を呈示する。映像再生部 320が、時系列のフレーム画像を取得して 表示する構成である場合には、映像情報蓄積部 316は、フレーム識別情報以降の 時系列のフレーム画像を映像再生部 320に出力する。この場合は、映像再生部 320 は、フレーム識別情報以降のフレーム画像を表示して、利用者に再生ポイント以降の 映像を呈示する。
[0110] 図 10に示す映像構造化装置 300では、インデックスとなる画像による文字列表示 1 26が文字列存在フレーム画像の一部を用いているために、文字認識を行った結果 の文字列のみを表示する場合と異なり、文字列表示 126が映像の内容と一致しない という現象が起きる可能性が小さくなる。したがって、利用者は、文字列表示 126が 表示されているインデックスリスト表示を閲覧することで映像の内容を一覧することが 可能となり、映像の頭出しを容易に行うことが可能となる。
[0111] 図 11は、本発明の第 4の実施形態の映像構造化装置を示している。この映像構造 化装置 400では、文字列抽出部 412には、映像が記録されているファイル名やプロ グラムタイトル等の映像識別情報と、フレーム画像と、その個々のフレーム画像を識 別するフレーム識別情報とが、映像入力部 410から入力される。そして、文字列抽出 部 412は、入力されたフレーム画像中に文字列が存在すると判断した場合には、そ の映像識別情報と、文字列存在フレーム画像と、文字列が存在する特定のフレーム 画像を識別するフレーム識別情報と、そのフレーム画像の中に存在する文字列の座 標値等の文字列位置情報とをインデックス情報として映像情報蓄積部 416に出力す るとともに、文字列存在フレーム画像と、フレーム識別情報と、文字列位置情報とを文 字列認識部 414にも出力する。文字列存在フレーム画像は、必要に応じて、縮小さ れたサムネイル画像などとされる。
[0112] 文字列認識部 414は、文字列存在フレーム画像から文字列位置情報で特定される 範囲を画像データとして切り出し、切り出された画像データに含まれる文字歹 IJを認識 文字列すなわち文字コードとして抽出して、その認識文字列を映像情報蓄積部 416 に出力する。構造情報呈示部 418は、文字列の画像又は認識文字列を利用者に呈 示する。
[0113] 第 4の実施形態の映像構造化装置 400での映像入力部 410の処理、及び文字列 抽出部 412が映像情報蓄積部 416に対してインデックス情報を出力するまでの処理 は、図 2に示した映像構造化装置 200における映像入力部 210での処理、及び文字 列抽出部 212での処理とそれぞれ同一であるので、ここでは詳細な説明を省略する
[0114] 文字列抽出部 412は、フレーム画像中に文字列が存在すると判断した場合には、 第 1のインデックス情報を映像情報蓄積部 416に出力するとともに、文字列存在フレ ーム画像とフレーム識別情報と文字列位置情報とを文字列認識部 414に出力する。 なお、フレーム画像中に文字列が存在しないと判断した場合には、文字列抽出部 41 2は、文字列認識部 414に対して文字列存在フレーム画像、フレーム識別情報及び 文字列位置情報は出力することはしない。
[0115] 文字列認識部 414では、文字列存在フレーム画像内で、文字列位置情報で特定さ れる範囲内に存在する文字列の画像データと、文字列認識用の辞書データとを用い て、文字列が認識文字歹 1J (文字コード)として抽出される。ここでの文字列認識処理と して、例えば特開平 3— 141484号公報に記載されている文字切り出し方法及びそ の装置、あるいは特開 2001— 34709号公報に記載されている高速認識検索システ ム及びそれに用いる認識検索高速化方法などを利用することが可能である。この文 字列認識処理において、文字列認識の結果の認識信頼度を算出するようにしてもよ レ、。文字列の認識信頼度としては、例えば、文字列画像中の個々の文字に対応する 文字認識における尤度値や、距離値の平均値の逆数などを用いることができる。
[0116] 文字列の認識処理が終了すると、次に文字列認識部 414は、得られた認識文字列 と、その文字列が存在するフレーム画像のフレーム識別情報と、文字列位置情報と、 文字列認識の結果得られた文字列の認識信頼度とを映像情報蓄積部 416に出力す る。映像情報蓄積部 416は、文字列抽出部 412及び文字列認識部 414が出力した 、映像識別情報と、文字列が存在する文字列存在フレーム画像と、そのフレーム画 像を識別するフレーム識別情報と、その文字列位置情報と、認識文字列、認識信頼 度とを関連付けた第 2のインデックス情報を、第 2のインデックスファイルとして蓄積す る。また映像情報蓄積部 416は、映像入力部 410が出力した映像識別情報、映像デ ータ、及びフレーム識別情報を映像データとして蓄積する。
[0117] 図 12は、第 2のインデックスファイルの一例を示している。第 2のインデックスフアイ ノレ(INDEX02. XML)には、図 5に示した第 1のインデックスファイルに記載した情 報に加えて、認識文字列とその文字列の認識信頼度とがフレーム識別情報と関連付 けて蓄積されている。ここでは、フレーム識別情報として、撮影時刻の情報が用いら れレヽる。
[0118] 構造情報呈示部 418は、映像情報蓄積部 416が蓄積した第 2のデッタスファイルを 読み出してインデックスリスト表示情報を生成し、表示装置 172に出力する。表示装 置 172は、図 13に示すようなインデックスリスト表示を行って利用者に通知する。図 1 3は、インデックスリスト表示の一例を示している。 [0119] 図 13に示すように、インデックスリスト表示には、インデックスリスト表示の題名 120と 、映像ファイルを識別する映像識別情報表示欄 122と、文字列が存在するフレーム 画像を識別する撮影時刻等のフレーム識別情報 124と、フレーム画像の映像データ と文字列位置情報とを用いてフレーム画像から文字列が存在する範囲を切り出した 画像による文字列表示 126と、認識文字列 138とが示されている。
[0120] なお利用者は、マウス又はキーボード等の入力装置 170を操作することにより、所 望の文字列表示 126や認識文字列 138、撮影時刻等の再生ポイント情報等を選択 することが可能となっている。利用者が所望の文字列表示 126等を選択して映像の 再生ポイントを指定した場合に、選択された映像識別情報の映像ファイルを読み出し て、対応するフレーム識別情報 124で特定されるフレーム画像以降の映像が表示装 置 172に表示されるようにすることも可能である。ここで示す例では、再生ポイント情 報として撮影時刻を利用している。
[0121] 認識文字列 138は、必ず表示するようにしてもよいが、認識信頼度が所定のしきい 値 Θ 1以下の場合、例えば認識信頼度がしきい値 Θ 1 = 50%以下の場合には、表 示されないようにしてもよい。また、認識信頼度が所定のしきい値 Θ 2以上の場合、例 えば、認識信頼度がしきい値 Θ 2 = 90%以上の場合には、認識文字列 138のみを 表示して、画像による文字列表示 126を表示しなレ、ようにしてもょレ、。
[0122] 本実施形態によれば、インデックスとなる画像による文字列表示 126が文字列存在 フレーム画像の一部を用いているために、文字認識を行った結果の文字列のみを表 示する場合と異なり、文字列表示 126が映像の内容と一致しなレ、とレ、う現象が起きる 可能性が小さくなる。したがって、利用者は、インデックスリスト表示を閲覧することで 映像の内容を一覧することが可能となり、映像の頭出しを容易に行うことができる。ま た、文字列認識の結果の信頼度に応じて、画像による文字列表示と認識文字列の表 示との間で表示方法を制御できるようにしたので、利用者は、認識文字列を信頼して インデックスを選択することができ、利用者が映像を検索する際の作業効率を改善す ること力 Sできる。
[0123] 図 14は、本発明の第 5の実施形態の映像構造化装置を示している。この映像構造 化装置 500では、文字列抽出部 512には、映像が記録されているファイル名やプロ グラムタイトル等の映像識別情報と、フレーム画像と、その個々のフレーム画像を識 別するフレーム識別情報とが、映像入力部 510から入力される。そして、文字列抽出 部 512は、入力されたフレーム画像中に文字列が存在すると判断した場合には、そ の映像識別情報と、文字列存在フレーム画像と、フレーム識別情報と、そのフレーム 画像の中に存在する文字列の座標値等の文字列位置情報とをインデックス情報とし て映像情報蓄積部 516に出力するとともに、文字列存在フレーム画像と、フレーム識 別情報と、文字列位置情報とを文字列認識部 514に出力する。文字列認識部 514 は、文字列存在フレーム画像内の文字列位置情報で特定される範囲内に存在する 文字列の画像データから、その文字列を認識文字列 (文字コード)として抽出して、 その認識文字列と、フレーム識別情報と、文字列位置情報と、認識信頼度とを映像 情報蓄積部 516に出力する。
[0124] 構造情報呈示部 518は、文字列の画像又は認識文字列を利用者に呈示する。そ して構造情報呈示部 518は、利用者が所望の文字列表示 126や認識文字列 138、 撮影時刻等の再生ポイント情報等を選択した場合には、映像情報蓄積部 516から利 用者の選択に基づいて映像識別情報の映像ファイルを読み出して、対応するフレー ム識別情報 124で特定されるフレーム画像以降の映像を表示装置 172に表示させる
[0125] 第 5の実施形態の映像構造化装置 500での映像入力部 510、文字列抽出部 512 及び文字列認識部 514が実施する処理と、映像情報蓄積部 516が情報を蓄積する 処理と、構造情報呈示部 518が構造情報を呈示するまでの一部の処理は、図 11に 示した映像構造化装置 400における、映像入力部 410、文字列抽出部 412、文字列 認識部 514、映像情報蓄積部 416及び構造情報呈示部 418が実施する処理と同一 であるので、ここでは詳細な説明を省略する。
[0126] 映像情報蓄積部 516は、文字列抽出部 512及び文字列認識部 514が出力した、 映像識別情報と、文字列存在フレーム画像と、そのフレーム画像を識別するフレーム 識別情報と、その文字列位置情報と、認識文字列と、認識信頼度とを関連付けた第 2のインデックス情報を、第 2のインデックスファイルとして蓄積する。また映像情報蓄 積部 516は、映像入力部 510が出力した映像識別情報、映像データ及びフレーム 識別情報を映像データとして蓄積する。
[0127] 構造情報呈示部 518は、映像情報蓄積部 516が蓄積した第 2のデッタスファイルを 読み出してインデックスリスト表示情報を生成し、インデックスリスト表示を表示装置 1 72に出力する。表示装置 172は、図 13に示すようなインデックスリスト表示を行って 利用者に通知する。
[0128] 利用者は、マウス又はキーボード等の入力装置 170を操作して、所望の文字列表 示 126や認識文字列 138、撮影時刻等の再生ポイント情報等を選択して映像の再 生開始ポイントを指定することができる。利用者が映像の再生開始ポイントを指定す ると、構造情報呈示部 518は、再生開始ポイントに対応する映像識別情報とフレーム 識別情報とを選び出して、映像情報蓄積部 516に出力する。映像情報蓄積部 516 は、映像識別情報とフレーム識別情報とを構造情報呈示部 518から取得すると、取 得した映像情報に対応する映像データを読み出して、フレーム識別情報とともに映 像再生部 520に出力する。映像再生部 520が、映像ファイルをデコードして時系列 のフレーム画像を取得することが可能な構成である場合には、映像情報蓄積部 516 は、映像ファイルとフレーム識別情報とを映像再生部 520に出力する。この場合には 映像再生部 520は、取得した映像ファイルをデコードして、フレーム識別情報以降の フレーム画像を表示し、利用者に再生ポイント以降の映像を呈示する。映像再生部 5 20が、時系列のフレーム画像を取得して表示する構成である場合には、映像情報蓄 積部 516は、フレーム識別情報以降の時系列のフレーム画像を映像再生部 520に 出力する。この場合、映像再生部 520は、フレーム識別情報以降のフレーム画像を 表示して、利用者に再生ポイント以降の映像を呈示する。
[0129] 本実施形態によれば、インデックスとなる画像による文字列表示 126が文字列存在 フレーム画像の一部を用いているために、文字認識を行った結果の文字列のみを表 示する場合と異なり、文字列表示 126が映像の内容と一致しなレ、とレ、う現象が起きる 可能性が小さくなる。利用者は、インデックスリスト表示を閲覧することで映像の内容 を一覧することができ、映像の頭出しを容易に行うことができる。また、文字列認識の 結果の信頼度に応じて、画像による文字列表示と認識文字列の表示との間で表示 方法を制御できるようにしたので、利用者は、認識文字列を信頼してインデックスを選 択することができ、利用者が映像を検索する際の作業効率を改善することができる。
[0130] 図 15は、本発明の第 6の実施形態の映像構造化装置を示している。この映像構造 化装置 600では、文字列抽出部 612は、映像入力部 610からフレーム画像が入力し たときに、この入力したフレーム画像中に文字列が存在するかどうかを判断する。そ して文字列抽出部 612は、文字列が存在すると判断した場合には、その旨と、文字 列存在フレーム画像と、そのフレーム画像の中に存在する文字列の座標値等の文字 列位置情報とを構造情報呈示部 618に出力する。すると構造情報呈示部 618は、文 字列位置情報に対応するフレーム画像若しくは文字列画像を即時に表示する力、、又 は、フレーム画像中に文字列が存在する旨の情報を表示して利用者に通知する。
[0131] 映像入力部 610は、デジタル化された映像データ、又は RGB信号やコンポジット映 像信号等の映像信号を入力して、表示用の映像データを構造情報呈示部 618に出 力することができる構成となっている。また映像入力部 610は、デジタル化された映 像データ、又は RGB信号やコンポジット映像信号等の映像信号を入力して、入力し た映像信号からフレーム画像を生成して文字列抽出部 612に出力する。
[0132] 文字列抽出部 612は、映像入力部 610からフレーム画像が入力されて、そのフレ ーム画像中に文字列が存在するか否かを判断する。そして次に、文字列抽出部 612 は、そのフレーム画像中に文字列が存在すると判断した場合には、その旨と、文字列 存在フレーム画像と、そのフレーム画像の中に存在する文字列の座標値等の文字列 位置情報とを構造情報呈示部 618に出力する。
[0133] 構造情報呈示部 618は、通常は、映像入力部 610から入力した映像データに基づ いて表示映像を生成して、その映像を表示装置 172に出力して利用者に呈示してい る。構造情報呈示部 618は、文字列抽出部 612から、フレーム画像中に文字列が存 在する旨と、文字列存在フレーム画像と、そのフレーム画像の中に存在する文字列 の座標値等の文字列位置情報とを取得すると、フレーム画像中に文字列が存在する 旨の情報を表示して利用者に通知する。フレーム画像中に文字列が存在する旨の 通知は、音声により文字列出現の情報を報知することによって行ってもよいし、図 6に 示したようなインデックスリスト表示内に新たな文字列表示を行って、インデックスリスト 表示を更新するようにしてもよい。また、構造情報呈示部 618は、フレーム画像中に 文字列が存在することを判断したタイミングで、表示装置 172の起動スィッチをオン にして利用者に注意を促してもよい。構造情報呈示部 618は、フレーム画像中に文 字列が存在することを判断した場合に、予め定めたメールアドレスに、文字列の存在 を通知する電子メールを送信してもよレヽ。
[0134] 図 16は、本発明の第 7の実施形態の映像構造化装置を示している。図 16に示す 製造構造化装置 700では、文字列抽出部 712は、映像入力部 710からフレーム画 像と、その個々のフレーム画像を識別するフレーム識別情報とを受け取って、この入 力したフレーム画像中に文字列が存在すると判断した場合には、その文字列存在フ レーム画像と、フレーム識別情報と、そのフレーム画像の中に存在する文字列の座 標値等の文字列位置情報とを第 3のインデックス情報として構造情報呈示部 718に 出力するとともに、文字列存在フレーム画像と、フレーム識別情報と、文字列位置情 報とを文字列認識部 714に出力する。文字列認識部 714は、文字列存在フレーム画 像内の文字列位置情報で特定される範囲内に存在する文字列の画像データから、 その文字列を認識文字列(文字コード)として抽出して、その認識文字列と、フレーム 識別情報と、文字列位置情報と、認識信頼度とを構造情報呈示部 718に出力する。
[0135] 第 7の実施形態の映像構造化装置 700は、映像入力部 710は、デジタル化された 映像データ、又は RGB信号やコンポジット映像信号等の映像信号を入力として、デ ジタル化した映像データと、映像データの各フレーム画像を再生する際にフレーム画 像を識別するフレーム識別情報とを構造情報呈示部 718に出力することができる。映 像入力部 710は、このようなデジタル化された映像データ又は映像信号を入力して、 入力した映像信号からフレーム画像又は時系列のフレーム画像を生成し、そのフレ ーム画像と、フレーム識別情報とを文字列抽出部 712に出力する。
[0136] 文字列抽出部 712は、まず、映像入力部 710から第 1のフレーム画像を受け取って 、そのフレーム画像中に文字列が存在するか否力、を判断する。そして次に、そのフレ ーム画像中に文字列が存在すると判断した場合には、その映像識別情報と、文字列 存在フレーム画像と、文字列が存在する特定のフレーム画像を識別するフレーム識 別情報と、そのフレーム画像の中に存在する文字列の座標値等の文字列位置情報 とを第 3のインデックス情報として構造情報呈示部 718に出力する。同時に、文字列 抽出部 712は、文字列存在フレーム画像とフレーム識別情報と文字列位置情報とを 文字列認識部 714に出力する。ここで文字列存在フレーム画像は、必要に応じて縮 小したサムネイル画像などであってもよレ、。文字列が存在する特定のフレーム画像は 、複数のフレーム画像に同一の文字列が存在する場合には、そのような複数のフレ ーム画像における最初のフレーム画像であることが好ましい。なお、フレーム画像中 に文字列が存在しない場合には、文字列抽出部 712は、文字列存在フレーム画像、 フレーム識別情報及び文字列位置情報を出力しない。
[0137] そして、文字列抽出部 212は、 2番目のフレーム画像について、そのフレーム画像 中に文字列が存在するか否かを判断し、そのフレーム画像中に文字列が存在すると 判断した場合には、その文字列が存在する文字列存在フレーム画像と、その文字列 存在フレーム画像を特定するフレーム識別情報と、そのフレーム画像の中に存在す る文字列の座標値等の文字列位置情報とを出力する。文字列抽出部 212は、以降 のフレーム画像について、順次、この処理を繰り返す。
[0138] 文字列認識部 714では、文字列認識用の辞書データとを用いて、文字列存在フレ ーム画像内の文字列位置情報で特定される範囲内に存在する文字列の画像データ から、その画像データに含まれる文字歹 1Jを認識文字歹 1J (文字コード)として抽出する。
[0139] この第 7の実施形態においても、上述した各実施形態の場合と同様に、文字列認 識処理として、例えば特開平 3— 141484号公報に記載されている文字切り出し方 法及びその装置、あるいは特開 2001— 34709号公報に記載されている高速認識 検索システム及びそれに用レ、る認識検索高速化方法などを利用することが可能であ る。この文字列認識処理においても、文字列認識の結果の認識信頼度を算出するよ うにしてもよい。文字列の認識信頼度としては、例えば、文字列画像中の個々の文字 に対応する文字認識における尤度値や、距離値の平均値の逆数などを用いることが できる。文字列の認識を終えると、文字列認識部 714は、得られた認識文字列と、文 字列位置情報と、その文字列が存在するフレーム画像のフレーム識別情報と、文字 列認識の結果得られる文字列の認識信頼度とを構造情報呈示部 718に出力する。
[0140] 構造情報呈示部 718は、通常は、映像入力部 710から入力した映像データに基づ いて表示映像を生成して、その映像を表示装置 172に出力して利用者に呈示してい る。構造情報呈示部 718は、文字列抽出部 712及び文字列認識部 714から、フレー ム画像中に文字列が存在する旨と、文字列存在フレーム画像と、そのフレーム画像 の中に存在する文字列の座標値等の文字列位置情報と、フレーム識別情報などとを 含む第 3のインデックス情報等を取得すると、フレーム画像中に文字列が存在する旨 の情報を表示して利用者に通知するとともに、図 13に示したインデックスリスト表示内 に新たな文字列表示 126又は認識文字列 138の表示を行って、インデックスリスト表 示を更新する。
[0141] 認識文字列 138は、必ず表示するようにしてもよいが、認識信頼度が所定のしきい 値 Θ 1以下の場合、例えば認識信頼度がしきレ、値 Θ 1 = 50%以下の場合には表示 されないようにしてもよい。また、認識信頼度が所定のしきい値 Θ 2以上の場合、例え ば、認識信頼度がしきい値 Θ 2 = 90%以上の場合には、認識文字列 138のみを表 示して、画像による文字列表示 126を表示しなレ、ようにしてもょレ、。
[0142] なお本実施形態では、フレーム画像中に文字列が存在する旨の通知は、文字列出 現の情報を音声で報知することによって行ってもよい。また構造情報提示部 718は、 フレーム画像中に文字列が存在することを判断したタイミングで、表示装置 172の起 動スィッチをオンにして利用者に注意を促すようにしてもよい。
[0143] 利用者に通知する情報として、予め利用者が設定した特定の文字歹 IJを利用者に対 して通知することも可能である。その場合には、利用者が通知において使用してもら レ、たい文字列を記録部等に予め登録しておく。構造情報呈示部 718は、フレーム画 像中に文字列が存在する旨の情報を文字列抽出部 712から取得した場合に、その 予め記録部等に登録しておいた文字列をその記録部等から読み出して、表示装置 1 72に表示する。さらに、認識信頼度に応じて、利用者に対するフレーム画像中に文 字列が存在することの通知の形態や、通知内容を変更するようにしてもよい。
[0144] 利用者への情報の通知の形態として、予め設定した特定の文字列が映像中に存 在する場合に、利用者に対して文字列の存在を通知するようにしてもよい。この場合 には、構造情報呈示部 718は、文字列認識部 712から認識文字列を取得すると、取 得した認識文字列が予め設定されているキーワード群に含まれる文字列であるか否 かを判断する。そして構造情報呈示部 718は、取得した認識文字列が予め設定され ているキーワードに含まれる文字列であると判断した場合には、映像中に文字列が 存在する旨の情報を表示装置 172に表示し、あるいは音声出力装置から音声を出 力することにより、予め設定した文字列が出現した旨の通知を利用者に対して行う。
[0145] さらに構造情報呈示部 718は、フレーム画像中に文字列が存在すると判断した場 合には、予め定めたメールアドレスに、文字列の存在を通知する電子メールを送信 するようにしてもよレ、。文字列認識部 714が認識して出力した認識文字列をこの電子 メールに、埋め込むことにより、利用者に認識文字列そのものを通知するようにしても よい。この場合、認識文字列の埋め込みは、文字列を認識した際の認識信頼度に応 じて実行するようにしてもよい。例えば、認識信頼度が 50%以上の場合にのみ認識 文字列を電子メールに坦め込めばよい。
[0146] 図 17は、本発明の第 8の実施形態の映像構造化装置を示している。この映像構造 化装置 800は、図 11に示した映像構造化装置 400の機能と、図 16に示した映像構 造化装置 700の機能とをともに備えるものである。ここで構造情報呈示部 818は、利 用者に対し、インデックスリスト表示を行うとともに、文字列存在の通知を行うことが可 能な構成となっている。
[0147] 映像構造化装置 800の映像入力部 810は、図 11に示した映像構造化装置 400に おける映像入力部 410の機能と図 16に示した映像構造ィ匕装置 700における映像入 力部 710の機能とを備えたものである。そして映像構造化装置 800の文字列抽出部 812は、図 11に示した文字列抽出部 412の機能と図 16に示した文字列抽出部 712 の機能とを備え、文字列認識部 814は、図 11に示した文字列認識部 414の機能と文 字列認識部 714の機能とを備えている。映像構造化装置 800の映像情報蓄積部 81 6は、図 16に示した映像情報蓄積部 716の機能を備え、構造情報呈示部 818は、図 11に示した構造情報呈示部 418の機能と図 16に示した構造情報呈示部 718の機 能とを備える。
[0148] 構造情報呈示部 818は、表示装置 172に対し、図 13に示すようなインデックスリスト 表示を行って、利用者に対する通知を行う。文字列抽出部 812からフレーム画像中 に文字列が存在する旨の情報を取得すると、構造情報呈示部 818は、フレーム画像 中に文字列が存在する旨の情報を表示して利用者に通知して、インデックスリスト表 示内に新たな文字列表示 126又は認識文字列 138の表示を行って、インデックスリ スト表示を更新する。
[0149] 認識文字列 138は、必ず表示するようにしてもよいが、認識信頼度が所定のしきい 値 Θ 1以下の場合、例えば認識信頼度がしきレ、値 Θ 1 = 50%以下の場合には表示 されないようにしてもよい。また、認識信頼度が所定のしきい値 Θ 2以上の場合、例え ば、認識信頼度がしきい値 Θ 2 = 90%以上の場合には、認識文字列 138のみを表 示して、画像による文字列表示 126を表示しなレ、ようにしてもょレ、。
[0150] なお本実施形態では、フレーム画像中に文字列が存在する旨の通知は、文字列出 現の情報を音声で報知することによって行ってもよい。また構造情報提示部 718は、 フレーム画像中に文字列が存在することを判断したタイミングで、表示装置 172の起 動スィッチをオンにして利用者に注意を促すようにしてもよい。
[0151] 利用者に通知する情報として、予め設定された特定の文字列を利用者に対して通 知することも可能である。その場合には、通知において使用したい文字列を記録部 等に予め登録しておく。構造情報呈示部 818は、フレーム画像中に文字列が存在す る旨の情報を文字列抽出部 812から取得した場合に、その予め登録しておいた文字 列を記録部等から読み出して、表示装置 172に表示する。さらに、認識信頼度に応 じて、利用者に対するフレーム画像中に文字列が存在することの通知の形態や、通 知内容を変更するようにしてもよい。
[0152] さらに構造情報呈示部 818は、フレーム画像中に文字列が存在すると判断した場 合には、予め定めたメールアドレスに、文字列の存在を通知する電子メールを送信 するようにしてもよレ、。文字列認識部 814が認識して出力した認識文字列をこの電子 メールに坦め込むようにしてもよレ、。この場合、認識文字列の坦め込みは、文字列を 認識した際の認識信頼度に応じて実行するようにしてもよい。例えば、認識信頼度が 50%以上の場合にのみ認識文字列を電子メールに坦め込めばよい。
[0153] 図 18は、本発明の第 9の実施形態の映像構造化装置を示している。この映像構造 化装置 900は、図 14に示した映像構造化装置 500の機能と、図 16に示した映像構 造化装置 700の機能とをともに備えるものである。ここで映像再生部 920は、利用者 が選択した再生ポイント以降の映像を表示装置 172に表示することができるように構 成されている。
[0154] 映像構造化装置 900の映像入力部 910は、図 14に示した映像構造化装置 500の 映像入力部 510の機能と図 16に示した映像構造ィ匕装置 700の映像入力部 710の 機能とを備えたものである。そして映像構造化装置 900の文字列抽出部 912は、図 1 4に示した文字列抽出部 512の機能と図 16に示した文字列抽出部 712の機能とを 備え、文字列認識部 914は、図 14に示した文字列認識部 514の機能と図 16に示し た文字列認識部 714の機能とを備えている。映像構造化装置 900の映像情報蓄積 部 916は、図 16に示した映像情報蓄積部 716の機能を備え、構造情報呈示部 918 は、図 14に示した構造情報呈示部 518の機能と図 16に示した構造情報呈示部 718 の機能とを備える。
[0155] 構造情報呈示部 918は、表示装置 172に対し、図 13に示すようなインデックスリスト 表示を行って、利用者に対する通知を行う。文字列抽出部 912からフレーム画像中 に文字列が存在する旨の情報を取得すると、構造情報呈示部 918は、フレーム画像 中に文字列が存在する旨の情報を表示することにより利用者に通知し、さらに、イン デッタスリスト表示内に新たな文字列表示 126又は認識文字列 138の表示を行って 、インデックスリスト表示を更新する。
[0156] フレーム画像中に文字列が存在する旨の通知は、文字列出現の情報を音声で報 知することによって行ってもよい。また構造情報提示部 718は、フレーム画像中に文 字列が存在することを判断したタイミングで、表示装置 172の起動スィッチをオンにし て利用者に注意を促すようにしてもよい。
[0157] 利用者に通知する情報として、予め設定された特定の文字列を利用者に対して通 知することも可能である。その場合には、通知において使用したい文字列を記録部 等に予め登録しておく。構造情報呈示部 918は、フレーム画像中に文字列が存在す る旨の情報を文字列抽出部 912から取得した場合に、その予め登録しておいた文字 列を記録部等から読み出して、表示装置 172に表示する。さらに、認識信頼度に応 じて、利用者に対するフレーム画像中に文字列が存在することの通知の形態や、通 知内容を変更するようにしてもよい。
[0158] さらに構造情報呈示部 818は、フレーム画像中に文字列が存在すると判断した場 合には、予め定めたメールアドレスに、文字列の存在を通知する電子メールを送信 するようにしてもよレ、。文字列認識部 814が認識して出力した認識文字列をこの電子 メールに坦め込むようにしてもよい。この場合、認識文字列の坦め込みは、文字列を 認識した際の認識信頼度に応じて実行するようにしてもょレ、。
[0159] この実施形態では、利用者は、表示装置 172に表示されているインデックスリスト表 示を閲覧し、マウス又はキーボード等の入力装置 170を操作して、所望の文字列表 示 126や認識文字列 138、撮影時刻等の再生ポイント情報等を選択して映像の再 生開始ポイントを指定することができる。利用者が入力装置 170を操作して映像の再 生開始ポイントを指定すると、構造情報呈示部 918は、再生開始ポイントに対応する 映像識別情報とフレーム識別情報とを選び出して、映像情報蓄積部 916に出力する 。映像情報蓄積部 916は、構造情報呈示部 918から映像識別情報とフレーム識別 情報とを取得すると、取得した映像情報に対応する映像データを読み出して、フレー ム識別情報とともに映像再生部 920に出力する。映像再生部 920が、映像ファイルを デコードして時系列のフレーム画像を取得することが可能な構成である場合には、映 像情報蓄積部 916は、映像ファイルとフレーム識別情報とを映像再生部 920に出力 する。この場合には映像再生部 920は、取得した映像ファイルをデコードして、フレ ーム識別情報以降のフレーム画像を表示して、利用者に再生ポイント以降の映像を 呈示する。また、映像再生部 920が、時系列のフレーム画像を取得して表示する構 成である場合には、映像情報蓄積部 916は、フレーム識別情報以降の時系列のフレ ーム画像を映像再生部 920に出力する。この場合、映像再生部 920は、フレーム識 別情報以降のフレーム画像を表示して、利用者に再生ポイント以降の映像を呈示す る。
[0160] 本実施形態においても、利用者への情報の通知の形態として、予め設定した特定 の文字列が映像中に存在する場合に、利用者に対して文字列の存在を通知するよう にしてもよい。この場合には、構造情報呈示部 918は、文字列認識部 912から認識 文字列を取得すると、取得した認識文字列が予め設定されてレ、るキーワード群に含 まれる文字列であるか否力、を判断する。そして構造情報呈示部 918は、取得した認 識文字列が予め設定されているキーワードに含まれる文字列であると判断した場合 には、映像中に文字列が存在する旨の情報を表示装置 172に表示し、あるいは音声 出力装置から音声を出力することにより、予め設定した文字列が出現した旨の通知を 利用者に対して行う。
[0161] この実施形態によれば、インデックスとなる画像による文字列表示 126が文字列存 在フレーム画像の一部を用いているために、文字認識を行った結果の文字列のみを 表示する場合と異なり、文字列表示 126が映像の内容と一致しなレ、とレ、う現象が起き る可能性が小さくなる。利用者は、インデックスリスト表示を閲覧することで映像の内 容を一覧することができ、映像の頭出しを容易に行うことができる。また、文字列認識 の結果の信頼度に応じて表示方法を制御できるようにしたので、利用者は、認識文 字列を信頼してインデックスの選択ができ、利用者が映像を検索する際の作業効率 を改善すること力 Sできる。
[0162] 本発明では、映像が逐次入力されてくるような場合において、その映像上に文字列 もしくは所望の文字列が出現した場合、そのような文字列が存在する旨を利用者に 通知する。そのため、本発明を用いることにより、映像上に特定の文字列が出現する のを監視する必要がある場合に、対象とする文字列が存在する旨を即座に利用者に 通知することが可能となる。
[0163] 本発明におけるインデックスリスト表示の例は図 6及び図 13に示している力 インデ ックスリスト表示はこれらのものに限定されるものではない。
[0164] 図 19は、インデックスリスト表示の他の例を示している。図 6及び図 13に示したイン デッタスリスト表示では、文字列位置情報に基づいて、文字列存在フレーム画像から 文字列が存在する範囲を切り出し、切り出された画像による文字列表示をフレーム識 別情報と関連付けて表示装置に表示させているが、図 19に示したものは、文字列存 在フレーム画像 128を縮小してインデックスリスト表示に表示している。
[0165] 図 20は、インデックスリスト表示のさらに別の例を示している。図 13に示すインデッ タスリスト表示では、画像による文字列表示 126と認識文字列 138とを同時に表示し ているが、図 20に示すものでは、認識信頼度に応じて、画像による文字列表示 126 と認識文字列 139による表示とを切り替えている。
[0166] ここで、画像による文字列表示と認識文字列による表示との切り替えについて説明 する。ここでは、認識信頼度に応じて表示方法を切り替える例を説明する。一例とし て、認識文字列を表示するか否力を判断するためのしきい値 Θ 1を 50%とし、認識文 字列について強調表示するか否力を判断するためのしきい値 Θ 3を 80%とし、画像 による文字列表示をするか否力、を判断するしきい値 Θ 2を 90%に設定した場合につ いて説明する。
[0167] 各しきい値を上記のように設定したときに、文字列「映像中に含まれる文字列」の認 識信頼度が 40%と算出されていた場合には、認識信頼度の値が Θ 1 ( = 50%)以下 であるので、図 20に示すように、「映像中に含まれる文字列」の表示は、画像による 文字列表示 126のみが表示され、認識文字列は表示されない。また、文字列「文字 歹 IJ」の認識信頼度が 95 %と算出されてレ、た場合には、認識信頼度の値が Θ 2 ( 90 % )以上、かつ、 03 (80%)以上であるので、図 20に示すように、「文字歹 1 の表示は、 認識文字列 139のみが強調表示され、画像による文字列表示は表示されない。なお 、強調表示では、太字で表示するようにしてもよいし、注目度の高い色彩や模様を用 レ、て表示するようにしてもょレ、。
[0168] このように、文字列認識の結果の認識信頼度に応じて、画像による文字列表示と、 認識文字列の表示との間で表示方法を制御できるようにしたので、利用者は認識文 字列を信頼してインデックスの選択ができ、利用者が映像を検索する際の作業効率 を改善すること力 Sできる。
[0169] 以上説明した本発明の第 1及び第 3〜第 9の実施形態の映像構造化装置は、第 2 の実施形態の映像構造化装置と同様に、上述した各処理を実行するためのプロダラ ムをコンピュータシステムにインストールことによつても実現できるものである。したがつ て、第 1〜第 9の実施形態の映像構造化装置を実現するためのコンピュータプロダラ ムも、本発明の範疇に含まれるものである。
産業上の利用可能性
[0170] 本発明によれば、文字列の存在に基づいた映像検索用のインデックスリスト表示を 行うことによって、利用者による映像の検索と映像の頭出しを容易にすることが可能と なる。本発明は、ビデオレコーダ、ビデオカメラ、デジタルスチルカメラ等のシステムに 適用すること力 Sできる。さらに本発明は、いずれもカメラを搭載した携帯電話機、 PHS (Personal Handyphone System)、 ノ ーソナノレコンピュータ、 PDA (Personal Data Assistance, Personal Digital Assistants:個人向け携帯型情報通信機 器)等の、撮像受像機能を有する携帯端末装置やその他のシステムに適用すること ができる。

Claims

請求の範囲
[1] 映像信号を受け取って、映像のフレーム画像と、該フレーム画像を識別するフレー ム識別情報とを出力する映像入力手段と、
前記映像入力手段から前記フレーム画像及び前記フレーム識別情報を受け取つ て当該フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に 文字列が存在すると判断した場合には、当該フレーム画像を文字列存在フレーム画 像として該文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置 情報を生成し、該文字列位置情報と、前記文字列存在フレーム画像を識別するフレ ーム識別情報と、前記文字列存在フレーム画像とを出力する文字列抽出手段と、 前記文字列抽出手段から前記フレーム識別情報と前記文字列存在フレーム画像と 前記文字列位置情報とを取得し、取得した情報をそれぞれ関連付けてインデックス ファイルに蓄積する映像情報蓄積手段と、
前記映像情報蓄積手段から前記インデックスファイルを読み出し、前記文字列位置 情報に基づいて前記文字列存在フレーム画像から文字列が存在する範囲を切り出 し、前記切り出した画像による文字列表示を、前記文字列存在フレーム画像を識別 するフレーム識別情報と関連付けて表示手段に表示させる構造情報呈示手段と、 を有する、映像構造化装置。
[2] 映像信号を受け取って、映像のフレーム画像と、該フレーム画像を識別するフレー ム識別情報と、前記映像信号の映像データとを出力する映像入力手段と、
前記映像入力手段から前記フレーム画像及び前記フレーム識別情報を受け取つ て当該フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に 文字列が存在すると判断した場合には、当該フレーム画像を文字列存在フレーム画 像として該文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置 情報を生成し、該文字列位置情報と、前記文字列存在フレーム画像を識別するフレ ーム識別情報と、前記文字列存在フレーム画像とを出力する文字列抽出手段と、 構造情報呈示手段と、
前記文字列抽出手段から前記フレーム識別情報と前記文字列存在フレーム画像と 前記文字列位置情報とを取得して関連付けてインデックスファイルに蓄積し、前記映 像入力手段から前記映像データ及びフレーム識別情報とを取得して関連付けて蓄 積し、前記構造情報呈示手段から前記フレーム識別情報を取得したときには該構造 情報呈示手段から取得したフレーム識別情報と関連付けられて記録されている映像 データを読み出して、前記構造情報呈示手段から取得したフレーム識別情報に対応 するフレーム画像以降の映像データを出力する映像情報蓄積手段と、
前記映像情報蓄積手段が出力する映像データを取得して表示手段に出力して表 示させる映像再生手段と、
を有し、
前記構造情報呈示手段は、前記映像情報蓄積手段から前記インデックスファイル を読み出して、前記文字列位置情報に基づいて前記文字列存在フレーム画像から 文字列が存在する範囲を切り出し、前記切り出した画像による文字列表示を前記表 示手段に出力して表示させ、利用者から当該文字列表示を選択する旨の情報が入 力されると、該選択した文字列表示と関連付けられているフレーム識別情報を前記 映像情報蓄積手段に出力する、映像構造化装置。
映像信号を受け取って、映像のフレーム画像と、該フレーム画像を識別するフレー ム識別情報とを出力する映像入力手段と、
前記映像入力手段から前記フレーム画像及び前記フレーム識別情報を受け取つ て当該フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に 文字列が存在すると判断した場合には、当該フレーム画像を文字列存在フレーム画 像として該文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置 情報を生成し、該文字列位置情報と、前記文字列存在フレーム画像を識別するフレ ーム識別情報と、前記文字列存在フレーム画像とを出力する文字列抽出手段と、 前記文字列抽出手段から前記フレーム識別情報と前記文字列存在フレーム画像と 前記文字列位置情報とを取得し、前記文字列位置情報に基づいて前記文字列存在 フレーム画像から文字列が存在する範囲を切り出し、前記切り出した画像に対して文 字列認識処理を行って文字コードによる認識文字列を取得して、当該認識文字列と 前記フレーム識別情報と前記文字列位置情報とを出力する文字列認識手段と、 前記文字列抽出手段から前記フレーム識別情報と前記文字列存在フレーム画像と 前記文字列位置情報とを取得し、前記文字列認識手段から前記認識文字列と前記 フレーム識別情報と前記文字列位置情報とを取得し、これらの取得した画像及び情 報を関連付けてインデックスファイルに蓄積する映像情報蓄積手段と、
前記映像情報蓄積手段から前記インデックスファイルを読み出し、前記文字列位置 情報に基づいて前記文字列存在フレーム画像から文字列が存在する範囲を切り出 し、前記切り出した画像による文字列表示と前記認識文字列とを、前記文字列存在 フレーム画像を識別するフレーム識別情報と関連付けて表示手段に表示させること が可能な構造情報呈示手段と、
を備える、映像構造化装置。
映像信号を受け取って、映像のフレーム画像と、該フレーム画像を識別するフレー ム識別情報と、前記映像信号の映像データとを出力する映像入力手段と、
前記映像入力手段から前記フレーム画像及び前記フレーム識別情報を受け取つ て当該フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に 文字列が存在すると判断した場合には、当該フレーム画像を文字列存在フレーム画 像として該文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置 情報を生成し、該文字列位置情報と、前記文字列存在フレーム画像を識別するフレ ーム識別情報と、前記文字列存在フレーム画像とを出力する文字列抽出手段と、 前記文字列抽出手段から前記フレーム識別情報と前記文字列存在フレーム画像と 前記文字列位置情報とを取得し、前記文字列位置情報に基づいて前記文字列存在 フレーム画像から文字列が存在する範囲を切り出し、前記切り出した画像に対して文 字列認識処理を行って文字コードによる認識文字列を取得して、当該認識文字列と 前記フレーム識別情報と前記文字列位置情報とを出力する文字列認識手段と、 構造情報呈示手段と、
前記文字列抽出手段から前記フレーム識別情報と前記文字列存在フレーム画像と 前記文字列位置情報とを取得し、前記文字列認識手段から前記認識文字列と前記 フレーム識別情報と前記文字列位置情報とを取得し、これらの取得した画像及び情 報を関連付けてインデックスファイルに蓄積し、前記映像入力手段から取得した前記 映像データと前記フレーム識別情報とを関連付けて蓄積し、前記構造情報呈示手段 力 前記フレーム識別情報を取得したときには該構造情報呈示手段から取得したフ レーム識別情報と関連付けて記録されている映像データを読み出して、前記構造情 報呈示手段から取得したフレーム識別情報に対応するフレーム画像以降の映像デ ータを出力する映像情報蓄積手段と、
前記映像情報蓄積手段が出力する映像データを取得し、該取得した映像データを 表示手段に出力して表示させる映像再生手段と、
を有し、
前記構造情報呈示手段は、前記映像情報蓄積手段から前記インデックスファイル を読み出して、前記文字列位置情報に基づいて前記文字列存在フレーム画像から 前記文字列が存在する範囲を切り出し、前記切り出した画像による文字列表示及び 前記認識文字列を前記表示手段に出力して表示させることが可能であり、利用者か ら前記表示された文字列表示又は認識文字歹' Jを選択する旨の情報が入力されると、 その選択された文字列表示又は認識文字列と関連付けられている前記フレーム識 別情報を映像情報蓄積手段に出力する、映像構造化装置。
[5] 前記文字列認識手段は、文字列の認識信頼度を算出して前記映像情報蓄積手段 に出力し、
前記映像情報蓄積手段は、前記文字列認識手段から取得した前記認識信頼度を 、前記文字列位置情報と関連付けて前記インデックスファイルに蓄積し、
前記構造情報呈示手段は、前記映像情報蓄積手段から前記インデックスファイル を読み出して取得した認識信頼度と所定のしきい値と比較を行って文字列認識の信 頼度が所定のしきい値より大きいと判断した場合には、画像による文字列表示を表示 させずに前記認識文字列を前記表示手段に出力して表示させる、
請求項 3又は 4に記載の映像構造化装置。
[6] 前記文字列認識手段は、文字列の認識信頼度を算出して前記映像情報蓄積手段 に出力し、
前記映像情報蓄積手段は、前記文字列認識手段から取得した前記認識信頼度を 、前記文字列位置情報と関連付けて前記インデックスファイルに蓄積し、
前記構造情報呈示手段は、前記映像情報蓄積手段から前記インデックスファイル を読み出して取得した認識信頼度と所定のしきい値と比較を行って文字列認識の信 頼度が所定のしきい値より小さいと判断した場合には、前記認識文字列の表示をさ せずに画像による文字列表示を前記表示手段に出力して表示させる、
請求項 3又は 4に記載の映像構造化装置。
[7] 映像信号を受け取って、映像のフレーム画像を出力する映像入力手段と、
前記映像入力手段から前記フレーム画像を受け取って当該フレーム画像中に文字 列が存在するか否かを判断し、当該フレーム画像中に文字列が存在すると判断した 場合には、文字列が存在する旨の情報を出力する文字列抽出手段と、
前記文字列抽出手段から前記文字列が存在する旨の情報を取得した場合には、 前記映像中に文字列が存在する旨の情報を表示手段に表示させ及び Z又は音声 出力手段から音声を出力させる構造情報呈示手段と、
を有する映像構造化装置。
[8] 映像信号を受け取って、映像のフレーム画像を出力する映像入力手段と、
前記映像入力手段からフレーム画像を受け取って当該フレーム画像中に文字列が 存在するか否かを判断し、当該フレーム画像中に文字列が存在すると判断した場合 には、その文字列が存在した文字列存在フレーム画像の中に存在する文字列につ いての文字列位置情報を生成し、該文字列位置情報を出力する文字列抽出手段と 前記文字列抽出手段から前記文字列位置情報を取得した場合には、前記映像中 に文字列が存在する旨の情報を表示手段に表示させ及び/又は音声出力手段から 音声を出力させる構造情報呈示手段と、
を有する映像構造化装置。
[9] 映像信号を受け取って、映像のフレーム画像と、該フレーム画像を識別するフレー ム識別情報とを出力する映像入力手段と、
前記映像入力手段から前記フレーム画像を受け取って当該フレーム画像中に文字 列が存在するか否かを判断し、当該フレーム画像中に文字列が存在すると判断した 場合には、前記文字列が存在する文字列存在フレーム画像と、前記フレーム画像の 中に存在する文字列についての文字列位置情報とを出力する文字列抽出手段と、 前記文字列抽出手段から前記文字列存在フレーム画像と前記文字列位置情報と を取得し、前記文字列位置情報に基づいて前記文字列存在フレーム画像から文字 列が存在する範囲を切り出し、前記切り出した画像に対して文字列認識処理を行つ て文字コードによる認識文字列を取得して、当該認識文字列と前記文字列位置情報 とを出力する文字列認識手段と、
前記文字列認識手段から前記認識文字列を取得し、前記取得した認識文字列が 予め設定されているキーワード群に含まれる文字列であるか否力、を判断し、前記取 得した認識文字列が予め設定されているキーワードに含まれる文字列であると判断 した場合には、前記映像中に文字列が存在する旨の情報を表示手段に表示させ及 び/又は音声出力手段から音声を出力させる構造情報呈示手段と、
を有する映像構造化装置。
[10] 前記構造情報提示手段は、さらに、新たな文字列位置情報が存在すると判断した 場合には、前記映像中に文字列が存在する旨の情報を前記表示手段に表示させ及 び/又は音声出力手段から音声を出力させる、請求項 3又は 4に記載の映像構造ィ匕 装置。
[11] 動画の映像信号を入力する段階と、
前記映像信号から、映像のフレーム画像と、そのフレーム画像を識別するフレーム 識別情報とを生成する段階と、
前記フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に 文字列が存在すると判断した場合には、当該フレーム画像を文字列存在フレーム画 像として該文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置 情報を生成する段階と、
前記文字列位置情報に基づいて前記文字列存在フレーム画像から文字列が存在 する範囲を切り出して文字列画像を生成する段階と、
前記文字列画像を表示装置に出力する段階と、
を有する映像構造化方法。
[12] コンピュータに、
入力映像信号から、映像のフレーム画像と、そのフレーム画像を識別するフレーム 識別情報とを生成する処理と、
前記フレーム画像中に文字列が存在するか否かを判断し、当該フレーム画像中に 文字列が存在すると判断した場合には、当該フレーム画像を文字列存在フレーム画 像として該文字列存在フレーム画像の中に存在する文字列にっレ、ての文字列位置 情報を生成する処理と、
前記文字列位置情報に基づいて前記文字列存在フレーム画像から文字列が存在 する範囲を切り出して文字列画像を生成する処理と、
前記文字列画像を表示装置に出力する処理と、
を実行させるプログラム。
PCT/JP2005/023748 2004-12-24 2005-12-26 映像構造化装置及び方法 WO2006068269A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006549078A JPWO2006068269A1 (ja) 2004-12-24 2005-12-26 映像構造化装置及び方法
US11/793,807 US7949207B2 (en) 2004-12-24 2005-12-26 Video structuring device and method
US13/111,551 US8126294B2 (en) 2004-12-24 2011-05-19 Video structuring device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-374715 2004-12-24
JP2004374715 2004-12-24

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US11793807 A-371-Of-International 2005-12-26
US13/111,551 Division US8126294B2 (en) 2004-12-24 2011-05-19 Video structuring device

Publications (1)

Publication Number Publication Date
WO2006068269A1 true WO2006068269A1 (ja) 2006-06-29

Family

ID=36601861

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/023748 WO2006068269A1 (ja) 2004-12-24 2005-12-26 映像構造化装置及び方法

Country Status (3)

Country Link
US (2) US7949207B2 (ja)
JP (1) JPWO2006068269A1 (ja)
WO (1) WO2006068269A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008085700A (ja) * 2006-09-28 2008-04-10 Sanyo Electric Co Ltd 映像再生装置及び再生用プログラム
JP2008166988A (ja) * 2006-12-27 2008-07-17 Sony Corp 情報処理装置および方法、並びにプログラム
JP2009188827A (ja) * 2008-02-07 2009-08-20 Toshiba Corp 電子機器装置
US8120269B2 (en) 2006-12-18 2012-02-21 Osram Ag Circuit arrangement and method for operating a high-pressure discharge lamp

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2208149A2 (en) * 2007-10-04 2010-07-21 Koninklijke Philips Electronics N.V. Classifying a set of content items
US8090822B2 (en) 2008-04-11 2012-01-03 The Nielsen Company (Us), Llc Methods and apparatus for nonintrusive monitoring of web browser usage
US8355585B2 (en) * 2009-05-12 2013-01-15 Red Hat Israel, Ltd. Data compression of images using a shared dictionary
JP2012039174A (ja) * 2010-08-03 2012-02-23 Ricoh Co Ltd 撮像装置及び撮像方法
US9047534B2 (en) * 2011-08-11 2015-06-02 Anvato, Inc. Method and apparatus for detecting near-duplicate images using content adaptive hash lookups
US8650198B2 (en) * 2011-08-15 2014-02-11 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence
US9275425B2 (en) * 2013-12-19 2016-03-01 International Business Machines Corporation Balancing provenance and accuracy tradeoffs in data modeling
CN104753546B (zh) * 2013-12-31 2017-06-23 鸿富锦精密工业(深圳)有限公司 消除移动装置干扰信号的方法以及电子设备
CN106557521B (zh) * 2015-09-29 2020-07-14 佳能株式会社 对象索引方法、对象搜索方法及对象索引系统
US10474745B1 (en) 2016-04-27 2019-11-12 Google Llc Systems and methods for a knowledge-based form creation platform
US11039181B1 (en) 2016-05-09 2021-06-15 Google Llc Method and apparatus for secure video manifest/playlist generation and playback
US10750216B1 (en) 2016-05-10 2020-08-18 Google Llc Method and apparatus for providing peer-to-peer content delivery
US10771824B1 (en) 2016-05-10 2020-09-08 Google Llc System for managing video playback using a server generated manifest/playlist
US10785508B2 (en) 2016-05-10 2020-09-22 Google Llc System for measuring video playback events using a server generated manifest/playlist
US11069378B1 (en) 2016-05-10 2021-07-20 Google Llc Method and apparatus for frame accurate high resolution video editing in cloud using live video streams
US10595054B2 (en) 2016-05-10 2020-03-17 Google Llc Method and apparatus for a virtual online video channel
US10750248B1 (en) 2016-05-10 2020-08-18 Google Llc Method and apparatus for server-side content delivery network switching
US11032588B2 (en) 2016-05-16 2021-06-08 Google Llc Method and apparatus for spatial enhanced adaptive bitrate live streaming for 360 degree video playback
US9734373B1 (en) * 2016-08-31 2017-08-15 Vium, Inc. Method of reading animal marks
EP3598742B1 (en) * 2017-03-14 2021-06-16 Sony Corporation Recording device and recording method
CN109246410B (zh) * 2017-05-31 2021-04-02 江苏慧光电子科技有限公司 全息影像的成像方法和数据生成方法及装置
CN110837754B (zh) * 2018-08-16 2022-08-30 深圳怡化电脑股份有限公司 字符切割定位方法、装置、计算机设备及存储介质
CN109146910B (zh) * 2018-08-27 2021-07-06 公安部第一研究所 一种基于目标定位的视频内容分析指标评价方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192003A (ja) * 1993-12-27 1995-07-28 Hitachi Ltd 動画像検索装置及び方法
JPH11167583A (ja) * 1997-12-04 1999-06-22 Nippon Telegr & Teleph Corp <Ntt> テロップ文字認識方法および映像蓄積表示装置、テロップ文字認識・検索端末、映像検索端末
JP2002014973A (ja) * 2000-06-28 2002-01-18 Nippon Telegr & Teleph Corp <Ntt> 映像検索装置、方法、映像検索プログラムを記録した記録媒体
JP2003245809A (ja) * 2002-02-21 2003-09-02 Toshiba Tungaloy Co Ltd 溝削り工具

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2518063B2 (ja) 1989-10-26 1996-07-24 日本電気株式会社 文字切り出し方法及びその装置
JPH0432970A (ja) * 1990-05-23 1992-02-04 Hitachi Eng Co Ltd 画像認識・修正方法及びその装置
US5450134A (en) * 1993-01-12 1995-09-12 Visual Automation Systems, Inc. Video facility management system for encoding and decoding video signals to facilitate identification of the video signals
JP3340532B2 (ja) * 1993-10-20 2002-11-05 株式会社日立製作所 ビデオの検索方法および装置
JP3202455B2 (ja) * 1993-12-06 2001-08-27 富士通株式会社 処理装置
US6415303B1 (en) * 1995-01-03 2002-07-02 Mediaone Group, Inc. Method and system for describing functionality of an interactive multimedia application for use on an interactive network
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
US6366699B1 (en) 1997-12-04 2002-04-02 Nippon Telegraph And Telephone Corporation Scheme for extractions and recognitions of telop characters from video data
ES2195488T3 (es) * 1998-09-03 2003-12-01 Ricoh Kk Medios de registro con informaciones de indice video y respectivamente audio, metodos de gestion y de recuperacion de informaciones de video, respectivamente audio y sistema de recuperacion de video.
US6281940B1 (en) * 1999-03-31 2001-08-28 Sony Corporation Display of previewed channels with rotation of multiple previewed channels along an arc
JP3374793B2 (ja) 1999-07-21 2003-02-10 日本電気株式会社 高速認識検索システム及びそれに用いる認識検索高速化方法並びにその制御プログラムを記録した記録媒体
US7221796B2 (en) * 2002-03-08 2007-05-22 Nec Corporation Character input device, character input method and character input program
JP2003333265A (ja) 2002-05-14 2003-11-21 Daiwa Securities Smbc Co Ltd 情報管理装置、情報管理方法、及びプログラム
JP2003345809A (ja) 2002-05-30 2003-12-05 Nec System Technologies Ltd データベース構築システム、パッセージ検索装置、データベース構築方法及びプログラム
JP2004080587A (ja) 2002-08-21 2004-03-11 Mitsubishi Electric Corp テレビジョン信号記録再生装置およびテレビジョン信号記録再生方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192003A (ja) * 1993-12-27 1995-07-28 Hitachi Ltd 動画像検索装置及び方法
JPH11167583A (ja) * 1997-12-04 1999-06-22 Nippon Telegr & Teleph Corp <Ntt> テロップ文字認識方法および映像蓄積表示装置、テロップ文字認識・検索端末、映像検索端末
JP2002014973A (ja) * 2000-06-28 2002-01-18 Nippon Telegr & Teleph Corp <Ntt> 映像検索装置、方法、映像検索プログラムを記録した記録媒体
JP2003245809A (ja) * 2002-02-21 2003-09-02 Toshiba Tungaloy Co Ltd 溝削り工具

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008085700A (ja) * 2006-09-28 2008-04-10 Sanyo Electric Co Ltd 映像再生装置及び再生用プログラム
US8120269B2 (en) 2006-12-18 2012-02-21 Osram Ag Circuit arrangement and method for operating a high-pressure discharge lamp
JP2008166988A (ja) * 2006-12-27 2008-07-17 Sony Corp 情報処理装置および方法、並びにプログラム
US8213764B2 (en) 2006-12-27 2012-07-03 Sony Corporation Information processing apparatus, method and program
JP2009188827A (ja) * 2008-02-07 2009-08-20 Toshiba Corp 電子機器装置

Also Published As

Publication number Publication date
JPWO2006068269A1 (ja) 2008-08-07
US7949207B2 (en) 2011-05-24
US20110217026A1 (en) 2011-09-08
US20080166057A1 (en) 2008-07-10
US8126294B2 (en) 2012-02-28

Similar Documents

Publication Publication Date Title
US8126294B2 (en) Video structuring device
JP4469905B2 (ja) テロップ収集装置およびテロップ収集方法
KR100915847B1 (ko) 스트리밍 비디오 북마크들
US6961446B2 (en) Method and device for media editing
EP1980960A2 (en) Methods and apparatuses for converting electronic content descriptions
TWI457770B (zh) 關鍵字擷取方法及裝置、搜尋方法及裝置,以及電腦可讀儲存媒體
US20110243529A1 (en) Electronic apparatus, content recommendation method, and program therefor
US7904452B2 (en) Information providing server, information providing method, and information providing system
JP2003157288A (ja) 情報関連付け方法、端末装置、サーバ装置、プログラム
US20110213773A1 (en) Information processing apparatus, keyword registration method, and program
CN110781328A (zh) 基于语音识别的视频生成方法、系统、装置和存储介质
US20110125731A1 (en) Information processing apparatus, information processing method, program, and information processing system
JP4814849B2 (ja) フレームの特定方法
KR101100191B1 (ko) 멀티미디어 재생장치와 이를 이용한 멀티미디어 자료검색방법
US20130232407A1 (en) Systems and methods for producing, reproducing, and maintaining electronic books
JP2012238232A (ja) 興味区間検出装置、視聴者興味情報提示装置、および興味区間検出プログラム
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
CN101547303B (zh) 成像设备、字符信息关联方法、和字符信息关联系统
CN110309324A (zh) 一种搜索方法及相关装置
JP4473813B2 (ja) メタデータ自動生成装置、メタデータ自動生成方法、メタデータ自動生成プログラムおよびプログラムを記録した記録媒体
JP2006202081A (ja) メタデータ生成装置
JPH11167583A (ja) テロップ文字認識方法および映像蓄積表示装置、テロップ文字認識・検索端末、映像検索端末
KR20170043944A (ko) 디스플레이 장치 및 이의 제어 방법
JP2002032386A (ja) データ処理方法、装置およびその方法を実施するプログラムを記録した記録媒体
JPH08249343A (ja) 音声情報取得装置及び音声情報取得方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KN KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2006549078

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11793807

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 05819770

Country of ref document: EP

Kind code of ref document: A1

WWW Wipo information: withdrawn in national office

Ref document number: 5819770

Country of ref document: EP