WO2006093184A1 - 映像編集装置、映像編集方法および映像編集を行うためのコンピュータプログラム - Google Patents

映像編集装置、映像編集方法および映像編集を行うためのコンピュータプログラム Download PDF

Info

Publication number
WO2006093184A1
WO2006093184A1 PCT/JP2006/303858 JP2006303858W WO2006093184A1 WO 2006093184 A1 WO2006093184 A1 WO 2006093184A1 JP 2006303858 W JP2006303858 W JP 2006303858W WO 2006093184 A1 WO2006093184 A1 WO 2006093184A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
information
data
editing
date
Prior art date
Application number
PCT/JP2006/303858
Other languages
English (en)
French (fr)
Inventor
Masayuki Hosoi
Original Assignee
Pioneer Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corporation filed Critical Pioneer Corporation
Publication of WO2006093184A1 publication Critical patent/WO2006093184A1/ja

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/322Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier used signal is digitally coded

Definitions

  • Video editing apparatus video editing method, and computer program for video editing
  • the present invention relates to a video editing apparatus, a video editing method, and a computer program for automatically editing video data shot by, for example, a video camera.
  • video editing has also been carried out for purposes such as personal private video production or family home video production. Came to be. Such video editing is often done by ordinary people who are used to operating personal computers. For example, a child participating in a friendly entrance ceremony, graduation ceremony, athletic meet, etc. is shot with a video skill camera, and the captured video is used with a personal computer for the purpose of showing the child's growth process to a friend. May be edited.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2004-32763
  • the present invention has been made in view of the above-described problems, and a first object of the present invention is to allow automatic editing of a video that is easy for the viewer to understand without being bored.
  • An object is to provide an image editing apparatus, an image editing method, and a computer program.
  • a second object of the present invention is to provide a video editing apparatus, a video editing method, and a computer program that can perform video editing that matches the video content.
  • a third object of the present invention is to provide a video editing apparatus, a video editing method, and a computer program capable of realizing realistic video and audio editing. Means for solving the problem
  • a first video editing apparatus includes video data acquisition means for acquiring video data including a plurality of data units, and a shooting target included in a video corresponding to each data unit.
  • Object information generating means for generating object information including unique information for recognizing an object and identifying the object to be photographed; recording means for recording the object information on a first recording medium; Based on the object information recorded on the first recording medium, the object determination means for determining the type, number, individuality, name or form of the object to be photographed, and the determination result of the object determination means
  • an editing means for automatically editing the video data.
  • the second video editing apparatus of the present invention includes video data acquisition means for acquiring video data including a plurality of data units, and the date and time when the video corresponding to each data unit was captured.
  • the date and time information acquisition means for acquiring the date and time information indicating, the recording means for recording the date and time information on the first recording medium, and the data unit based on the date and time information recorded on the first recording medium.
  • a date / time determination means for determining the time, time zone, year / month / day, day of the week, time or season when the corresponding video was shot, and automatic editing of the video data based on the determination result of the date / time determination means! Editing means to perform.
  • a third video editing apparatus includes a video data acquisition unit that acquires video data including a plurality of data units, and a place where a video corresponding to each data unit is captured.
  • the location information acquisition means for acquiring the location information indicating the location information, the recording means for recording the location information on the first recording medium, and the data based on the location information recorded on the first recording medium.
  • a location determination means for determining the position, location, region or country where the video corresponding to the unit was shot; and an editing means for automatically editing the video data based on the determination result of the location determination means.
  • a fourth video editing apparatus includes video data acquisition means for acquiring video data including a plurality of data units, and a shooting target included in a video corresponding to each data unit.
  • An object for recognizing the position of the object and the object to be imaged on the screen and generating object information indicating the position of the object to be imaged and the object Object information generating means, voice recognition information generating means for recognizing a voice emitted from the object to be photographed and generating voice recognition information indicating the voice, the object information and the voice recognition information are associated with each other, Based on the recording means for recording these on the first recording medium, the audio output means having a plurality of output channels, the object information and the voice recognition information recorded on the first recording medium, Output channel selection means for selecting an output channel for outputting sound emitted from the object to be photographed so that the position of the object on the screen matches the position where the sound emitted from the object to be photographed matches.
  • a first video editing method includes a video data acquisition step of acquiring video data including a plurality of data units, and a shooting target included in a video corresponding to each of the data units.
  • An object information generating step for generating object information including unique information for recognizing an object and identifying the object to be photographed; a recording step for recording the object information on a recording medium; and the recording Based on the object information recorded on the medium, the object determination step for determining the type, number, individuality, name, or aspect of the object to be photographed, and the determination result in the object determination step, And an editing process for automatically editing video data.
  • a second video editing method of the present invention includes a video data acquisition step of acquiring video data including a plurality of data units, and a date and time when a video corresponding to each of the data units is captured.
  • a date and time information acquisition step for acquiring date and time information indicating a recording date
  • a recording step for recording the date and time information on a recording medium
  • a video corresponding to each data unit is captured based on the date and time information recorded on the recording medium.
  • a date / time determination step for determining the recorded time, time zone, date, day of the week, time or season, and an editing step for automatically editing the video data based on the determination result in the date / time determination step. Yes.
  • a third video editing method includes a video data acquisition step of acquiring video data including a plurality of data units, and a place where the video corresponding to each data unit is shot
  • a location information acquisition step for acquiring location information indicating the location
  • a recording step for recording the location information on a recording medium, and the location recorded on the recording medium Based on the information
  • the location determination step for determining the position, location, region, or country where the video corresponding to each data unit was taken, and the automatic determination of the video data based on the determination result in the location determination step
  • an editing process for editing is a video data acquisition step of acquiring video data including a plurality of data units, and a place where the video corresponding to each data unit is shot
  • a location information acquisition step for acquiring location information indicating the location
  • a recording step for recording the location information on a recording medium, and the location recorded on the recording medium
  • the location determination step for determining the position, location, region, or country where the video corresponding to each data unit was taken, and the automatic determination
  • a fourth video editing method of the present invention includes a video data acquisition step of acquiring video data including a plurality of data units, and an imaging target included in a video corresponding to each of the data units.
  • An object information generating step for recognizing the position of the object and the object to be imaged on the screen, and generating object information indicating the position of the object to be imaged and the object to be imaged; and a sound emitted from the object to be imaged
  • An output channel selection step of selecting an output channel for outputting the sound emitted from the object to be photographed so as to match the position where the
  • the computer program of the present invention causes a computer to function as the first to fourth video editing apparatuses of the present invention.
  • a computer program product in a computer-readable medium clearly embodies a program instruction executable by a computer, and the computer is used as the first to the present invention. It functions as the fourth video editing device.
  • the computer program product is read into a computer from a recording medium such as a ROM, CD-ROM, DVD-ROM, or hard disk storing the computer program product, or
  • a recording medium such as a ROM, CD-ROM, DVD-ROM, or hard disk storing the computer program product
  • the computer program product which is a transmission wave
  • the computer program product may be composed of computer-readable code (or computer-readable instructions) that function as the first and fourth video editing apparatuses of the present invention described above. .
  • FIG. 1 is a block diagram showing the structure of an embodiment of a video editing apparatus of the present invention.
  • FIG. 2 is a block diagram showing the internal structure of the editing means in FIG.
  • FIG. 3 is an explanatory diagram showing an example of an image corresponding to a data unit.
  • FIG. 4 is an explanatory diagram showing another example of a video corresponding to a data unit.
  • FIG. 5 is an explanatory diagram showing an example of the structure of video data.
  • FIG. 6 is an explanatory diagram showing another example of the structure of video data.
  • FIG. 7 is an explanatory diagram showing an example of a correspondence relationship between a data unit and content script information.
  • FIG. 8 is an explanatory diagram showing the structure of content script information.
  • FIG. 9 is an explanatory diagram showing another example of the correspondence between data units and content script information.
  • FIG. 10 is a flowchart showing a data unit reproduction order changing process.
  • FIG. 11 is a flowchart showing story editing processing.
  • FIG. 12 is a flowchart showing landscape editing processing.
  • FIG. 13 is an explanatory diagram showing an example of a data library.
  • FIG. 14 is an explanatory diagram showing another example of a data library.
  • FIG. 15 is a block diagram showing the structure of a modification of the video editing apparatus of the present invention.
  • FIG. 16 is an explanatory diagram showing a method for specifying the position on the screen of the object to be photographed in a modification of the video editing apparatus of the present invention.
  • FIG. 17 is an explanatory diagram showing a method for specifying the position of the organ of the object to be imaged on the screen in the modified embodiment of the video editing apparatus of the present invention.
  • FIG. 18 is an explanatory diagram showing the arrangement of speakers in a modified embodiment of the video editing apparatus of the present invention.
  • FIG. 19 is a flowchart showing an output channel selection process in a modification of the video editing apparatus of the present invention.
  • FIG. 20 is an explanatory diagram showing an example of a correspondence relationship between a data unit and object information “speech recognition information” in a modification of the video editing apparatus of the present invention.
  • FIG. 21 is an explanatory view showing the structure of object information in a modified embodiment of the video editing apparatus of the present invention.
  • FIG. 22 is an explanatory diagram showing the structure of voice recognition information in a modified embodiment of the video editing apparatus of the present invention.
  • FIG. 23 is an explanatory diagram showing another example of the correspondence between the data unit and the object information “speech recognition information” in the modification of the video editing apparatus of the present invention.
  • FIG. 24 is a block diagram showing the structure of a DVD recorder which is a first embodiment of the video editing apparatus of the present invention.
  • FIG. 25 is a block diagram showing the structure of a DVD recorder which is a second embodiment of the video editing apparatus of the present invention.
  • FIG. 26 is a block diagram showing the structure of a DVD recorder which is a third embodiment of the video editing apparatus of the present invention.
  • FIG. 1 shows an embodiment of a video editing apparatus of the present invention.
  • a video editing apparatus 1 shown in FIG. 1 is an apparatus that automatically edits video data shot by video shooting means such as a video camera.
  • the video editing device 1 may be provided to the market as an independent product dedicated to video editing. Further, the video editing apparatus 1 may be provided to the market by being incorporated in a video recording apparatus such as a video recorder, a DVD recorder, or a multi-function TV having a recording function.
  • the video editing apparatus 1 includes a video data acquisition unit 11, a video data division unit 12, an object information generation unit 13, a date / time information acquisition unit 14, a location information acquisition unit 15, and a recording unit 16. , Object judging means 17, date and time judging means 18, place judging means 19, editing means 20 and library creating means 21. Furthermore, a first recording medium 22 and a second recording medium 23 are connected to the video editing apparatus 1.
  • Each means 21 can be realized by using general hardware and software for information processing, such as an arithmetic processing circuit, a semiconductor memory circuit which can be accessed at high speed, and a control program for controlling them.
  • the first recording medium 22 is a recording medium mainly for the purpose of temporarily recording data.
  • the first recording medium 22 is preferably a rewritable semiconductor memory or hard disk, for example, but may be a rewritable optical disk or a rewritable magneto-optical disk.
  • the second recording medium 23 is a recording medium mainly for the purpose of storing data for a long period of time.
  • the second recording medium 23 is, for example, a recordable or rewritable optical disc, a recording A writable or rewritable magneto-optical disk or hard disk is desirable.
  • the video data acquisition means 11 acquires video data (hereinafter referred to as "video data") taken by video photography means such as a video camera.
  • the video data acquisition unit 11 is, for example, an interface circuit for connecting the video shooting unit and the video editing device 1. Specifically, an example is described.
  • the video data output terminal provided in the video camera and the video data input terminal 11A provided in the video photographing apparatus 1 are connected. Then, the video data acquisition unit 11 establishes communication with the video camera. Then, the video data acquisition means 11 receives video data transmitted from the video camera.
  • IEEE1394 the Institute of Electrical and Electronics Engineers
  • the (Universal Senal Bus) standard can be used.
  • the video data is preferably digital data.
  • a format based on the DV standard can be adopted as the format of the video data.
  • a format based on another standard related to a video tape recorder (VTR) may be adopted as the format of the video data.
  • VTR video tape recorder
  • a high compression format based on the MPEG (Moving Picture Experts Group) standard or the like can be adopted as the video data format. It is desirable that the interface circuit used as the video data acquisition unit 11 is appropriately selected according to the format of the video data.
  • MPEG Motion Picture Experts Group
  • data conversion means for example, a comparator or an encoder
  • data conversion means for converting the video data captured from the video shooting means into video data suitable for video editing in the video editing device 1 may be added to the video data acquisition means 11. Good. In this case, it is desirable to record the converted video data on the first recording medium 22.
  • the video data dividing means 12 divides the video data into a plurality of data units.
  • Various methods can be adopted as the video data dividing method by the video data dividing means 12. For example, a method of dividing video data for each shot may be adopted. Further, a method of dividing the image data for each shooting date may be employed. It is desirable that the video data dividing method is appropriately selected according to the structure of the video data. In the structure of video data This will be described later with reference to FIG. 5 and FIG.
  • the data unit is a shot.
  • the data unit is a collection of data corresponding to videos shot on the same day (with the same shooting date).
  • Various processes in the video editing apparatus 1 are performed mainly for each data unit.
  • the object information generation means 13 recognizes the shooting object
  • the date information acquisition means 14 acquires the date information
  • the location information acquisition means 15 acquires the location information
  • the object determination means 17 determines
  • the date determination means 18 determines
  • the date determination means 18 determines
  • the date determination means 19 determines
  • the date determination The judgment by means 18, the judgment by place judgment means 19 the editing process by editing means 20, and the library creation process by library creation means 21 are mainly performed for each data unit.
  • the object information generating means 13 recognizes a photographing object included in the video corresponding to each data unit, and generates object information including unique information that can identify the photographing object.
  • An object to be photographed is an object reflected in a video.
  • an object to be photographed is all or part of an image corresponding to at least one of a plurality of frames constituting video data, and a human being is a single thing or a collection of one thing. It can be visually recognized as.
  • FIG. 3 shows an example of an image (image) corresponding to one frame. In the center of this image, a human 51 is shown, a swing 52 is shown on the left, and a flower 53 and a bird 54 are shown on the right.
  • Fig. 4 shows an example of a video (image) corresponding to another single frame.
  • a mountain 56 In the center of this image is a mountain 56, and below it is a tree 57. Therefore, the object to be photographed in this image is a mountain 56 and trees 57.
  • the object information generating means 13 can recognize all of the photographing objects included in the video corresponding to each data unit. However, it is desirable to narrow down the imaging objects recognized by the object information generating means 13.
  • the object information generating means 13 may be configured to recognize only the object to be imaged that is the largest in the image or the object to be imaged that has been reflected for the longest time in the image. In this case, the object information generating means 13 recognizes only the person 51 in the image shown in FIG.
  • the object information generating means 14 Recognizes only the peaks 56 in the image shown in FIG. In this way, by narrowing down the recognition range of the object information generating means 13, the determination by the object determining means 19 can be facilitated, and the accuracy of video editing can be improved.
  • the object to be photographed recognized by the object information generating means 13 is not necessarily limited to one data unit or one frame. For example, if there are multiple objects to be photographed that are reflected in a video or one frame or a long time! Each may be recognized.
  • Recognition of an object to be imaged can be realized using a known image recognition method.
  • an image database recorded on the first recording medium 22 or the second recording medium 23 can be used.
  • the data library recorded on the second recording medium by the library creating means 21 can be used. As a result, the recognition accuracy can be increased.
  • the object information generating means 13 generates object information after recognizing the object to be imaged.
  • the object information generating means 13 generates object information for each data unit.
  • the object information includes unique information that can identify the photographing object recognized by the object information generating means 13.
  • the unique information is, for example, a name. If the name of the person 51 in the image in FIG. 3 is “Taro”, the unique information is “Taro”. If the name of the mountain 56 in the image in FIG. 4 is “Mt. Fuji”, the unique information is “Mt. Fuji”.
  • Information other than unique information may be added to the object information!
  • an adjective expression representing the general name of the photographing object and the form of the photographing object may be added.
  • the object information may be a character string made up of a general noun, proper noun and adjective (or adjective verb or other modifier or modifier) indicating the object to be photographed.
  • the object information is “human, Taro, cute”.
  • the object information is “mountain, Mt. Fuji, beautiful”.
  • the object to be photographed is a person, the person's occupation, age, gender, title, etc. may be further added to the object information.
  • the object to be photographed is a landscape such as a mountain, other related information may be further added.
  • object information By increasing the amount of information included, the determination by the object determination means 19 can be facilitated, and the accuracy of video editing can be increased.
  • the object information generating means 13 When the object information generating means 13 recognizes a plurality of photographing objects shown in the video corresponding to one data unit, the object information generating means 13 For each of these, unique information (for example, general noun + proper noun + adjective string) is generated and provided as a single object information. The structure of the object information will be described later with reference to FIG.
  • the object information generating means 13 may be provided with part information generating means 13A.
  • the part information generation means 13A recognizes the part of the object to be imaged and generates part information indicating this part.
  • the recognition of the part can be realized by using a well-known image recognition method.
  • an image database recorded on the first recording medium 22 or the second recording medium 23 can be used.
  • the data library recorded on the second recording medium by the library creating means 21 can be used. Thereby, recognition accuracy can be improved.
  • the object to be imaged is a human
  • the parts of the object to be imaged are a face, a torso, a hand, a leg, and the like.
  • the tail When the object to be imaged is an animal other than a human, for example, the tail also hits the part.
  • the object to be photographed is a plant, a flower, a branch, a leaf or the like hits the part.
  • the object to be photographed is an airplane, the body, main wings, tail wings, tires, etc. hit the area.
  • the part information generating means 13A can recognize the face 51A of a human 51 as the part of the object to be imaged.
  • the part information generation means 13A indicates that the recognized part is a human face 'body' hand'foot ', a natural flower' branch 'or leaf, or an airplane's body, main wing, tail, tire, etc. Generate information.
  • the object information generating means 13 may be provided with organ information generating means 13B.
  • the organ information generating means 13B recognizes the organ of the object to be imaged and generates organ information indicating this organ.
  • Organ recognition can be realized using a known image recognition method.
  • an image database recorded on the first recording medium 22 or the second recording medium 23 can be used.
  • the data library recorded on the second recording medium by the library creating means 21 can be used. Thereby, recognition accuracy can be improved.
  • the organ of the object to be imaged is, for example, the eyes, nose, mouth, ears when the object to be imaged is a human being. Etc.
  • the organ information generating means 13B can recognize the mouth 51B of the human 51 as the organ of the photographing object.
  • the organ information generation means 13B generates organ information indicating that the recognized organ is a human eye, nose, mouth or ear.
  • the date / time information acquisition means 14 acquires date / time information indicating the date and time when the video corresponding to each data unit was taken.
  • the date / time information is, for example, information indicating the year, month, day, and time when the video corresponding to each data unit was shot.
  • Image photographing means such as a digital video camera generally has a function of outputting information indicating photographing date and time together with video data.
  • the date / time information acquisition unit 14 acquires information indicating the shooting date and time output from the video shooting unit, and provides this as date / time information.
  • the location information acquisition means 15 acquires location information indicating the location where the video corresponding to each data unit was taken.
  • the location information is information indicating the latitude, longitude, and altitude of the position where the video corresponding to each data unit was taken.
  • Some video photographing means such as a digital video camera have a function of outputting information indicating a photographing position together with video data based on, for example, GPS (Global Positioning System) reception information.
  • the location information acquisition unit 15 acquires information indicating the shooting position output from the video shooting unit, and provides this as location information.
  • the recording unit 16 stores the object information generated by the object information generating unit 13, the date information generated by the date information acquiring unit 14, and the location information generated by the location information acquiring unit 15. 1Record on recording medium 22.
  • the recording means 16 collects the object information, date / time information and location information as one information group, and records this information group as content script information. Further, the recording means 16 associates the object information, the date / time information, and the location information with the data unit that generated or acquired these information. The correspondence between the target information, date / time information and location information and the data unit will be described later with reference to FIG. 7 and FIG.
  • the recording means 16 is configured to generate the part information or the organ information. Is recorded on the first recording medium 22.
  • the recording means 16 stores the part indicated by the part information.
  • the object information of the object related to the organ indicated by the organ information is associated with the part information or the organ information, and the part information or the organ information is incorporated into the content script information. As a result, the part information or organ information is recorded as part of the content script information.
  • the object determining means 17 determines the type, number, individuality, name or form of the object to be imaged based on the object information recorded on the first recording medium 22.
  • the object information includes at least unique information that can identify the object to be photographed.
  • the object determining means 17 can determine the type, number, individuality, name, mode, or other matters related to the object to be imaged by referring to this unique information. If the object information contains general nouns, proper nouns, and adjective (modifier) strings for the object being photographed, the object judging means 17 refers to the common nouns. Therefore, it is possible to easily and accurately determine the type of the photographing object.
  • the object judging means 17 can easily and accurately judge the individuality or name of the object to be photographed by referring to the proper noun.
  • the object determining means 17 can easily and accurately determine the mode of the object to be photographed by referring to the adjective (modifier). Further, when the object information generating means 13 is provided with the part information generating means 13A or the organ information generating means 13B to generate the part information or the organ information, the object determining means 17 includes the first recording medium. Based on the part information or organ information recorded in 22, the type, number, individuality, name or form of the part or organ of the object to be imaged is determined.
  • the date and time determination means 18 is based on the date and time information recorded on the first recording medium 22, and the time, time zone, date, day of the week, and time when the video corresponding to each data unit was shot. Determine other matters regarding the season or shooting date.
  • the date / time information is information indicating the year, month, day, and time when the video corresponding to each data unit was taken.
  • the date / time determining means 18 can easily and accurately determine the time when the video was shot by referring to the time indicated by the date / time information.
  • the date / time determining means 18 can easily and accurately determine the time zone when the video was shot by referring to the time indicated by the date / time information.
  • the time zone is, for example, early morning, morning, noon, night, midnight, snack time, and the like.
  • the date / time determination means 18 refers to the year, month or day indicated by the date / time information. This makes it possible to easily and accurately determine the date on which the video was shot. For example, by referring to the month and day, it can be determined that the day when the video was shot is an equinox day. In addition, by referring to the year, month, and day, the day of the week on which the video was shot can be determined. Further, the date / time determining means 18 can easily and accurately determine the time or season when the video was shot by referring to the year and month indicated by the date / time information.
  • the calendar information recorded in the first recording medium 22 or the second recording medium 23 may be referred to when the date / time determination means 18 makes the determination.
  • a data library recorded on the second recording medium by the library creating means 21 may be used. Thereby, recognition accuracy can be raised.
  • the location determination means 19 is the other about the position, location, region, country, or location where the video corresponding to each data unit was taken. Determine the matters.
  • the location information is information indicating the latitude, longitude, and altitude of the position where the video corresponding to each data unit was taken. By referring to the latitude, longitude, and altitude indicated by the location information, the location determination means 19 can easily and accurately determine the location, location, region, or country where the video was taken.
  • the map information recorded on the first recording medium 22 or the second recording medium 23 may be referred to when the place determination means 19 makes the determination.
  • the library recorded on the second recording medium by the library creating means 21 may be used. Thereby, recognition accuracy can be raised.
  • the editing means 20 performs automatic editing of video data based on the judgment by the object judgment means 17, the date / time judgment means 18 or the location judgment means 19 or a combination of judgments by these means.
  • the editing means 20 automatically edits video data based on the type, number, individuality, name, mode, or other items related to the shooting target.
  • the editing means 20 automatically edits the video data based on the time, time zone, year, month, day of the week, time, season, or other matters related to the shooting location when the video corresponding to each data unit was shot. I do.
  • the editing means 20 is based on the position, location, region, country, or other matters relating to the shooting location where the video corresponding to each data unit was shot. Automatic editing of video data.
  • the editing means 20 selects one required item from the items related to the object to be photographed, the items related to the shooting date and time, and the items related to the shooting location, or a combination of a plurality of items or all items. Use this to make comprehensive judgments and perform automatic editing according to the video content.
  • FIG. 2 shows the internal structure of the editing means 20.
  • the editing means 20 includes various means for performing video editing processing.
  • the editing means 20 controls these means to change the order of data units, change the playback speed, change colors, add transition effects, add sound effects, add music (BGM), add narration, add titles.
  • Perform video editing processing such as adding subtitles. Details of each means will be described later.
  • the library creating means 21 creates the data library by recording the object information, date / time information, or location information on a second recording medium that can be recorded and held for a long time together with the corresponding data unit. To do. Details of library creation will be described later with reference to FIGS.
  • the video editing device 1 operates as follows. First, the video data acquisition means 11 receives video data from the video shooting means and records it on the first recording medium 22. Subsequently, the video data dividing means 12 divides the video data into a plurality of data units. Subsequently, the object information generation means 13, the date information acquisition means 14, and the location information acquisition means 15 generate or acquire object information, date information, and location information for each data unit. Subsequently, the object determination means 17, the date / time determination means 18 and the location determination means 19 determine matters relating to the object to be imaged, the shooting date / time and the shooting location based on the object information, the date / time information and the location information. .
  • the editing means 20 automatically performs the video editing process based on the items related to the shooting target, the shooting date and time, and the shooting location.
  • the edited video data generated as a result of the video editing process is recorded on the first recording medium 22 or the second recording medium 23, for example.
  • a series of these operations in the video editing apparatus 1 is performed by the editor only pressing the editing start button provided on the operation unit (eg, control panel, not shown) of the video editing apparatus 1 once. Hope it will be done automatically at. [0057] However, acquisition of video data and automatic editing may be performed at different times. In this case, for example, the editor first transfers the video data to the first recording medium 22 of the video editing device 1 with the power of the video photographing means. On another day, the editor presses the editing start button of the video editing apparatus 1 to automatically edit the video data.
  • the process of generating or acquiring the object information, the date information and the location information, and the process of collecting and recording these pieces of information as content script information on the first recording medium 22 include the video data as the first recording medium. It may be executed when it is transferred to 22 or immediately after that. Alternatively, these processes may be executed immediately before the start of automatic editing of video data, that is, immediately after the editor presses the editing start button of the video editing device 1 on the other day. In addition, it is desirable that the judgment regarding the subject, the shooting date and time, and the shooting location should be performed immediately before the automatic editing process or during the automatic editing process.
  • FIG. 5 shows an example of the structure of video data.
  • the video data 61 includes a plurality of data units 62, 62,. That is, the video data 61 can be divided into a plurality of data units 62. As described above, various processes in the video editing apparatus 1 are performed mainly for each data unit. By finely dividing the video data 61 and reducing the size of each data set 62, fine video editing processing can be realized.
  • the data unit 62 should be a shot.
  • the time taken for continuous shooting is often 5 to 10 seconds at most. That is, for example, a photographer points a video camera at an object to be photographed, actually starts recording, performs continuous recording, and stops recording at most 5 to LO seconds.
  • a part of the video data generated by this continuous recording is a shot. Since shots are generated by continuous recording, there are many cases where there is a single unit from the viewpoint of the content of the video. For example, if a parent shoots a child participating in an athletic meet, the parent will continuously record the child who runs through from the start to the goal.
  • the shots generated in this way have a single set of content as a video of a child running in a race. Therefore, the shot is set as the data unit 62, the object to be photographed is recognized, the date and time information is obtained, and the location information is obtained.
  • Video editing in line with video content is performed by acquiring information, determining matters related to shooting objects, determining shooting date / time, determining shooting location issues, video editing, and creating a data library for each shot. Can be realized.
  • the data unit 62 may be a collection of data corresponding to images shot on the same day (with the same shooting date). That is, the video data 61 may be divided for each shooting date, and the divided individual video data pieces may be used as the data unit 62.
  • the shooting date changes the video content often changes greatly.
  • the video of the first shooting date (December 24) is a Christmas party video
  • the video of the second shooting date (January 1 of the following year) is the video of the first (or -Your Patty).
  • the video content varies greatly depending on the shooting date. Therefore, it is possible to realize video editing in accordance with the video content by using the data unit 62 as a collection of data corresponding to videos shot on the same day and performing video editing for each collection of data. .
  • FIG. 6 shows another example of the structure of video data.
  • the video data may have a hierarchical structure of three or more.
  • the video data is called movie 71.
  • the movie 71 is first divided into a plurality of stories 72.
  • each story 72 is divided into a plurality of scenes 73.
  • each scene 73 is divided into a plurality of shots 74.
  • the story 72 is a collection of data corresponding to videos shot on the same day (with the same shooting date).
  • Scene 73 is a collection of data corresponding to images with the same background.
  • the shot 74 is data corresponding to the video generated by continuous recording as described above.
  • the data unit is a story 72, a scene 73, and a shot 74. That is, the data unit changes according to processing. For example, recognition of an object to be photographed and determination of matters relating to the object to be photographed are performed for each shot 74. Date / date information acquisition and judgment regarding date / time information are made for each story 72. Acquisition of location information and determination of shooting location matters are performed for each scene 73. The playback order is changed every shot 74. The playback speed is changed for each scene 73. The transition effect is applied every 72, 73 or 74 shots. Add music (BGM) for each story 72 or scene 73. Titles are added for each story 72. Each process The choice of story 72, scene 73, or shot 74 can be changed as appropriate.
  • Fig. 7 shows an example of the correspondence between data units and content script information (object information, date / time information, and location information).
  • object information 81, the date / time information 82, and the location information 83 are arranged as a single piece of data called content script information 84.
  • content script information 84 corresponds to one data unit 85.
  • FIG. 8 shows the internal structure of one piece of content script information 84.
  • the object information generating means 13 recognizes a plurality of shooting objects shown in the video corresponding to one data unit
  • the object information generating means 13 For each target object, unique information and the like (for example, a general noun + proper noun + adjective string) are generated and provided together as a single object information 81.
  • information 81 A indicating the total number of the plurality of shooting objects l to n recognized in the video corresponding to one data unit is generated.
  • information unique to each of the plurality of objects to be photographed l to n is arranged as information 81B, 81B,.
  • Information 81A and information 81B are collected as one piece of object information 81 and arranged in one piece of content script information 84.
  • the object information generating unit 13 is provided with the part information generating unit 13 A or the organ information generating unit 13 B, the part information or the organ information is added to the content script information 84.
  • the part information or the organ information is associated with the object information of the object related to the part indicated by the part information or the organ indicated by the organ information. It is desirable to place part information or organ information for each object information.
  • part organ information 81D including both part information and organ information and part organ total number information 81C indicating the total number of part organ information 81D are arranged for each object information.
  • FIG. 9 shows another example of correspondence between data units and content script information.
  • the Video data force In the case of a hierarchical structure including movie 71, story 72, scene 73, and shot 74 force, one content script information 91 is associated with one movie 71. Further, one content script information 92 is associated with one story 72. Further, one piece of content script information 93 is associated with one scene 73. Further, one piece of content script information 94 is associated with one shot 74. Since there are usually a plurality of stories 72, scenes 73, and shots 74, there are content script information 92, 93, 94 corresponding to these numbers. The contents of the content information 91, 92, 93, and 94 are different as shown in FIG. In the example shown in FIG.
  • the content script information 91 includes movie title information 91A and story playback order information 91B.
  • the movie title information 91A is information indicating the title added by the title attaching means 40 (see FIG. 2).
  • the story playback order information 91B is information indicating the playback order of the story 72 set by the playback order changing means 30.
  • the content script information 92 includes story title information 92A and scene playback order information 92B.
  • the content script information 93 includes scene title information 93A, shot reproduction order information 93B, and music information 93C.
  • the content script information 94 includes reproduction speed information 94D, sound effect information 94E, shot title information 94F, etc. in addition to the object information 94A, the date / time information 94B, and the location information 94C.
  • the information 94F is information generated in the course of the video editing process by the editing means 20.
  • Video editing processing can be performed easily and with high accuracy. For example, if music tempo information is included in the music information 93C, subtitles whose movement speed changes in accordance with changes in the music tempo can be easily added to the video. [0067] (Various video editing process 1: Change of playback order)
  • the editing means 20 may include various means for performing video editing processing.
  • the reproduction order changing means 30 changes the reproduction order of the data units so as to be different from the actual shooting date and time.
  • the video editing apparatus 1 which is an embodiment of the present invention, based on object information, date / time information, location information, determination of matters relating to the shooting object, determination of matters relating to the shooting date / time, and determination of matters relating to the shooting location. Since the data unit playback order is changed, video editing can be realized according to the video content. For example, for the video corresponding to each data unit, the object information generating means 13 generates object information, and then the object determining means 17 is based on the object information (especially a general noun indicating a photographing object). To determine the type of object to be photographed.
  • the number of object to be imaged is determined based on information (information 81A in FIG. 8) indicating the total number of objects to be imaged. Then, the reproduction order changing means 30 changes the reproduction order of the data units based on the type and number of objects to be imaged.
  • FIG. 10 to FIG. 12 show the flow of such a playback order change process.
  • the reproduction order changing means 30 first determines whether or not the photographing object is a human or a pet (step Sl). When the object to be photographed is a human or a pet (step SI: YES), the reproduction order changing means 30 then compares the data unit that is currently being processed with the data unit that has been previously processed, It is determined whether or not the number of people or pets is changing (Step S2). When the number of humans or pets has changed (step S2: YES), the reproduction order changing means 30 executes a story editing process (step S3).
  • FIG. 11 shows the flow of the story editing process.
  • the reproduction order changing means 30 executes any one of the following three processes as shown in FIG.
  • the first process determines the playback order of data units so that the number of people or pets in the video increases (step Sl l).
  • the second process determines the number of data units so that the number of people or pets in the video is reduced (step S12).
  • the order of the data units is determined so that the number of humans or pets in the video repeats the increase II ⁇ decrease (step S13).
  • the reproduction order changing means 30 determines the reproduction order of the data units so that a video showing a person or a pet and a video showing a landscape are alternately arranged. Specifically, humans or pets are shown in the video corresponding to the data unit that is currently being processed. Therefore, the data unit that should be reproduced next to this data unit corresponds to the video showing the landscape. Select the data unit (step S14).
  • step S11 by determining the reproduction order of the data units so that the number of humans or pets in the video increases, it is possible to create a video that gradually becomes lively.
  • step S12 the video unit can be gradually calmed down by determining the data unit playback order so that the number of people or pets in the video is reduced.
  • Step S13 by changing the order of the data units so that the number of humans or pets in the video repeats increasing and decreasing, it is possible to produce a video with rich merino and reflexivity. It can be created.
  • step S14 by determining the playback order of the data units so that images of people or pets and images of landscapes are arranged alternately, a variety of merino and reproducible images can be obtained. Can be created.
  • a method of selecting one process from the three processes of step S11 to step S13 is performed as follows, for example. In other words, if the data unit currently targeted is located in the first half of the video data, the first process is selected. If the current data unit is located in the middle of the video data, select the second process. If the current day unit is located in the second half of the video data, select the third process. This selection may be made based on an instruction given by the editor.
  • step S1 when the object to be photographed is not a human or a pet (step S1: NO), or when the number of humans or pets has not changed (step S2: NO), the playback order is changed.
  • the means 30 executes landscape editing processing (step S4).
  • FIG. 12 shows the flow of landscape editing processing.
  • the reproduction order changing means 30 confirms whether the object to be photographed is a human or a pet as shown in FIG. 12 (step S21).
  • step S21: YES determine the playback order of the data units so that images of people or pets and images of landscapes are arranged alternately (step S22).
  • step S21: NO determine the playback order of the data units so that images of people or pets and images of landscapes are arranged alternately
  • the playback order of the data units is based on the average value of the luminance or hue of the video corresponding to the data unit. (Step S23).
  • the average value of the brightness or hue of the data unit currently being processed is compared with the average value of the brightness or hue of the data unit that was previously processed, and the average value of brightness or hue is gradually increased. Determine the playback order of the data units so that they increase or decrease.
  • step S22 by changing the playback order of the data units so that the images of humans or pets and the images of landscapes are arranged alternately, a variety of merino and reliable images Can be created. Further, in step S23, the change in the video can be made smooth by determining the reproduction order of the data units based on the average value of the luminance or hue of the video corresponding to the data unit.
  • the playback speed changing means 31 changes the playback speed of at least one data unit among the plurality of data units.
  • the video editing apparatus 1 it is possible to determine object information, date / time information, location information, matters relating to a shooting object, determination of matters relating to a shooting date, and matters relating to a shooting location. Based on this, the playback speed of the data unit is changed, so that video editing that matches the video content can be realized.
  • the object information generating means 13 generates object information
  • the object determining means 17 is object information (in particular, a general noun or proper noun indicating a photographing object).
  • the type or name of the object to be photographed is determined based on the above. Then, the reproduction speed changing means 31 determines whether or not there is a change in the photographing object in the video corresponding to the data unit. When the same shooting object is continuously displayed in the video where the shooting object does not change, the playback speed changing means 31 Increase the playback speed. As a result, it is possible to shorten the playback time of a video with little change, and to create a video without making the viewer feel bored.
  • the date / time information acquisition means 14 For the video corresponding to a certain data unit, the date / time information acquisition means 14 generates the date / time information, and the date / time determination means 18 continues to shoot the video corresponding to the data unit based on the date / time information. Judge the day. Then, the playback speed changing means 31 compares the current date and the shooting date. When the difference between the current date and the shooting date is large, for example, when there is a difference of about six months or more between the two, the playback speed of the start part of the data unit is slowed down. As a result, a slow motion effect can be created, and viewers can understand that the video is related to past events.
  • the video effect adding means 32 adds a video effect to a video corresponding to at least one data unit among a plurality of data units.
  • the video effect adding unit 32 includes a color changing unit 33 and a transition effect adding unit 34.
  • the color changing means 33 changes the color of the video corresponding to at least one data unit.
  • the video editing apparatus 1 which is an embodiment of the invention, based on object information, date / time information, location information, determination of matters relating to a shooting target, determination of matters relating to shooting date / time, and determination of matters relating to shooting location. Because the color of the video is changed, video editing that matches the video content can be realized. For example, for a video corresponding to a certain data unit V, the date / time information acquisition unit 14 generates date / time information, and then the date / time determination unit 18 captures a video corresponding to the data unit based on the date / time information. Determine the date.
  • the color changing means 33 compares the current date with the shooting date. When the difference between the current date and the shooting date is large, the color changing means 33 changes the color of the video corresponding to the data unit to monochrome or sepia. For example, if the difference between the current date and the shooting date is more than 3 months and less than half a year, the color of the video is set to monochrome, and the difference between the current date and the shooting date is greater than half a year Sometimes the color of the video is sepia. This allows viewers to understand that the video is about a past event.
  • the transition effect adding means 34 adds a transition effect (for example, an effect such as crossfade or dissolve) to an image corresponding to at least one data unit. .
  • a transition effect for example, an effect such as crossfade or dissolve
  • the video editing apparatus 1 which is an embodiment of the invention, based on object information, date / time information, location information, determination of matters relating to a shooting target, determination of matters relating to shooting date / time, and determination of matters relating to shooting location. Since a transition effect is added to the video, video editing that matches the video content can be realized. For example, for an image corresponding to a certain data unit, the object information generating means 13 generates object information, and then the object determining means 17 determines the type of the photographing object based on the object information.
  • the transition effect adding means 34 determines whether the object to be photographed is human or landscape based on the type of object to be photographed. When the photographing object is a human, the transition effect adding means 34 does not add a transition effect to the video. When the object to be photographed is a landscape, the transition effect adding means 34 adds a transition effect to the video. This makes it possible to add an appropriate accent to the video.
  • the audio adding means 35 adds audio to the video corresponding to at least one data unit among the plurality of data units.
  • the sound adding means 35 includes sound effect adding means 36, music-equipped car means 37, and narration-equipped car means 38.
  • the sound effect adding means 36 adds a sound effect to an image corresponding to at least one data unit.
  • the video editing apparatus 1 which is an embodiment of the invention, based on the object information, date information, location information, determination of matters relating to the shooting object, determination of matters relating to the shooting date, and determination of matters relating to the shooting location, Since sound effects are added to the video, video editing that matches the video content can be realized.
  • the object information generating unit 13 generates object information
  • the date / time information acquiring unit 14 generates date / time information.
  • the object judging means 17 judges the type of the photographing object based on the object information.
  • the date / time determining means 18 determines the season in which the video corresponding to the data unit was shot based on the date / time information. For example, when the type of the object to be photographed is a mountain and the season in which the image is photographed is summer, the sound effect adding means 36 adds a semi- or katsukou sound to the image corresponding to the data unit. As a result, it is possible to add an audio effect that matches the content of the video, and to create a video that is easy for the viewer to understand. [0083]
  • the music adding means 37 adds music (BGM) to video corresponding to at least one data unit.
  • the video editing apparatus 1 which is an embodiment of the invention, based on the object information, date information, location information, determination of matters relating to the shooting object, determination of matters relating to the shooting date, and determination of matters relating to the shooting location, Since music is added to the video, video editing that matches the video content can be realized. For example, for an image corresponding to a certain data unit, the object information generating means 13 generates object information, and then the object determining means 17 determines the type of the photographing object based on the object information. For example, when the type of object to be photographed is a mountain, the music adding means 37 adds music related to the mountain to the video. This makes it possible to create an image that is easy for the viewer to understand.
  • the object information includes an adjective expression indicating the object to be photographed, specifically, an adjective, an adjective verb, a modifier or a modifier phrase that describes the object to be photographed.
  • music that accurately reflects the video content can be added to the video.
  • the music adding means 37 selects a mountain from a plurality of songs related to the mountain. You can select music that expresses the grandeur of the music.
  • the location information acquisition means 15 For the video corresponding to a certain data unit, the location information acquisition means 15 generates location information, and then the location determination means 19 generates the video corresponding to the data mute based on the object information. Determine where the photo was taken. For example, if the location where the video was shot is Hawaii, add Hawaiian music to the video. This can increase the viewer's interest in the video.
  • the voice-over means 38 with narration adds a narration to the video corresponding to at least one data unit.
  • the video editing apparatus 1 which is an embodiment of the invention, based on the object information, date / time information, location information, determination of matters relating to the shooting object, determination of matters relating to the shooting date / time, and determination of matters relating to the shooting location, Since the narration is added to the video, video editing that matches the video content can be realized.
  • the object information generating means 13 the date and time information acquiring means 14 and the location information acquiring means 15 are respectively the object information, the date and time information and the video corresponding to the data unit. Generate location information.
  • the narration adding means 38 adds a narration including words such as the name of the subject to be photographed (for example, Taro), the photographing time zone (for example, morning), and the photographing location (for example, Kyoto) to the video. As a result, it is possible to add a narration that explains the video content in detail to the video.
  • the object information generating means 13 is provided with the part information generating means 13A or the organ information generating means 13B to generate the part information or organ information indicating the part or organ of the imaging target, Based on the organ information, the object judging means 17 judges the type, number, individuality, name or form of the part or organ of the object to be imaged, and the narration adding means 38 determines the part or organ of the object to be imaged. You can add narration that includes words related to name or aspect to the video.
  • the character attaching means 39 adds characters to the video corresponding to at least one data unit among the plurality of data units.
  • the character addition means 39 includes a title addition means 40 and a caption addition means 41.
  • the title adding means 40 adds a title to the video corresponding to at least one data unit.
  • the video editing apparatus 1 which is an embodiment of the invention, based on object information, date / time information, location information, determination of matters relating to the shooting object, determination of matters relating to the shooting date / time, and determination of matters relating to the shooting location.
  • video editing that matches the video content can be realized.
  • the date / time information acquisition means 14 generates the date / time information
  • the date / time determination means 18 captures the video corresponding to the data unit based on the date / time information.
  • the object information generating unit 13 generates object information
  • the date / time information acquiring unit 14 generates date / time information.
  • the object judging means 17 judges the name of the photographing object based on the object information.
  • date and time The disconnecting means 18 determines the time when the video corresponding to the data unit was shot based on the date / time information. For example, if the name of the subject to be photographed is Taro and the time when the video was shot is the summer vacation time, the title adding means 40 adds the title “Taro-kun's summer vacation” to the video. This allows titles that match the video content to be added to the video.
  • the date information acquisition unit 14 For the video corresponding to a certain data unit, the date information acquisition unit 14 generates date information, and the location information acquisition unit 15 generates location information. Subsequently, the date and time determination means 18 determines the date and time when the video corresponding to the data unit was shot based on the date and time information. Further, the location information judging means 19 judges the location where the video corresponding to the data unit was taken based on the location information. For example, when the shooting date is month 1 and the shooting location is Hawaii, the title adding means 40 adds a title “New Year in Hawaii” to the video. This allows you to add a title that matches the video content to the video.
  • the caption adding means 41 adds a caption to the video corresponding to at least one data unit.
  • the video editing apparatus 1 which is an embodiment of the invention, based on the object information, date information, location information, determination of matters relating to the shooting object, determination of matters relating to the shooting date, and determination of matters relating to the shooting location. Since subtitles are added to the video, video editing that matches the video content can be realized.
  • the object information generating means 13, the date / time information acquiring means 14 and the location information acquiring means 15 respectively acquire the object information, date / time information and Generate location information.
  • the object judging means 17 judges the name of the photographing object
  • the date and time judging means 18 judges the shooting time zone
  • the place judging means 19 judges the shooting location.
  • the caption adding means 41 adds a caption including characters such as the name of the subject to be photographed (for example, Taro), the photographing time zone (for example, morning), and the photographing location (for example, Kyoto) to the video.
  • subtitles describing the details of the video content can be attached to the video.
  • the object information generating means 13 is provided with the part information generating means 13A or the organ information generating means 13B to generate the part information or organ information indicating the part or organ of the object to be imaged
  • the part information Alternatively, based on the organ information, the object judging means 17
  • the type, number, individuality, name, or aspect of the part or organ of the object to be imaged is determined, and the caption adding means 41 adds a caption including words relating to the name or aspect of the part or organ of the object to be imaged to the video. can do.
  • FIG. 13 shows an example of a data library created by the library creating means 21 and recorded on the second recording medium 23.
  • the object information, date / time information, and location information generated / acquired during the video editing process are collected as one piece of content script information and recorded on the first recording medium 22.
  • the library creating means 21 reads the content script information and the data unit corresponding to the content script information from the first recording medium 22 and records them on the second recording medium 23.
  • the library creating means 21 arranges the content script information 101 and the data unit 102 next to each other. As a result, the correspondence between the content script information 101 and the data unit 102 can be clarified.
  • FIG. 14 shows another example of the data library created by the library creating means 21 and recorded on the second recording medium 23.
  • content script group information 111 including a plurality of pieces of content script information is arranged on the second recording medium 23, and subsequently, a plurality of data units 112 are arranged. Good.
  • a plurality of pieces of content script information respectively corresponding to a plurality of data units 112 are collected as one content script group information 111.
  • the video editing apparatus 1 generates information on the shooting target, the shooting date and time, and the shooting location for each data unit formed by dividing the video data. Alternatively, it is acquired, and based on these pieces of information, the type of shooting object, shooting date, shooting location, etc. are determined, and video editing is performed based on these determinations. This makes it possible to perform video editing that matches the video content. Therefore, it is possible to automatically edit a video that is easy for the viewer to understand without being bored. In addition, video editing that matches the video content can be performed.
  • the object information generating means 13 includes the part information generating means 13A or the organ information generating means.
  • Step 13B is provided to generate part information or organ information indicating the part or organ of the object to be imaged. Based on the part information or organ information, the type, name or mode of the part or organ of the object to be imaged is selected. If a configuration is adopted in which video editing is performed based on this determination, detailed video editing can be performed according to the video content.
  • the video editing apparatus 1 by generating and recording object information, date / time information, and location information, the object to be imaged, the date / time of shooting, and the image capturing can be obtained simply by referring to these information. Judgment of matters related to the place can be performed easily and accurately. For example, if the generation, acquisition, and recording of object information, date / time information, and location information are performed at the acquisition stage of video data, it is not necessary to analyze the video data at the determination stage. Therefore, it is possible to easily and accurately determine matters relating to the object to be photographed, the date and time of photographing, and the photographing place, and it is possible to speed up video editing.
  • the video editing apparatus 1 includes a set of object information generation means 13 and object determination means 17 that perform processing related to a shooting object, date and time information acquisition means 14 that performs processing related to shooting date and time, and date determination means 18.
  • a set of location information acquisition means 15 and location determination means 19 for performing processing relating to the set and shooting location is provided.
  • the video editing means may be provided with only a set of object information generating means and object judging means for performing processing related to the photographing object.
  • the video editing unit may be provided with only a set of date information acquisition unit and date determination unit that performs processing related to the shooting date.
  • the video editing means may be provided with only a set of location information acquisition means and location determination means for performing processing relating to the shooting location.
  • the video data dividing means 12 may be eliminated.
  • the editing means 20 of the video editing apparatus 1 includes a number of means for performing video editing processing as shown in FIG. 2, but may not include all of the means shown in FIG. Also, video editing processing means other than the means shown in FIG. 2 may be added to the video editing apparatus 1.
  • FIG. 15 shows a modification of the video editing apparatus of the present invention.
  • the same components as those of the video editing device 1 shown in FIG. are identical to those of the video editing device 1 shown in FIG.
  • the feature of the video editing apparatus 200 is that it recognizes the sound emitted from the object to be photographed and matches the position of the object to be photographed on the screen with the position where the sound of the object to be photographed is generated. Let's select the output channel that should output the sound emitted from the object.
  • the constituent elements newly provided in the video editing apparatus 200 for realizing such features are object information generation means 201, voice recognition information generation means 202, voice output means 204, and output channel selection means 205. is there.
  • the object information generating means 201 recognizes the object to be photographed included in the video corresponding to each data unit in substantially the same manner as the object information generating means 13 described above. Further, the object information generating means 201 also recognizes the position of the photographing object on the screen. Then, the object information generating unit 201 generates object information indicating the imaging object and the position of the imaging object. The position of the object to be imaged on the screen is specified as shown in FIG. 16, for example. First, the two-dimensional coordinates where the X axis extending in the vertical direction of the frame area and the Y axis extending in the horizontal direction intersect at right angles are set on this frame area. Then, the outer edge of the area occupied by the object to be photographed in the frame area is, for example, four coordinate values: upper left (X, y), upper right (X, y), lower left
  • the object information generating means 201 may include part information generating means 201A.
  • the part information generation means 201A is similar to the part information generation means 13A described above, and Recognize the site. Furthermore, the part information generation unit 201A also recognizes the position of the part on the screen. Then, the part information generation unit 201A generates part information indicating the part and the position of the part on the screen.
  • the part information generation unit 201A includes, for example, four coordinate values of the outer edge of the area occupied by the part of the imaging target in the frame area: upper left (X, y), upper right (X, y), lower left (X, y) , Point with the lower right (X, y)
  • the object information generating means 201 may be provided with organ information generating means 201B.
  • the organ information generating unit 201B recognizes the organ of the object to be imaged in substantially the same manner as the organ information generating unit 13B described above. Furthermore, the organ information generation means 201B also recognizes the position of the organ on the screen. Then, the organ information generating unit 201B generates organ information indicating the organ and the position of the organ on the screen. As shown in FIG. 17, the organ information generating means 201B uses, for example, an outer edge of the region occupied by the organ of the object to be imaged (the mouth in the example of FIG. 17) as four coordinate values: upper left (X , Y), upper right (X, y), lower left (X, y), lower right (X, y)
  • the voice recognition information generating means 202 recognizes a voice emitted from the object to be photographed and generates voice recognition information indicating this voice. Specifically, the voice recognition information generating unit 202 first recognizes the object to be photographed, subsequently identifies the sound emitted from the object to be photographed from other sounds, and subsequently reproduces the reproduction start time and the reproduction of the sound. Measure time. Subsequently, the speech recognition information generating unit 202 attaches an identification symbol (ID) to the speech, and combines the identification symbol, information indicating the playback start time of the speech, and information indicating the playback time in the speech recognition information. Include.
  • the voice recognition information generating means 202 can be realized by an arithmetic processing circuit and a semiconductor memory, for example. For voice recognition in the voice recognition information generating means 202, a known voice recognition method can be employed.
  • the recording means 203 associates the object information with the voice recognition information, and records them on the first recording medium 22 as content stablished information. That is, the recording means 203 has object information indicating a certain object to be imaged and audio recognition indicating sound emitted from the object to be imaged. Associate knowledge information. Further, in the case where the part information generating unit 201A or the organ information generating unit 201B is provided, the recording unit 203 further associates the part information or organ information with the object information, and collects them as content script information. Record in the first recording medium 22. In other words, the recording means 203 associates the part information or the object information with the object information of the object related to the part indicated by the part information or the organ indicated by the organ information.
  • the audio output means 204 has a plurality of output channels.
  • the audio output means 204 has eight output channels 204A to 204H as shown in FIG.
  • Each output channel 204A NA! /, 204A, speaker 210A NA! /, 210F, 211A, 211B are connected.
  • the speakers 210A to 210F are each a flat speaker that is transparent and formed in a sheet shape. These flat speakers are arranged in a plane parallel to the display screen of the display device 220 and are superimposed on the display screen.
  • the speakers 211 A and 211 B are attached to both sides of the display device 220.
  • the output channel selection means 205 determines the position on the screen of the photographic object and the position where the sound emitted from the photographic object is generated. Select the output channel to which the sound emitted from the subject is to be output.
  • the output channel selecting means 205 includes the object information, the part information and the voice recognition information recorded on the first recording medium 22. Based on this, the output to be output from the part of the imaging target should match the position of the part of the imaging target in the screen and the position where the sound generated by the part force of the imaging target matches. Select a channel.
  • the output channel selecting means 205 recognizes the object information, organ information and voice recognition recorded in the first recording medium 22. Based on the information, the sound emitted from the organ of the object to be imaged is matched with the position on the screen of the organ of the object to be imaged and the generation position of the sound emitted from the organ of the object to be imaged. Select the output channel to output.
  • FIG. 19 shows an example of output channel selection processing by the output channel selection means 205. As shown in FIG. 19, the output channel selection means 205 first reads the object information and the voice recognition information from the first recording medium 22 (step S31).
  • the output channel selection means 205 determines based on the object information and the voice recognition information whether or not the photographing object is the background and the sound emitted from the photographing object is the background sound. (Step S32) Subsequently, when the object to be photographed is the background and the sound emitted from the object to be photographed is the background sound (step S32: YES), the output channel selecting means 205 selects the output channels 204G and 204H ( Step S33). As a result, the background sound is output to the speakers 211A and 211B via the output channels 204G and 204H. That is, the background audio is output from the speakers 211A and 21 IB attached to both sides of the display device 220.
  • the output channel selection means 205 outputs the output channel. Select either 204A or 204F.
  • an individual is an object other than the background, such as a human being or a pet that is greatly reflected on the screen.
  • An individual sound is a sound emitted from an individual, for example, a human voice or a clapping sound.
  • the part information generation unit 201B is provided in the object information generation unit 201 will be described as an example, and the selection of the output channel 204A or 204F in the output channel selection unit 205 will be specifically described.
  • the output channel selection means 205 displays organ information associated with the speech recognition information of the sound. 1 Read from the recording medium 22 (step S34). Subsequently, the output channel selection means 205 identifies the organ of the object to be imaged, that is, the position on the screen of the mouth 230A of the human 230 based on the organ information (step S35). Next, the output channel selection means 205 selects a speaker arranged at a position corresponding to the position on the screen of the mouth 230A from the speakers 210A to 210F, and then outputs the output channels 204A to 204F. Nakatsuru et al.
  • step S36 Selects an output channel connected to the selected speaker (step S36).
  • the position of the mouth 230A on the screen corresponds to the position of the speaker 210A in FIG. . Therefore, the output channel 204A connected to the speaker 210A is selected by the output channel selection means 205. Therefore, the sound having the mouth 230A force is output from the speaker 210A through the output channel 204A.
  • the position on the screen of the part of the object to be imaged matches the position where the sound generated by the region force of the object to be imaged is generated. As a result, realistic video and audio editing can be realized.
  • FIG. 20 shows an example of the correspondence between data units and content script information (object information and voice recognition information).
  • object information 241 and the speech recognition information 242 are arranged as a single piece of data called content script information 243. It is desirable that one piece of content script information 243 is associated with one data unit 244. As a result, the output channel selection process can be performed easily and accurately.
  • FIG. 21 shows the internal structure of one piece of object information 241.
  • object information 251 for each object 1 to n and information 252 indicating the total number of objects are arranged.
  • Individual object information 251 includes information 253 indicating the object ID, object information body 254, information 255 indicating the range of the object on the screen, information 256 indicating the sound ID, and the object information.
  • Information 257 indicating the total number of parts' organs related to the target indicated by the information and organ information 258 related to the target indicated by the target information are arranged.
  • part information 'organ information 258 information 259 indicating the part ⁇ organ ID and information 260 indicating the range of the part and the range of the organ are arranged.
  • information 261 indicating four coordinate values on the frame region of the part or organ is arranged in the information 260 indicating the part range 'organ range.
  • the object ID is a unique symbol for specifying the object.
  • the object information body is unique information for identifying the object such as “Taro” and “Mt. Fuji” described above.
  • the voice ID is a unique symbol for identifying the voice.
  • the site ID is a unique symbol for specifying the site.
  • the organ ID is a unique symbol for identifying the organ.
  • the voice ID arranged in the target object information plays a role of associating the target object information 251 with the voice recognition information 277.
  • FIG. 22 shows the internal structure of one piece of speech recognition information 242.
  • background speech recognition information 271 and individual speech recognition information 272 are arranged.
  • Background audio In the recognition information 271, information 273 indicating a sound ID, information 274 indicating a playback start time of background sound, and information 275 indicating a playback time of background sound are arranged.
  • information 276 indicating the total number of individual speech recognition information for individual speech and speech recognition information 277 for each individual speech are arranged.
  • the voice recognition information 277 for each individual voice includes information 278 indicating the voice ID, information 279 indicating the playback start time of the individual voice, information 280 indicating the playback time of the individual voice, and the object ID.
  • the information 281 indicating is arranged.
  • the object ID is an object ID assigned to the object information 251 corresponding to the speech recognition information 277 for each individual sound.
  • the object ID arranged in the voice recognition information plays a role of associating the voice recognition information 277 with the object information 251.
  • FIG. 23 shows another example of the correspondence between data units and content script information.
  • FIG. 23 shows a case of a hierarchical structure composed of a video data power movie 291, a screen 291, a scene 293, a screen 294, and a frame 295.
  • Movie 291, story 292, scene 293, and shot 294 are the same as movie 71, story 72, scene 73, and shot 74 shown in FIG. 6.
  • a frame 295 means a frame of an image included in the shot 294.
  • the voice recognition information 242 is associated with the shot 294. That is, the voice recognition information 242 is generated for each shot 294, and information management is performed so as to maintain the correspondence with the shot 294.
  • the object information 241 is associated with the frame 295. That is, the object information 241 is generated for each frame 295, and information management is performed so as to maintain the correspondence with the frame 295.
  • the number of output channels of the audio output means 204 is eight in the video editing apparatus 200, the number of output channels is not limited in the video editing apparatus of the present invention. Also, the number or arrangement of the speaker forces 210A to 210F, 211A, 21 IB can be changed.
  • the speaker 210A to 210F is a flat speaker, and the power is arranged so as to overlap the screen of the display apparatus 220.
  • the video editing apparatus of the present invention is not limited to this point. For example, it was built in a box-shaped housing It is also possible to use a configuration in which five speakers are prepared and placed on the front, left front, right front, left rear, and right rear of the viewer.
  • the selection of the output channel in the output channel selection means 205 is not limited to the method of selecting one output channel as described above. For example, by selecting two or more output channels at the same time and setting the volume balance of each selected output channel, the position of the sound image localization of the sound is determined, and this determines the position of the object to be photographed on the screen. It is also possible to adopt a configuration in which the generation position of the sound emitted from the subject to be photographed is matched.
  • the same effect as the video editing apparatus 1 can also be realized by implementing the video editing method described below.
  • a video data acquisition process for acquiring video data including a plurality of data units, and a shooting target included in the video corresponding to each data unit are recognized, and this shooting target is detected.
  • An object information generating step for generating object information including unique information that can identify an object a recording step for recording the object information on a recording medium, and an object information recorded on the recording medium.
  • the second video editing method includes a video data acquisition process for acquiring video data including a plurality of data units, and date / time information acquisition for acquiring date / time information indicating the date / time when the video corresponding to each data unit was shot.
  • the third video editing method includes a video data acquisition process for acquiring video data including a plurality of data units, and location information acquisition for acquiring location information indicating a location where the video corresponding to each data unit was shot.
  • a process corresponding to each data unit based on the process, a recording process for recording the location information on the recording medium, and the location information recorded on the recording medium.
  • a location determination process that determines the position, location, region, or country where the image was taken; an editing step that automatically edits video data based on the location, location, region, or country where the video corresponding to each data unit was captured; Talk with you.
  • a video data acquisition process for acquiring video data including a plurality of data units, a shooting target included in a video corresponding to each data unit, and a position of the shooting target in the screen are recognized, and the shooting target and Object information generation step for generating object information indicating the position of the object to be imaged, and voice recognition information generation for recognizing sound emitted from the object to be imaged and generating sound recognition information indicating the sound
  • the object information and the voice recognition information are associated with each other and recorded on the first recording medium, the sound output process having a plurality of output channels, and the object recorded on the first recording medium.
  • the computer is used as object information generation means, date and time information acquisition means, place acquisition means, recording means, object determination means, date and time determination means, place determination means, editing means, and library creation means. It can be realized by creating a control program to be operated and reading it into a computer.
  • the video editing apparatus 200 described above creates a control program that causes a computer to operate as object information generation means, audio information generation means, recording means, audio output means, output channel selection means, and the like. This can be realized by loading into.
  • FIG. 24 shows a DVD recorder with a built-in hard disk as a first embodiment of the video editing apparatus of the present invention.
  • the DVD recorder 120 has a video input terminal 121 based on the IEEE1394 standard!
  • a digital video power camera 122 is connected to the video input terminal 121.
  • Video data is output from the digital video camera 122 by user operation.
  • Video data output from the digital video camera 122 is input to the recording unit 124 via the video input terminal 121 and the interface circuit 123.
  • the recording unit 124 compresses the encoded video data and encodes it into the MPEG format. Then, the recording unit 124 transfers the encoded video data to the node disk drive 125.
  • the hard disk drive 125 records this video data on the internal disk.
  • the interface circuit 123 is a specific example of video data acquisition means.
  • the hard disk drive 125 is a specific example of the first recording medium.
  • the data editing unit 126 reads the video data recorded on the internal disk of the hard disk drive 125. This is recorded in a RAM (random access memory) provided in the data editing unit 126. Subsequently, the data editing unit 126 divides the video data into a plurality of data units. Subsequently, the data editing unit 126 generates or obtains object information, date / time information, and location information for each data unit, consolidates them, and transfers them to the hard disk drive 125 as content script information. The hard disk drive 125 records the transferred content script information on the internal disk.
  • the data editing unit 126 is a specific example of video data dividing means, object information generating means, date / time information acquiring means, location information acquiring means, and recording means.
  • the data editing unit 126 determines the matters relating to the photographing object, the matters relating to the photographing date, and the photographing location based on the object information, the date information and the photographing information. Make a judgment of the matter. Subsequently, the data editing unit 126 performs video editing processing based on the determination result of the matter regarding the photographing object, the determination result of the matter regarding the shooting date and time, and the determination result of the matter regarding the shooting location.
  • Video The data collection process includes changing the order of data units, changing playback speed, changing colors, adding transition effects, adding sound effects, adding music (BGM), adding narration, adding titles, adding subtitles, etc. Processing is included.
  • the word dictionary 127 supports processing such as narration addition, title addition, or caption addition by the data editing unit 126.
  • the user can give necessary information to the data compilation by voice input or operation input.
  • the data editing unit 126 transfers the edited video data whose editing has been completed to the hard disk drive 125.
  • the hard disk drive 125 records the edited video data on the internal disk.
  • the data editing unit 126 is also a specific example of the object determination unit, the date / time determination unit, the place determination unit, and the editing unit.
  • the image / sound reproduction unit 128 can reproduce the edited video data recorded by the hard disk drive 125 in accordance with the control of the image / sound control unit 129.
  • the reproduced video of the edited video data is output to the monitor 130, and the audio is output to the speaker 131.
  • the edited video data recorded by the hard disk drive 125 can be recorded on the DVD 133 by the DVD recording unit 132.
  • the library control unit 134 obtains the content script information (object information, date / time information, and location information) generated by the data editing unit 126 from the data editing unit 126 or via the hard disk drive 125. This is transferred to the DVD recording unit 132 together with the corresponding data unit. The DVD recording unit 132 records the transferred content script information and data unit on the DVD 133. In this way, the library control unit 134 creates a data library composed of content script information and data units.
  • the library control unit 134 is a specific example of library creation means.
  • DVD133 is a specific example of the second recording medium.
  • the system control unit 135 controls various operations of the DVD recorder 120.
  • FIG. 25 shows a DVD recorder according to the second embodiment of the present invention.
  • the DVD recorder 140 includes a network control unit 141.
  • DVD player The coder 140 can transmit / receive video data, edited video data, a data library, and the like to / from other video editing devices and the like via the network control unit 141.
  • Example 3
  • FIG. 26 shows a DVD recorder that is the third embodiment of the present invention.
  • the DVD recorder 150 includes an audio recording unit 151.
  • the audio recording unit 151 receives audio data from the audio device 154 connected to the DVD recorder 150 via the audio input terminal 152 and the interface circuit 153. Then, the audio recording unit 151 transfers this audio data to the node disk drive 125.
  • the hard disk drive 125 records this audio data on the internal disk.
  • the data editing unit 126 adds an image or a video to the audio data recorded by the hard disk drive 125 using the still image library or moving image library recorded on the hard disk drive 125 or DVD 133. This makes it easy to create music content with images, video or visual effects.
  • the video editing apparatus, the video editing method, and the computer program for performing video editing according to the present invention can be used for, for example, a video editing apparatus that automatically edits video data shot by a video camera or the like.
  • the present invention can also be used in video editing devices that are mounted on or connectable to various computer equipment for consumer use or business use.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

 映像データを分割することによって形成されるデータユニットごとに、撮影対象物、撮影日時および撮影場所に関する情報を生成または取得し、これらの情報に基づいて、撮影対象物の種類、撮影年月日、撮影場所などを判断し、これらの判断に基づいて、映像内容に即した映像編集を行う。

Description

明 細 書
映像編集装置、映像編集方法および映像編集を行うためのコンピュータ プログラム
技術分野
[0001] 本発明は、例えばビデオカメラなどにより撮影された映像のデータを自動編集する 映像編集装置、映像編集方法およびコンピュータプログラムに関する。
背景技術
[0002] 従来から、ビデオカメラで撮影した映像を編集する作業は、映画制作、テレビ番組 制作、あるいは企業のプロモーション活動のための映像制作などの目的で行われて いる。このような映像編集は、専門家によって行われるのが一般的である。
[0003] 他方、最近では、優れた映像処理能力を有するパーソナルコンピュータの普及や、 安価なデジタルビデオカメラの普及により、映像編集は、個人のプライベートビデオ 制作あるいは家族のホームビデオ制作などの目的でも行われるようになった。このよ うな映像編集は、パーソナルコンピュータの操作に慣れた一般人によって行われるこ とが多い。例えば、親力 入学式や卒業式、運動会などに参加している子をビデオ力 メラで撮影し、そして、子の成長過程を友人に見せる目的で、撮影した映像を、パー ソナルコンピュータを用いて編集することがある。
[0004] さらに、今日では、パーソナルコンピュータの機能を取り込んだデジタル家電の開 発が進められている。例えば、デジタル情報家電の分野では、映像編集機能を備え た DVDレコーダの開発が進められている。家電製品は、誰にでも手軽に操作できる ほどに、きわめて優れた操作性が要求される。映像編集機能を備えた DVDレコーダ においてこの要求を満たす 1つの方法は、映像編集の自動化である。そこで、今日で は、映像の自動編集に関する研究が進められている。例えば、特開 2004— 32763 号公報には、ビデオコンポジションを自動的にォーサリングする方法が記載されて!ヽ る。
[0005] 特許文献 1 :特開 2004— 32763号公報
発明の開示 発明が解決しょうとする課題
[0006] 映像の自動編集の性能を高めるためには、変化に富んで 、て、視聴者を退屈させ ない、メリノ、リのある映像の自動編集を実現することが望ましい。また、適切なタイトル や字幕が付加されており、視聴者が理解しやすい映像の自動編集を実現することが 望ましい。
[0007] しかし、視聴者が退屈せずかつ理解しやす!/、映像を自動編集することは容易では ない。例えば、単に各ショットを短くカットしてつなげるだけでは、必ずしも変化に富ん だ映像にはならない。また、単にショットの切り替わりにトランジシヨン効果などの映像 効果を付加するだけでは、十分にメリノ、リのある映像にならない。また、単に音楽 (B GM)を付けるだけでは、退屈な映像になってしまう場合がある。また、視聴者の理解 を助けるためのタイトルや字幕を、編集者による入力なしに自動的に付加することは きわめて困難である。
[0008] 本出願の発明者は、映像内容に合致した映像効果、音響効果およびタイトルなど を映像に自動的に付加することができれば、視聴者が退屈せずかつ理解しやすい映 像を自動編集することができると考えた。
[0009] しかし、このような自動編集を実現するためには、映像内容の自動認識技術、映像 内容に合致した映像効果 '音響効果の自動選択技術、および映像内容に合致したタ ィトル文字の自動選択技術など、いくつかの未解決な技術的課題を克服しなければ ならない。なお、上述した特開 2004— 32763号公報には、このような技術について 詳細な記載がない。
[0010] 本発明は上記に例示したような問題点に鑑みなされたものであり、本発明の第 1の 課題は、視聴者が退屈せずかつ理解しやすい映像の自動編集を行うことができる映 像編集装置、映像編集方法およびコンピュータプログラムを提供することにある。
[0011] また、本発明の第 2の課題は、映像内容に合致した映像編集を行うことができる映 像編集装置、映像編集方法およびコンピュータプログラムを提供することにある。
[0012] また、本発明の第 3の課題は、臨場感のある映像および音声の編集を実現すること ができる映像編集装置、映像編集方法およびコンピュータプログラムを提供すること にある。 課題を解決するための手段
[0013] 上記課題を解決するために本発明の第 1映像編集装置は、複数のデータユニット を含む映像データを取得する映像データ取得手段と、前記各データユニットに対応 する映像に含まれる撮影対象物を認識し、この撮影対象物を特定することができる固 有の情報を含む対象物情報を生成する対象物情報生成手段と、前記対象物情報を 第 1記録媒体に記録する記録手段と、前記第 1記録媒体に記録された前記対象物情 報に基づいて、前記撮影対象物の種類、個数、個性、名または態様を判断する対象 物判断手段と、前記対象物判断手段の判断結果に基づいて、前記映像データの自 動編集を行う編集手段とを備えて 、る。
[0014] 上記課題を解決するために本発明の第 2映像編集装置は、複数のデータユニット を含む映像データを取得する映像データ取得手段と、前記各データユニットに対応 する映像が撮影された日時を示す日時情報を取得する日時情報取得手段と、前記 日時情報を第 1記録媒体に記録する記録手段と、前記第 1記録媒体に記録された前 記日時情報に基づいて、前記各データユニットに対応する映像が撮影された時刻、 時間帯、年月日、曜日、時期または季節を判断する日時判断手段と、前記日時判断 手段の判断結果に基づ!、て、前記映像データの自動編集を行う編集手段とを備え ている。
[0015] 上記課題を解決するために本発明の第 3映像編集装置は、複数のデータユニット を含む映像データを取得する映像データ取得手段と、前記各データユニットに対応 する映像が撮影された場所を示す場所情報を取得する場所情報取得手段と、前記 場所情報を第 1記録媒体に記録する記録手段と、前記第 1記録媒体に記録された前 記場所情報に基づ 、て、前記各データユニットに対応する映像が撮影された位置、 場所、地域または国を判断する場所判断手段と、前記場所判断手段の判断結果に 基づ 、て、前記映像データの自動編集を行う編集手段とを備えて 、る。
[0016] 上記課題を解決するために本発明の第 4映像編集装置は、複数のデータユニット を含む映像データを取得する映像データ取得手段と、前記各データユニットに対応 する映像に含まれる撮影対象物および当該撮影対象物の画面中の位置を認識し、 前記撮影対象物および当該撮影対象物の位置を示す対象物情報を生成する対象 物情報生成手段と、前記撮影対象物から発せられる音声を認識し、この音声を示す 音声認識情報を生成する音声認識情報生成手段と、前記対象物情報と前記音声認 識情報とを対応づけ、これらを第 1記録媒体に記録する記録手段と、複数の出力チヤ ンネルを有する音声出力手段と、前記第 1記録媒体に記録された前記対象物情報 および前記音声認識情報に基づいて、前記撮影対象物の画面中の位置と当該撮影 対象物から発せられる音声の発生位置とがー致するように、当該撮影対象物から発 せられる音声を出力すべき出力チャンネルを選択する出力チャンネル選択手段とを 備えている。
[0017] 上記課題を解決するために本発明の第 1映像編集方法は、複数のデータユニット を含む映像データを取得する映像データ取得工程と、前記各データユニットに対応 する映像に含まれる撮影対象物を認識し、この撮影対象物を特定することができる固 有の情報を含む対象物情報を生成する対象物情報生成工程と、前記対象物情報を 記録媒体に記録する記録工程と、前記記録媒体に記録された前記対象物情報に基 づいて、前記撮影対象物の種類、個数、個性、名または態様を判断する対象物判断 工程と、前記対象物判断工程における判断結果に基づいて、前記映像データの自 動編集を行う編集工程とを備えて ヽる。
[0018] 上記課題を解決するために本発明の第 2映像編集方法は、複数のデータユニット を含む映像データを取得する映像データ取得工程と、前記各データユニットに対応 する映像が撮影された日時を示す日時情報を取得する日時情報取得工程と、前記 日時情報を記録媒体に記録する記録工程と、前記記録媒体に記録された前記日時 情報に基づいて、前記各データユニットに対応する映像が撮影された時刻、時間帯 、年月日、曜日、時期または季節を判断する日時判断工程と、前記日時判断工程に おける判断結果に基づいて、前記映像データの自動編集を行う編集工程とを備えて いる。
[0019] 上記課題を解決するために本発明の第 3映像編集方法は、複数のデータユニット を含む映像データを取得する映像データ取得工程と、前記各データユニットに対応 する映像が撮影された場所を示す場所情報を取得する場所情報取得工程と、前記 場所情報を記録媒体に記録する記録工程と、前記記録媒体に記録された前記場所 情報に基づいて、前記各データユニットに対応する映像が撮影された位置、場所、 地域または国を判断する場所判断工程と、前記場所判断工程における判断結果に 基づ 、て、前記映像データの自動編集を行う編集工程とを備えて 、る。
[0020] 上記課題を解決するために本発明の第 4映像編集方法は、複数のデータユニット を含む映像データを取得する映像データ取得工程と、前記各データユニットに対応 する映像に含まれる撮影対象物および当該撮影対象物の画面中の位置を認識し、 前記撮影対象物および当該撮影対象物の位置を示す対象物情報を生成する対象 物情報生成工程と、前記撮影対象物から発せられる音声を認識し、この音声を示す 音声認識情報を生成する音声認識情報生成工程と、前記対象物情報と前記音声認 識情報とを対応づけ、これらを第 1記録媒体に記録する記録工程と、複数の出力チヤ ンネルを有する音声出力工程と、前記第 1記録媒体に記録された前記対象物情報 および前記音声認識情報に基づいて、前記撮影対象物の画面中の位置と当該撮影 対象物から発せられる音声の発生位置とがー致するように、当該撮影対象物から発 せられる音声を出力すべき出力チャンネルを選択する出力チャンネル選択工程とを 備えている。
[0021] 上記課題を解決するために本発明のコンピュータプログラムは、コンピュータを本発 明の第 1ないし第 4映像編集装置として機能させる。
[0022] コンピュータ読取可能な媒体内のコンピュータプログラム製品は上記課題を解決す るために、コンピュータにより実行可會なプログラム命令を明白に具現ィ匕し、該コンビ ユータを、本発明の第 1ないし第 4映像編集装置として機能させる。
[0023] 本発明のコンピュータプログラム製品によれば、当該コンピュータプログラム製品を 格納する ROM、 CD-ROM, DVD-ROM,ハードディスク等の記録媒体から、当 該コンピュータプログラム製品をコンピュータに読み込めば、或いは、例えば伝送波 である当該コンピュータプログラム製品を、通信手段を介してコンピュータにダウン口 ードすれば、上述した本発明の第 1ないし第 4映像編集装置を比較的容易に実施可 能となる。更に具体的には、当該コンピュータプログラム製品は、上述した本発明の 第 1な 、し第 4映像編集装置として機能させるコンピュータ読取可能なコード (或 、は コンピュータ読取可能な命令)から構成されてよい。 [0024] 本発明のこのような作用及び他の利得は次に説明する実施形態及び実施例から 更に明らかにされる。
図面の簡単な説明
[0025] [図 1]本発明の映像編集装置の実施形態の構造を示すブロック図である。
[図 2]図 1中の編集手段の内部構造を示すブロック図である。
[図 3]データユニットに対応する映像の一例を示す説明図である。
[図 4]データユニットに対応する映像の他の例を示す説明図である。
[図 5]映像データの構造の一例を示す説明図である。
[図 6]映像データの構造の他の例を示す説明図である。
[図 7]データユニットとコンテンツスクリプト情報との対応関係の一例を示す説明図で ある。
[図 8]コンテンツスクリプト情報の構造を示す説明図である。
[図 9]データユニットとコンテンツスクリプト情報との対応関係の他の例を示す説明図 である。
[図 10]データユニットの再生順序入替処理を示すフローチャートである。
[図 11]物語編集処理を示すフローチャートである。
[図 12]風景編集処理を示すフローチャートである。
[図 13]データライブラリの一例を示す説明図である。
[図 14]データライブラリの他の例を示す説明図である。
[図 15]本発明の映像編集装置の変形態様の構造を示すブロック図である。
[図 16]本発明の映像編集装置の変形態様における撮影対象物の画面上の位置の 特定方法を示す説明図である。
[図 17]本発明の映像編集装置の変形態様における撮影対象物の器官の画面上の 位置の特定方法を示す説明図である。
[図 18]本発明の映像編集装置の変形態様におけるスピーカの配置を示す説明図で ある。
[図 19]本発明の映像編集装置の変形態様における出力チャンネル選択処理を示す フローチャートである。 [図 20]本発明の映像編集装置の変形態様におけるデータユニットと対象物情報'音 声認識情報との対応関係の一例を示す説明図である。
[図 21]本発明の映像編集装置の変形態様における対象物情報の構造を示す説明 図である。
[図 22]本発明の映像編集装置の変形態様における音声認識情報の構造を示す説 明図である。
[図 23]本発明の映像編集装置の変形態様におけるデータユニットと対象物情報 '音 声認識情報との対応関係の他の例を示す説明図である。
[図 24]本発明の映像編集装置の第 1実施例である DVDレコーダの構造を示すプロ ック図である。
[図 25]本発明の映像編集装置の第 2実施例である DVDレコーダの構造を示すプロ ック図である。
[図 26]本発明の映像編集装置の第 3実施例である DVDレコーダの構造を示すプロ ック図である。
符号の説明
1, 200 映像編集装置
11 映像データ取得手段
12 映像データ分割手段
13、 201 対象物情報生成手段
13A、201A 部位情報生成手段
13B、 201B 器官情報生成手段
14 日時情報取得手段
15 場所情報取得手段
16、 203 記録手段
17 対象物判断手段
18 日時判断手段
19 場所判断手段
20 編集手段 21 ライブラリ作成手段
204 音声出力手段
205 出力チャンネル選択手段
発明を実施するための最良の形態
[0027] 以下、本発明を実施するための最良の形態について実施例毎に順に図面を参照 しながら説明する。
[0028] (映像編集装置)
図 1は、本発明の映像編集装置の実施形態を示している。図 1に示す映像編集装 置 1は、例えばビデオカメラなどの映像撮影手段により撮影された映像のデータを自 動編集する装置である。映像編集装置 1は、映像編集専用の独立した製品として巿 場に提供される場合もある。また、映像編集装置 1は、ビデオレコーダ、 DVDレコー ダ、録画機能を備えた多機能型テレビなどの映像記録装置に組み込まれて、市場に 提供される場合もある。
[0029] 図 1に示すように、映像編集装置 1は、映像データ取得手段 11、映像データ分割 手段 12、対象物情報生成手段 13、日時情報取得手段 14、場所情報取得手段 15、 記録手段 16、対象物判断手段 17、日時判断手段 18、場所判断手段 19、編集手段 20およびライブラリ作成手段 21を備えている。さらに、映像編集装置 1には、第 1記 録媒体 22および第 2記録媒体 23が接続されている。
[0030] 映像データ分割手段 12、対象物情報生成手段 13、 日時情報取得手段 14、場所 情報取得手段 15、対象物判断手段 17、日時判断手段 18、場所判断手段 19、編集 手段 20およびライブラリ作成手段 21はそれぞれ、演算処理回路、高速アクセス可能 な半導体記憶回路およびこれらを制御する制御プログラムなど、情報処理を行うため の一般的なハードウェアおよびソフトウェアを用いて実現することができる。
[0031] 第 1記録媒体 22は、主としてデータを一時的に記録することを目的とする記録媒体 である。第 1記録媒体 22は、例えば書換可能な半導体メモリまたはハードディスクが 望ま ヽが、書換可能な光ディスクまたは書換可能な光磁気ディスクなどでもよ ヽ。 一方、第 2記録媒体 23は、主としてデータを長期間保存することを目的とする記録媒 体である。第 2記録媒体 23は、例えば記録可能または書換可能な光ディスク、記録 可能または書換可能な光磁気ディスクまたはハードディスクなどが望ましい。
[0032] 映像データ取得手段 11は、例えばビデオカメラなどの映像撮影手段により撮影さ れた映像のデータ(以下、これを「映像データ」という。)を取得する。映像データ取得 手段 11は、例えば、映像撮影手段と映像編集装置 1とを接続するためのインターフ イス回路である。一例をあげて具体的に説明すると、ビデオカメラに設けられた映 像データ出力端子と、映像撮影装置 1に設けられた映像データ入力端子 11Aとを接 続する。そして、映像データ取得手段 11は、ビデオカメラとの間に通信を確立する。 そして、映像データ取得手段 11は、ビデオカメラから送信される映像データを受信す る。映像データ取得手段 11と映像撮影手段との間の接続には、 IEEE1394 (the Ins titute of Electrical and Electronics Engineers
Figure imgf000011_0001
(Universal Sen al Bus)規格を用いることができる。
[0033] 映像データは、デジタルデータであることが望ましい。映像データのフォーマットに は、例えば DV規格に基づくフォーマットを採用することができる。また、映像データ のフォーマットに、ビデオテープレコーダ(VTR)に関する他の規格に基づくフォーマ ットを採用してもよい。また、映像データのフォーマットに、 MPEG (Moving Picture E xperts Group)規格などに基づく高圧縮方式のフォーマットを採用することもできる。 映像データ取得手段 11として用いるインターフェイス回路は、映像データのフォーマ ットに応じて適宜選択することが望ましい。
[0034] 映像データ取得手段 11により取得された映像データは、第 1記録媒体 22に記録す ることが望ましい。なお、映像撮影手段から取り込んだ映像データを映像編集装置 1 における映像編集に適した映像データに変換するデータ変換手段 (例えばコンパ一 タまたはエンコーダなど)を、映像データ取得手段 11に追加してもよい。この場合に は、変換後の映像データを第 1記録媒体 22に記録することが望ましい。
[0035] 映像データ分割手段 12は、映像データを複数のデータユニットに分割する。映像 データ分割手段 12による映像データの分割方法には、様々な方法を採用することが できる。例えば、映像データをショットごとに分割する方法を採用してもよい。また、映 像データを撮影日付ごとに分割する方法を採用してもよい。映像データの分割方法 は、映像データの構造に応じて適宜選択することが望ましい。映像データの構造に ついては図 5および図 6を参照しながら後に説明する。
[0036] 映像データがショットごとに分割された場合には、データユニットはショットである。ま た、映像データが撮影日付ごとに分割された場合には、データユニットは、同一の日 に撮影された(同一の撮影日付が付された)映像に対応するデータの集まりである。 映像編集装置 1における種々の処理は、主としてデータユニットごとに行われる。例 えば、対象物情報生成手段 13による撮影対象物の認識、日時情報取得手段 14によ る日時情報の取得、場所情報取得手段 15による場所情報の取得、対象物判断手段 17による判断、日時判断手段 18による判断、場所判断手段 19による判断、編集手 段 20による編集処理、およびライブラリ作成手段 21によるライブラリ作成処理は、主 としてデータユニットごとに行われる。
[0037] 対象物情報生成手段 13は、各データユニットに対応する映像に含まれる撮影対象 物を認識し、この撮影対象物を特定することができる固有の情報を含む対象物情報 を生成する。撮影対象物とは、映像の中に映っている物である。例えば、撮影対象物 とは、映像データを構成する複数のフレームのうちの少なくとも 1個のフレームに対応 する画像の全部または一部であって、人間が 1個の物または 1個の物の集合であると 視覚的に認識することができるものである。図 3は、 1個のフレームに対応する映像( 画像)の例を示している。この映像の中央には人間 51が映っており、左側にはブラン コ 52が映っており、右側には花 53および鳥 54などが映っている。したがって、この映 像における撮影対象物は、人間 51、ブランコ 52、花 53および鳥 54などである。図 4 は、別の 1個のフレームに対応する映像 (画像)の例を示している。この映像の中央に は山 56が映っており、下側には木々 57が映っている。したがって、この映像における 撮影対象物は、山 56および木々 57である。
[0038] 対象物情報生成手段 13は、各データユニットに対応する映像に含まれる撮影対象 物のすべてを認識することができる。しかし、対象物情報生成手段 13が認識する撮 影対象物を絞り込むことが望ましい。例えば、映像の中でもっとも大きく映っている撮 影対象物、あるいは映像の中でもっとも長時間映っている撮影対象物だけを、対象 物情報生成手段 13が認識する構成としてもよい。この場合、対象物情報生成手段 1 3は、図 3に示す画像の中の人間 51だけを認識する。また、対象物情報生成手段 14 は、図 4に示す画像の中の山 56だけを認識する。このように、対象物情報生成手段 1 3の認識範囲を絞り込むことにより、対象物判断手段 19による判断を容易にすること ができ、また、映像編集の精度を高めることができる。
[0039] なお、対象物情報生成手段 13が認識する撮影対象物を、必ずしも、 1データュニッ トにっき、または 1フレームにっき、 1個に絞り込む必要はない。例えば、 1データュ- ットまたは 1フレームに対応する映像の中に大きく映っている撮影対象物または長時 間映って!/、る撮影対象物が複数ある場合には、これら複数の対象物をそれぞれ認識 してちよい。
[0040] 撮影対象物の認識は、周知の画像認識方法を用いて実現することができる。撮影 対象物の認識を行うときには、第 1記録媒体 22または第 2記録媒体 23に記録された 画像データベースを用いることができる。また、ライブラリ作成手段 21により第 2記録 媒体に記録されたデータライブラリを用いることができる。これにより、認識精度を高 めることができる。
[0041] 対象物情報生成手段 13は、撮影対象物を認識した後、対象物情報を生成する。
対象物情報生成手段 13は、データユニットごとに対象物情報を生成する。対象物情 報には、対象物情報生成手段 13により認識された撮影対象物を特定することができ る固有の情報が含まれる。固有の情報は、例えば名である。図 3中の画像の人間 51 の名前が「太郎」であるならば、固有の情報は、「太郎」である。図 4中の画像の山 56 の名称が「富士山」であるならば、固有の情報は、「富士山」である。
[0042] 対象物情報には、固有の情報以外の情報を追加してもよ!、。例えば、撮影対象物 の一般名称および撮影対象物の態様を表す形容表現を追加してもよい。より具体的 には、対象物情報を、撮影対象物を示す一般名詞、固有名詞および形容詞 (または 形容動詞その他の修飾語ないし修飾句)からなる文字列としてもよい。例えば、撮影 対象物が図 3に示す画像の人間 51の場合には、対象物情報は、「人間、太郎、かわ いい」である。また、撮影対象物が図 4に示す画像の山 56の場合には、対象物情報 は、「山、富士山、壮大な」である。撮影対象物が人間の場合には、対象物情報に、 その人間の職業、年齢、性別、役名などをさらに追加してもよい。また、撮影対象物 が山などの風景の場合にも、他の関連情報をさらに追加してもよい。対象物情報に 含まれる情報量を増やすことにより、対象物判断手段 19による判断を容易にすること ができ、また、映像編集の精度を高めることができる。
[0043] 対象物情報生成手段 13が、 1個のデータユニットに対応する映像に映っている複 数の撮影対象物を認識した場合には、対象物情報生成手段 13は、複数の撮影対象 物のそれぞれについて固有の情報など (例えば一般名詞 +固有名詞 +形容詞の文 字列)を生成し、これらをまとめて 1個の対象物情報として提供する。対象物情報の構 造については、図 8を参照しながら後に説明する。
[0044] 対象物情報生成手段 13には、部位情報生成手段 13Aを設けてもよい。部位情報 生成手段 13Aは、撮影対象物の部位を認識し、この部位を示す部位情報を生成す る。部位の認識は、周知の画像認識方法を用いて実現することができる。部位の認 識を行うときには、第 1記録媒体 22または第 2記録媒体 23に記録された画像データ ベースを用いることができる。また、ライブラリ作成手段 21により第 2記録媒体に記録 されたデータライブラリを用いることができる。これにより、認識精度を高めることがで きる。撮影対象物の部位は、例えば撮影対象物が人間の場合には、顔、胴体、手、 足などである。撮影対象物が人間以外の動物である場合には、例えば尾なども部位 に当たる。撮影対象物が植物である場合には、花、枝、葉などが部位に当たる。撮影 対象物が飛行機の場合には、胴体、主翼、尾翼、タイヤなどが部位に当たる。例えば 、図 3に示すように、部位情報生成手段 13Aは、人間 51の顔 51Aを撮影対象物の 部位として認識することができる。部位情報生成手段 13Aは、認識された部位が人 間の顔'胴体 '手'足、直物の花 '枝'葉、または飛行機の胴体 ·主翼'尾翼 ·タイヤな どであることを示す部位情報を生成する。
[0045] 対象物情報生成手段 13には、器官情報生成手段 13Bを設けてもよい。器官情報 生成手段 13Bは、撮影対象物の器官を認識し、この器官を示す器官情報を生成す る。器官の認識は、周知の画像認識方法を用いて実現することができる。器官の認 識を行うときには、第 1記録媒体 22または第 2記録媒体 23に記録された画像データ ベースを用いることができる。また、ライブラリ作成手段 21により第 2記録媒体に記録 されたデータライブラリを用いることができる。これにより、認識精度を高めることがで きる。撮影対象物の器官は、例えば撮影対象物が人間の場合には、目、鼻、口、耳 などである。例えば、図 3に示すように、器官情報生成手段 13Bは、人間 51の口 51B を撮影対象物の器官として認識することができる。器官情報生成手段 13Bは、認識さ れた器官が人間の目、鼻、口または耳などであることを示す器官情報を生成する。
[0046] 日時情報取得手段 14は、各データユニットに対応する映像が撮影された日時を示 す日時情報を取得する。 日時情報は、例えば、各データユニットに対応する映像が 撮影された年、月、日および時刻を示す情報である。デジタルビデオカメラなどの映 像撮影手段は、一般に、撮影日時を示す情報を映像データと共に出力する機能を 備えている。 日時情報取得手段 14は、映像撮影手段から出力された撮影日時を示 す情報を取得し、これを日時情報として提供する。
[0047] 場所情報取得手段 15は、各データユニットに対応する映像が撮影された場所を示 す場所情報を取得する。場所情報は、各データユニットに対応する映像が撮影され た位置の緯度、経度および高度を示す情報である。デジタルビデオカメラなどの映像 撮影手段には、例えば GPS (Global Positioning System)受信情報に基づいて撮影 位置を示す情報を、映像データと共に出力する機能を備えているものがある。場所 情報取得手段 15は、映像撮影手段から出力された撮影位置を示す情報を取得し、 これを場所情報として提供する。
[0048] 記録手段 16は、対象物情報生成手段 13により生成された対象物情報、 日時情報 取得手段 14により生成された日時情報、および場所情報取得手段 15により生成さ れた場所情報を、第 1記録媒体 22に記録する。記録手段 16は、対象物情報、日時 情報および場所情報を記録するとき、対象物情報、日時情報および場所情報を、 1 個の情報群としてまとめ、この情報群をコンテンツスクリプト情報として記録する。また 、記録手段 16は、対象物情報、 日時情報および場所情報を、これらの情報を生成ま たは取得したデータユニットと対応づける。対象情報、日時情報および場所情報とデ ータユニットとの対応づけについては、図 7および図 9を参照しながら後に説明する。 また、対象物情報生成手段 13に部位情報生成手段 13 Aまたは器官情報生成手段 1 3Bを設け、部位情報または器官情報を生成する構成とした場合には、記録手段 16 は、部位情報または器官情報を第 1記録媒体 22に記録する。部位情報または器官 情報を第 1記録媒体 22に記録するとき、記録手段 16は、当該部位情報の示す部位 または当該器官情報の示す器官に関連する対象物の対象物情報と部位情報または 器官情報とを対応づけると共に、部位情報または器官情報をコンテンツスクリプト情 報に組み込む。これにより、部位情報または器官情報は、コンテンツスクリプト情報の 一部として記録される。
[0049] 対象物判断手段 17は、第 1記録媒体 22に記録された対象物情報に基づいて、撮 影対象物の種類、個数、個性、名または態様を判断する。対象物情報には、少なくと も撮影対象物を特定することができる固有の情報が含まれている。対象物判断手段 17は、この固有の情報を参照することにより、撮影対象物の種類、個数、個性、名、 態様または撮影対象物に関するその他の事項を判断することができる。また、撮影対 象物についての一般名詞、固有名詞および形容詞 (修飾語)の文字列が対象物情 報に含まれている場合には、対象物判断手段 17は、一般名詞を参照することにより 、撮影対象物の種類を容易かつ正確に判断することができる。また、対象物判断手 段 17は、固有名詞を参照することにより、撮影対象物の個性または名を容易かつ正 確に判断することができる。また、対象物判断手段 17は、形容詞 (修飾語)を参照す ることにより、撮影対象物の態様を容易かつ正確に判断することができる。また、対象 物情報生成手段 13に部位情報生成手段 13 Aまたは器官情報生成手段 13Bを設け 、部位情報または器官情報を生成する構成とした場合には、対象物判断手段 17は、 第 1記録媒体 22に記録された部位情報または器官情報に基づ 、て、撮影対象物の 部位または器官の種類、個数、個性、名または態様を判断する。
[0050] 日時判断手段 18は、第 1記録媒体 22に記録された日時情報に基づ 、て、各デー タユニットに対応する映像が撮影された時刻、時間帯、年月日、曜日、時期、季節ま たは撮影日時に関するその他の事項を判断する。 日時情報は、各データユニットに 対応する映像が撮影された年、月、日および時刻を示す情報である。 日時判断手段 18は、日時情報により示された時刻を参照することにより、映像が撮影された時刻を 容易かつ正確に判断することができる。また、日時判断手段 18は、日時情報により示 された時刻を参照することにより、映像が撮影された時間帯を容易かつ正確に判断 することができる。時間帯とは、例えば、早朝、朝、昼、夜、深夜、おやつの時間など である。また、日時判断手段 18は、日時情報により示された年、月または日を参照す ることにより、映像が撮影された年月日を容易かつ正確に判断することができる。例え ば、月および日を参照することにより、映像が撮影された日が春分の日であることを 判断することができる。また、年、月および日を参照することにより、映像が撮影され た曜日を判断することができる。また、日時判断手段 18は、 日時情報により示された 年および月を参照することにより、映像が撮影された時期または季節を容易かつ正 確に判断することができる。時期とは、例えば、学校に入学する時期、運動会が催さ れる時期、株主総会が開かれる時期、田植えの時期、梅雨の時期、オリンピックが開 催される時期などである。なお、 日時判断手段 18が判断を行うときに、第 1記録媒体 22または第 2記録媒体 23に記録されたカレンダー情報を参照してもよい。また、ライ ブラリ作成手段 21により第 2記録媒体に記録されたデータライブラリを用いてもよい。 これにより、認識精度を高めることができる。
[0051] 場所判断手段 19は、第 1記録媒体 22に記録された場所情報に基づいて、各デー タユニットに対応する映像が撮影された位置、場所、地域、国または撮影場所に関す るその他の事項を判断する。場所情報は、各データユニットに対応する映像が撮影さ れた位置の緯度、経度および高度を示す情報である。場所判断手段 19は、場所情 報により示された緯度、経度および高度を参照することにより、映像が撮影された位 置、場所、地域または国を容易かつ正確に判断することができる。なお、場所判断手 段 19が判断を行うときに、第 1記録媒体 22または第 2記録媒体 23に記録された地図 情報を参照してもよい。また、ライブラリ作成手段 21により第 2記録媒体に記録された ライブラリを用いてもよい。これにより、認識精度を高めることができる。
[0052] 編集手段 20は、対象物判断手段 17、 日時判断手段 18または場所判断手段 19〖こ よる判断、または、これらの手段による判断の組合せにより、映像データの自動編集 を行う。すなわち、編集手段 20は、撮影対象物の種類、個数、個性、名、態様または 撮影対象物に関するその他の事項に基づいて、映像データの自動編集を行う。また 、編集手段 20は、各データユニットに対応する映像が撮影された時刻、時間帯、年 月日、曜日、時期、季節または撮影場所に関するその他の事項に基づいて、映像デ ータの自動編集を行う。また、編集手段 20は、各データユニットに対応する映像が撮 影された位置、場所、地域、国または撮影場所に関するその他の事項に基づいて、 映像データの自動編集を行う。編集手段 20は、これら、撮影対象物に関する事項、 撮影日時に関する事項および撮影場所に関する事項の中から必要な 1個の事項を 選択し、または複数の事項を組み合わせて、またはすベての事項を用いて総合的に 判断して、映像内容に即した自動編集を行う。
[0053] 図 2は、編集手段 20の内部構造を示している。図 2に示すように、編集手段 20は、 映像編集処理を行うための様々な手段を備えている。編集手段 20は、これらの手段 を制御し、データユニットの順序入替、再生速度変更、色変更、トランジシヨン効果の 付加、音響効果の付加、音楽 (BGM)の付加、ナレーションの付加、タイトルの付加、 字幕の付加などの映像編集処理を行う。個々の手段の詳細については後に説明す る。
[0054] ライブラリ作成手段 21は、対象物情報、日時情報または場所情報を、これに対応 するデータユニットと共に長期間記録保持可能な第 2記録媒体に記録することによつ て、データライブラリを作成する。ライブラリの作成の詳細については、図 13および図 14を参照しながら後に説明する。
[0055] 映像編集装置 1は、以下のように動作する。まず、映像データ取得手段 11が、映像 撮影手段から映像データを受け取り、これを第 1記録媒体 22に記録する。続いて、映 像データ分割手段 12が映像データを複数のデータユニットに分割する。続いて、対 象物情報生成手段 13、日時情報取得手段 14および場所情報取得手段 15が、各デ ータユニットについて、対象物情報、日時情報、場所情報を生成または取得する。続 いて、対象物判断手段 17、日時判断手段 18および場所判断手段 19が、対象物情 報、 日時情報、場所情報に基づいて、撮影対象物、撮影日時および撮影場所に関 する事項を判断する。続いて、編集手段 20が、撮影対象物、撮影日時および撮影場 所に関する事項に基づいて、映像編集処理を自動的に行う。映像編集処理の結果 生成された編集映像データは、例えば、第 1記録媒体 22または第 2記録媒体 23に 記録される。
[0056] 映像編集装置 1における、これらの一連の動作は、編集者が、例えば映像編集装 置 1の操作部(例えばコントロールパネル、図示せず)に設けられた編集開始ボタンを 1度押すだけで自動的に実行されることが望まし 、。 [0057] もっとも、映像データの取得と自動編集とは別の時に行うことができるようにしてもよ い。この場合には、例えば、編集者がまず映像撮影手段力も映像編集装置 1の第 1 記録媒体 22に映像データを転送する。そして、別の日に、編集者が映像編集装置 1 の編集開始ボタンを押して、映像データの自動編集を行う。この場合、対象物情報、 日時情報および場所情報を生成または取得する処理、および、これらの情報をコン テンッスクリプト情報としてまとめて第 1記録媒体 22に記録する処理は、映像データ が第 1記録媒体 22に転送される時またはその直後に実行してもよい。また、そうでは なぐこれらの処理を、映像データの自動編集が開始される直前、すなわち、編集者 が前記別の日に映像編集装置 1の編集開始ボタンを押した直後に実行してもよい。 なお、撮影対象物、撮影日時および撮影場所に関する事項の判断は、自動編集処 理の直前または自動編集処理の最中に実行することが望ま 、。
[0058] (映像データの構造)
図 5は、映像データの構造の一例を示している。映像データ 61は、複数のデータュ ニット 62、 62、…を含んでいる。すなわち、映像データ 61は、複数のデータユニット 6 2に分割することができる。上述したように、映像編集装置 1における種々の処理は、 主としてデータユニットごとに行われる。映像データ 61を細力べ分割し、各データュ- ット 62のサイズを小さくすれば、きめ細かい映像編集処理を実現することができる。
[0059] データユニット 62は、ショットであることが望ま ヽ。撮影者がビデオカメラなどの映 像撮影手段を用いて撮影を行うとき、連続して撮影を行う時間はたかだカゝ 5〜 10秒 であることが多い。すなわち、例えば撮影者が撮影対象物にビデオカメラを向け、実 際に録画を開始し、連続的な録画を行い、そして録画を停止するまでの時間は、た かだか 5〜: LO秒であることが多い。この連続的な録画により生成された映像データの 1部がショットである。ショットは、連続的な録画により生成されているため、映像の内 容的な観点力もみて、 1個のまとまりがある場合が多い。例えば、運動会の徒競走に 出場している子どもをその親が撮影する場合、親は、徒競走のスタートからゴールま でを一気に走り抜ける子どもを連続的に録画するであろう。このようにして生成された ショットは、徒競走を走る子どもの映像として、内容的に 1個のまとまりがある。したが つて、ショットをデータユニット 62とし、撮影対象物の認識、 日時情報の取得、場所情 報の取得、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、撮影 場所に関する事項の判断、映像編集、およびデータライブラリの作成をショットごとに 行うことにより、映像内容に即した映像編集を実現することができる。
[0060] また、データユニット 62を、同一の日に撮影された(同一の撮影日付が付された)映 像に対応するデータの集まりとしてもよい。すなわち、映像データ 61を撮影日付ごと に分割し、分割された個々の映像データ片をデータユニット 62としてもよい。撮影の 日付が変わると、映像内容が大きく変化することが多い。例えば、第 1の撮影日(12 月 24日)の映像がクリスマスパーティの映像で、第 2の撮影日(翌年の 1月 1日)の映 像が初詣 (または-ユーィヤーパティ一)の映像である場合には、撮影日の違いによ つて映像内容が大きく変化する。したがって、同一の日に撮影された映像に対応する データの集まりをデータユニット 62とし、このデータの集まりごとに映像編集などを行 うことにより、映像内容に即した映像編集を実現することができる。
[0061] 図 6は、映像データの構造の他の例を示している。図 6に示すように、映像データを 3以上の階層構造としてもよい。図 6に示す階層構造によれば、映像データはムービ 一 71と呼ばれる。そして、ムービー 71はまず複数のストーリー 72に分割される。続い て、各ストーリー 72は、複数のシーン 73に分割される。続いて、各シーン 73は、複数 のショット 74に分割される。例えば、ストーリー 72は、同一の日に撮影された(同一の 撮影日付が付された)映像に対応するデータの集まりである。シーン 73は、同じ背景 が続く映像に対応するデータの集まりである。ショット 74は、上述したように、連続的 な録画により生成された映像に対応するデータである。このような階層構造の場合、 データユニットは、ストーリー 72であり、シーン 73であり、ショット 74である。すなわち、 処理に応じてデータユニットが変化する。例えば、撮影対象物の認識、撮影対象物 に関する事項の判断は、ショット 74ごとに行う。 日時情報のうち年月日の取得、年月 日に関する事項の判断は、ストーリー 72ごとに行う。場所情報の取得、撮影場所に関 する事項の判断は、シーン 73ごとに行う。また、再生順序の入れ替えはショット 74ご とに行う。再生速度の変更は、シーン 73ごとに行う。トランジシヨン効果の付カ卩はスト 一リー 72、シーン 73またはショット 74ごとに行う。音楽(BGM)の付カ卩はストーリー 72 またはシーン 73ごとに行う。タイトルの付カ卩は、ストーリー 72ごとに行う。なお、各処理 の対象として、ストーリー 72、シーン 73およびショット 74のいずれを選択するかは、適 宜変更することができる。
[0062] (コンテンツスクリプト情報)
図 7は、データユニットとコンテンツスクリプト情報 (対象物情報、日時情報および場 所情報)との対応づけの一例を示している。図 7に示すように、対象物情報 81、日時 情報 82および場所情報 83は、コンテンツスクリプト情報 84という 1個のデータのまと まりとして配列することが望ましい。そして、 1個のコンテンツスクリプト情報 84を 1個の データユニット 85に対応させることが望ましい。これにより、撮影対象物に関する事項 の判断、撮影日時に関する事項の判断、撮影場所に関する事項の判断、および映 像編集を容易かつ正確に行うことが可能となる。
[0063] 図 8は、 1個のコンテンツスクリプト情報 84の内部構造を示している。上述したように 、対象物情報生成手段 13が、 1個のデータユニットに対応する映像に映っている複 数の撮影対象物を認識した場合には、対象物情報生成手段 13は、複数の撮影対象 物のそれぞれについて固有の情報など (例えば一般名詞 +固有名詞 +形容詞の文 字列)を生成し、これらをまとめて 1個の対象物情報 81として提供する。この場合、 1 個のデータユニットに対応する映像中において認識された複数の撮影対象物 l〜n の総数を示す情報 81 Aが生成される。さら〖こ、複数の撮影対象物 l〜nのそれぞれ について固有の情報など (例えば一般名詞 +固有名詞 +形容詞の文字列)が情報 8 1B、 81B、…として配列される。そして、情報 81Aおよび情報 81Bは、 1個の対象物 情報 81としてまとめられ、 1個のコンテンツスクリプト情報 84中に配置される。
[0064] 対象物情報生成手段 13に、部位情報生成手段 13 Aまたは器官情報生成手段 13 Bを設けた場合には、コンテンツスクリプト情報 84中に、部位情報または器官情報が 追加される。部位情報または器官情報は、部位情報の示す部位または器官情報の 示す器官に関連する対象物の対象物情報と対応づけられる。部位情報または器官 情報は対象物情報ごとに配置することが望ましい。図 8に示す例では、部位情報およ び器官情報の双方を含む部位器官情報 81Dと、部位器官情報 81Dの総数を示す 部位器官総数情報 81Cとが、対象物情報ごとに配置されている。
[0065] 図 9は、データユニットとコンテンツスクリプト情報との対応づけの他の例を示してい る。映像データ力 ムービー 71、ストーリー 72、シーン 73およびショット 74力もなる階 層構造である場合には、 1個のムービー 71に 1個のコンテンツスクリプト情報 91が対 応づけられる。また、 1個のストーリー 72に 1個のコンテンツスクリプト情報 92が対応 づけられる。また、 1個のシーン 73に 1個のコンテンツスクリプト情報 93が対応づけら れる。また、 1個のショット 74に 1個のコンテンツスクリプト情報 94が対応づけられる。 ストーリー 72、シーン 73およびショット 74はそれぞれ、通常、複数存在するので、こ れらの個数に対応する個数のコンテンツスクリプト情報 92、 93、 94が存在する。コン テンッスクリプト情報 91、 92、 93、 94の内容は、図 9に示すようにそれぞれ異なる。 また、図 9に示す例では、コンテンツスクリプト情報 91、 92、 93、 94に、対象物情報 94A、 日時情報 94Bおよび場所情報 94C以外の情報が追加されている。コンテンツ スクリプト情報 91には、ムービータイトル情報 91Aおよびストーリー再生順序情報 91 Bが含まれている。これらは、ムービータイトル情報 91Aは、タイトル付カ卩手段 40 (図 2 参照)によって付加されたタイトルを示す情報である。ストーリー再生順序情報 91Bは 、再生順序変更手段 30によって設定されたストーリー 72の再生順序を示す情報であ る。同様に、コンテンツスクリプト情報 92には、ストーリータイトル情報 92Aおよびシー ン再生順序情報 92Bが含まれている。また、コンテンツスクリプト情報 93には、シーン タイトル情報 93A、ショット再生順序情報 93Bおよび音楽情報 93Cが含まれて 、る。 コンテンツスクリプト情報 94には、対象物情報 94A、 日時情報 94Bおよび場所情報 9 4C以外に、再生速度情報 94D、音響効果情報 94E、ショットタイトル情報 94Fなどが 含まれている。ムービータイトル情報 91 A、ストーリー再生順序情報 91B、ストーリー タイトル情報 92A、シーン再生順序情報 92B、シーンタイトル情報 93A、ショット再生 順序情報 93B、音楽情報 93C、再生速度情報 94D、音響効果情報 94Eおよびショ ットタイトル情報 94Fなどは、編集手段 20による映像編集処理の過程で生成された 情報である。映像編集処理の過程で生成された情報をコンテンツスクリプト情報 91、 92、 93、 94【こ含めて、ムーヒ、、一 71、ストーリー 72、シーン 73およびショット 74【こ対応 づけることにより、次段階の映像編集処理を容易かつ高精度に行うことが可能となる 。例えば、音楽情報 93Cに音楽のテンポ情報を含ませておけば、音楽のテンポ変化 に合わせて移動速度が変化する字幕を映像に容易に付加することができる。 [0067] (様々な映像編集処理 1:再生順序入替)
以下、図 2および図 10、図 11、図 12を参照しながら、編集手段 20による様々な映 像編集処理について説明する。図 2に示すように、編集手段 20は、映像編集処理を 行うための様々な手段を備えて ヽる。
[0068] 再生順序入替手段 30は、データユニットの再生順序を、現実の撮影日時とは異な る順序となるように入れ替える。本発明の実施形態である映像編集装置 1によれば、 対象物情報、 日時情報、場所情報、撮影対象物に関する事項の判断、撮影日時に 関する事項の判断、および撮影場所に関する事項の判断に基づいて、データュニッ トの再生順序の入替を行うので、映像内容に即した映像編集を実現することができる 。例えば、各データユニットに対応する映像について、対象物情報生成手段 13が対 象物情報を生成し、続いて対象物判断手段 17が対象物情報 (特に撮影対象物を示 す一般名詞)に基づいて撮影対象物の種類を判断する。さらに、対象物判断手段 17 力 撮影対象物の総数を示す情報(図 8中の情報 81A)に基づいて、撮影対象物の 個数を判断する。そして、再生順序入替手段 30が、撮影対象物の種類および個数 に基づ!/、て、データユニットの再生順序の入替を行う。
[0069] 図 10ないし図 12は、このような再生順序入替処理の流れを示している。図 10に示 すように、再生順序入替手段 30は、まず、撮影対象物が人間またはペットか否かを 判定する (ステップ Sl)。撮影対象物が人間またはペットであるときには (ステップ SI: YES)、続いて、再生順序入替手段 30は、現在処理の対象としているデータユニット と前回処理の対象として 、たデータユニットとを比較し、人間またはペットの個数が変 化している力否かを判定する (ステップ S2)。人間またはペットの個数が変化している ときには (ステップ S2 : YES)、再生順序入替手段 30は、物語編集処理を実行する( ステップ S3)。
[0070] 図 11は、物語編集処理の流れを示している。図 10のステップ S3において物語編 集処理の実行が開始されると、再生順序入替手段 30は、図 11に示すように、次の 3 個の処理のいずれかを実行する。第 1の処理は、映像中の人間またはペットの個数 が増えるようにデータユニットの再生順序を決める (ステップ Sl l)。第 2の処理は、映 像中の人間またはペットの個数が減るようにデータユニットの個数を決める(ステップ S12)。第 3の処理は、映像中の人間またはペットの個数が増力 II ·減少を繰り返すよう にデータユニットの順序を決める (ステップ S 13)。続いて、再生順序入替手段 30は、 人間またはペットが映っている映像と風景が映っている映像とが交互に並ぶように、 データユニットの再生順序を決める。具体的には、現在処理の対象としているデータ ユニットに対応する映像には人間またはペットが映っているので、このデータユニット の次に再生すべきデータユニットとして、風景が映っている映像に対応するデータュ ニットを選択する (ステップ S 14)。
[0071] 第 1の処理 (ステップ S11)によれば、映像中の人間またはペットの個数が増えるよう にデータユニットの再生順序を決めることにより、徐々ににぎやかになる映像をつくり 出すことができる。第 2の処理 (ステップ S 12)によれば、映像中の人間またはペットの 個数が減るようにデータユニットの再生順序を決めることにより、徐々に落ち着いてい く映像をつくり出すことができる。第 3の処理 (ステップ S 13)によれば、映像中の人間 またはペットの個数が増カロ'減少を繰り返すようにデータユニットの順序を決めること により、変化に富んだメリノ、リのある映像をつくり出すことができる。また、ステップ S14 において、人間またはペットが映っている映像と風景が映っている映像とが交互に並 ぶようにデータユニットの再生順序を決めることにより、変化に富んだメリノ、リのある映 像をつくり出すことができる。
[0072] なお、ステップ S11ないしステップ S13の 3個の処理の中から 1個の処理を選択する 方法は、例えば次のように行う。すなわち、現在対象となっているデーユニットが映像 データの前半部分に位置する場合には、第 1の処理を選択する。現在対象となって いるデーユニットが映像データの中間部分に位置する場合には、第 2の処理を選択 する。現在対象となっているデーユニットが映像データの後半部分に位置する場合 には、第 3の処理を選択する。また、この選択を、編集者が与えた指示に基づいて行 つてもよい。
[0073] 一方、図 10に示すように、撮影対象物が人間またはペットでないとき (ステップ S1: NO)、または人間またはペットの個数が変化していないときには (ステップ S2 : NO)、 再生順序入替手段 30は、風景編集処理を実行する (ステップ S4)。
[0074] 図 12は、風景編集処理の流れを示している。図 10のステップ S4において風景編 集処理の実行が開始されると、再生順序入替手段 30は、図 12に示すように、撮影対 象物が人間またはペットか否かを確認する (ステップ S21)。撮影対象物が人間また はペットであるときには (ステップ S21: YES)、人間またはペットが映っている映像と 風景が映っている映像とが交互に並ぶようにデータユニットの再生順序を決める (ス テツプ S22)。一方、ステップ S21における確認の結果、撮影対象物が人間またはべ ットでないときには (ステップ S21: NO)、データユニットに対応する映像の輝度また は色相の平均値に基づいて、データユニットの再生順序を決める (ステップ S23)。例 えば、現在処理の対象としているデータユニットの輝度または色相の平均値と、前回 処理の対象として 、たデータユニットの輝度または色相の平均値とを比較して、輝度 または色相の平均値が徐々に増加または減少するように、データユニットの再生順序 を決める。
[0075] ステップ S22において、人間またはペットが映っている映像と風景が映っている映 像とが交互に並ぶようにデータユニットの再生順序を決めることにより、変化に富んだ メリノ、リのある映像をつくり出すことができる。また、ステップ S23において、データュ ニットに対応する映像の輝度または色相の平均値に基づいて、データユニットの再生 順序を決めることにより、映像の変化をなめらかにすることができる。
[0076] (様々な映像編集処理 2:再生速度変更)
再生速度変更手段 31は、複数のデータユニットのうち少なくとも 1個のデータュ-ッ トの再生速度を変更する。本発明の実施形態である映像編集装置 1によれば、対象 物情報、 日時情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関す る事項の判断、および撮影場所に関する事項の判断に基づいて、データユニットの 再生速度を変更するので、映像内容に即した映像編集を実現することができる。例 えば、あるデータユニットに対応する映像について、対象物情報生成手段 13が対象 物情報を生成し、続いて対象物判断手段 17が対象物情報 (特に撮影対象物を示す 一般名詞または固有名詞)に基づいて撮影対象物の種類または名を判断する。そし て、再生速度変更手段 31が、当該データユニットに対応する映像中の撮影対象物 に変化があるカゝ否かを判定する。撮影対象物に変化がなぐ映像中に同じ撮影対象 物が継続的に映っているときには、再生速度変更手段 31は、当該データユニットの 再生速度を速くする。これにより、変化に乏しい映像の再生時間を短くすることができ 、視聴者に退屈さを感じさせな 、映像をつくり出すことができる。
[0077] また、あるデータユニットに対応する映像について、日時情報取得手段 14が日時 情報を生成し、続いて日時判断手段 18が日時情報に基づいて、当該データユニット に対応する映像の撮影年月日を判断する。そして、再生速度変更手段 31が、現在 の年月日と撮影年月日とを比較する。現在の年月日と撮影年月日との差が大きいと き、例えは両者間に半年程度以上の差があるときには、当該データユニットの開始部 分の再生速度を遅くする。これにより、スローモーション効果をつくり出すことができ、 過去の出来事に関する映像であることを視聴者に理解させることができる。
[0078] (様々な映像編集処理 3 :映像効果付加)
映像効果付加手段 32は、複数のデータユニットのうち少なくとも 1個のデータュ-ッ トに対応する映像に映像効果を付加する。映像効果付加手段 32は、色変更手段 33 およびトランジシヨン効果付加手段 34を備えている。
[0079] 色変更手段 33は、少なくとも 1個のデータユニットに対応する映像の色を変更する 。発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報、場所情 報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および撮影 場所に関する事項の判断に基づいて、映像の色を変更するので、映像内容に即した 映像編集を実現することができる。例えば、あるデータユニットに対応する映像につ V、て、日時情報取得手段 14が日時情報を生成し、続、て日時判断手段 18が日時 情報に基づいて、当該データユニットに対応する映像の撮影年月日を判断する。そ して、色変更手段 33が、現在の年月日と撮影年月日とを比較する。現在の年月日と 撮影年月日との差が大きいときには、色変更手段 33は、当該データユニットに対応 する映像の色をモノクロまたはセピア色にする。例えば、現在の年月日と撮影年月日 との差が 3ヶ月以上半年以内であるときには、映像の色をモノクロにし、現在の年月 日と撮影年月日との差が半年よりも大きいときには、映像の色をセピア色にする。これ により、過去の出来事に関する映像であることを視聴者に理解させることができる。
[0080] トランジシヨン効果付加手段 34は、少なくとも 1個のデータユニットに対応する映像 にトランジシヨン効果 (例えばクロスフェードまたはディゾルブなどの効果)を付加する 。発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報、場所情 報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および撮影 場所に関する事項の判断に基づいて、映像にトランジシヨン効果を付加するので、映 像内容に即した映像編集を実現することができる。例えば、あるデータユニットに対 応する映像について、対象物情報生成手段 13が対象物情報を生成し、続いて対象 物判断手段 17が対象物情報に基づいて、撮影対象物の種類を判断する。そして、ト ランジシヨン効果付加手段 34が、撮影対象物の種類に基づいて、撮影対象物が人 間か風景かを判定する。撮影対象物が人間のときには、トランジシヨン効果付加手段 34は、映像にトランジシヨン効果を付加しない。撮影対象物が風景のときには、トラン ジシヨン効果付加手段 34は、映像にトランジシヨン効果を付加する。これにより、映像 に適切なアクセントを付けることができる。
[0081] (様々な映像編集処理 4:音声付加)
音声付加手段 35は、複数のデータユニットのうち少なくとも 1個のデータユニットに 対応する映像に音声を付加する。音声付加手段 35は、音響効果付加手段 36、音楽 付カ卩手段 37およびナレーション付カ卩手段 38を備えている。
[0082] 音響効果付加手段 36は、少なくとも 1個のデータユニットに対応する映像に音響効 果を付加する。発明の実施形態である映像編集装置 1によれば、対象物情報、日時 情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断 、および撮影場所に関する事項の判断に基づいて、映像に音響効果を付加するの で、映像内容に即した映像編集を実現することができる。例えば、あるデータユニット に対応する映像について、対象物情報生成手段 13が対象物情報を生成し、日時情 報取得手段 14が日時情報を生成する。続いて対象物判断手段 17が対象物情報に 基づいて、撮影対象物の種類を判断する。さらに、日時判断手段 18が日時情報に 基づいて、当該データユニットに対応する映像が撮影された季節を判断する。例え ば、撮影対象物の種類が山であり、映像が撮影された季節が夏であるときには、音響 効果付加手段 36は、当該データユニットに対応する映像にセミまたはカツコゥの鳴き 声を付加する。これにより、映像にその内容に合致した音響効果を付けることができ、 視聴者が理解しやす 、映像をつくり出すことができる。 [0083] 音楽付加手段 37は、少なくとも 1個のデータユニットに対応する映像に音楽 (BGM )を付加する。発明の実施形態である映像編集装置 1によれば、対象物情報、日時 情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断 、および撮影場所に関する事項の判断に基づいて、映像に音楽を付加するので、映 像内容に即した映像編集を実現することができる。例えば、あるデータユニットに対 応する映像について、対象物情報生成手段 13が対象物情報を生成し、続いて対象 物判断手段 17が対象物情報に基づいて、撮影対象物の種類を判断する。例えば、 撮影対象物の種類が山のときには、音楽付加手段 37は、山に関連する楽曲を映像 に付加する。これにより、視聴者が理解しやすい映像をつくり出すことができる。
[0084] 特に、対象物情報に、撮影対象物を示す形容表現、具体的には、撮影対象物を形 容する形容詞、形容動詞、修飾語または修飾句の文字列を含める構成を採用した場 合には、映像内容を的確に反映した音楽を映像に付加することができる。例えば、撮 影対象物の種類が山の場合に、対象物情報に「壮大な」という形容動詞が含まれて いるときには、音楽付加手段 37は、山に関連する複数の楽曲の中から、山の壮大さ を表現した音楽を選択することができる。
[0085] また、あるデータユニットに対応する映像について、場所情報取得手段 15が場所 情報を生成し、続いて場所判断手段 19が対象物情報に基づいて、当該データュ- ットに対応する映像が撮影された場所を判断する。例えば、映像が撮影された場所 がハワイのときには、ハワイアンミュージックを映像に付加する。これにより、視聴者の 映像に対する興味を高めることができる。
[0086] ナレーション付カ卩手段 38は、少なくとも 1個のデータユニットに対応する映像にナレ ーシヨンを付加する。発明の実施形態である映像編集装置 1によれば、対象物情報、 日時情報、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の 判断、および撮影場所に関する事項の判断に基づいて、映像にナレーションを付カロ するので、映像内容に即した映像編集を実現することができる。例えば、あるデータ ユニットに対応する映像について、対象物情報生成手段 13、日時情報取得手段 14 および場所情報取得手段 15がそれぞれ、当該データユニットに対応する映像につ いて、対象物情報、 日時情報および場所情報を生成する。続いて、対象物判断手段 17が撮影対象物の名を判断し、日時判断手段 18が撮影の時間帯を判断し、場所判 断手段 19が撮影場所を判断する。そして、ナレーション付加手段 38が、撮影対象物 の名(例えば太郎)、撮影の時間帯 (例えば朝)および撮影場所 (例えば京都)などの 言葉を含むナレーションを映像に付加する。これにより、映像内容を詳細に説明した ナレーションを映像に付けることができる。また、対象物情報生成手段 13に部位情報 生成手段 13Aまたは器官情報生成手段 13Bを設け、撮影対象物の部位または器官 を示す部位情報または器官情報を生成する構成とした場合には、部位情報または器 官情報に基づいて、対象物判断手段 17が撮影対象物の部位または器官の種類、個 数、個性、名または態様などを判断し、ナレーション付加手段 38が、撮影対象物の 部位または器官の名または態様などに関する言葉を含むナレーションを映像に付カロ することができる。
[0087] (様々な映像編集処理 5 :文字付加)
文字付カ卩手段 39は、複数のデータユニットのうち少なくとも 1個のデータユニットに 対応する映像に文字を付加する。文字付加手段 39は、タイトル付加手段 40および 字幕付加手段 41を備えている。
[0088] タイトル付カ卩手段 40は、少なくとも 1個のデータユニットに対応する映像にタイトルを 付加する。発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報 、場所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、およ び撮影場所に関する事項の判断に基づいて、映像にタイトルを付加するので、映像 内容に即した映像編集を実現することができる。例えば、あるデータユニットに対応 する映像にっ 、て、 日時情報取得手段 14が日時情報を生成し、続、て日時判断手 段 18が日時情報に基づいて、当該データユニットに対応する映像が撮影された季節 および時間帯を判断する。例えば、撮影の季節が春であり、撮影の時間帯が夕方の ときには、タイトル付加手段 40は、「春の宵」というタイトルを映像に付加する。これに より、映像内容に合致したタイトルを映像に付加することができる。
[0089] また、あるデータユニットに対応する映像について、対象物情報生成手段 13が対 象物情報を生成し、日時情報取得手段 14が日時情報を生成する。続いて対象物判 断手段 17が対象物情報に基づいて、撮影対象物の名を判断する。さらに、日時判 断手段 18が日時情報に基づいて、当該データユニットに対応する映像が撮影された 時期を判断する。例えば、撮影対象物の名が太郎であり、映像が撮影された時期が 夏休みの時期であるときには、タイトル付加手段 40は、「太郎くんの夏休み」というタ イトルを映像に付加する。これにより、映像内容に合致したタイトルを映像に付加する ことができる。
[0090] また、あるデータユニットに対応する映像について、日時情報取得手段 14が日時 情報を生成し、場所情報取得手段 15が場所情報を生成する。続いて日時判断手段 18が日時情報に基づいて、当該データユニットに対応する映像が撮影された月日を 判断する。さらに、場所情報判断手段 19が場所情報に基づいて、当該データュニッ トに対応する映像が撮影された場所を判断する。例えば、撮影年月日力 月 1日であ り、撮影場所がハワイであるときには、タイトル付加手段 40は、「ハワイでの正月」とい うタイトルを映像に付加する。これにより、映像内容に合致したタイトルを映像に付カロ することができる。
[0091] 字幕付加手段 41は、少なくとも 1個のデータユニットに対応する映像に字幕を付カロ する。発明の実施形態である映像編集装置 1によれば、対象物情報、日時情報、場 所情報、撮影対象物に関する事項の判断、撮影日時に関する事項の判断、および 撮影場所に関する事項の判断に基づいて、映像に字幕を付加するので、映像内容 に即した映像編集を実現することができる。例えば、あるデータユニットに対応する映 像について、対象物情報生成手段 13、日時情報取得手段 14および場所情報取得 手段 15がそれぞれ、当該データユニットに対応する映像について、対象物情報、 日 時情報および場所情報を生成する。続いて、対象物判断手段 17が撮影対象物の名 を判断し、日時判断手段 18が撮影の時間帯を判断し、場所判断手段 19が撮影場所 を判断する。そして、字幕付加手段 41が、撮影対象物の名(例えば太郎)、撮影の時 間帯 (例えば朝)および撮影場所 (例えば京都)などの文字を含む字幕を映像に付加 する。これにより、映像内容を詳細に説明した字幕を映像に付けることができる。また 、対象物情報生成手段 13に部位情報生成手段 13 Aまたは器官情報生成手段 13B を設け、撮影対象物の部位または器官を示す部位情報または器官情報を生成する 構成とした場合には、部位情報または器官情報に基づいて、対象物判断手段 17が 撮影対象物の部位または器官の種類、個数、個性、名または態様などを判断し、字 幕付加手段 41が、撮影対象物の部位または器官の名または態様などに関する言葉 を含む字幕を映像に付加することができる。
[0092] (データライブラリ作成)
図 13は、ライブラリ作成手段 21により作成され、そして第 2記録媒体 23に記録され たデータライブラリの一例を示して ヽる。映像編集の過程で生成 ·取得された対象物 情報、 日時情報および場所情報は、コンテンツスクリプト情報として 1個にまとめられ、 第 1記録媒体 22に記録される。ライブラリ作成手段 21は、このコンテンツスクリプト情 報と、これに対応するデータユニットを、第 1記録媒体 22から読み出し、これらを第 2 記録媒体 23に記録する。図 13に示すように、コンテンツスクリプト情報 101およびデ ータユニット 102を第 2記録媒体 23に記録するとき、ライブラリ作成手段 21は、コンテ ンッスクリプト情報 101とデータユニット 102とを隣り合うように配列する。これにより、 コンテンツスクリプト情報 101とデータユニット 102との対応関係を明確にすることがで きる。
[0093] 図 14は、ライブラリ作成手段 21により作成され、そして第 2記録媒体 23に記録され たデータライブラリの他の例を示している。図 14に示すように、第 2記録媒体 23上に 、複数のコンテンツスクリプト情報を 1個にまとめたコンテンツスクリプトグループ情報 1 11を配置し、それに続いて、複数のデータユニット 112を配列してもよい。この場合、 複数のデータユニット 112にそれぞれ対応する複数のコンテンツスクリプト情報を、コ ンテンッスクリプトグループ情報 111として 1個にまとめる。
[0094] 以上、本発明の実施形態である映像編集装置 1は、映像データを分割することによ つて形成されるデータユニットごとに、撮影対象物、撮影日時および撮影場所に関す る情報を生成または取得し、これらの情報に基づいて、撮影対象物の種類、撮影年 月日、撮影場所などを判断し、これらの判断に基づいて映像編集を行う。これにより、 映像内容に即した映像編集を行うことができる。したがって、視聴者が退屈せずかつ 理解しやすい映像の自動編集を行うことができる。また、映像内容に合致した映像編 集を行うことができる。
[0095] また、対象物情報生成手段 13に部位情報生成手段 13Aまたは器官情報生成手 段 13Bを設け、撮影対象物の部位または器官を示す部位情報または器官情報を生 成し、部位情報または器官情報に基づ!、て撮影対象物の部位または器官の種類、 名または態様などを判断し、この判断に基づいて映像編集を行う構成を採用した場 合には、映像内容に即したきめ細やかな映像編集を行うことができる。
[0096] さらに、映像編集装置 1によれば、対象物情報、 日時情報および場所情報を生成し て記録することにより、これらの情報を参照するだけで、撮影対象物、撮影日時およ び撮影場所に関する事項の判断を、容易かつ正確に行うことができる。例えば、対象 物情報、 日時情報および場所情報の生成、取得および記録を映像データの取得の 段階で行う構成とすれば、判断の段階で、映像データを分析する必要がなくなる。し たがって、撮影対象物、撮影日時および撮影場所に関する事項の判断を、容易かつ 正確に行うことができ、映像編集の迅速ィ匕を図ることができる。
[0097] なお、映像編集装置 1では、撮影対象物に関する処理を行う対象物情報生成手段 13および対象物判断手段 17のセット、撮影日時に関する処理を行う日時情報取得 手段 14および日時判断手段 18のセット、撮影場所に関する処理を行う場所情報取 得手段 15および場所判断手段 19のセットを備えている。しかし、本発明はこれに限 らない。映像編集手段に、撮影対象物に関する処理を行う対象物情報生成手段およ び対象物判断手段のセットだけを設ける構成としてもよい。また、映像編集手段に、 撮影日時に関する処理を行う日時情報取得手段および日時判断手段のセットだけを 設ける構成としてもよい。また、映像編集手段に、撮影場所に関する処理を行う場所 情報取得手段および場所判断手段のセットだけを設ける構成としてもよい。
[0098] また、例えば映像データ力 データユニット間の境界を明確に検出することができる フォーマットを採用している場合には、映像データ分割手段 12を排除してもよい。
[0099] また、ライブラリ作成手段 21によりデータライブラリを作成することによって、映像編 集の精度を高めることができるのであるが、映像編集の精度を他の方法で高められる 場合には、ライブラリ作成手段 21を排除してもよい。また、映像編集精度の高度化の 要求よりも、データ処理の簡素化または小さなデータ記録容量などの要求が優先さ れるような製品に本発明を適用する場合には、ライブラリ作成手段 21を排除してもよ い。 [0100] また、映像編集装置 1の編集手段 20は、図 2に示すように、映像編集処理を行う多 数の手段を有するが、図 2に示す手段をすベて備えなくてもよい。また、図 2に示す 手段以外の映像編集処理手段を映像編集装置 1に追加してもよ ヽ。
[0101] (映像編集装置の変形態様)
図 15は、本発明の映像編集装置の変形形態を示している。図 15に示す映像編集 装置 200において、図 1に示す映像編集装置 1の構成要素と同一の構成要素には 同一の符号を付し、その説明を省略する。
[0102] 映像編集装置 200の特徴は、撮影対象物から発せられる音声を認識し、撮影対象 物の画面中の位置と当該撮影対象物力 発せられる音声の発生位置とがー致する ように、当該撮影対象物から発せられる音声を出力すべき出力チャンネルを選択す ることにめる。
[0103] このような特徴を実現するために映像編集装置 200が新たに備えた構成要素は、 対象物情報生成手段 201、音声認識情報生成手段 202、音声出力手段 204および 出力チャンネル選択手段 205である。
[0104] 対象物情報生成手段 201は、上述した対象物情報生成手段 13とほぼ同様に、各 データユニットに対応する映像に含まれる撮影対象物を認識する。さらに対象物情 報生成手段 201は、当該撮影対象物の画面中の位置をも認識する。そして、対象物 情報生成手段 201は、撮影対象物と当該撮影対象物の位置とを示す対象物情報を 生成する。撮影対象物の画面中の位置は、例えば図 16に示すように特定する。まず 、フレーム領域の縦方向に伸びる X軸と横方向に伸びる Y軸とが直角に交わる二次 元座標をこのフレーム領域上に設定する。そして、フレーム領域中において撮影対 象物が占める領域の外縁を例えば 4つの座標値:左上 (X、 y )、右上 (X、 y )、左下
1 1 2 2
(X、 y )
3 3、右下 (X、 y )
4 4を用いて指し示す。これら 4つの座標値は、撮影対象物の位 置を示す情報として対象物情報に組み込まれる。なお、撮影対象物が占める領域の 外縁を指し示すための座標値の個数は、 4個に限られず、 3個でもよいし、 5個以上 でもよい。
[0105] 対象物情報生成手段 201には、部位情報生成手段 201Aを設けてもょ 、。部位情 報生成手段 201Aは、上述した部位情報生成手段 13Aとほぼ同様に、撮影対象物 の部位を認識する。さらに部位情報生成手段 201Aは、当該部位の画面中の位置を も認識する。そして、部位情報生成手段 201Aは、部位および当該部位の画面中の 位置を示す部位情報を生成する。部位情報生成手段 201Aは、フレーム領域中にお いて撮影対象物の部位が占める領域の外縁を例えば 4つの座標値:左上 (X、y )、 右上 (X、 y )、左下 (X、 y )、右下 (X、 y )を用いて指し示すことによって部位の画
2 2 3 3 4 4
面中の位置を特定する。これら 4つの座標値が撮影対象物の部位の位置を示す情 報として部位情報に組み込まれる。
[0106] 対象物情報生成手段 201には、器官情報生成手段 201Bを設けてもよい。器官情 報生成手段 201Bは、上述した器官情報生成手段 13Bとほぼ同様に、撮影対象物 の器官を認識する。さらに器官情報生成手段 201Bは、当該器官の画面中の位置を も認識する。そして、器官情報生成手段 201Bは、器官および当該器官の画面中の 位置を示す器官情報を生成する。器官情報生成手段 201Bは、図 17に示すように、 フレーム領域中にぉ 、て撮影対象物の器官(図 17の例では口)が占める領域の外 縁を例えば 4つの座標値:左上 (X、 y )、右上 (X、 y )、左下 (X、 y )、右下 (X、 y )
1 1 2 2 3 3 4 4 を用いて指し示すことによって器官の画面中の位置を特定する。これら 4つの座標値 が撮影対象物の器官の位置を示す情報として器官情報に組み込まれる。
[0107] 音声認識情報生成手段 202は、撮影対象物から発せられる音声を認識し、この音 声を示す音声認識情報を生成する。具体的には、音声認識情報生成手段 202は、 まず、撮影対象物を認識し、続いて当該撮影対象物から発せられる音声を他の音声 から識別し、続いて当該音声の再生開始時刻および再生時間を測定する。続いて、 音声認識情報生成手段 202は、当該音声に識別記号 (ID)を付し、この識別記号と 当該音声の再生開始時刻を示す情報と再生時間を示す情報とを音声認識情報に組 み込む。音声認識情報生成手段 202は例えば演算処理回路および半導体メモリな どにより実現することができる。音声認識情報生成手段 202における音声認識には、 周知の音声認識方法を採用することができる。
[0108] 記録手段 203は、対象物情報と音声認識情報とを対応づけ、これらをコンテンツス タリブト情報として第 1記録媒体 22に記録する。すなわち、記録手段 203は、ある撮 影対象物を示す対象物情報と、当該撮影対象物から発せられた音声を示す音声認 識情報とを対応づける。また、部位情報生成手段 201Aまたは器官情報生成手段 20 1Bを設けた場合には、記録手段 203は、さらに、部位情報または器官情報と対象物 情報とを対応づけ、これらをまとめてコンテンツスクリプト情報として第 1記録媒体 22 に記録する。すなわち、記録手段 203は、部位情報の示す部位または器官情報の示 す器官と関連のある対象物の対象物情報に、部位情報または対象物情報を対応づ ける。
[0109] 音声出力手段 204は、複数の出力チャンネルを有する。例えば、音声出力手段 20 4は、図 15に示すように、 8個の出力チャンネル 204Aないし 204Hを有する。各出力 チャンネノレ 204Aな!/、し 204Ηίま、スピーカ 210Aな!/、し 210F、 211A、 211B【こそ れぞれ接続されている。図 18に示すように、スピーカ 210Aないし 210Fは、それぞ れ透明であり、シート状に形成された平面スピーカである。これら平面スピーカは、デ イスプレイ装置 220のディスプレイ画面に対し平行な面内に並べられ、ディスプレイ画 面上に重ねられている。一方、スピーカ 211 Aおよび 211Bは、ディスプレイ装置 220 の両脇に取り付けられて 、る。
[0110] 出力チャンネル選択手段 205は、第 1記録媒体 22に記録された対象物情報および 音声認識情報に基づいて、撮影対象物の画面中の位置と当該撮影対象物から発せ られる音声の発生位置とがー致するように、当該撮影対象物から発せられる音声を 出力すべき出力チャンネルを選択する。また、対象物情報生成手段 201に部位情報 生成手段 201Aが設けられている場合には、出力チャンネル選択手段 205は、第 1 記録媒体 22に記録された対象物情報、部位情報および音声認識情報に基づいて、 撮影対象物の部位の画面中の位置と当該撮影対象物の部位力 発せられる音声の 発生位置とがー致するように、当該撮影対象物の部位から発せられる音声を出力す べき出力チャンネルを選択する。また、対象物情報生成手段 201に器官情報生成手 段 201Bが設けられている場合には、出力チャンネル選択手段 205は、第 1記録媒 体 22に記録された対象物情報、器官情報および音声認識情報に基づいて、撮影対 象物の器官の画面中の位置と当該撮影対象物の器官から発せられる音声の発生位 置とがー致するように、当該撮影対象物の器官から発せられる音声を出力すべき出 力チャンネルを選択する。 [0111] 図 19は、出力チャンネル選択手段 205による出力チャンネル選択処理の一例を示 している。図 19に示すように、出力チャンネル選択手段 205は、まず、対象物情報お よび音声認識情報を第 1記録媒体 22から読み出す (ステップ S31)。続いて、出力チ ヤンネル選択手段 205は、これら対象物情報および音声認識情報に基づいて、撮影 対象物が背景であり、当該撮影対象物から発せられた音声が背景音声である力否か を判定する (ステップ S32)。続いて、撮影対象物が背景であり、当該撮影対象物から 発せられた音声が背景音声であるときには (ステップ S32 : YES)、出力チャンネル選 択手段 205は、出力チャンネル 204Gおよび 204Hを選択する(ステップ S33)。これ により、背景音声は、出力チャンネル 204Gおよび 204Hを介してスピーカ 211Aおよ び 211Bに出力される。すなわち、背景音声は、ディスプレイ装置 220の両脇に取り 付けられたスピーカ 211A、 21 IBから出力される。
[0112] 一方、撮影対象物が背景ではなく個物であり、当該撮影対象物から発せられた音 声が個物音声であるときには (ステップ S32 :NO)、出力チャンネル選択手段 205は 、出力チャンネル 204Aないし 204Fのいずれかを選択する。なお、個物とは、背景 以外の物であり、例えば、画面上に大きく映っている人間、ペットなどである。個物音 声とは、個物から発せられた音声であり、例えば人間の声や、手をたたく音などであ る。ここで、対象物情報生成手段 201に部位情報生成手段 201Bが設けられている 場合を例にあげて、出力チャンネル選択手段 205における出力チャンネル 204Aな いし 204Fの選択について具体的に説明する。例えば、図 17に示すように、撮影対 象物から発せられた音声が人間 230の声であるときには、出力チャンネル選択手段 2 05は、当該音声の音声認識情報に対応づけられた器官情報を第 1記録媒体 22から 読み出す (ステップ S34)。続いて、出力チャンネル選択手段 205は、この器官情報 に基づいて当該撮影対象物の器官、すなわち当該人間 230の口 230Aの画面上の 位置を特定する (ステップ S35)。次に、出力チャンネル選択手段 205は、スピーカ 2 10Aないし 210Fの中から、当該口 230Aの画面上の位置に対応する位置に配置さ れたスピーカを選択し、続いて、出力チャンネル 204Aないし 204Fの中力ら、この選 択されたスピーカに接続された出力チャンネルを選択する (ステップ S36)。図 17〖こ 示す例では、口 230Aの画面上の位置は図 18中のスピーカ 210Aの位置と対応する 。したがって、スピーカ 210Aに接続された出力チャンネル 204Aが出力チャンネル 選択手段 205により選択される。それゆえ、口 230A力も発せられた音声は、出力チ ヤンネル 204Aを介してスピーカ 210Aから出力される。この結果、撮影対象物の部 位の画面中の位置と当該撮影対象物の部位力 発せられる音声の発生位置とがー 致する。これにより、臨場感のある映像および音声の編集を実現することができる。
[0113] 図 20は、データユニットとコンテンツスクリプト情報 (対象物情報および音声認識情 報)との対応づけの一例を示している。図 20に示すように、対象物情報 241および音 声認識情報 242は、コンテンツスクリプト情報 243という 1個のデータのまとまりとして 配列することが望ましい。そして、 1個のコンテンツスクリプト情報 243を 1個のデータ ユニット 244に対応させることが望ましい。これにより、出力チャンネルの選択処理を 容易かつ正確に行うことが可能となる。
[0114] 図 21は、 1個の対象物情報 241の内部構造を示している。対象物情報 241には、 個々の対象物 1ないし nについての対象物情報 251および対象物の総数を示す情 報 252が配置されている。個々の対象物情報 251には、対象物 IDを示す情報 253と 、対象物情報本体 254と、対象物の画面上の範囲を示す情報 255と、音声 IDを示す 情報 256と、当該対象物情報が示す対象物に関連する部位'器官の総数を示す情 報 257と、当該対象物情報が示す対象物に関連する部位情報'器官情報 258とが配 置されている。部位情報'器官情報 258には、部位 Π 器官 IDを示す情報 259と、部 位の範囲 ·器官の範囲を示す情報 260とが配置されて 、る。部位の範囲'器官の範 囲を示す情報 260には、部位または器官のフレーム領域上における例えば 4個の座 標値を示す情報 261が配置されている。なお、対象物 IDは、対象物を特定するため の固有の記号である。対象物情報本体は、上述した「太郎」「富士山」など対象物を 特定するための固有の情報である。音声 IDは、音声を特定するための固有の記号 である。部位 IDは部位を特定するための固有の記号である。器官 IDは器官を特定 するための固有の記号である。対象物情報内に配置された音声 IDは、対象物情報 2 51と音声認識情報 277とを対応づける役割を果たす。
[0115] 図 22は、 1個の音声認識情報 242の内部構造を示している。音声認識情報 242に は、背景音声認識情報 271と個物音声認識情報 272とが配置されている。背景音声 認識情報 271には、音声 IDを示す情報 273と、背景音声の再生開始時刻を示す情 報 274と、背景音声の再生時間を示す情報 275とが配置されている。個物音声認識 情報 272には、個物音声についての個々の音声認識情報の総数を示す情報 276と 、個々の個物音声についての音声認識情報 277とが配置されている。個々の個物音 声についての音声認識情報 277には、音声 IDを示す情報 278と、個物音声の再生 開始時刻を示す情報 279と、個物音声の再生時間を示す情報 280と、対象物 IDを 示す情報 281とが配置されている。対象物 IDは、個々の個物音声についての音声 認識情報 277が対応する対象物情報 251に付された対象物 IDである。音声認識情 報内に配置された対象物 IDは、音声認識情報 277と対象物情報 251とを対応づけ る役割を果たす。
[0116] 図 23は、データユニットとコンテンツスクリプト情報との対応づけの他の例を示して ヽる。図 23は、映像データ力 ムービー 291、ス卜一!;一 292、シーン 293、シ 3ッ卜 29 4およびフレーム 295からなる階層構造である場合を示している。ムービー 291、スト 一リー 292、シーン 293およびショット 294については、図 6に示すムービー 71、スト 一リー 72、シーン 73、ショット 74と同じである。フレーム 295は、ショット 294に含まれ る映像のフレームを意味する。この場合、音声認識情報 242は、ショット 294に対応 づけられる。すなわち、音声認識情報 242は、ショット 294ごとに生成され、ショット 29 4との対応づけを維持するように情報管理が行われる。一方、対象物情報 241は、フ レーム 295に対応づけられる。すなわち、対象物情報 241は、フレーム 295ごとに生 成され、フレーム 295との対応づけを維持するように情報管理が行われる。対象物情 報 241をフレームごとに設けることにより、きめ細かな映像編集を実現することができ る。
[0117] なお、映像編集装置 200では、音声出力手段 204の出力チャンネルを 8個としたが 、本発明の映像編集装置において出力チャンネルの個数は限定されない。また、ス ピー力 210Aないし 210F、 211A、 21 IBの個数または配置も変更することができる。 また、映像編集装置 200では、スピーカ 210Aないし 210Fを平面スピーカとし、これ をディスプレイ装置 220の画面に重ねるようにして配置した力 本発明の映像編集装 置においてはこの点についても限定されない。例えば、箱状の筐体に組み込まれた スピーカを 5個用意し、これらを視聴者の正面、左前側、右前側、左後側、右後側に 配置する構成を採用することも可能である。また、出力チャンネル選択手段 205にお ける出力チャンネルの選択は、上述したように 1個の出力チャンネルを選択する方法 に限られない。例えば、 2個以上の出力チャンネルを同時に選択し、選択した各出力 チャンネルの音量バランスを設定することにより、音声の音像定位の位置を決定し、 これによつて、撮影対象物の画面上の位置と当該撮影対象物から発せられる音声の 発生位置とを一致させる構成を採用してもよい。
[0118] (映像編集方法)
映像編集装置 1と同様の効果は、以下に述べる映像編集方法を実施することによ つても実現することができる。
[0119] すなわち、第 1の映像編集方法は、複数のデータユニットを含む映像データを取得 する映像データ取得工程と、各データユニットに対応する映像に含まれる撮影対象 物を認識し、この撮影対象物を特定することができる固有の情報を含む対象物情報 を生成する対象物情報生成工程と、対象物情報を記録媒体に記録する記録工程と 、記録媒体に記録された対象物情報に基づいて、撮影対象物の種類、個数、個性、 名または態様を判断する対象物判断工程と、撮影対象物の種類、個数、個性、名ま たは態様に基づ 、て、映像データの自動編集を行う編集工程とを備えて 、る。
[0120] 第 2の映像編集方法は、複数のデータユニットを含む映像データを取得する映像 データ取得工程と、各データユニットに対応する映像が撮影された日時を示す日時 情報を取得する日時情報取得工程と、日時情報を記録媒体に記録する記録工程と 、記録媒体に記録された日時情報に基づいて、各データユニットに対応する映像が 撮影された時刻、時間帯、年月日、曜日、時期または季節を判断する日時判断工程 と、各データユニットに対応する映像が撮影された時刻、時間帯、年月日、曜日、時 期または季節に基づいて、映像データの自動編集を行う編集工程とを備えている。
[0121] 第 3の映像編集方法は、複数のデータユニットを含む映像データを取得する映像 データ取得工程と、各データユニットに対応する映像が撮影された場所を示す場所 情報を取得する場所情報取得工程と、場所情報を記録媒体に記録する記録工程と 、記録媒体に記録された場所情報に基づいて、各データユニットに対応する映像が 撮影された位置、場所、地域または国を判断する場所判断工程と、各データユニット に対応する映像が撮影された位置、場所、地域または国に基づいて、映像データの 自動編集を行う編集工程とを備えて ヽる。
[0122] 映像編集装置 200と同様の効果は、以下に述べる映像編集方法を実施すること〖こ よっても実現することができる。すなわち、複数のデータユニットを含む映像データを 取得する映像データ取得工程と、各データユニットに対応する映像に含まれる撮影 対象物および当該撮影対象物の画面中の位置を認識し、撮影対象物および当該撮 影対象物の位置を示す対象物情報を生成する対象物情報生成工程と、撮影対象物 カゝら発せられる音声を認識し、この音声を示す音声認識情報を生成する音声認識情 報生成工程と、対象物情報と音声認識情報とを対応づけ、これらを第 1記録媒体に 記録する記録工程と、複数の出力チャンネルを有する音声出力工程と、第 1記録媒 体に記録された対象物情報および音声認識情報に基づいて、撮影対象物の画面中 の位置と当該撮影対象物力 発せられる音声の発生位置とがー致するように、当該 撮影対象物から発せられる音声を出力すべき出力チャンネルを選択する出力チャン ネル選択工程とを備えて!/、る。
[0123] (映像編集を行うためのコンピュータプログラム)
上述した映像編集装置 1は、コンピュータを、対象物情報生成手段、 日時情報取得 手段、場所取得手段、記録手段、対象物判断手段、日時判断手段、場所判断手段 、編集手段およびライブラリ作成手段などとして動作させる制御プログラムを作成し、 これをコンピュータに読み込ませることによって実現することが可能である。
[0124] 上述した映像編集装置 200は、コンピュータを、対象物情報生成手段、音声情報 生成手段、記録手段、音声出力手段、出力チャンネル選択手段などとして動作させ る制御プログラムを作成し、これをコンピュータに読み込ませることによって実現する ことが可能である。
実施例 1
[0125] 以下、本発明の第 1実施例について図 24を参照しながら説明する。以下の実施例 は、本発明の映像編集装置をノヽードディスク内蔵型の DVDレコーダに適用した例で あり、本発明を実施するための好適な一例である。 [0126] 図 24は、本発明の映像編集装置の第 1実施例であるハードディスク内蔵型の DVD レコーダを示している。図 24に示すように、 DVDレコーダ 120は、 IEEE1394規格 に基づく映像入力端子 121を備えて!/ヽる。映像入力端子 121にはデジタルビデオ力 メラ 122が接続されている。ユーザーの操作により、デジタルビデオカメラ 122から映 像データが出力される。デジタルビデオカメラ 122から出力された映像データは、映 像入力端子 121およびインターフェイス回路 123を介して録画部 124に入力される。 録画部 124は、例えば、ビデオカメラから出力された映像データが DVフォーマットで ある場合には、これを圧縮して MPEGフォーマットにエンコードする。そして、録画部 124は、エンコードした映像データをノヽードディスクドライブ 125に転送する。ハード ディスクドライブ 125はこの映像データを内蔵ディスクに記録する。なお、インターフエ イス回路 123は、映像データ取得手段の具体例である。また、ハードディスクドライブ 125が第 1記録媒体の具体例である。
[0127] ユーザーが DVDレコーダ 120のコントロールパネルに設けられた自動編集の開始 ボタン(図示せず)を押すと、データ編集部 126は、ハードディスクドライブ 125の内 蔵ディスクに記録された映像データを読み出し、これをデータ編集部 126内に設けら れた RAM (ランダムアクセスメモリ)に記録する。続いて、データ編集部 126は、映像 データを複数のデータユニットに分割する。続いて、データ編集部 126は、各データ ユニットについて、対象物情報、 日時情報および場所情報を生成または取得し、これ らを 1個にまとめ、これをコンテンツスクリプト情報としてハードディスクドライブ 125に 転送する。ハードディスクドライブ 125は、転送されたコンテンツスクリプト情報を内蔵 ディスクに記録する。なお、データ編集部 126は、映像データ分割手段、対象物情報 生成手段、 日時情報取得手段、場所情報取得手段および記録手段の具体例である
[0128] 続いて、データ編集部 126は、対象物情報、 日時情報および撮影情報に基づいて 、各データユニットにっき、撮影対象物に関する事項の判断、撮影日時に関する事 項の判断、および撮影場所に関する事項の判断を行う。続いて、データ編集部 126 は、撮影対象物に関する事項の判断結果、撮影日時に関する事項の判断結果、お よび撮影場所に関する事項の判断結果に基づいて、映像編集処理を行う。映像編 集処理には、データユニットの順序入替、再生速度変更、色変更、トランジシヨン効 果の付加、音響効果の付加、音楽 (BGM)の付加、ナレーションの付加、タイトルの 付加、字幕の付加などの処理が含まれる。単語辞書 127は、データ編集部 126によ るナレーション付加、タイトルの付加、または字幕の付加などの処理を支援する。また 、ユーザーはデータ編集物 に対し、必要な情報を音声入力または操作入力によ り与えることができる。続いて、データ編集部 126は、編集が完了した編集映像デー タを、ハードディスクドライブ 125に転送する。ハードディスクドライブ 125は編集映像 データを内蔵ディスクに記録する。なお、データ編集部 126は、対象物判断手段、日 時判断手段、場所判断手段および編集手段の具体例でもある。
[0129] 画像 ·音声再生部 128は、画像 ·音声制御部 129の制御に従って、ハードディスク ドライブ 125により記録された編集映像データを再生することができる。再生された編 集映像データの映像はモニタ 130に出力され、音声はスピーカ 131に出力される。ま た、ハードディスクドライブ 125により記録された編集映像データを DVD記録部 132 により、 DVD133に記録することができる。
[0130] ライブラリ制御部 134は、データ編集部 126により生成されたコンテンツスクリプト情 報 (対象物情報、 日時情報および場所情報)を、データ編集部 126から、またはハー ドディスクドライブ 125を介して取得し、これを、対応するデータユニットと共に、 DVD 記録部 132に転送する。 DVD記録部 132は、転送されたコンテンツスクリプト情報お よびデータユニットを DVD133に記録する。このようにして、ライブラリ制御部 134は 、コンテンツスクリプト情報およびデータユニットから構成されるデータライブラリを作 成する。なお、ライブラリ制御部 134は、ライブラリ作成手段の具体例である。また、 D VD133は、第 2記録媒体の具体例である。なお、システム制御部 135は、 DVDレコ ーダ 120の種々の動作を統括する。
実施例 2
[0131] 本発明の第 2実施例について図 25を参照しながら説明する。なお、以下に述べる 第 2実施例において、第 1実施例と同一の構成要素には同一の符号を付し、その説 明を省略する。図 25は、本発明の第 2実施例である DVDレコーダを示している。図 2 5に示すように、 DVDレコーダ 140は、ネットワーク制御部 141を備えている。 DVDレ コーダ 140は、ネットワーク制御部 141を介して、他の映像編集装置などとの間で、 映像データ、編集映像データ、データライブラリなどの送信'受信を行うことができる。 実施例 3
[0132] 本発明の第 3実施例について図 26を参照しながら説明する。なお、以下に述べる 第 3実施例において、第 1実施例と同一の構成要素には同一の符号を付し、その説 明を省略する。図 26は、本発明の第 3実施例である DVDレコーダを示している。図 2 6に示すように、 DVDレコーダ 150は、音声記録部 151を備えている。音声記録部 1 51は、 DVDレコーダ 150に音声入力端子 152およびインターフェイス回路 153を介 して接続されたオーディオ機器 154から、音声データを受け取る。そして、音声記録 部 151は、この音声データをノヽードディスクドライブ 125に転送する。ハードディスクド ライブ 125はこの音声データを内蔵ディスクに記録する。データ編集部 126は、ハー ドディスクドライブ 125または DVD133に記録された静止画ライブラリまたは動画ライ ブラリを用いて、ハードディスクドライブ 125により記録された音声データに画像また は映像を付加する。これにより、画像、映像または視覚エフェクトが付いた音楽コンテ ンッを容易につくり出すことができる。
[0133] なお、本発明は、請求の範囲および明細書全体力 読み取るこのできる発明の要 旨または思想に反しない範囲で適宜変更可能であり、そのような変更を伴う映像編 集装置および映像編集方法並びにこれらの機能を実現するコンピュータプログラムも また本発明の技術思想に含まれる。
産業上の利用可能性
[0134] 本発明に係る映像編集装置、映像編集方法および映像編集を行うためのコンビュ ータプログラムは、例えば、例えばビデオカメラなどにより撮影された映像のデータを 自動編集する映像編集装置に利用可能である。また、例えば民生用或いは業務用 の各種コンピュータ機器に搭載される又は各種コンピュータ機器に接続可能な映像 編集装置等にも利用可能である。

Claims

請求の範囲
[1] 複数のデータユニットを含む映像データを取得する映像データ取得手段と、
前記各データユニットに対応する映像に含まれる撮影対象物を認識し、この撮影対 象物を特定することができる固有の情報を含む対象物情報を生成する対象物情報 生成手段と、
前記対象物情報を第 1記録媒体に記録する記録手段と、
前記第 1記録媒体に記録された前記対象物情報に基づ!、て、前記撮影対象物の 種類、個数、個性、名または態様を判断する対象物判断手段と、
前記対象物判断手段の判断結果に基づ!/、て、前記映像データの自動編集を行う 編集手段と
を備えて ヽることを特徴とする映像編集装置。
[2] 対象物情報生成手段は、前記撮影対象物の部位を認識し、前記部位を示す部位 情報を生成する部位情報生成手段を備え、
前記記録手段は、前記部位情報を前記撮影対象物と対応づけて前記第 1記録媒 体に記録し、
前記対象物判断手段は、前記第 1記録媒体に記録された前記部位情報に基づ ヽ て、前記部位の種類、個数、個性、名または態様を判断することを特徴とする請求の 範囲第 1項に記載の映像編集装置。
[3] 対象物情報生成手段は、前記撮影対象物の器官を認識し、前記器官を示す器官 情報を生成する器官情報生成手段を備え、
前記記録手段は、前記器官情報を前記撮影対象物と対応づけて前記第 1記録媒 体に記録し、
前記対象物判断手段は、前記第 1記録媒体に記録された前記器官情報に基づ ヽ て、前記器官の種類、個数、個性、名または態様を判断することを特徴とする請求の 範囲第 1項に記載の映像編集装置。
[4] 前記編集手段は、前記データユニットの再生順序を、現実の撮影日時とは異なる 順序となるように入れ替える順序入替手段を備えていることを特徴とする請求の範囲 第 1項に記載の映像編集装置。
[5] 前記順序入替手段は、編集後の映像データの再生時間が経過するに従って映像 内に登場する前記撮影対象物の数が変化するように、前記データユニットの再生順 序を入れ替える手段を備えていることを特徴とする請求の範囲第 4項に記載の映像 編集装置。
[6] 前記順序入替手段は、編集後の映像データの再生時間が経過するに従って、前 記撮影対象物が人間である映像と前記撮影対象物が風景である映像とが交互に再 生されるように、前記データユニットの再生順序を入れ替える手段を備えて 、ることを 特徴とする請求の範囲第 4項に記載の映像編集装置。
[7] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニット の再生速度を変更する再生速度変更手段を備えていることを特徴とする請求の範囲 第 1項に記載の映像編集装置。
[8] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニット に対応する映像に映像効果を付加する映像効果付加手段を備えていることを特徴と する請求の範囲第 1項に記載の映像編集装置。
[9] 前記映像効果付加手段は、前記少なくとも 1個のデータユニットに対応する映像の 色を変更する色変更手段を備えていることを特徴とする請求の範囲第 8項に記載の 映像編集装置。
[10] 前記映像効果付加手段は、前記少なくとも 1個のデータユニットに対応する映像に トランジシヨン効果を付加するトランジシヨン効果付加手段を備えていることを特徴と する請求の範囲第 8項に記載の映像編集装置。
[11] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニット に対応する映像に音声を付加する音声付加手段を備えていることを特徴とする請求 の範囲第 1項に記載の映像編集装置。
[12] 前記音声付加手段は、前記少なくとも 1個のデータユニットに対応する映像に音響 効果を付加する音響効果付加手段を備えて 、ることを特徴とする請求の範囲第 11 項に記載の映像編集装置。
[13] 前記音声付加手段は、前記少なくとも 1個のデータユニットに対応する映像に音楽 を付加する音楽付加手段を備えていることを特徴とする請求の範囲第 11項に記載の 映像編集装置。
[14] 前記音声付加手段は、前記少なくとも 1個のデータユニットに対応する映像にナレ ーシヨンを付加するナレーション付加手段を備えていることを特徴とする請求の範囲 第 11項に記載の映像編集装置。
[15] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニット に対応する映像に文字を付加する文字付加手段を備えていることを特徴とする請求 の範囲第 1項に記載の映像編集装置。
[16] 前記文字付加手段は、前記少なくとも 1個のデータユニットに対応する映像にタイト ルを付加するタイトル付加手段を備えていることを特徴とする請求の範囲第 15項に 記載の映像編集装置。
[17] 前記文字付加手段は、前記少なくとも 1個のデータユニットに対応する映像に字幕 を付加する字幕付加手段を備えていることを特徴とする請求の範囲第 15項に記載の 映像編集装置。
[18] 前記対象物情報をこれに対応する前記データユニットと共に長期間記録保持可能 な第 2記録媒体に記録することによって、データライブラリを作成するライブラリ作成 手段をさらに備えていることを特徴とする請求の範囲第 1項に記載の映像編集装置。
[19] 前記各データユニットに対応する映像が撮影された日時を示す日時情報を取得す る日時情報取得手段と、
前記日時情報に基づいて、前記各データユニットに対応する映像が撮影された時 刻、時間帯、年月日、曜日、時期または季節を判断する日時判断手段とをさらに備え 前記編集手段は、前記日時判断手段の判断結果に基づいて、前記映像データの 自動編集を行うことを特徴とする請求の範囲第 1項に記載の映像編集装置。
[20] 前記各データユニットに対応する映像が撮影された場所を示す場所情報を取得す る場所情報取得手段と、
前記場所情報に基づ 、て、前記各データユニットに対応する映像が撮影された位 置、場所、地域または国を判断する場所判断手段をさらに備え、
前記編集手段は、前記場所判断手段の判断結果に基づいて、前記映像データの 自動編集を行うことを特徴とする請求の範囲第 1項に記載の映像編集装置。
[21] 複数のデータユニットを含む映像データを取得する映像データ取得手段と、
前記各データユニットに対応する映像が撮影された日時を示す日時情報を取得す る日時情報取得手段と、
前記日時情報を第 1記録媒体に記録する記録手段と、
前記第 1記録媒体に記録された前記日時情報に基づいて、前記各データユニット に対応する映像が撮影された時刻、時間帯、年月日、曜日、時期または季節を判断 する日時判断手段と、
前記日時判断手段の判断結果に基づ!、て、前記映像データの自動編集を行う編 集手段と
を備えて ヽることを特徴とする映像編集装置。
[22] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニット の再生速度を変更する再生速度変更手段を備えていることを特徴とする請求の範囲 第 21項に記載の映像編集装置。
[23] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニット に対応する映像に映像効果を付加する映像効果付加手段を備えていることを特徴と する請求の範囲第 21項に記載の映像編集装置。
[24] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニット に対応する映像に音声を付加する音声付加手段を備えていることを特徴とする請求 の範囲第 21項に記載の映像編集装置。
[25] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニット に対応する映像に文字を付加する文字付加手段を備えていることを特徴とする請求 の範囲第 21項に記載の映像編集装置。
[26] 前記日時情報をこれに対応する前記データユニットと共に長期間記録保持可能な 第 2記録媒体に記録することによって、データライブラリを作成するライブラリ作成手 段をさらに備えていることを特徴とする請求の範囲第 21項に記載の映像編集装置。
[27] 複数のデータユニットを含む映像データを取得する映像データ取得手段と、
前記各データユニットに対応する映像が撮影された場所を示す場所情報を取得す る場所情報取得手段と、
前記場所情報を第 1記録媒体に記録する記録手段と、
前記第 1記録媒体に記録された前記場所情報に基づ!、て、前記各データユニット に対応する映像が撮影された位置、場所、地域または国を判断する場所判断手段と 前記場所判断手段の判断結果に基づ!/、て、前記映像データの自動編集を行う編 集手段と
を備えて ヽることを特徴とする映像編集装置。
[28] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニット に対応する映像に音声を付加する音声付加手段を備えていることを特徴とする請求 の範囲第 27項に記載の映像編集装置。
[29] 前記編集手段は、前記複数のデータユニットのうち少なくとも 1個のデータユニット に対応する映像に文字を付加する文字付加手段を備えていることを特徴とする請求 の範囲第 27項に記載の映像編集装置。
[30] 前記場所情報をこれに対応する前記データユニットと共に長期間記録保持可能な 第 2記録媒体に記録することによって、データライブラリを作成するライブラリ作成手 段をさらに備えていることを特徴とする請求の範囲第 27項に記載の映像編集装置。
[31] 複数のデータユニットを含む映像データを取得する映像データ取得手段と、
前記各データユニットに対応する映像に含まれる撮影対象物および当該撮影対象 物の画面中の位置を認識し、前記撮影対象物および当該撮影対象物の位置を示す 対象物情報を生成する対象物情報生成手段と、
前記撮影対象物から発せられる音声を認識し、この音声を示す音声認識情報を生 成する音声認識情報生成手段と、
前記対象物情報と前記音声認識情報とを対応づけ、これらを第 1記録媒体に記録 する記録手段と、
複数の出力チャンネルを有する音声出力手段と、
前記第 1記録媒体に記録された前記対象物情報および前記音声認識情報に基づ いて、前記撮影対象物の画面中の位置と当該撮影対象物から発せられる音声の発 生位置とがー致するように、当該撮影対象物から発せられる音声を出力すべき出力 チャンネルを選択する出力チャンネル選択手段と
を備えて ヽることを特徴とする映像編集装置。
[32] 対象物情報生成手段は、前記撮影対象物の部位および当該部位の画面中の位置 を認識し、前記部位および当該部位の画面中の位置を示す部位情報を生成する部 位情報生成手段を備え、
前記記録手段は、前記部位情報を前記撮影対象物と対応づけて前記第 1記録媒 体に記録し、
前記出力チャンネル選択手段は、前記第 1記録媒体に記録された前記対象物情 報、前記部位情報および前記音声認識情報に基づいて、前記撮影対象物の部位の 画面中の位置と当該撮影対象物の部位力 発せられる音声の発生位置とがー致す るように、当該撮影対象物の部位力も発せられる音声を出力すべき出力チャンネル を選択することを特徴とする請求の範囲第 31項に記載の映像編集装置。
[33] 対象物情報生成手段は、前記撮影対象物の器官および当該器官の画面中の位置 を認識し、前記器官および当該器官の画面中の位置を示す器官情報を生成する器 官情報生成手段を備え、
前記記録手段は、前記器官情報を前記撮影対象物と対応づけて前記第 1記録媒 体に記録し、
前記出力チャンネル選択手段は、前記第 1記録媒体に記録された前記対象物情 報、前記器官情報および前記音声認識情報に基づいて、前記撮影対象物の器官の 画面中の位置と当該撮影対象物の器官から発せられる音声の発生位置とがー致す るように、当該撮影対象物の器官から発せられる音声を出力すべき出力チャンネル を選択することを特徴とする請求の範囲第 31項に記載の映像編集装置。
[34] 前記映像データを前記複数のデータユニットに分割する映像データ分割手段をさ らに備え、
前記映像データ分割手段は、前記映像データをショットごとに分割することを特徴と する請求の範囲第 1項に記載の映像編集装置。
[35] 前記映像データを前記複数のデータユニットに分割する映像データ分割手段をさ らに備え、
前記映像データ分割手段は、前記映像データを撮影日付ごとに分割することを特 徴とする請求の範囲第 1項に記載の映像編集装置。
[36] 複数のデータユニットを含む映像データを取得する映像データ取得工程と、
前記各データユニットに対応する映像に含まれる撮影対象物を認識し、この撮影対 象物を特定することができる固有の情報を含む対象物情報を生成する対象物情報 生成工程と、
前記対象物情報を記録媒体に記録する記録工程と、
前記記録媒体に記録された前記対象物情報に基づ!ヽて、前記撮影対象物の種類 、個数、個性、名または態様を判断する対象物判断工程と、
前記対象物判断工程における判断結果に基づいて、前記映像データの自動編集 を行う編集工程と
を備えて 、ることを特徴とする映像編集方法。
[37] 複数のデータユニットを含む映像データを取得する映像データ取得工程と、
前記各データユニットに対応する映像が撮影された日時を示す日時情報を取得す る日時情報取得工程と、
前記日時情報を記録媒体に記録する記録工程と、
前記記録媒体に記録された前記日時情報に基づいて、前記各データユニットに対 応する映像が撮影された時刻、時間帯、年月日、曜日、時期または季節を判断する 日時判断工程と、
前記日時判断工程における判断結果に基づいて、前記映像データの自動編集を 行う編集工程と
を備えて 、ることを特徴とする映像編集方法。
[38] 複数のデータユニットを含む映像データを取得する映像データ取得工程と、
前記各データユニットに対応する映像が撮影された場所を示す場所情報を取得す る場所情報取得工程と、
前記場所情報を記録媒体に記録する記録工程と、
前記記録媒体に記録された前記場所情報に基づいて、前記各データユニットに対 応する映像が撮影された位置、場所、地域または国を判断する場所判断工程と、 前記場所判断工程における判断結果に基づいて、前記映像データの自動編集を 行う編集工程と
を備えて 、ることを特徴とする映像編集方法。
[39] 複数のデータユニットを含む映像データを取得する映像データ取得工程と、 前記各データユニットに対応する映像に含まれる撮影対象物および当該撮影対象 物の画面中の位置を認識し、前記撮影対象物および当該撮影対象物の位置を示す 対象物情報を生成する対象物情報生成工程と、
前記撮影対象物から発せられる音声を認識し、この音声を示す音声認識情報を生 成する音声認識情報生成工程と、
前記対象物情報と前記音声認識情報とを対応づけ、これらを第 1記録媒体に記録 する記録工程と、
複数の出力チャンネルを有する音声出力工程と、
前記第 1記録媒体に記録された前記対象物情報および前記音声認識情報に基づ いて、前記撮影対象物の画面中の位置と当該撮影対象物から発せられる音声の発 生位置とがー致するように、当該撮影対象物から発せられる音声を出力すべき出力 チャンネルを選択する出力チャンネル選択工程と
を備えて 、ることを特徴とする映像編集方法。
[40] コンピュータを請求の範囲第 1項に記載の映像編集装置として機能させることを特 徴とするコンピュータプログラム。
PCT/JP2006/303858 2005-03-01 2006-03-01 映像編集装置、映像編集方法および映像編集を行うためのコンピュータプログラム WO2006093184A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-056033 2005-03-01
JP2005056033 2005-03-01

Publications (1)

Publication Number Publication Date
WO2006093184A1 true WO2006093184A1 (ja) 2006-09-08

Family

ID=36941213

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/303858 WO2006093184A1 (ja) 2005-03-01 2006-03-01 映像編集装置、映像編集方法および映像編集を行うためのコンピュータプログラム

Country Status (1)

Country Link
WO (1) WO2006093184A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062760A (zh) * 2017-12-08 2018-05-22 广州市百果园信息技术有限公司 视频编辑方法、装置及智能移动终端

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07231419A (ja) * 1994-02-17 1995-08-29 Yoshihisa Fujisaki 撮像録画装置
JPH08181962A (ja) * 1994-12-22 1996-07-12 Hitachi Ltd 音像定位方法および音像定位制御装置およびテレビ会議システム
JPH10215434A (ja) * 1997-01-30 1998-08-11 Fujitsu Ltd 画像処理システム及び画像処理方法
JP2000048543A (ja) * 1998-07-31 2000-02-18 Sony Corp 記録再生装置、記録再生方法、及び記録媒体
JP2001134595A (ja) * 1999-11-08 2001-05-18 Mega Chips Corp 地理情報システム
JP2004363943A (ja) * 2003-06-04 2004-12-24 Lab At Site Ltd 音楽付き画像記録媒体作成システムおよび音楽付き画像記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07231419A (ja) * 1994-02-17 1995-08-29 Yoshihisa Fujisaki 撮像録画装置
JPH08181962A (ja) * 1994-12-22 1996-07-12 Hitachi Ltd 音像定位方法および音像定位制御装置およびテレビ会議システム
JPH10215434A (ja) * 1997-01-30 1998-08-11 Fujitsu Ltd 画像処理システム及び画像処理方法
JP2000048543A (ja) * 1998-07-31 2000-02-18 Sony Corp 記録再生装置、記録再生方法、及び記録媒体
JP2001134595A (ja) * 1999-11-08 2001-05-18 Mega Chips Corp 地理情報システム
JP2004363943A (ja) * 2003-06-04 2004-12-24 Lab At Site Ltd 音楽付き画像記録媒体作成システムおよび音楽付き画像記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062760A (zh) * 2017-12-08 2018-05-22 广州市百果园信息技术有限公司 视频编辑方法、装置及智能移动终端
CN108062760B (zh) * 2017-12-08 2020-12-08 广州市百果园信息技术有限公司 视频编辑方法、装置及智能移动终端

Similar Documents

Publication Publication Date Title
JP4261644B2 (ja) マルチメディア編集方法及び装置
RU2440606C2 (ru) Способ и устройство автоматического генерирования сводки множества изображений
JP4250301B2 (ja) 映像シーケンスを編集する方法及びシステム
CN112188117B (zh) 视频合成方法、客户端及系统
US20170257414A1 (en) Method of creating a media composition and apparatus therefore
CN101356800B (zh) 内容拍摄装置
US20150058709A1 (en) Method of creating a media composition and apparatus therefore
US8170239B2 (en) Virtual recording studio
KR101007508B1 (ko) 비디오 신호 처리 장치, 비디오 신호 기록 장치, 비디오신호 재생 장치, 비디오 신호 처리 장치의 처리 방법,비디오 신호 기록 장치의 처리 방법, 비디오 신호 재생장치의 처리 방법, 기록 매체
US20080193099A1 (en) Video Edition Device and Method
JP2007280486A (ja) 記録装置、再生装置、記録再生装置、記録方法、再生方法および記録再生方法並びに記録媒体
JP2010093713A (ja) 表示制御装置、表示制御方法及びプログラム
JP2000261752A (ja) 音声付き画像録画再生装置
JP2007280485A (ja) 記録装置、再生装置、記録再生装置、記録方法、再生方法および記録再生方法並びに記録媒体
JP3708854B2 (ja) メディア作品制作支援装置及びプログラム
CN103973953B (zh) 摄影装置、显示装置、再现装置、摄影方法以及显示方法
KR20190053673A (ko) 스마트 연기영상 제작 시스템 및 그 방법
JP2008178090A (ja) 映像処理装置
JPH11266422A (ja) 放送番組管理装置、放送番組管理方法、及び放送番組管理処理プログラムを記録した記録媒体
WO2006093184A1 (ja) 映像編集装置、映像編集方法および映像編集を行うためのコンピュータプログラム
Cross Audio Post Production: For Film and Television
JP2001202082A (ja) 映像信号編集装置および方法
JP2012027340A (ja) カラオケ装置及びカラオケ歌唱者の静止画出力方法
JP6830634B1 (ja) 情報処理方法、情報処理装置及びコンピュータプログラム
JP4529632B2 (ja) コンテンツ処理方法およびコンテンツ処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: RU

122 Ep: pct application non-entry in european phase

Ref document number: 06714976

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP