WO2019230593A1 - 画像処理方法および画像処理装置 - Google Patents

画像処理方法および画像処理装置 Download PDF

Info

Publication number
WO2019230593A1
WO2019230593A1 PCT/JP2019/020683 JP2019020683W WO2019230593A1 WO 2019230593 A1 WO2019230593 A1 WO 2019230593A1 JP 2019020683 W JP2019020683 W JP 2019020683W WO 2019230593 A1 WO2019230593 A1 WO 2019230593A1
Authority
WO
WIPO (PCT)
Prior art keywords
captured image
image
feature points
captured
candidate
Prior art date
Application number
PCT/JP2019/020683
Other languages
English (en)
French (fr)
Inventor
山本 和彦
Original Assignee
ヤマハ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤマハ株式会社 filed Critical ヤマハ株式会社
Priority to CN201980035307.6A priority Critical patent/CN112166456A/zh
Publication of WO2019230593A1 publication Critical patent/WO2019230593A1/ja
Priority to US17/094,404 priority patent/US11508174B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps

Definitions

  • This disclosure relates to a technique for analyzing an image obtained by capturing a document such as a score or a book.
  • Patent Document 1 discloses a technique for searching a plurality of candidates for music that includes a time series of notes that are sequentially designated by a user.
  • An image obtained by imaging a score composed of a plurality of pages with an imaging device (hereinafter referred to as a “captured image”) is compared with each of a plurality of candidate images representing different pages in the score, thereby obtaining a captured image in the score.
  • Can be specified for example, page number.
  • the photographing magnification by the image pickup device is sufficiently high (for example, a state in which the image pickup device is sufficiently close to the score sheet)
  • it is impeded to properly compare the picked-up image and the candidate image. Therefore, it is difficult to estimate the position of the captured image in the score with high accuracy.
  • a captured image obtained by capturing a musical score is illustrated.
  • an aspect of the present disclosure aims to appropriately specify the position of a captured image in a document such as a score or a book.
  • an image processing method extracts feature points from captured images sequentially generated by an imaging apparatus, and the number of feature points extracted from the first captured image is a threshold value.
  • the first captured image that has been generated before the first captured image is compared with the first captured image. The position of the captured image is specified.
  • An image processing device includes an extraction unit that extracts feature points from captured images sequentially generated by the imaging device, and whether or not the number of feature points extracted from the first captured image exceeds a threshold value.
  • a determination unit configured to determine, when the number of feature points extracted from the first captured image is lower than the threshold, the first captured image with respect to the second captured image generated in the past than the first captured image; And an analysis unit for specifying the position.
  • FIG. 1 is a block diagram illustrating a configuration of an image processing apparatus according to a first embodiment. It is a schematic diagram which illustrates the relationship between the imaging magnification of an imaging device and the range of a captured image. It is an example of a display of a display apparatus in case the number of feature points exceeds a threshold value. It is an example of a display of a display apparatus in case the number of feature points exceeds a threshold value. It is a flowchart which illustrates the specific procedure of the process which a control apparatus performs. It is explanatory drawing of the staff which comprises a score. It is explanatory drawing of analysis data. It is a flowchart of the image analysis process in 2nd Embodiment.
  • FIG. 1 is a block diagram illustrating the configuration of an image processing apparatus 100 according to the first embodiment.
  • the image processing apparatus 100 according to the first embodiment is realized by a computer system including a control device 11, a storage device 12, an imaging device 13, and a display device 14.
  • a portable information terminal such as a mobile phone or a smartphone, or a portable or stationary information terminal such as a personal computer can be used as the image processing apparatus 100.
  • the imaging device 13 is an image input device that generates an image of a subject (hereinafter referred to as “captured image”). Specifically, the imaging device 13 includes an imaging element that captures an image of a subject within an imaging range corresponding to an angle of view of an optical system such as a photographing lens. The captured image is expressed by image data of an arbitrary format.
  • the imaging device 13 according to the first embodiment sequentially generates captured images at a predetermined cycle. That is, a moving image composed of time series of a plurality of captured images is generated.
  • the configuration in which the imaging device 13 is mounted on the image processing device 100 is illustrated. However, an imaging device 13 that is separate from the image processing device 100 is connected to the image processing device 100 by wire or wirelessly. Also good. That is, the imaging device 13 may be omitted from the image processing device 100.
  • the user uses the imaging device 13 to image the score of an arbitrary piece of music.
  • the user can arbitrarily bring the imaging device 13 close to or away from the sheet of the score. That is, as illustrated in FIG. 2, the range represented by the captured image of the score changes with time.
  • FIG. 2 a time series of captured images sequentially generated by the imaging device 13 in the process of causing the imaging device 13 to gradually approach the paper surface of the score is arranged from left to right in the drawing. .
  • the closer the imaging device 13 is to the sheet of the score the larger the shooting magnification and the smaller the imaging range in the score.
  • the photographing magnification of the imaging device 13 can be optically adjusted by operating an optical system such as a photographing lens. Further, the shooting magnification may be adjusted electronically by image processing on the image data of the captured image.
  • the control device 11 is a processing circuit such as a CPU (Central Processing Unit), for example, and comprehensively controls each element of the image processing device 100.
  • the control device 11 identifies score information and page numbers by analyzing captured images sequentially generated by the imaging device 13.
  • the score information is information for identifying the score represented by the captured image. For example, the name of the music represented by the score or the identification number uniquely assigned to the score is used as the score information.
  • the page number is the number of the page represented by the captured image among the plurality of pages constituting the score. That is, the page number represents the position of the portion represented by the captured image in the score.
  • the storage device 12 stores a program executed by the control device 11 and various data used by the control device 11.
  • a known recording medium such as a semiconductor recording medium and a magnetic recording medium, or a combination of a plurality of types of recording media can be arbitrarily employed as the storage device 12.
  • the storage device 12 of the first embodiment stores reference data R for each of a plurality of images prepared in advance (hereinafter referred to as “candidate images”).
  • Each of the plurality of candidate images is an image representing one page of a musical score whose musical score information and page number are known.
  • a plurality of reference data R corresponding to different candidate images is stored in the storage device 12 for each of a plurality of music pieces.
  • the reference data R corresponding to any one candidate image includes image data C representing the candidate image and attached data D related to the candidate image.
  • the attached data D of each candidate image designates the score information and page number of the score represented by the candidate image.
  • the display device 14 displays various images under the control of the control device 11.
  • a liquid crystal display panel or an organic EL (Electroluminescence) display panel is preferably used as the display device 14.
  • the display device 14 displays captured images sequentially generated by the imaging device 13 in real time in parallel with imaging by the imaging device 13. That is, live view display of the captured image is executed.
  • the display device 14 displays the information area Q together with the captured image.
  • the information area Q includes score information (Book) of a score represented by the captured image and a page number (Page) corresponding to the captured image.
  • the musical score information and the page number represented by the attached data D of one candidate image corresponding to the captured image are displayed in the information area Q.
  • the candidate image corresponding to the captured image is a candidate image including a portion similar to the captured image, for example.
  • the control device 11 of the first embodiment includes a plurality of functions (extraction unit 21, identification unit 22, determination unit 23, analysis for analyzing captured images sequentially generated by the imaging device 13.
  • Unit 24 and display control unit 25 Note that the function of the control device 11 may be realized by a set of a plurality of devices (that is, a system), or part or all of the function of the control device 11 may be realized by a dedicated electronic circuit.
  • the extraction unit 21 extracts a plurality of feature points from the captured images sequentially generated by the imaging device 13.
  • the feature point is a characteristic point in the captured image.
  • the feature point extraction is sequentially performed for each captured image.
  • known image analysis techniques such as SIFT (Scale-Invariant Transform), SURF (Speeded Up Robust Features), KAZE (KAZE Features), or AKAZE (Accelerated KAZE) are arbitrarily adopted.
  • SIFT Scale-Invariant Transform
  • SURF Speeded Up Robust Features
  • KAZE KAZE Features
  • AKAZE Accelerated KAZE
  • the specifying unit 22 specifies a candidate image corresponding to the captured image among the plurality of candidate images. Specifically, the specifying unit 22 calculates a similarity index for each of a plurality of candidate images by comparing the candidate image and the captured image, and selects a candidate image having the maximum similarity index among the plurality of candidate images. Identify.
  • the similarity index is an index indicating the degree of similarity between the candidate image and the captured image. For example, a similarity index indicating the degree of similarity between the feature point distribution of the candidate image and the feature point distribution of the captured image is calculated.
  • a known image processing technique is arbitrarily adopted for comparison between the candidate image and the captured image.
  • the score information and page number specified by the attached data D of the candidate image are the score information of the captured image. And page number.
  • the specifying unit 22 functions as an element that specifies the score information and page number of the captured image.
  • the number N of feature points decreases as the imaging magnification of the imaging device 13 increases.
  • the number N of feature points is small, it is difficult to properly compare the captured image and each candidate image. That is, it is difficult to calculate a similarity index that appropriately represents the degree of similarity between the captured image and the candidate image.
  • whether or not the captured image is compared with each candidate image is controlled according to the number N of feature points of the captured image.
  • the threshold value Nth is set statistically or experimentally so as to exceed the minimum value of the number of feature points of the candidate image that can be appropriately compared with the candidate image.
  • the specifying unit 22 compares the captured image with each candidate image.
  • the specifying unit 22 does not perform comparison between the captured image and each candidate image. That is, the score information and page number of the captured image are not specified.
  • the analysis unit 24 specifies the position of the captured image with respect to a specific reference image when the number N of feature points extracted from the captured image is less than the threshold Nth.
  • the reference image is, for example, a captured image (an example of the second captured image) generated by the imaging device 13 in the past than the captured image.
  • the latest (that is, the latest) captured image in which the number N of feature points exceeds the threshold value Nth is used as the reference image.
  • the number N of feature points decreases as the shooting magnification increases (that is, the score increases). Therefore, the captured image in which the number N of feature points falls below the threshold Nth corresponds to a part of the reference image. To do.
  • the analysis unit 24 generates position information indicating the position of the captured image with respect to the reference image.
  • the position information is information indicating the relative position of the captured image with respect to the reference image, and is expressed by coordinates in a coordinate plane in which two axes orthogonal to each other are set, for example.
  • the display control unit 25 displays various images on the display device 14.
  • the display control unit 25 causes the display device 14 to display the captured image sequentially generated by the imaging device 13 and the information area Q related to the captured image in parallel with imaging by the imaging device 13. Specifically, for a captured image in which the number N of feature points exceeds the threshold value Nth, as illustrated in FIG. 3, reference information including score information and page number specified by the specifying unit 22 by comparison with each candidate image. Is displayed on the display device 14. On the other hand, for the captured image in which the number N of feature points is less than the threshold value Nth, as illustrated in FIG. (Specifically, the X coordinate and the Y coordinate) are displayed. Therefore, the user can grasp the position of the captured image even when the imaging magnification by the imaging device 13 is sufficiently high (for example, the imaging device 13 is sufficiently close to the sheet of the score).
  • FIG. 5 is a flowchart illustrating a specific procedure of processing (an example of an image processing method) executed by the image processing apparatus 100.
  • the process of FIG. 5 is executed every time the captured image is captured by the imaging device 13.
  • the extraction unit 21 extracts feature points from the captured image (illustrated as a first captured image) (Sa1).
  • the determination unit 23 determines whether or not the number N of feature points exceeds the threshold value Nth (Sa2).
  • the specifying unit 22 specifies a captured image corresponding to the captured image among the plurality of candidate images (Sa3). Specifically, the specifying unit 22 calculates the similarity index for each candidate image by comparing each of the plurality of candidate images with the captured image, and specifies the candidate image having the maximum similarity index among the plurality of candidate images. To do.
  • the display control unit 25 displays the score information and page number specified by the attached data D of the candidate image corresponding to the captured image in the information area Q as the score information and page number of the captured image (Sa4).
  • the specifying unit 22 updates the reference image stored in the storage device 12 to the current captured image (Sa5). That is, the reference image is updated every time a captured image in which the number N of feature points exceeds the threshold Nth is captured. As understood from the above description, the latest captured image in which the number N of feature points exceeds the threshold value Nth is stored as the reference image.
  • the analysis unit 24 specifies the position of the captured image with respect to the reference image stored in the storage device 12 (Sa6). That is, position information indicating the position of the captured image with respect to the reference image is generated.
  • the display control unit 25 causes the display device 14 to display the information area Q including the musical score information and page number specified for the reference image and the current position information of the captured image (Sa7). If the number N is equal to the threshold value Nth, either the search for candidate images (Sa3) or the generation of position information (Sa6) may be executed.
  • the first embodiment when the number N of feature points extracted from the captured image exceeds the threshold value Nth, that is, when the captured image and each candidate image can be appropriately compared, a plurality of candidates is obtained. A candidate image corresponding to the captured image is identified from the images. On the other hand, if the number N of feature points extracted from the captured image is less than the threshold value Nth, that is, if the imaging device 13 has a sufficiently high imaging magnification, the captured image and each candidate image cannot be properly compared. The position of the captured image with respect to a reference image generated in the past from the image is specified. Therefore, the user can appropriately grasp the position of the captured image.
  • the position of the captured image with respect to the reference image is specified using the captured image in which the number N of feature points exceeds the threshold value Nth, that is, the past captured image that can be appropriately compared with each candidate image. Therefore, there is an advantage that the user can appropriately grasp the position of the captured image in the score.
  • the latest captured image in which the number N of feature points exceeds the threshold value Nth is used as the reference image. Therefore, there is an advantage that the position of the captured image in the score can be appropriately specified as compared with the configuration in which the time when the captured image is generated and the time when the reference image is generated are deviated on the time axis.
  • Second Embodiment A second embodiment of the present disclosure will be described.
  • elements having the same functions as those of the first embodiment are diverted using the same reference numerals used in the description of the first embodiment, and detailed descriptions thereof are appropriately omitted.
  • the musical score imaged by the imaging device 13 is composed of a plurality of pages. As illustrated in FIG. 6, each page of the score includes a plurality of staffs F arranged in parallel in the vertical direction at intervals. Each of the plurality of staves F includes a plurality of horizontal straight lines representing different pitches. Specifically, each staff F is a staff notation composed of five straight lines. A plurality of musical score elements including a clef such as a treble clef or a clef and a code such as a note or a rest are arranged for each of the plural staves F.
  • FIG. 7 is a schematic diagram for explaining image data C of candidate images in the second embodiment.
  • FIG. 7 illustrates a plurality of feature points Pa extracted from the candidate image and a reference line Lref along a plurality of straight lines L constituting the staff F of the candidate image.
  • the projected point Pb in FIG. 7 is a point obtained by projecting one feature point Pa onto the reference line Lref (specifically, orthogonal projection). That is, the projection point Pb is an intersection (a leg of a perpendicular line) between the perpendicular line of the reference line Lref passing through one feature point Pa and the reference line Lref.
  • Image data C of each candidate image in the second embodiment includes a plurality of analysis data Z corresponding to different staffs F of the candidate images.
  • the analysis data Z corresponding to any one staff F in the candidate image is a set of a plurality of projection points Pb obtained by projecting a plurality of feature points Pa of the candidate image with respect to a reference line Lref corresponding to the staff F. Is vector data.
  • the specifying unit 22 of the second embodiment generates analysis data Z by analyzing the captured image captured by the imaging device 13, and each of the plurality of analysis data Z stored in the storage device 12 for different candidate images. By comparing the analysis data Z of the captured image with each other, a candidate image corresponding to the captured image is specified.
  • FIG. 8 is a flowchart illustrating a specific procedure of processing (hereinafter referred to as “image analysis processing”) in which the control device 11 according to the second embodiment specifies a candidate image corresponding to a captured image.
  • image analysis processing a specific procedure of processing
  • the control device 11 specifies a candidate image corresponding to a captured image.
  • the image analysis processing in FIG. 8 is executed.
  • the specifying unit 22 When the image analysis process is started, the specifying unit 22 generates analysis data Z by analyzing the captured image (Sb1 to Sb4).
  • the identifying unit 22 sets a reference line Lref for the captured image (Sb1). Specifically, the specifying unit 22 extracts each straight line L constituting the staff F from the captured image, and sets a reference line Lref parallel to the plurality of straight lines L. For example, the specifying unit 22 classifies (clusters) a plurality of horizontal lines L extracted from the captured image for each staff F, passes through the midpoint of the staff F in the vertical direction, and each straight line L of the staff F. A reference line Lref extending in the horizontal direction along is set.
  • the identifying unit 22 divides the plurality of feature points Pa extracted from the captured image into a plurality of sets (clusters) for each staff F (Sb2).
  • a known clustering technique is arbitrarily employed to classify the plurality of feature points Pa. Note that when the captured image includes only one staff F, the process of step Sb2 may be omitted.
  • the specifying unit 22 specifies a plurality of projection points Pb by projecting a plurality of feature points Pa onto the reference line Lref for each staff F included in the captured image (Sb3). That is, the specifying unit 22 specifies a plurality of projection points Pb by orthogonally projecting each of a plurality of feature points Pa extracted from the vicinity of any one staff F to the reference line Lref.
  • the specifying unit 22 generates analysis data Z representing the plurality of projection points Pb specified by the above processing (Sb4). Note that the analysis data Z of each candidate image is generated by executing the processing (Sb1 to Sb4) exemplified above for the candidate image and stored in the storage device 12.
  • the specifying unit 22 mutually connects each of the plurality of analysis data Z stored in the storage device 12 for the different candidate images and the analysis data Z of the captured image.
  • a candidate image corresponding to the captured image is specified (Sc1 to Sc4).
  • the identifying unit 22 selects any one of the plurality of candidate images (Sc1), and calculates a similarity index between the analysis data Z of the candidate image and the analysis data Z of the captured image (Sc2). For example, an arbitrary index indicating the distance or correlation between the analysis data Z of the candidate image and the analysis data Z of the captured image is suitable as the similarity index. In the following description, it is assumed that the similarity index becomes a larger value as the analysis data Z of the candidate image and the analysis data Z of the captured image are similar.
  • the identifying unit 22 determines whether or not the similarity index between the captured images is calculated for all candidate images (Sc3). When there is a candidate image for which the similarity index has not been calculated (Sc3: NO), the specifying unit 22 newly selects an unselected candidate image, and then analyzes the candidate image analysis data Z and the captured image analysis data Z. The similarity index is calculated (Sc2).
  • the specifying unit 22 specifies a candidate image having the maximum similar index among a plurality of candidate images ( Sc4). That is, a candidate image corresponding to the captured image among the plurality of candidate images is specified.
  • Sc4 a candidate image having the maximum similar index among a plurality of candidate images
  • analysis data Z representing a result of projecting a plurality of feature points Pa extracted from a captured image onto a reference line Lref is compared with each of a plurality of analysis data Z corresponding to different candidate images. . Therefore, the candidate image corresponding to the captured image can be specified with high accuracy. Further, since the reference line Lref corresponding to the straight line L included in the captured image is set, there is an advantage that the user does not need to set the reference line Lref, for example. However, the user may specify the reference line Lref. Note that the method for specifying the candidate image corresponding to the captured image is not limited to the image analysis processing of the second embodiment.
  • the latest captured image in which the number N of feature points exceeds the threshold value Nth is used as the reference image.
  • the reference image is not limited to the above examples.
  • a captured image captured by the imaging device 13 when a user gives a predetermined operation to an input device (not shown) of the image processing apparatus 100 may be used as a reference image.
  • the image processing apparatus 100 may be realized by a server device that communicates with a terminal device (for example, a mobile phone or a smartphone) via a communication network such as the Internet.
  • a terminal device for example, a mobile phone or a smartphone
  • the image processing apparatus 100 receives a captured image from the terminal device, and transmits position information specified by analysis of the captured image to the terminal device.
  • the imaging device 13 captures a score
  • the subject represented by the captured image is not limited to the score.
  • the present invention may be applied to specify a candidate image (for example, one page of a document) from a captured image obtained by capturing a document such as a book.
  • a candidate image for example, one page of a document
  • one aspect of the present disclosure is based on analyzing a captured image obtained by capturing an object (for example, a score or a document) formed in a planar shape. This is an image processing method for identifying a corresponding candidate image.
  • the image processing apparatus 100 is realized by the cooperation of the control device 11 and a program as illustrated in each embodiment.
  • the programs according to the above-described embodiments can be provided in a form stored in a computer-readable recording medium and installed in the computer.
  • the recording medium is, for example, a non-transitory recording medium, and an optical recording medium (optical disk) such as a CD-ROM is a good example, but a known arbitrary one such as a semiconductor recording medium or a magnetic recording medium
  • the recording medium of the form may be included.
  • the non-transitory recording medium includes an arbitrary recording medium excluding a transient propagation signal (transitory, “propagating signal”) and does not exclude a volatile recording medium. It is also possible to provide a program to a computer in the form of distribution via a communication network.
  • feature points are extracted from captured images sequentially generated by the imaging device, and whether or not the number of feature points extracted from the first captured image exceeds a threshold value. If the number of feature points extracted from the first captured image is less than the threshold, the position of the first captured image with respect to the second captured image generated earlier than the first captured image Is identified.
  • the threshold value that is, for example, since the imaging device is sufficiently close to the subject.
  • the first captured image and each candidate image are appropriately If the comparison is not possible, the position of the first captured image with respect to the second captured image generated in the past from the first captured image is specified. Therefore, it is possible to appropriately specify the position of the captured image in a document such as a score.
  • a candidate image corresponding to the first captured image may be specified among a plurality of candidate images.
  • the threshold value that is, for example, when the first captured image and each candidate image can be appropriately compared
  • a candidate image corresponding to the first captured image is specified. Therefore, it is possible to appropriately specify the position of the captured image in a document such as a score.
  • the second captured image may be a captured image in which the number of feature points exceeds the threshold value.
  • the position of the 1st captured image with respect to the 2nd captured image from which the feature point of the number exceeding a threshold value was extracted ie, the past captured image which can be compared with a candidate image appropriately, is specified. Therefore, it is possible to appropriately specify the position of the captured image in a document such as a score.
  • the second captured image may be a captured image closest to the first captured image in which the number of feature points exceeds the threshold value.
  • the number of feature points exceeding the threshold value is extracted, and the position of the first captured image with respect to the second captured image is defined as the past captured image that is located in the immediate vicinity of the first captured image. Is identified. Therefore, it is possible to appropriately specify the position of the captured image in the document such as a score, as compared with the configuration in which the time point at which the first captured image is generated and the time point at which the second captured image is generated are separated on the time axis. .
  • the aspect of the present disclosure can be realized as an image processing apparatus that executes the image processing method of each aspect exemplified above or a program that causes a computer to execute the image processing method of each aspect exemplified above.
  • DESCRIPTION OF SYMBOLS 100 ... Image processing apparatus, 11 ... Control apparatus, 12 ... Memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Auxiliary Devices For Music (AREA)
  • Character Discrimination (AREA)

Abstract

楽譜等の文書内における撮像画像の位置を適切に特定する。画像処理装置(100)は、撮像装置(13)が順次に生成する撮像画像から特徴点を抽出する抽出部(21)と、撮像画像から抽出された特徴点の個数が閾値を上回るか否かを判定する判定部(23)と、撮像画像から抽出された特徴点の個数が閾値を下回る場合に、撮像画像よりも過去に生成された基準画像に対する撮像画像の位置を特定する解析部(24)とを具備する。

Description

画像処理方法および画像処理装置
 本開示は、楽譜または書籍等の書面を撮像した画像を解析する技術に関する。
 利用者の所望の楽曲を検索する技術が従来から提案されている。例えば特許文献1には、利用者が順次に指定した音符の時系列を含む楽曲を複数の候補から検索する技術が開示されている。
日本国特開平6-110945号公報
 複数頁で構成される楽譜を撮像装置により撮像した画像(以下「撮像画像」という)を、当該楽譜内の相異なるページを表す複数の候補画像の各々と対比することで、楽譜内における撮像画像の位置(例えば頁番号)を特定することが可能である。しかし、撮像装置による撮影倍率が充分に高い状態(例えば撮像装置が楽譜の紙面に充分に接近した状態)では、撮像画像と候補画像とを適切に対比することが阻害される。したがって、楽譜内における撮像画像の位置を高精度に推定することは困難である。なお、以上の説明では、楽譜を撮像した撮像画像を例示したが、例えば小説等の文書を撮像した画像を解析する場合にも同様の問題が発生し得る。以上の事情を考慮して、本開示の態様は、楽譜または書籍等の文書内における撮像画像の位置を適切に特定することを目的とする。
 以上の課題を解決するために、本開示の態様に係る画像処理方法は、撮像装置が順次に生成する撮像画像から特徴点を抽出し、第1撮像画像から抽出された特徴点の個数が閾値を上回るか否かを判定し、前記第1撮像画像から抽出された特徴点の個数が前記閾値を下回る場合に、前記第1撮像画像よりも過去に生成された第2撮像画像に対する前記第1撮像画像の位置を特定する。
 本開示の態様に係る画像処理装置は、撮像装置が順次に生成する撮像画像から特徴点を抽出する抽出部と、第1撮像画像から抽出された特徴点の個数が閾値を上回るか否かを判定する判定部と、前記第1撮像画像から抽出された特徴点の個数が前記閾値を下回る場合に、前記第1撮像画像よりも過去に生成された第2撮像画像に対する前記第1撮像画像の位置を特定する解析部とを具備する。
第1実施形態に係る画像処理装置の構成を示すブロック図である。 撮像装置の撮影倍率と撮像画像の範囲との関係を例示する模式図である。 特徴点の個数が閾値を上回る場合における表示装置の表示例である。 特徴点の個数が閾値を上回る場合における表示装置の表示例である。 制御装置が実行する処理の具体的な手順を例示するフローチャートである。 楽譜を構成する譜表の説明図である。 解析データの説明図である。 第2実施形態における画像解析処理のフローチャートである。
<第1実施形態>
 図1は、第1実施形態に係る画像処理装置100の構成を例示するブロック図である。図1に例示される通り、第1実施形態の画像処理装置100は、制御装置11と記憶装置12と撮像装置13と表示装置14とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、画像処理装置100として利用され得る。
 撮像装置13は、被写体を撮像した画像(以下「撮像画像」という)を生成する画像入力機器である。具体的には、撮像装置13は、撮影レンズ等の光学系の画角に応じた撮像範囲内の被写体を撮像する撮像素子を具備する。撮像画像は、任意の形式の画像データで表現される。第1実施形態の撮像装置13は、撮像画像を所定の周期で順次に生成する。すなわち、複数の撮像画像の時系列で構成される動画像が生成される。なお、第1実施形態では撮像装置13が画像処理装置100に搭載された構成を例示するが、画像処理装置100とは別体の撮像装置13を画像処理装置100に有線または無線で接続してもよい。すなわち、画像処理装置100から撮像装置13を省略してもよい。
 利用者は、撮像装置13を利用して任意の楽曲の楽譜を撮像する。利用者は、撮像装置13を楽譜の紙面に対して任意に接近または離間させることが可能である。すなわち、図2に例示される通り、楽譜のうち撮像画像が表す範囲は経時的に変化する。図2においては、撮像装置13を楽譜の紙面に対して徐々に接近させる過程で撮像装置13が順次に生成する撮像画像の時系列が、図面の左方から右方に向けて配列されている。図2に例示される通り、撮像装置13が楽譜の紙面に接近するほど、撮影倍率が増加して楽譜内の撮像範囲は縮小する。なお、撮像装置13の撮影倍率は、撮影レンズ等の光学系を操作することで光学的に調整することも可能である。また、撮像画像の画像データに対する画像処理により撮影倍率を電子的に調整してもよい。
 制御装置11は、例えばCPU(Central Processing Unit)等の処理回路であり、画像処理装置100の各要素を統括的に制御する。第1実施形態の制御装置11は、撮像装置13が順次に生成する撮像画像を解析することで楽譜情報と頁番号とを特定する。楽譜情報は、撮像画像が表す楽譜を識別するための情報である。例えば楽譜が表す楽曲の名称、または楽譜に一意に付与された識別番号が、楽譜情報として利用される。頁番号は、楽譜を構成する複数頁のうち撮像画像が表す頁の番号である。すなわち、頁番号は、楽譜内において撮像画像が表す部分の位置を表す。
 記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置12として任意に採用され得る。
 第1実施形態の記憶装置12は、事前に用意された複数の画像(以下「候補画像」という)の各々について参照データRを記憶する。複数の候補画像の各々は、楽譜情報と頁番号とが既知である楽譜の1頁分を表す画像である。相異なる候補画像に対応する複数の参照データRが複数の楽曲の各々について記憶装置12に記憶される。任意の1個の候補画像に対応する参照データRは、当該候補画像を表す画像データCと、当該候補画像に関する付属データDとを含んで構成される。各候補画像の付属データDは、当該候補画像が表す楽譜の楽譜情報と頁番号とを指定する。
 表示装置14は、制御装置11による制御のもとで各種の画像を表示する。例えば液晶表示パネルまたは有機EL(Electroluminescence)表示パネルが表示装置14として好適に利用される。第1実施形態の表示装置14は、図3に例示される通り、撮像装置13が順次に生成する撮像画像を、撮像装置13による撮像に並行して実時間的に表示する。すなわち、撮像画像のライブビュー表示が実行される。また、表示装置14は、撮像画像とともに情報領域Qを表示する。情報領域Qは、撮像画像が表す楽譜の楽譜情報(Book)と、当該撮像画像に対応する頁番号(Page)とを含む。
 記憶装置12に参照データRが記憶された複数の候補画像のうち、撮像画像に対応する1個の候補画像の付属データDが表す楽譜情報および頁番号が、情報領域Qに表示される。撮像画像に対応する候補画像とは、例えば撮像画像に類似する部分を含む候補画像である。利用者は、表示装置14の情報領域Qを視認することで、撮像装置13が現に撮像している楽譜の楽譜情報と頁番号とを把握できる。
 図1に例示される通り、第1実施形態の制御装置11は、撮像装置13が順次に生成する撮像画像を解析するための複数の機能(抽出部21,特定部22,判定部23,解析部24,表示制御部25)を実現する。なお、制御装置11の機能を複数の装置の集合(すなわちシステム)で実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路で実現してもよい。
 抽出部21は、撮像装置13が順次に生成する撮像画像から複数の特徴点を抽出する。特徴点は、撮像画像内の特徴的な地点である。特徴点の抽出は、撮像画像毎に順次に実行される。特徴点の抽出には、SIFT(Scale-Invariant Feature Transform)、SURF(Speeded Up Robust Features)、KAZE(KAZE Features)、またはAKAZE(Accelerated KAZE)等の公知の画像解析技術が任意に採用される。各撮像画像から抽出される特徴点の個数Nは撮像画像毎に相違する。具体的には、図2に例示される通り、撮像装置13の撮影倍率が増加するほど(すなわち、楽譜内の撮像範囲が縮小するほど)、特徴点の個数Nは減少するという傾向がある。
 特定部22は、複数の候補画像のうち撮像画像に対応する候補画像を特定する。具体的には、特定部22は、複数の候補画像の各々について当該候補画像と撮像画像とを対比することで類似指標を算定し、複数の候補画像のうち類似指標が最大となる候補画像を特定する。類似指標は、候補画像と撮像画像との類似の度合を示す指標である。例えば、候補画像の特徴点の分布と撮像画像の特徴点の分布との類似の度合を示す類似指標が算定される。候補画像と撮像画像との対比には公知の画像処理技術が任意に採用される。撮像画像に対応する候補画像(例えば撮像画像に類似する部分を含む候補画像)が特定されることで、当該候補画像の付属データDが指定する楽譜情報および頁番号が、当該撮像画像の楽譜情報および頁番号として特定される。以上の説明から理解される通り、特定部22は、撮像画像の楽譜情報および頁番号を特定する要素として機能する。
 前述の通り、撮像装置13の撮影倍率が増加するほど特徴点の個数Nは減少する。特徴点の個数Nが少ない状態では、撮像画像と各候補画像とを適切に対比することが困難である。すなわち、撮像画像と候補画像との間の類似の度合を適切に表現する類似指標を算定することが困難となる。以上の事情を考慮して、第1実施形態では、撮像画像の特徴点の個数Nに応じて、撮像画像と各候補画像との対比の有無を制御する。
 図1の判定部23は、撮像画像から抽出された特徴点の個数Nが所定の閾値Nthを上回るか否かを判定する。閾値Nthは、候補画像と適切に対比され得る候補画像の特徴点の個数の最小値を上回るように、統計的または実験的に設定される。特定部22は、撮像画像の特徴点の個数Nが閾値Nthを上回る場合に、当該撮像画像と各候補画像との対比を実行する。他方、特徴点の個数Nが閾値Nthを下回る場合、特定部22は、撮像画像と各候補画像との対比を実行しない。すなわち、撮像画像の楽譜情報および頁番号は特定されない。
 解析部24は、撮像画像から抽出された特徴点の個数Nが閾値Nthを下回る場合に、特定の基準画像に対する当該撮像画像の位置を特定する。基準画像は、例えば撮像画像よりも過去に撮像装置13が生成した撮像画像(第2撮像画像の例示)である。具体的には、特徴点の個数Nが閾値Nthを上回る直近(すなわち最新)の撮像画像が基準画像として利用される。図2に例示される通り、撮影倍率の増加(すなわち楽譜の拡大)により特徴点の個数Nが減少するから、特徴点の個数Nが閾値Nthを下回る撮像画像は、基準画像の一部に相当する。第1実施形態の解析部24は、基準画像に対する撮像画像の位置を表す位置情報を生成する。位置情報は、基準画像に対する撮像画像の相対的な位置を表す情報であり、例えば相互に直交する2軸が設定された座標平面内の座標で表現される。
 表示制御部25は、表示装置14に各種の画像を表示させる。第1実施形態の表示制御部25は、撮像装置13が順次に生成する撮像画像と当該撮像画像に関する情報領域Qとを、撮像装置13による撮像に並行して表示装置14に表示させる。具体的には、特徴点の個数Nが閾値Nthを上回る撮像画像については、図3の例示の通り、各候補画像との対比により特定部22が特定した楽譜情報と頁番号とを含む参照情報が表示装置14に表示される。他方、特徴点の個数Nが閾値Nthを下回る撮像画像については、図4に例示される通り、基準画像について特定された楽譜情報および頁番号と、当該撮像画像について解析部24が生成した位置情報(具体的にはX座標およびY座標)とが表示される。したがって、利用者は、撮像装置13による撮影倍率が充分に高い状態(例えば撮像装置13が楽譜の紙面に充分に接近した状態)でも、撮像画像の位置を把握することが可能である。
 図5は、画像処理装置100が実行する処理(画像処理方法の例示)の具体的な手順を例示するフローチャートである。撮像装置13による撮像画像の撮像毎に図5の処理が実行される。図5の処理を開始すると、抽出部21は、撮像画像(第1撮像画像の例示)から特徴点を抽出する(Sa1)。判定部23は、特徴点の個数Nが閾値Nthを上回るか否かを判定する(Sa2)。
 個数Nが閾値Nthを上回ると判定部23が判定した場合(Sa2:YES)、特定部22は、複数の候補画像のうち撮像画像に対応する撮像画像を特定する(Sa3)。具体的には、特定部22は、複数の候補画像の各々を撮像画像と対比することで候補画像毎に類似指標を算定し、複数の候補画像のうち類似指標が最大となる候補画像を特定する。表示制御部25は、撮像画像に対応する候補画像の付属データDが指定する楽譜情報および頁番号を、撮像画像の楽譜情報および頁番号として情報領域Qに表示する(Sa4)。
 また、個数Nが閾値Nthを上回る場合、特定部22は、記憶装置12に記憶された基準画像を今回の撮像画像に更新する(Sa5)。すなわち、特徴点の個数Nが閾値Nthを上回る撮像画像が撮像されるたびに基準画像が更新される。以上の説明から理解される通り、特徴点の個数Nが閾値Nthを上回る最新の撮像画像が基準画像として記憶される。
 他方、個数Nが閾値Nthを下回ると判定部23が判定した場合(Sa2:NO)、解析部24は、記憶装置12に記憶された基準画像に対する撮像画像の位置を特定する(Sa6)。すなわち、基準画像に対する撮像画像の位置を表す位置情報が生成される。表示制御部25は、基準画像について特定された楽譜情報および頁番号と、現時点の撮像画像の位置情報とを含む情報領域Qを表示装置14に表示させる(Sa7)。なお、個数Nが閾値Nthと等しい場合には、候補画像の検索(Sa3)および位置情報の生成(Sa6)の何れを実行してもよい。
 以上に説明した通り、第1実施形態では、撮像画像から抽出された特徴点の個数Nが閾値Nthを上回る場合、すなわち撮像画像と各候補画像とを適切に対比できる場合には、複数の候補画像のうち撮像画像に対応する候補画像が特定される。他方、撮像画像から抽出された特徴点の個数Nが閾値Nthを下回る場合、すなわち、撮像装置13の撮像倍率が充分に高いため撮像画像と各候補画像とを適切に対比できない場合には、撮像画像よりも過去に生成された基準画像に対する当該撮像画像の位置が特定される。したがって、撮像画像の位置を利用者が適切に把握できる。
 また、特徴点の個数Nが閾値Nthを上回る撮像画像、すなわち各候補画像と適切に対比され得る過去の撮像画像を基準画像として、当該基準画像に対する撮像画像の位置が特定される。したがって、楽譜内における撮像画像の位置を利用者が適切に把握できるという利点がある。第1実施形態では特に、特徴点の個数Nが閾値Nthを上回る直近の撮像画像が基準画像として利用される。したがって、撮像画像が生成された時点と基準画像が生成された時点とが時間軸上で乖離する構成と比較して、楽譜内における撮像画像の位置を適切に特定できるという利点がある。
<第2実施形態>
 本開示の第2実施形態を説明する。なお、以下の各例示において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
 撮像装置13により撮像される楽譜は、複数頁で構成される。図6に例示される通り、楽譜の各頁は、相互に間隔をあけて縦方向に並列された複数の譜表Fを含む。複数の譜表Fの各々は、相異なる音高を表す横方向の複数の直線で構成される。具体的には、各譜表Fは、5本の直線で構成される五線譜である。ト音記号またはへ音記号等の音部記号と音符または休符等の符号とを含む複数の楽譜要素が、複数の譜表Fの各々に対して配置される。
 図7は、第2実施形態における候補画像の画像データCを説明するための模式図である。図7には、候補画像から抽出された複数の特徴点Paと、当該候補画像の譜表Fを構成する複数の直線Lに沿う基準線Lrefとが図示されている。図7の射影点Pbは、1個の特徴点Paを基準線Lrefに射影(詳細には正射影)した地点である。すなわち、射影点Pbは、1個の特徴点Paを通過する基準線Lrefの垂線と当該基準線Lrefとの交点(垂線の足)である。第2実施形態における各候補画像の画像データCは、候補画像の相異なる譜表Fに対応する複数の解析データZを含んで構成される。候補画像内の任意の1個の譜表Fに対応する解析データZは、当該譜表Fに対応する基準線Lrefに対して候補画像の複数の特徴点Paをそれぞれ射影した複数の射影点Pbの集合を表すベクトルデータである。
 第2実施形態の特定部22は、撮像装置13が撮像した撮像画像を解析することで解析データZを生成し、相異なる候補画像について記憶装置12に記憶された複数の解析データZの各々と撮像画像の解析データZとを相互に対比することで、撮像画像に対応する候補画像を特定する。
 図8は、第2実施形態の制御装置11が撮像画像に対応する候補画像を特定する処理(以下「画像解析処理」という)の具体的な手順を例示するフローチャートである。図5のステップSa3において図8の画像解析処理が実行される。画像解析処理を開始すると、特定部22は、撮像画像の解析により解析データZを生成する(Sb1~Sb4)。
 特定部22は、撮像画像について基準線Lrefを設定する(Sb1)。具体的には、特定部22は、譜表Fを構成する各直線Lを撮像画像から抽出し、複数の直線Lに平行な基準線Lrefを設定する。例えば、特定部22は、撮像画像から抽出された横方向の複数の直線Lを譜表F毎に区分(クラスタリング)し、縦方向における譜表Fの中点を通過するとともに当該譜表Fの各直線Lに沿って横方向に延在する基準線Lrefを設定する。
 特定部22は、撮像画像からステップSa1で抽出した複数の特徴点Paを譜表F毎に複数の集合(クラスタ)に区分する(Sb2)。複数の特徴点Paの区分には公知のクラスタリング技術が任意に採用される。なお、撮像画像に1個の譜表Fのみが含まれる場合には、ステップSb2の処理を省略してもよい。
 特定部22は、撮像画像に含まれる譜表F毎に、複数の特徴点Paを基準線Lrefに射影することで複数の射影点Pbを特定する(Sb3)。すなわち、特定部22は、任意の1個の譜表Fの付近から抽出された複数の特徴点Paの各々を基準線Lrefに正射影することで、複数の射影点Pbを特定する。特定部22は、以上の処理で特定した複数の射影点Pbを表す解析データZを生成する(Sb4)。なお、各候補画像の解析データZは、以上に例示した処理(Sb1~Sb4)を候補画像について実行することで生成されて記憶装置12に格納される。
 以上の処理により撮像画像の解析データZを生成すると、特定部22は、相異なる候補画像について記憶装置12に記憶された複数の解析データZの各々と、撮像画像の解析データZとを相互に対比することで、撮像画像に対応する候補画像を特定する(Sc1~Sc4 )。具体的な処理の手順は以下の通りである。
 特定部22は、複数の候補画像の何れかを選択し(Sc1)、当該候補画像の解析データZと撮像画像の解析データZとの間で類似指標を算定する(Sc2)。例えば、候補画像の解析データZと撮像画像の解析データZとの間の距離または相関を示す任意の指標が類似指標として好適である。以下の説明では、候補画像の解析データZと撮像画像の解析データZとが類似するほど類似指標が大きい数値となる場合を想定する。
 特定部22は、全部の候補画像について撮像画像との間の類似指標を算定したか否かを判定する(Sc3)。類似指標を算定していない候補画像がある場合(Sc3:NO)、特定部22は、未選択の候補画像を新たに選択したうえで、当該候補画像の解析データZと撮像画像の解析データZとの類似指標を算定する(Sc2)。
 以上に例示した処理が反復されることで全部の候補画像について類似指標を算定すると(Sc3:YES)、特定部22は、複数の候補画像のうち類似指標が最大となる候補画像を特定する(Sc4)。すなわち、複数の候補画像のうち撮像画像に対応する候補画像が特定される。画像解析処理の具体的な手順は以上の通りである。
 第2実施形態においても第1実施形態と同様の効果が実現される。第2実施形態では、撮像画像から抽出された複数の特徴点Paを基準線Lrefに射影した結果を表す解析データZが、相異なる候補画像に対応する複数の解析データZの各々と対比される。したがって、撮像画像に対応する候補画像を高精度に特定できる。また、撮像画像に含まれる直線Lに対応した基準線Lrefが設定されるから、例えば利用者が基準線Lrefを設定する必要がないという利点もある。ただし、利用者が基準線Lrefを指定してもよい。なお、撮像画像に対応する候補画像を特定する方法は、第2実施形態の画像解析処理に限定されない。
<変形例>
 以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では、特徴点の個数Nが閾値Nthを上回る直近の撮像画像を基準画像として利用したが、基準画像は以上の例示に限定されない。例えば、画像処理装置100の入力装置(図示略)に対して利用者が所定の操作を付与した時点で撮像装置13が撮像した撮像画像を基準画像として利用してもよい。
(2)例えばインターネット等の通信網を介して端末装置(例えば携帯電話機またはスマートフォン)と通信するサーバ装置により画像処理装置100を実現してもよい。例えば、画像処理装置100は、撮像画像を端末装置から受信し、当該撮像画像の解析により特定された位置情報を端末装置に送信する。
(3)前述の各形態では、撮像装置13が楽譜を撮像する場合を例示したが、撮像画像が表す被写体は楽譜に限定されない。例えば、書籍等の文書を撮像した撮像画像から候補画像(例えば文書の1頁分)を特定するために、本発明を適用してもよい。以上の説明から理解される通り、本開示の一態様は、平面状に形成された被写体(例えば楽譜または文書)を撮像した撮像画像を解析することで、複数の候補画像のうち当該撮像画像に対応する候補画像を特定する画像処理方法である。
(4)前述の各形態に係る画像処理装置100は、各形態の例示の通り、制御装置11とプログラムとの協働により実現される。前述の各形態に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を含み得る。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。
(5)以上に例示した形態から、例えば以下の構成が把握される。
 本開示の態様(第1態様)に係る画像処理方法は、撮像装置が順次に生成する撮像画像から特徴点を抽出し、第1撮像画像から抽出された特徴点の個数が閾値を上回るか否かを判定し、前記第1撮像画像から抽出された特徴点の個数が前記閾値を下回る場合に、前記第1撮像画像よりも過去に生成された第2撮像画像に対する前記第1撮像画像の位置を特定する。以上の態様では、第1撮像画像から抽出された特徴点の個数が閾値を下回る場合、すなわち、例えば撮像装置が被写体に充分に近接しているため第1撮像画像と各候補画像とを適切に対比できない場合には、第1撮像画像よりも過去に生成された第2撮像画像に対する第1撮像画像の位置が特定される。したがって、楽譜等の文書内における撮像画像の位置を適切に特定できる。
 第1態様において、前記第1撮像画像から抽出された特徴点の個数が前記閾値を上回る場合に、複数の候補画像のうち前記第1撮像画像に対応する候補画像を特定してもよい。以上の態様では、第1撮像画像から抽出された特徴点の個数が閾値を上回る場合、すなわち、例えば第1撮像画像と各候補画像とを適切に対比できる場合には、複数の候補画像のうち第1撮像画像に対応する候補画像が特定される。したがって、楽譜等の文書内における撮像画像の位置を適切に特定できる。
 第1態様において、前記第2撮像画像は、前記特徴点の個数が前記閾値を上回る撮像画像であってもよい。以上の態様では、閾値を上回る個数の特徴点が抽出された第2撮像画像、すなわち候補画像と適切に対比され得る過去の撮像画像に対する第1撮像画像の位置が特定される。したがって、楽譜等の文書内における撮像画像の位置を適切に特定できる。
 第1態様において、前記第2撮像画像は、前記特徴点の個数が前記閾値を上回る、前記第1撮像画像の直近の撮像画像であってもよい。以上の態様では、閾値を上回る個数の特徴点が抽出され、かつ、第1撮像画像の直近に位置する過去の撮像画像を第2撮像画像として、当該第2撮像画像に対する第1撮像画像の位置が特定される。したがって、第1撮像画像が生成された時点と第2撮像画像が生成された時点とが時間軸上で乖離する構成と比較して、楽譜等の文書内における撮像画像の位置を適切に特定できる。
 以上に例示した各態様の画像処理方法を実行する画像処理装置、または、以上に例示した各態様の画像処理方法をコンピュータに実行させるプログラムとしても、本開示の態様は実現される。
 本出願は、2018年5月30日付にて提出された日本国特許出願である特願2018-103440に基づくものであり、その内容はここに参照として取り込まれる。
100…画像処理装置、11…制御装置、12…記憶装置、13…撮像装置、14…表示装置、21…抽出部、22…特定部、23…判定部、24…解析部、25…表示制御部、F…譜表、Lref…基準線、Pa…特徴点、Pb…射影点。

Claims (14)

  1.  撮像装置が順次に生成する撮像画像から特徴点を抽出し、
     第1撮像画像から抽出された特徴点の個数が閾値を上回るか否かを判定し、
     前記第1撮像画像から抽出された特徴点の個数が前記閾値を下回る場合に、前記第1撮像画像よりも過去に生成された第2撮像画像に対する前記第1撮像画像の位置を特定する
     コンピュータにより実現される画像処理方法。
  2.  前記第1撮像画像から抽出された特徴点の個数が前記閾値を上回る場合に、複数の候補画像のうち前記第1撮像画像に対応する候補画像を特定する
     請求項1の画像処理方法。
  3.  前記第2撮像画像は、前記特徴点の個数が前記閾値を上回る撮像画像である
     請求項1または2の画像処理方法。
  4.  前記第2撮像画像は、前記特徴点の個数が前記閾値を上回る、前記第1撮像画像の直近の撮像画像である
     請求項3の画像処理方法。
  5.  前記第2撮像画像は、前記第1撮像画像の一部を示す画像である
     請求項1から4のいずれか1項の画像処理方法。
  6.  前記第1撮像画像内の前記特徴点を基準線に射影した射影点を含む解析データと、前記複数の候補画像内のそれぞれの特徴点を基準線に射影した射影点を含む解析データを比較することで、前記第1撮像画像に対応する前記候補画像を特定する
     請求項2の画像処理方法。
  7.  前記第2撮像画像に対する前記第1撮像画像の位置を示す位置情報を表示装置に表示する
     請求項1から6のいずれか1項の画像処理方法。
  8.  撮像装置が順次に生成する撮像画像から特徴点を抽出する抽出部と、
     第1撮像画像から抽出された特徴点の個数が閾値を上回るか否かを判定する判定部と、
     前記第1撮像画像から抽出された特徴点の個数が前記閾値を下回る場合に、前記第1撮像画像よりも過去に生成された第2撮像画像に対する前記第1撮像画像の位置を特定する解析部と
     を具備する画像処理装置。
  9.  前記第1撮像画像から抽出された特徴点の個数が前記閾値を上回る場合に、複数の候補画像のうち前記第1撮像画像に対応する候補画像を特定する特定部
     をさらに具備する請求項8の画像処理装置。
  10.  前記第2撮像画像は、前記特徴点の個数が前記閾値を上回る撮像画像である
     請求項8または9の画像処理装置。
  11.  前記第2撮像画像は、前記特徴点の個数が前記閾値を上回る、前記第1撮像画像の直近の撮像画像である
     請求項10の画像処理装置。
  12.  前記第2撮像画像は、前記第1撮像画像の一部を示す画像である
     請求項8から11のいずれか1項の画像処理装置。
  13.  前記特定部は、前記第1撮像画像内の前記特徴点を基準線に射影した射影点を含む解析データと、前記複数の候補画像内のそれぞれの特徴点を基準線に射影した射影点を含む解析データを比較することで、前記第1撮像画像に対応する前記候補画像を特定する
     請求項9の画像処理装置。
  14.  前記第2撮像画像に対する前記第1撮像画像の位置を示す位置情報を表示する表示装置
     をさらに具備する請求項8から13のいずれか1項の画像処理装置。
PCT/JP2019/020683 2018-05-30 2019-05-24 画像処理方法および画像処理装置 WO2019230593A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201980035307.6A CN112166456A (zh) 2018-05-30 2019-05-24 图像处理方法及图像处理装置
US17/094,404 US11508174B2 (en) 2018-05-30 2020-11-10 Image processing method and image processing device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-103440 2018-05-30
JP2018103440A JP7087681B2 (ja) 2018-05-30 2018-05-30 画像処理方法、画像処理装置およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/094,404 Continuation US11508174B2 (en) 2018-05-30 2020-11-10 Image processing method and image processing device

Publications (1)

Publication Number Publication Date
WO2019230593A1 true WO2019230593A1 (ja) 2019-12-05

Family

ID=68698186

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/020683 WO2019230593A1 (ja) 2018-05-30 2019-05-24 画像処理方法および画像処理装置

Country Status (4)

Country Link
US (1) US11508174B2 (ja)
JP (1) JP7087681B2 (ja)
CN (1) CN112166456A (ja)
WO (1) WO2019230593A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7197263B2 (ja) * 2017-10-18 2022-12-27 ヤマハ株式会社 画像解析方法およびプログラム
CN112257788B (zh) * 2020-10-23 2023-08-04 广东博智林机器人有限公司 拼缝作业点的确定方法及装置
CN113537295B (zh) * 2021-06-22 2023-10-24 北京航空航天大学 基于离群点引导的视线估计跨场景适配方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010097379A (ja) * 2008-10-16 2010-04-30 Denso Corp ドライバモニタリング装置およびドライバモニタリング装置用のプログラム
JP2010122840A (ja) * 2008-11-19 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> 物体領域検出方法、物体領域検出装置、物体領域検出プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2018049569A (ja) * 2016-09-23 2018-03-29 富士通株式会社 照合方法、照合装置、照合プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110945A (ja) 1992-09-29 1994-04-22 Fujitsu Ltd 音楽データベース作成装置及びその検索装置
US7702673B2 (en) * 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
JP2009153067A (ja) * 2007-12-21 2009-07-09 Canon Inc 画像処理方法及び画像処理装置
CN103329166A (zh) * 2011-01-25 2013-09-25 三菱电机株式会社 图像检索装置和方法、图像处理装置和方法
JP5246286B2 (ja) * 2011-03-15 2013-07-24 カシオ計算機株式会社 画像記録装置、画像記録方法及びプログラム
JP5993233B2 (ja) * 2012-07-11 2016-09-14 オリンパス株式会社 画像処理装置及び画像処理方法
JP5884723B2 (ja) * 2012-12-21 2016-03-15 カシオ計算機株式会社 画像合成装置、画像合成方法及びプログラム
JP5880472B2 (ja) * 2013-02-22 2016-03-09 富士ゼロックス株式会社 画像処理装置及びプログラム
JP5835287B2 (ja) * 2013-08-21 2015-12-24 沖電気工業株式会社 画像分析装置および画像分析方法
JP6543062B2 (ja) * 2015-03-23 2019-07-10 キヤノン株式会社 画像処理装置、画像処理方法
US10713428B2 (en) * 2015-11-02 2020-07-14 Microsoft Technology Licensing, Llc Images associated with cells in spreadsheets

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010097379A (ja) * 2008-10-16 2010-04-30 Denso Corp ドライバモニタリング装置およびドライバモニタリング装置用のプログラム
JP2010122840A (ja) * 2008-11-19 2010-06-03 Nippon Telegr & Teleph Corp <Ntt> 物体領域検出方法、物体領域検出装置、物体領域検出プログラムおよびそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2018049569A (ja) * 2016-09-23 2018-03-29 富士通株式会社 照合方法、照合装置、照合プログラム

Also Published As

Publication number Publication date
JP7087681B2 (ja) 2022-06-21
US11508174B2 (en) 2022-11-22
US20210056303A1 (en) 2021-02-25
JP2019207614A (ja) 2019-12-05
CN112166456A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
WO2019230593A1 (ja) 画像処理方法および画像処理装置
JP3860552B2 (ja) 撮影装置
JP2022153394A (ja) 画像解析方法、画像解析装置およびプログラム
KR102087882B1 (ko) 시각적 이미지 매칭을 기반으로 한 미디어 스트림 식별 장치 및 방법
JP6780767B2 (ja) 点検支援装置、点検支援方法およびプログラム
JP2011008752A (ja) ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム
US11323577B2 (en) Image processing device for creating an album
US8067682B2 (en) Music score recognition method and system thereof
CN111859002B (zh) 兴趣点名称生成方法及装置、电子设备和介质
US9418284B1 (en) Method, system and computer program for locating mobile devices based on imaging
JP2008299834A (ja) 被写体追跡プログラム、および被写体追跡装置
JP6746892B2 (ja) 画像処理装置、画像処理方法およびプログラム
WO2017057679A1 (ja) 画像補正装置
US10452940B2 (en) Musical score image analyzer and musical score image analyzing method
JP2006330874A (ja) 指紋照合装置、方法およびプログラム
JP2005228150A (ja) 画像照合装置
JP4286844B2 (ja) 撮影装置
JP2015228070A (ja) 指紋画像処理装置、指紋画像処理方法及びプログラム
JP2019046184A (ja) 画像処理装置、訓練画像処理装置、画像識別装置、訓練画像処理方法、画像識別方法、及びプログラム
JP2018147400A (ja) 表示差異検出プログラム、装置、及び方法
JP4481951B2 (ja) 撮影装置
KR100983779B1 (ko) 도서 정보 서비스 장치 및 방법
JP6586846B2 (ja) 楽譜画像解析装置
JP2006330873A (ja) 指紋照合装置、方法およびプログラム
JP2014203347A (ja) 文書検索システム、文書検索装置、文書検索方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19811650

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19811650

Country of ref document: EP

Kind code of ref document: A1