WO2023275920A1 - トリガー信号発生装置及び携帯端末 - Google Patents

トリガー信号発生装置及び携帯端末 Download PDF

Info

Publication number
WO2023275920A1
WO2023275920A1 PCT/JP2021/024315 JP2021024315W WO2023275920A1 WO 2023275920 A1 WO2023275920 A1 WO 2023275920A1 JP 2021024315 W JP2021024315 W JP 2021024315W WO 2023275920 A1 WO2023275920 A1 WO 2023275920A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
motion information
unit
trigger signal
control unit
Prior art date
Application number
PCT/JP2021/024315
Other languages
English (en)
French (fr)
Inventor
好則 神山
Original Assignee
株式会社pop
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社pop filed Critical 株式会社pop
Priority to JP2023531138A priority Critical patent/JPWO2023275920A1/ja
Priority to PCT/JP2021/024315 priority patent/WO2023275920A1/ja
Publication of WO2023275920A1 publication Critical patent/WO2023275920A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer

Definitions

  • the present invention relates to a trigger signal generator and a mobile terminal.
  • Patent Literature 1 Conventionally, a technique for operating an imaging device by moving a smartphone in a predetermined pattern has been disclosed (see Patent Document 1). Specifically, the technology of Patent Literature 1 detects a series of motions in which the user raises the smartphone counterclockwise, swings it down clockwise, and stops the smartphone, and then operates an imaging device mounted on the smartphone.
  • Patent Document 2 a technique for playing, stopping, fast-forwarding, rewinding, etc. of a video by moving a smartphone in a predetermined pattern. Specifically, the technique of Patent Document 2 detects an operation of tilting the smartphone around the x-axis or around the y-axis by the user, and performs playback, stop, etc. of a video based on the details of the detected operation.
  • the present invention solves the problems of the prior art.
  • a first aspect of the present invention is a trigger signal generating device for generating a trigger signal indicating the timing at which a gesture is made to a mobile terminal, wherein each movement in three axial directions of a coordinate system with the mobile terminal as an origin is a motion information detection unit for detecting information, and the trigger signal at a timing when the positive/negative sign of one of the three pieces of motion information detected by the motion information detection unit becomes different from the positive/negative sign of the remaining two. and a trigger signal generator that generates the
  • a second aspect of the present invention provides an imaging unit that images a subject and generates a frame image, an image storage unit that sequentially stores the frame images generated by the imaging unit, and motion information detected by the motion information detection unit.
  • a stationary period detection unit that detects a stationary period in which the mobile terminal is in a stationary state based on three pieces of motion information, and a trigger signal generator that generates a trigger signal indicating timing at which a gesture is performed,
  • a motion information detection unit that detects motion information in each of the three axial directions of a coordinate system with the mobile terminal as the origin, and the positive or negative sign of one of the three pieces of motion information detected by the motion information detection unit is used for the remaining motion information.
  • a trigger signal generation unit that generates the trigger signal at timings that are different from the two positive and negative signs;
  • a still image selection unit that selects, as a still image, a frame image corresponding to the still period detected by the still period detection unit before or after the generation timing of the trigger signal.
  • the user can operate the mobile terminal simply by performing a simple gesture on the mobile terminal.
  • FIG. 1 is a diagram showing the configuration of a smartphone according to an embodiment.
  • FIG. 2 is a diagram showing a state in which a user holds a smart phone.
  • FIG. 3A is a diagram explaining a user's tap operation.
  • FIG. 3B is a diagram explaining a user's tap operation.
  • FIG. 4 is a diagram showing changes in acceleration in three axial directions when a tap operation is performed.
  • FIG. 5 is a diagram for explaining a user's flip operation.
  • FIG. 6 is a diagram showing changes in acceleration in each of three axial directions when a flip operation is performed.
  • FIG. 7 is a diagram showing a still start point and a still end point that are set in determining a stationary state.
  • FIG. 8 is a diagram for explaining parameters of expressions for gesture detection.
  • FIG. 8 is a diagram for explaining parameters of expressions for gesture detection.
  • FIG. 9 is a diagram for explaining still images selected from a plurality of frame images.
  • FIG. 10 is a diagram showing display items displayed on the touch panel for assisting operation timing.
  • FIG. 11 is a diagram showing video playback by gesture operation.
  • FIG. 12 is a diagram showing accelerations in three axial directions when a gesture corresponding to playback is performed.
  • FIG. 13 is a diagram showing acceleration in three axial directions when a gesture corresponding to stop is performed.
  • FIG. 14 is a diagram showing accelerations in three axial directions when a gesture corresponding to fast forward is performed.
  • FIG. 15 is a diagram showing accelerations in three axial directions when a gesture corresponding to rewinding is performed.
  • FIG. 16 shows a reference cell made up of 5 ⁇ 5 pixels.
  • FIG. 17 is a diagram illustrating a similarity determination method between two reference cells.
  • FIG. 18 is a diagram showing virtual layer files associated with frame images.
  • FIG. 19 is a diagram illustrating a situation in which an object within a frame image is tracked.
  • FIG. 20 is a diagram showing a state in which a high-resolution image is displayed as a preview image.
  • FIG. 21A is a diagram showing a state in which a local image is tapped.
  • FIG. 21B is a diagram showing similar image search results of sunglasses.
  • FIG. 21C is a diagram showing a user edit screen.
  • FIG. 22 is a diagram showing a local image displayed on the background image.
  • FIG. 23 is a diagram illustrating a communication network of smartphones.
  • FIG. 23 is illustrating a communication network of smartphones.
  • FIG. 24 is a flow chart showing a photographing processing routine of the control unit.
  • FIG. 25 is a flow chart showing a local image extraction routine.
  • FIG. 26 is a flow chart showing a local image similarity search routine.
  • FIG. 27 is a diagram showing changes in angular velocity in each of three axial directions when a tap operation is performed on the smartphone.
  • FIG. 28 is a diagram showing changes in angular velocity in each of three axial directions when a flip operation is performed on the smartphone.
  • FIG. 29 is a diagram showing a stationary start point and a stationary end point that are set in determining a stationary state using angular velocity.
  • FIG. 1 is a diagram showing the configuration of a smartphone 1 according to this embodiment.
  • the smartphone 1 includes an imaging unit 11 that captures an image of a subject, an image processing unit 12 that performs predetermined image processing on the image generated by the imaging unit 11, a data storage unit 13 that stores images and other data, Prepare.
  • the smartphone 1 further includes a sensor 14 that detects physical quantities related to movement in three axial directions, a touch panel 15 that displays images, operation screens, and the like, and a communication unit 16 for data communication with external devices.
  • the smartphone 1 not only operates according to the operation of the touch panel 15, but also operates according to the user's gesture (flip operation or tap operation, which will be described later).
  • the smartphone 1 mainly operates according to the user's gestures and stationary state.
  • FIG. 2 is a diagram showing a state in which the user holds the smartphone 1 in the xyz space of the right-handed coordinate system. Note that the origin of the xyz space is the center of the smartphone 1 .
  • the smartphone 1 is covered with a housing having a rectangular surface whose longitudinal direction is the uniaxial direction (the y-axis in FIG. 2).
  • the touch panel 15 is provided on the xy plane, specifically, on the rectangular plane described above.
  • the z-axis is a direction perpendicular to the touch panel 15 .
  • the user holds the smartphone 1 in the xyz space as shown in FIG. 2 when shooting.
  • the x-axis, y-axis, and z-axis directions when the user holds the smartphone 1 are defined as follows.
  • the upper side in the longitudinal direction of the touch panel 15 is the positive y-axis direction, and the lower side is the negative y-axis direction.
  • the right side in the direction orthogonal to the longitudinal direction of the touch panel 15 is the positive x-axis direction, and the left side thereof is the negative x-axis direction.
  • the front side of the touch panel 15 is in the positive z-axis direction, and the back side of the touch panel 15 is in the negative z-axis direction.
  • the imaging unit 11 is an image sensor that generates an image according to light from a subject.
  • the imaging unit 11 corresponds to, for example, a CCD image sensor or a CMOS image sensor.
  • the smartphone 1 is provided with two imaging units 11 .
  • One of the two imaging units 11 is provided on the same rectangular surface as the touch panel 15 , and the other is provided on the rectangular surface on the back side of the touch panel 15 .
  • the imaging unit 11 has an electronic shutter function, and generates frame images for still images or moving images.
  • a release operation for shooting a still image is performed by tapping a display button on the touch panel 15 or performing a gesture on the main body of the smartphone 1 .
  • the release operation is performed by a gesture to the main body of the smartphone 1.
  • a frame image generated by the imaging unit 11 is displayed on the touch panel 15 as a live moving image or stored in the data storage unit 13 .
  • the image processing unit 12 performs predetermined image processing such as white balance adjustment and gamma correction on the frame image generated by the imaging unit 11 .
  • the image that has undergone predetermined processing by the image processing section 12 is stored in the data storage section 13 .
  • the image is temporarily stored in the data storage unit 13 and then supplied to the touch panel 15 for display of the live moving image.
  • the data storage unit 13 corresponds to, for example, a DRAM, flash memory, etc., and stores data temporarily or long term.
  • Various application programs are stored in the data storage unit 13 .
  • the control unit 17 executes predetermined data processing according to the application program described above.
  • the data storage unit 13 also stores images generated by the imaging unit 11, data received from the external network by the communication unit 16, and the like. Writing data to the data storage unit 13 and reading data from the data storage unit 13 are controlled by the control unit 17 .
  • the sensor 14 is a motion sensor that detects information regarding the movement of the smartphone 1.
  • the sensor 14 is an acceleration sensor that detects the acceleration of the smartphone 1 in each of the three axial directions.
  • the sensor 14 detects acceleration in each of the three axial directions of the smartphone 1 and supplies the detected values to the control unit 17 .
  • the senor 14 is an acceleration sensor in this embodiment, it is not limited to an acceleration sensor as long as it can detect information about the movement of the smartphone 1 .
  • the sensor 14 may be a velocity sensor, an angular velocity sensor (gyro sensor), or a geomagnetic sensor.
  • the touch panel 15 is provided on the front of the smartphone 1 (wider rectangular surface). A frame image generated by the imaging unit 11 or read from the data storage unit 13 is displayed on the touch panel 15 . Various operation buttons for operating the smartphone 1 are displayed on the touch panel 15 .
  • the smartphone 1 has a photo shooting mode, a moving image shooting mode, and a live moving image (preview moving image) mode.
  • the user determines the shooting position of the smartphone 1 while confirming the subject displayed on the touch panel 15 .
  • a still image release operation is performed, a single frame image (photographic image) or a plurality of frame images (continuous shot images) specified by the release operation are stored in the data storage unit 13 and displayed on the touch panel 15. be.
  • the user determines the shooting position of the smartphone 1 while confirming the subject displayed on the touch panel 15 .
  • a moving image release operation is performed, a plurality of frame images (moving images) after the release operation are stored in the data storage unit 13 and displayed on the touch panel 15 .
  • the user confirms the subject displayed on the touch panel 15.
  • a plurality of frame images (moving images) generated by the imaging unit 11 are stored in the data storage unit 13 and displayed on the touch panel 15 . That is, frame images are stored in the data storage unit 13 even in the live moving image mode.
  • the frame images stored in the data storage unit 13 are displayed on the touch panel 15 when a reproduction operation is performed. Further, the control unit 17 can download still images or moving image frame images from an external server and store them in the data storage unit 13 . After that, the control unit 17 can read the downloaded frame image from the data storage unit 13 and display it on the touch panel 15 .
  • the communication unit 16 can transmit and receive frame images and other data to and from an external device such as an external server via a communication network.
  • the control unit 17 has, for example, a central processing unit (CPU), and controls the entire smartphone 1 by executing a shooting application stored in the data storage unit 13 and various other applications.
  • the control unit 17 periodically receives detection values in each of the three axial directions from the sensor 14, and controls the smartphone 1 based on the time change pattern of these detection values. Specifically, the control unit 17 determines whether the smartphone 1 is in a stationary state or whether a gesture has been made on the smartphone 1, determines the release timing for shooting the still image based on the determination result, and performs the still image shooting. get a frame image of
  • gestures for instructing the release operation for still image shooting include a tap operation and a flip operation.
  • FIGS. 3A and 3B are diagrams for explaining the user's tap operation on the smartphone 1.
  • FIG. 3 the user holds the lower part of the smartphone 1 with the right hand, and adjusts the position and shooting direction of the smartphone 1 so that the subject (for example, the user himself/herself when taking a selfie) is appropriately displayed on the touch panel 15 . to decide.
  • the subject for example, the user himself/herself when taking a selfie
  • a tap operation refers to tapping the back surface of the smartphone 1 with a finger.
  • the user taps the smartphone 1 in the z-axis direction.
  • the x-coordinate and y-coordinate of the tapped location may be arbitrary.
  • the smartphone 1 vibrates not only in the z-axis direction but also in the x-axis direction and the y-axis direction. Vibration in each axial direction is detected by sensor 14 in FIG.
  • the hand holding the smartphone 1 may be either the right hand or the left hand. Also, the user may hold the smartphone 1 vertically or horizontally. Although the user hits the back of the smartphone 1 in this embodiment, the user may hit the front or side of the smartphone 1 . Alternatively, the user may slap the upper or lower side of the main body of the smartphone 1 .
  • FIG. 4 is a diagram showing changes in acceleration in each of the three axial directions when the smartphone 1 is tapped.
  • the acceleration in each of the three axial directions becomes a characteristic waveform.
  • the acceleration d3 in the z-axis direction exceeds the threshold th and reaches a peak.
  • the acceleration d1 in the x-axis direction and the acceleration d2 in the y-axis direction also reach their peaks substantially in synchronization with the timing (time t i ) at which d3 reaches its peak.
  • d1 is a negative value, but d2 and d3 are positive values.
  • FIG. 5 is a diagram explaining a user's flip operation on the smartphone 1.
  • the user holds the lower part of the smartphone with the right hand, and adjusts the position and shooting direction of the smartphone 1 so that the subject (for example, the user himself/herself when taking a selfie) is appropriately displayed on the touch panel 15 . decide.
  • the flip operation refers to tilting the smartphone 1 in a predetermined direction from a stationary state, and then quickly returning the smartphone 1 to the original stationary position.
  • the user tilts the smartphone 1 around the z-axis.
  • the direction in which the smartphone 1 is tilted is not limited to around the z-axis, and may be around the x-axis or the y-axis.
  • the hand holding the smartphone 1 may be the right hand or the left hand.
  • FIG. 6 is a diagram showing changes in acceleration in each of the three axial directions when a flip operation is performed on the smartphone 1.
  • FIG. When the smartphone 1 is in a stationary state and a flip operation is performed, the acceleration in each of the three axial directions becomes a characteristic waveform.
  • the acceleration d3 in the z-axis direction exceeds the threshold th and reaches a peak.
  • the acceleration d1 in the x-axis direction and the acceleration d2 in the y-axis direction also reach their peaks substantially in synchronization with the timing (time t i ) at which d3 reaches its peak.
  • d1 is a negative value, but d2 and d3 are positive values. That is, the accelerations in the three axial directions when the flip operation is performed have characteristic waveforms similar to those when the tap operation is performed.
  • the control unit 17 of the smartphone 1 determines the stationary state as follows.
  • the control unit 17 constantly monitors detection values in each of the three axial directions supplied from the sensor 14 .
  • the control unit 17 determines that the smartphone 1 is in a stationary state during the continuous period.
  • the detection values (acceleration) of the sensor 14 in the x-axis direction, the y-axis direction, and the z-axis direction are assumed to be x, y, and z, respectively.
  • ⁇ t be the minute time.
  • the sensor output threshold value for determining the stationary state is ⁇ .
  • is a value near zero.
  • the control unit 17 determines whether or not Expression (1) is satisfied. (
  • FIG. 7 is a diagram showing the stationary start point ST and the stationary end point ED set in determining the stationary state. If the state that satisfies Equation (1) exceeds a predetermined period of time, the control unit 17 determines that the smartphone 1 is in the stationary state during that period. Then, the control unit 17 sets the time when the formula (1) is satisfied for the first time as the stillness start point ST, and stores the information of the stillness start point ST (stillness start point information) in the data storage unit 13 .
  • the static start point information is the time (time) of the static start point ST, and the accelerations d1, d2, and d3 in the xyz axial directions of the static start point ST.
  • the control unit 17 sets the point of time when the expression (1) is no longer satisfied as the still end point ED, and the information of the still end point ED (still end point information ) is stored in the data storage unit 13 .
  • the stationary end point information is the time (time) of the stationary start point ST and the acceleration in each of the xyz axial directions.
  • the method of determining the stationary state by the control unit 17 is not limited to the method described above, and other methods can be applied as long as the starting point information of the stationary state can be determined based on the detection value of the sensor 14. is.
  • the condition for determining whether or not the vehicle is in a stationary state is not limited to formula (1), and may be, for example, as follows.
  • the control unit 17 may determine whether or not at least one of the detected values in each of the three axial directions output from the sensor 14 is less than the threshold th1 (see FIG. 7). That is, the control unit 17 may determine whether or not at least one of the accelerations d1, d2, and d3 is less than the threshold th1.
  • control unit 17 uses the three accelerations d1, d2, and d3 supplied from the sensor 14 every minute time ⁇ t, and determines that at least one of the absolute values of the change amounts ⁇ d1, ⁇ d2, and ⁇ d3 per unit time is It may be determined whether or not it is less than a predetermined threshold.
  • the time change pattern of the three detection values (acceleration) of the sensor 14 has the following two characteristics. have.
  • the first feature is that when one detected value exceeds the threshold and becomes the first peak, the other two detected values are almost synchronized and become the first peak. That is, the first peaks of the three detection values occur almost synchronously.
  • the second feature is that when one detection value exceeds the threshold and becomes the first peak, the sign of one detection value among the three detection values is different from the sign of the remaining two detection values It is a point.
  • control unit 17 uses three detection values in each of the three axial directions of the sensor 14 at predetermined intervals according to the following procedure to determine whether a gesture (tap operation or flip operation) has been made. It detects whether or not there is a gesture, and generates a trigger signal at the timing of the gesture.
  • the control unit 17 determines whether or not the amount of change per predetermined time exceeds a predetermined threshold for at least one of the three detection values in each of the three axial directions of the sensor 14 for each predetermined period. . If the amount of change in at least one of the three detection values exceeds the threshold during a predetermined period of time, the control unit 17 proceeds to the next process.
  • the control unit 17 sets one of the three detection values to one positive/negative sign (for example, a positive value) and the remaining two to the other positive/negative sign (for example, a negative value) in the above predetermined period. determine whether or not
  • the control unit 17 determines that the user is performing a gesture operation, and sets the time when the determination result is obtained as the gesture start time. In this way, at the start of the gesture, the three detected values of the sensor 14 change instantaneously (almost synchronously), and the positive/negative sign of one of the three detected values is changed by the remaining two positive/negative signs. It has the characteristic that it is different from
  • the control unit 17 detects gestures as follows.
  • the control unit 17 periodically receives the three detection values d1, d2, and d3 from the sensor 14 every minute time ⁇ t.
  • the control unit 17 determines whether or not at least one of the three detection values d1, d2, and d3 has exceeded the threshold value every minute time ⁇ t. In the case of an affirmative determination, the control unit 17 sets the time t i at which at least one of the three detection values d1, d2, and d3 exceeds the threshold as the start time of the time change pattern. Note that in FIG. 4, d2 and d3 exceed the threshold, but d1 does not.
  • the control unit 17 determines the sign of the three detection values d1, d2, and d3 at the start point of the time change pattern. Specifically, the control unit 17 determines whether or not the positive/negative sign of one of the three detected values is different from the remaining two positive/negative signs. In the case of an affirmative determination, the control unit 17 sets the time point at which the positive determination is obtained as the gesture start time point, and generates a trigger signal indicating gesture detection. After that, if there is a rest period after the gesture is detected, the control unit 17 sets the point of time one frame before the still start point as the gesture end point.
  • the control unit 17 may detect gestures in the following manner in addition to gesture detection method 1 described above.
  • FIG. 8 is a diagram for explaining parameters of expressions for gesture detection.
  • the control unit 17 calculates the following equations (2) to (4) every minute time ⁇ t. ⁇ d1, ⁇ d2, and ⁇ d3 are the amounts of change in d1, d2, and d3 in minute time ⁇ t.
  • ax, ay, and az indicate the inclinations per minute time ⁇ t (sampling period) of detected values in the x-axis direction, y-axis direction, and z-axis direction of the sensor 14, respectively.
  • the control unit 17 determines whether or not at least one of the following expressions (5) to (7) is satisfied.
  • control unit 17 is set as the gesture start time, and a trigger signal indicating gesture detection is generated.
  • control unit 17 may store the amount of change in each of the three detection values of the sensor 14 in the data storage unit 13 together with the frame image.
  • control unit 17 may perform the calculation and determination for gesture detection in real time while the subject is being photographed, or may be independently performed after the subject is photographed.
  • "2" in equations (5) to (7) is the threshold for gesture detection. This threshold is not limited to "2" and may be another value.
  • the control unit 17 uses Equations (2) to (7) to detect user gestures, but is not limited to Equations (2) to (7). That is, the determination formula is not particularly limited as long as the control unit 17 can execute the procedures 1 to 3 described above.
  • the photography mode In the photography mode, the frame images generated by the imaging section 11 are sequentially stored in the data storage section 13 . While confirming the subject displayed on the smartphone 15, the user stops the smartphone 1 and performs a shutter operation (gesture). At this time, the control unit 17 independently executes the stationary state determination process and the gesture detection process described above to obtain a still image.
  • control unit 17 selects the optimum frame image as a still image from among the plurality of frame images stored in the data storage unit 13 using the determination result of the stationary state. do.
  • FIG. 9 is a diagram explaining still images selected from among a plurality of frame images.
  • the control unit 17 selects the optimum frame image for the still image from among the plurality of frame images in the still period SD before or after the gesture detection JD. There are the following methods for selecting a frame image.
  • the control unit 17 freezes the frame image that is temporally closest to the gesture detection time from among all the frame images within the static period. You can choose as a picture.
  • the control unit 17 displays the frame image of the still period including the still end point. can be excluded from still images. Further, when the time from the detection of the gesture to the next still start point exceeds the predetermined time, the control unit 17 can exclude the frame image of the still period including the still start point from the object of the still image. can.
  • a predetermined time for example, an arbitrary time from 0 to 5 seconds
  • the control unit 17 can prevent malfunction of the photographing operation by excluding the frame images in the still period from the object of the still image. Also, a proximity sensor mounted on the smartphone 1 may be used to prevent malfunction.
  • control unit 17 determines whether or not the time between the gesture and the static period exceeds the predetermined time, selects a static period in which the time between the gesture and the static period does not exceed the predetermined time, and selects the static period.
  • a frame image may be selected from among the stationary periods.
  • control unit 17 may select, for example, the frame image at the still start point. Further, the control unit 17 may select a frame image after a predetermined time from the static start point, or may select a frame image after a predetermined number of frames from the static start point.
  • control unit 17 can also select an optimum still image from the frame images during the still period according to the movement of the smartphone 1. Specifically, the control unit 17 detects the magnitude of vibration, the tilt direction, and the initial speed of the smartphone 1 based on the three detection values from the sensor 14 . Then, using the detection result, the control unit 17 determines whether the frame image before or after the detection of the gesture is optimal as a still image, and selects the optimal frame image. good too.
  • control unit 17 may select a predetermined number of frame images from among a plurality of frame images within the static period, or may select all frame images within the static period. frame image may be selected.
  • the control unit 17 can also select a still image by performing only still determination without detecting a gesture. Specifically, the control unit 17 performs the stationary determination process described above to set the stationary start point ST. Next, the control unit 17 determines whether or not a predetermined period of time has elapsed within the stationary period with reference to the stationary start point ST. The control unit 17 generates a trigger signal when a predetermined time has passed from the stationary start point ST.
  • control unit 17 selects, as a still image, the frame image at the time when the trigger signal is generated from among the plurality of frame images stored in the data storage unit 13 .
  • the user can capture a still image simply by holding the smartphone 1 still.
  • the control unit 17 can use the histogram to select the optimum frame image for the still image. Specifically, the control unit 17 calculates the RGB color histogram of the frame image when the gesture is detected and the RGB color histogram of the frame image during the still period, and calculates the difference between the RGB color histograms of the frame images. demand.
  • control unit 17 selects the frame image within the still period as the still image, and if the difference between the RGB color histograms of the frame images is equal to or greater than the threshold, the image is still.
  • the above frame images within the period are excluded from still images.
  • the user determines the position of the shooting frame (shooting position and shooting direction) before performing gesture operations. If the difference between the RGB color histograms is equal to or greater than the threshold, there is a possibility that the frame image at the time of gesture detection and the frame image during the static period are significantly different, and the positions of the captured frames are shifted. Therefore, by performing the processing described above, it is possible to avoid positional deviation of the photographed frame.
  • the control unit 17 can use the optimum time change pattern, threshold value, and determination/detection method for each user.
  • FIG. 10 is a diagram showing a display D displayed on the touch panel 15 for assisting operation timing.
  • the control unit 17 visualizes each detection value in the three axial directions of the sensor 14, and can assist the user's operation timing.
  • the control unit 17 calculates the detection value of the sensor 14 in real time. Then, the control unit 17 reads a three-dimensional display object D (for example, a horizontal standard, three axes in xyz space, etc.) described in the virtual layer file VLF, and displays it on the touch panel 15 . Then, the control unit 17 converts each detection value in the three-axis directions of the sensor 14 into three-dimensional coordinates, and dynamically moves the three-dimensional display object D. FIG. As a result, it is possible to display on the touch panel 15 a display D that visualizes the state of the detection value of the sensor 14 .
  • a three-dimensional display object D for example, a horizontal standard, three axes in xyz space, etc.
  • the stationary state of the smartphone 1 and the movement of gestures can be visualized on the touch panel 15, and gesture operations on the smartphone 1 can be assisted.
  • the display object D and other information described in the virtual layer file VLF can be set for each user.
  • the display object D may be a three-dimensional logo, mark, or the like.
  • the control unit 17 stores not only the frame image but also information related to the frame image.
  • the related information includes, for example, detection values in three axial directions detected by the sensor 14 when the corresponding frame image is generated, and the amount of change over time in each detection value.
  • Other related information includes, for example, a frame number indicating what frame the corresponding frame image is from when the smartphone 1 vibrates or tilts (when a gesture is detected), what number from when the stationary state is detected, etc. frame number, angle, tilt direction, etc.
  • a frame number indicating what frame the corresponding frame image is from when the smartphone 1 vibrates or tilts (when a gesture is detected), what number from when the stationary state is detected, etc. frame number, angle, tilt direction, etc.
  • Each frame number described above is automatically assigned in synchronization with T'. Also, when each frame number described above is specified, a frame image corresponding to each specified frame number is read.
  • the frame image and related information may be transmitted to an external server by the communication unit 16 and stored in the external server.
  • the frame images and related information stored in the data storage unit 13 or the external server are read as appropriate when still images or moving images are reproduced.
  • control unit 17 determines that all the detected values in the three axial directions or the amount of time change in the detected values is within a predetermined threshold range, and that state (static state) continues for a predetermined time or more. to detect stationary periods. Next, the control unit 17 selects a frame image in a state closest to complete stillness as a still image in the still period.
  • the frame image in the state closest to complete stillness is, for example, the sum of the absolute values of all detected values in the three axial directions, or the sum of the absolute values of the amount of change over time of each detected value that is the smallest value. This applies to frame images.
  • the control unit 17 reads the still image from the data storage unit 13 or the external server, and displays the read still image on the touch panel 15 .
  • the control unit 17 can also perform the following processing when selecting a still image.
  • the control unit 17 may specify a still reference frame number or a gesture reference frame number and read a frame image corresponding to the specified number from the data storage unit 13 or an external server.
  • the control unit 17 may specify a feature amount such as an angle or a tilt, and read a frame image corresponding to the specified feature amount from the data storage unit 13 or an external server.
  • FIG. 11 is a diagram showing video playback by gesture operation.
  • a gesture operation flip operation
  • the user can watch a moving image or scroll information displayed on the touch panel 15 .
  • the control unit 17 determines the content of the gesture (in which direction the smartphone 1 is tilted) using each detection value in the three axial directions of the sensor 14 at the time of gesture detection.
  • a table indicating the correspondence between gesture contents and playback functions is stored in the data storage unit 13 in advance.
  • the shorter side in the positive direction of the x-axis with respect to the smartphone 1 is the upper side.
  • the short side in the negative direction of the x-axis is the bottom side
  • the side in the positive direction of the y-axis is the left side
  • the side in the negative direction of the y-axis is the right side.
  • FIG. 12 is a diagram showing acceleration in three axial directions when a gesture corresponding to playback is performed.
  • FIG. 13 is a diagram showing acceleration in three axial directions when a gesture corresponding to stop is performed.
  • FIG. 14 is a diagram showing accelerations in three axial directions when a gesture corresponding to fast forward is performed.
  • FIG. 15 is a diagram showing accelerations in three axial directions when a gesture corresponding to rewinding is performed.
  • control unit 17 can detect each gesture corresponding to play, stop, fast-forward, and rewind by performing the above-described gesture detection processing.
  • control unit 17 detects that the right side is tilted once in the negative direction of the z-axis by referring to the table and detecting the gesture, the control unit 17 reads the frame image from the data storage unit 13 and displays the moving image on the touch panel 15. Reproduce.
  • control unit 17 performs an operation corresponding to the tilted direction of the smartphone 1 according to the table.
  • the smartphone 1 can perform multi-function playback and scrolling by increasing the number of gesture detections per predetermined time.
  • the operation content table describes various playback functions (pause, frame-advance playback, frame-rewind playback, etc.) specified by the number of gesture detections per predetermined time and the tilted direction of the smartphone 1 . be. Therefore, the control unit 17 may detect the number of gesture detections per predetermined time period and the tilted direction of the smartphone 1, and execute the playback function and scrolling corresponding to the detection details according to the operation details table.
  • the smartphone 1 accesses the external server for the frame images stored in the data storage unit 13, searches for similar images, and obtains information about the subject (object) captured in the frame images. be able to.
  • the control unit 17 of the smartphone 1 performs local image extraction processing for extracting an object captured in the frame image as preprocessing for performing similar image search.
  • the control unit 17 extracts a local image from the target frame image in order to identify the object captured in the frame image.
  • the target images are photographs (still images) obtained by the above-described processing, frame images of moving images, frame images of preview moving images, frame images of moving images at the time of user's gesture operation, and the like.
  • the control unit 17 uses the reference cell to extract a local image from the target image.
  • FIG. 16 is a diagram showing a reference cell made up of 5 ⁇ 5 pixels in the xy plane. Set the x-axis in the horizontal direction and the y-axis in the vertical direction of the target image. The coordinates of the reference center pixel, which is the center pixel of the reference cell, are arranged at the intersection of the x-axis and the y-axis, and the coordinates of the reference center pixel are set to (x0, y0).
  • two pixels adjacent in the x direction and two pixels adjacent in the y direction are adjacent pixels to the reference center pixel.
  • four pixels (x ⁇ 1, y0), (x+1, y0), (x0, y+1), (x0, y ⁇ 1) are adjacent pixels to the reference central pixel (x0, y0). .
  • FIG. 17 is a diagram explaining a similarity determination method between two reference cells.
  • the control unit 17 creates a color histogram for red (R), green (G), and blue (B) in each region of two adjacent reference cells (HSV color space conversion), and determines the similarity of the two reference cells. determine the degree.
  • the control unit 17 detects the feature amount of each element of hue, saturation, and lightness in the HSV color space for each of the two adjacent reference cells, and calculates a similarity value indicating the degree of similarity between the two reference cells. do.
  • the similarity value becomes zero when the two objects to be compared are exactly the same, and increases as the difference between the objects to be compared increases. Then, when the similarity value is less than the threshold, the control unit 17 determines that two adjacent reference cells are similar, and connects the two reference cells.
  • control unit 17 extracts a local image by grouping the reference cells by connecting the two reference cells one after another.
  • the control unit 17 extracts local images from the frame images according to the following procedure.
  • H, S, and V are elements of the HSV color space represented by hue (H), saturation (S), and brightness (V).
  • N is the quantization number.
  • the control unit 17 obtains C(r ⁇ H, S, V ⁇ , n) by calculating the following color histogram formula.
  • M is the size (pixel) of the reference cell.
  • f(Pc(x, y, r)) is a quantized value of Pc(x, y, r).
  • C(r,n) is the cumulative value of the colors Pc(x,y,H), Pc(x,y,S), Pc(x,y,V) of each pixel in the reference cell. be.
  • the control unit 17 uses the color histograms calculated in procedures (1) and (2) to calculate the following histogram intersection formula for cells i and j to obtain the similarity S(i , j).
  • B is the number of bins in the color histogram.
  • the control unit 17 connects the adjacent reference cells as an approximate pixel.
  • the control unit 17 groups the reference cells by connecting adjacent reference cells one after another, and determines the grouped reference cells as a local image.
  • a local image may be extracted by extracting a local feature amount for recognizing the shape of an object or detecting an edge of the object.
  • FIG. 18 is a diagram showing a virtual layer file VLF associated with a frame image (preview image PV).
  • the control unit 17 generates a virtual layer file VLF for each frame image.
  • a virtual layer file VLF is a file in which information related to a corresponding frame image is described.
  • a frame image is associated with one virtual layer file VLF (T' synchronization).
  • a layer file number is assigned to the virtual layer file.
  • the virtual layer file describes the region of the local image extracted from the corresponding frame image, the xy coordinates indicating the center position thereof, and the xy coordinates (x0, y0) of the focus point FP of the local image.
  • the xy coordinates indicating the area of the local image and its center position are calculated by the control unit 17 during the extraction process of the local image.
  • the virtual layer file VLF contains the image feature amount (histogram, etc.) of the corresponding frame image, detection values in the three axial directions of the sensor 14, synchronization time T′ with the corresponding frame image (synchronization time with the corresponding frame image). time) is described.
  • the virtual layer file describes GPS position information indicating the location where the corresponding frame image was shot, and shooting information related to the frame image.
  • the various information described above is automatically written in synchronization with the corresponding frame image. A user may manually write the above information to the virtual layer file.
  • the control unit 17 can recognize and track the central position of the local image.
  • all information about frame images is described in the virtual layer file, but the present invention is not limited to this. That is, part of the information about the frame image may be written in a file different from the virtual layer file, or written and saved in a server on the communication network.
  • FIG. 19 is a diagram for explaining a situation in which an object within a frame image is tracked.
  • the control unit 17 uses the focus point of the virtual layer file synchronized with the local image as position information.
  • control unit 17 reads a frame image including a local image from the data storage unit 13, and also reads a virtual layer file synchronized with the frame image.
  • the control unit 17 acquires the basic coordinates BC (x0, y0), which are the focus point (position information) FP of the object to be tracked, from this virtual layer file.
  • the control unit 17 also reads out a synchronous virtual layer file. , y+4), (x0, y+2), (x, 0).
  • the tracking information may be described in a virtual layer file, or may be stored in the data storage unit 13 within the smartphone 1 or an external server.
  • the control unit 17 stores in the data storage unit 13 the detection values of the sensor 14 in each of the three axial directions, the amount of change thereof, the pattern of change over time, and the characteristic amounts such as the angle and the direction of inclination. Further, the control unit 17 controls, for all frame images, RGB color histogram information, grayscale conversion information, time-based position information of an object appearing in the local image, two-dimensional xy-axis coordinates representing the object area of the local image, The three-dimensional xyz-axis coordinates, which are focus point data for the object, are stored in the data storage unit 13 . Furthermore, the control unit 17 stores in the data storage unit 13 shooting information when an object is shot, GPS position information, object tracking information of a local image, and the like.
  • control unit 17 may store the various types of information described above inside the virtual layer file, but may also store them inside the frame image. Further, the control unit 17 may store the various information described above in an external server via a communication network instead of storing the various information in the data storage unit 13 inside the smartphone 1 .
  • the control unit 17 When detecting a tap on an object (local image) displayed on the touch panel 15 , the control unit 17 reads information related to the object from the data storage unit 13 and displays the read information on the touch panel 15 .
  • the data storage unit 13 may store high-quality data of local images in advance.
  • the control unit 17 reads the high-quality data from the data storage unit 13, and displays a high-resolution image (for example, 4K/8K) of the tapped local image. may be displayed on the touch panel 15.
  • FIG. 20 is a diagram showing a situation in which a high-resolution image is displayed as the preview image PV.
  • the control unit 17 can divide the preview image PV into eight, for example, and extract a local image for each divided high-resolution image. Note that the preview image PV is not limited to being divided into eight, and may be divided into four.
  • FIG. 21A is a diagram showing a state in which a local image is tapped.
  • the control unit 17 displays an enlarged image of the tapped local image and a similarity search result of the local image on the touch panel 15 . For example, when a person's sunglasses displayed on the touch panel 15 are tapped, the control unit 17 displays an enlarged image of the tapped sunglasses on the touch panel 15 .
  • the control unit 17 further instructs the external server to search for similar images of the tapped sunglasses.
  • the external server searches for a similar image similar to the sunglasses from the database, the external server transmits the image of the similar sunglasses and related information to the smartphone 1 .
  • FIG. 21B is a diagram showing similar image retrieval results for sunglasses.
  • the control unit 17 can display not only an enlarged image of sunglasses but also images of a plurality of sunglasses similar to the sunglasses and related information on the touch panel 15 .
  • the user can input/edit information about the sunglasses.
  • FIG. 21C is a diagram showing a user edit screen.
  • the user can operate the editing screen displayed on the touch panel 15 to input any information about the sunglasses.
  • the control unit 17 can store the information input by the user in the data storage unit 13 or an external server and read it out when necessary.
  • the control unit 17 not only extracts local images from frame images, but also synchronizes various information with respect to all frame images. Specifically, the control unit 17 sets the frame number and Give time information.
  • frame numbers and time information are assigned to all frame images.
  • a frame image generated by photography or video photography is stored in the data storage section together with the frame number and time information.
  • the frame numbers and time information stored in the data storage unit 13 are used for extracting and managing frame images.
  • FIG. 22 is a diagram showing the local image LI displayed on the background image BI.
  • the control unit 17 can distinguish between the local image LI and the background image BI (frame images other than the local image LI) and store them in the data storage unit 13 or an external server. can. Furthermore, the control unit 17 may store image information related to the local image LI or the background image BI, feature amounts of the local image LI, and the like in the data storage unit 13 or an external server.
  • control unit 17 may distinguish between a moving local image LI and a static background image BI for moving images (a plurality of continuous frame images).
  • the control unit 17 reads the local image LI and the background image BI from the data storage unit 13 or the like based on the feature amount, for example, and overwrites the background image BI with the local image LI.
  • the control unit 17 displays the local image LI or its enlarged image on the touch panel 15 .
  • control unit 17 may extract the local image from the frame image of the preview image.
  • control unit 17 may temporarily store the preview image in the data storage unit 13, then read the frame image of the preview image from the data storage unit 13, and extract the local image from the frame image.
  • the control unit 17 can adjust the display image according to the vibration or tilt of the smartphone 1 . Specifically, the control unit 17 determines in which direction and how much the smartphone 1 is tilted, based on the respective detection values in the three axial directions from the sensor 14 .
  • the control unit 17 configures a virtual display device in which the display screen becomes horizontal in the touch panel 15 . Thereby, the user can view the image without being affected by the vibration or tilt of the smartphone 1 .
  • the control unit 17 uses the focal length f and the aperture value x in the imaging unit 11 to obtain the distance a from the smartphone 1 (imaging lens) to the subject (the user himself in FIG. 24).
  • a method of calculating the distance a is not particularly limited, and a known technique can be used.
  • the control unit 17 can reduce or enlarge a preview image or a reproduced image (for example, a still image or a moving image), which is an image after shooting, on the touch panel 15 according to the obtained distance a.
  • FIG. 23 is a diagram explaining a communication network of the smartphone 1.
  • a smartphone 1 is connected to various external servers via a network NW.
  • the external servers include, for example, the carrier server 101, the cloud server 102, the image database server 103, and the carrier image database server 104. These servers store data used in the smartphone 1 and various data related to the data.
  • FIG. 24 is a flowchart showing a photographing processing routine of the control unit 17.
  • the control unit 17 selects an optimum frame image as a still image from among the plurality of frame images generated by the imaging unit 11 according to the following photographing processing routine.
  • details thereof will be omitted.
  • control unit 17 receives detection values in each of the three axial directions from the sensor 14 (step S1).
  • the control unit 17 shifts to a photographing mode by a user's operation (step S2), and displays the frame image generated by the imaging unit 11 on the touch panel 15 as a preview image.
  • the control unit 17 performs the stationary state determination described above using the three detection values of the sensor 14, and determines whether the smartphone 1 is stationary (step S3).
  • the control unit 17 waits in step S3 until it is determined that the smartphone 1 has stopped, and when it is determined that the smartphone 1 has stopped, the process proceeds to the next step S4.
  • the control unit 17 performs the gesture detection process described above using the three detection values of the sensor 14 (step S4).
  • the control unit 17 waits in step S4 until a gesture is detected, and when the gesture is detected, proceeds to the next step S5.
  • the control unit 17 determines again whether the smartphone 1 has stopped (step S5). When it is determined that the smartphone 1 has stopped, the control unit 17 proceeds to the next step S6. Note that the control unit 17 waits in step S5 until it is determined that the smartphone 1 has stopped, but when a predetermined time (for example, 5 seconds) has passed since the gesture was detected, the process automatically proceeds to the next step S6.
  • a predetermined time for example, 5 seconds
  • the control unit 17 selects an optimum frame image as a still image from frame images corresponding to the still period among the plurality of frame images stored in the data storage unit 13 for still image shooting (step S6).
  • the method of selecting the optimum frame image as a still image is as described above, and is not particularly limited.
  • the control unit 17 stores the frame image selected in step S6 in the data storage unit 13 or an external server (step S7).
  • control unit 17 executes all of steps S3 to S5 in FIG. 24, it is not necessary to execute all of steps S3 to S5, and step S3 or step S5 may be omitted.
  • the control unit 17 may omit step S5 and select a still image from among a plurality of frame images in a still period before the gesture is detected.
  • the control unit 17 may omit step S3 and select a still image from among a plurality of frame images in a still period after the gesture is detected.
  • FIG. 25 is a flowchart showing a local image extraction routine.
  • the control unit 17 extracts local images from the frame images according to the following local image extraction routine. Since the processes already described are performed in the following steps, the details thereof will be omitted.
  • the control unit 17 receives detection values in each of the three axial directions from the sensor 14 (step S11).
  • the control unit 17 shifts to the live moving image mode by the user's operation (step S12), and displays the frame image generated by the imaging unit 11 as a preview image on the touch panel 15 (step S13).
  • the image displayed on the touch panel 15 is not limited to the preview image in the live moving image mode, and may be a frame image read from the data storage unit 13 .
  • the control unit 17 extracts the image feature amount from the frame image of the display image (step S14), and further extracts the local image from the frame image (step S15).
  • the control unit 17 creates a virtual layer file that is T'-synchronized with the frame image including the local image, and describes various information in the virtual layer file (step S16).
  • control unit 17 sets the xy coordinates to the center position of the pixels forming the local image, sets the xy coordinates of the focus point to the local image, and describes these setting information in the virtual layer file. Further, the control unit 17 uses the focus point of the virtual layer file as position information to track the local image (step S17). Then, the control unit 17 manages and stores the above-described processing for each frame rate (step S18).
  • FIG. 26 is a flowchart showing a local image similarity search routine.
  • the control unit 17 searches for information about the local image and displays it on the touch panel 15 according to the following local image similarity search routine. Since the processes already described are performed in the following steps, the details thereof will be omitted.
  • the control unit 17 displays an image on the touch panel 15 (step S21).
  • the image displayed on touch panel 15 may be a preview image or a frame image read from data storage unit 13 .
  • the control unit 17 instructs the image database shown in FIG. 23, for example, to perform a similarity search for local images of all images displayed on the touch panel 15 (step S22). At this time, the image database searches for images similar to the local image and information related to the local image, and transmits the images and information obtained by the search to the smartphone 1 .
  • control unit 17 of the smartphone 1 When the control unit 17 of the smartphone 1 receives the images and information obtained by the search, the images and information are displayed on the touch panel 15 . Thereby, the control unit 17 can search for an image similar to the local image (object) of the frame image at high speed.
  • the control unit 17 determines whether or not a tap on the local image displayed on the touch panel 15 has been detected (step S23). The control unit 17 waits in step S23 until the tap is detected, and proceeds to the next step S24 when the tap is detected.
  • the control unit 17 dynamically displays the information received from the image database on the touch panel 15 for the tapped local image (step S24). For example, when the local image shows sunglasses, sunglasses similar to the sunglasses are displayed on the touch panel 15 . At this time, the user can manually describe the image information in the virtual layer file.
  • the control unit 17 stores this virtual layer file in the data storage unit 13, an external server, or the like (step S25).
  • the control unit 17 acquires not only the object but also the position information from the frame image by using the focus point as the position information of the object area of the local image (object), and displays the object and the position information on the touch panel 15. can be done. Furthermore, a specific object or the like can be tracked from the reproduced moving image or live moving image (all frame images) displayed on the touch panel 15 .
  • control unit 17 controls three detected values in the three axial directions of the sensor 14, the amount of change over time in each detected value, the pattern of change over time, feature amounts such as angles and tilt directions, RGB color histogram information of all frame images, or
  • the data storage unit 13 can store the grayscale conversion information and the position information of the local image (object) on the time axis.
  • control unit 17 stores data sets such as two-dimensional xy coordinates representing the object area of the local image, focus point data of three-dimensional xyz axis coordinates, imaging information, GPS position information, object tracking information of the local image, and the like. can be stored in unit 13.
  • the control unit 17 may cache the above data in a memory array, save it inside an image file or in an overlaid virtual layer file, or save it in an external server shown in FIG. Then, the control unit 17 can read various data saved as described above as necessary, perform predetermined arithmetic processing, and display an image or other methods on the touch panel 15 .
  • the smartphone 1 includes the imaging unit 11 that captures an image of a subject, the sensor 14 that detects a position in three axial directions or an amount related to the position, and the 3 A control unit 17 is provided for controlling the operation and playback function of the imaging unit 11 using at least one of the two detection values.
  • the smartphone 1 can control the operation and playback function of the imaging unit 11 by the user performing a gesture operation on the smartphone.
  • the present invention is not limited to the above-described embodiments, and can also be applied to designs modified within the scope of the matters described in the claims.
  • the present invention can be applied to devices other than the smart phone 1, and can be applied to mobile terminals without telephone functions, for example.
  • FIG. 27 is a diagram showing changes in angular velocity in each of the three axial directions when the smartphone 1 is tapped.
  • FIG. 28 is a diagram showing changes in angular velocity in each of the three axial directions when a flip operation is performed on the smartphone 1. As shown in FIG. When a tap operation or a flip operation is performed while the smartphone 1 is in a stationary state, the angular velocities in each of the three axial directions have the same two characteristics as the acceleration.
  • FIG. 29 is a diagram showing a stationary start point and a stationary end point that are set in determining a stationary state using angular velocity.
  • the control unit 17 can set the stationary start point ST and the stationary end point ED using, for example, Equation (1) described above. Note that ⁇ in equation (1) is set to an optimum value when a gyro sensor is used as the sensor 14 .

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本発明の一態様であるトリガー信号発生装置は、携帯端末へジェスチャが行われたタイミングを示すトリガー信号を発生するトリガー信号発生装置であって、前記携帯端末を原点とする座標系の3軸方向のそれぞれの動き情報を検出する動き情報検出部と、前記動き情報検出部により検出された3つの動き情報のうちの1つの正負符号が、残りの2つの正負符号と異なるようになったタイミングで、前記トリガー信号を発生するトリガー信号発生部と、を備えている。

Description

トリガー信号発生装置及び携帯端末
 本発明は、トリガー信号発生装置及び携帯端末に関する。
  従来、スマートフォンを所定のパターンで動かすことによって、撮像装置を動作させる技術が開示されている(特許文献1参照)。具体的には、特許文献1の技術は、ユーザがスマートフォンを反時計周りに振り上げ、時計回りに振り下ろし、スマートフォンを止めるという一連の動きを検出すると、スマートフォンに搭載された撮像装置を動作させる。
 また、スマートフォンを所定のパターンで動かすことによって、動画の再生、停止、早送り、巻き戻しなどを行う技術が開示されている(特許文献2参照)。具体的には、特許文献2の技術は、ユーザがスマートフォンをx軸周り又はy軸周りに傾ける操作を検知して、検知した操作内容に基づいて、動画の再生、停止等を行う。
特許第61420609号公報 国際公開第2018/66705号
 本発明は、従来技術の問題を解決する。
 本発明の第1の態様は、携帯端末へジェスチャが行われたタイミングを示すトリガー信号を発生するトリガー信号発生装置であって、前記携帯端末を原点とする座標系の3軸方向のそれぞれの動き情報を検出する動き情報検出部と、前記動き情報検出部により検出された3つの動き情報のうちの1つの正負符号が、残りの2つの正負符号と異なるようになったタイミングで、前記トリガー信号を発生するトリガー信号発生部と、を備える。
 本発明の第2の態様は、被写体を撮像してフレーム画像を生成する撮像部と、前記撮像部により生成されたフレーム画像を順次記憶する画像記憶部と、前記動き情報検出部により検出された3つの動き情報に基づいて、前記携帯端末が静止状態になった静止期間を検出する静止期間検出部と、ジェスチャが行われたタイミングを示すトリガー信号を発生するトリガー信号発生装置であって、前記携帯端末を原点とする座標系の3軸方向のそれぞれの動き情報を検出する動き情報検出部と、前記動き情報検出部により検出された3つの動き情報のうちの1つの正負符号が、残りの2つの正負符号と異なるようになったタイミングで、前記トリガー信号を発生するトリガー信号発生部と、を有するトリガー信号発生装置と、前記画像記憶部に記憶された複数のフレーム画像の中から、前記トリガー信号の発生タイミングの前又は後に前記静止期間検出部によって検出された前記静止期間に対応するフレーム画像を、静止画として選択する静止画選択部と、を備える。
 本発明は、ユーザが携帯端末に簡単なジェスチャを行うだけで携帯端末を操作することができる。
図1は、実施形態に係るスマートフォンの構成を示す図である。 図2は、ユーザがスマートフォンを保持した状態を示す図である。 図3Aは、ユーザのタップ操作を説明する図である。 図3Bは、ユーザのタップ操作を説明する図である。 図4は、タップ操作が行われた場合の3軸方向のそれぞれの加速度の変化を示す図である。 図5は、ユーザのフリップ操作を説明する図である。 図6は、フリップ操作が行われた場合の3軸方向のそれぞれの加速度の変化を示す図である。 図7は、静止状態の判定において設定される静止開始点及び静止終了点を示す図である。 図8は、ジェスチャ検出のための式のパラメータを説明するための図である。 図9は、複数のフレーム画像の中から選択される静止画を説明する図である。 図10は、操作タイミングの補助のためにタッチパネルに表示された表示物を示す図である。 図11は、ジェスチャ操作による動画再生を示す図である。 図12は、再生に対応するジェスチャが行われた場合の3軸方向の加速度を示す図である。 図13は、停止に対応するジェスチャが行われた場合の3軸方向の加速度を示す図である。 図14は、早送りに対応するジェスチャが行われた場合の3軸方向の加速度を示す図である。 図15は、巻き戻しに対応するジェスチャが行われた場合の3軸方向の加速度を示す図である。 図16は、5×5ピクセルで構成された基準セルを示す図である。 図17は、2つの基準セルの類似度の判定手法を説明する図である。 図18は、フレーム画像に対応づけられた仮想レイヤーファイルを示す図である。 図19は、フレーム画像内の物体を追尾する状況を説明する図である。 図20は、プレビュー画像として高解像度画像が表示された状況を示す図である。 図21Aは、局所画像をタップした状態を示す図である。 図21Bは、サングラスの類似画像検索結果を示す図である。 図21Cは、ユーザ編集画面を示す図である。 図22は、背景画像上に表示された局所画像を示す図である。 図23は、スマートフォンの通信ネットワークを説明する図である。 図24は、制御部の写真撮影処理ルーチンを示すフローチャートである。 図25は、局所画像抽出ルーチンを示すフローチャートである。 図26は、局所画像の類似検索ルーチンを示すフローチャートである。 図27は、スマートフォンにタップ操作が行われた場合の3軸方向のそれぞれの角速度の変化を示す図である。 図28は、スマートフォンにフリップ操作が行われた場合の3軸方向のそれぞれの角速度の変化を示す図である。 図29は、角速度を用いた静止状態の判定において設定される静止開始点及び静止終了点を示す図である。
 以下、本発明の実施形態について図面を参照しながら詳細に説明する。
(スマートフォン1の構成)
 図1は、本実施形態に係るスマートフォン1の構成を示す図である。
 スマートフォン1は、被写体を撮像する撮像部11と、撮像部11で生成された画像に対して所定の画像処理を行う画像処理部12と、画像やその他のデータを記憶するデータ記憶部13と、を備える。
 スマートフォン1は、さらに、3軸方向の動きに関する物理量を検出するセンサ14、画像や操作画面等を表示するタッチパネル15、外部機器とデータ通信するための通信部16を備える。
 スマートフォン1は、タッチパネル15の操作に応じて動作するだけでなく、ユーザのジェスチャ(後述するフリップ操作又はタップ操作)に応じて動作する。本実施形態では、スマートフォン1は、主に、ユーザのジェスチャや静止状態に応じて動作する。
 図2は、右手座標系のxyz空間においてユーザがスマートフォン1を保持した状態を示す図である。なお、xyz空間の原点は、スマートフォン1の中心部である。
 スマートフォン1は、一軸方向(図2ではy軸)を長手とする矩形面を有する筐体で覆われている。タッチパネル15は、xy平面上、具体的には上述の矩形面上に設けられている。z軸は、タッチパネル15に直交する方向になる。本実施形態では、ユーザは、撮影する場合、スマートフォン1を図2に示すようなxyz空間で保持する。本実施形態では、ユーザがスマートフォン1を保持した場合のx軸、y軸及びz軸の各方向は、次のように定義される。
 タッチパネル15の長手方向の上側が正のy軸方向になり、その下側が負のy軸方向になる。タッチパネル15の長手方向に直交する方向の右側が正のx軸方向になり、その左側が負のx軸方向になる。タッチパネル15の正面側が正のz軸方向になり、タッチパネル15の背面側が負のz軸方向になる。
 図1に示すように、撮像部11は、被写体からの光に応じて画像を生成するイメージセンサである。撮像部11は、例えば、CCDイメージセンサ、CMOSイメージセンサが該当する。なお、本実施形態では、スマートフォン1には、2つの撮像部11が設けられている。2つの撮像部11のうちの一方はタッチパネル15と同じ矩形面に設けられ、他方はタッチパネル15の背面側の矩形面に設けられる。
 撮像部11は、電子シャッター機能を備えており、静止画用又は動画用のフレーム画像を生成する。静止画撮影のレリーズ操作は、タッチパネル15上の表示ボタンへのタップ又はスマートフォン1本体へのジェスチャによって行われる。
 但し、本実施形態では、レリーズ操作は、スマートフォン1本体へのジェスチャによって行われる。撮像部11によって生成されたフレーム画像は、ライブ動画像としてタッチパネル15に表示されたり、データ記憶部13に記憶されたりする。
 画像処理部12は、撮像部11で生成されたフレーム画像に対して、ホワイトバランス調整、ガンマ補正等の所定の画像処理を実行する。画像処理部12によって所定の処理が実行された画像は、データ記憶部13に記憶される。なお、ライブ動画像の場合、画像は、データ記憶部13に一時的に記憶され、その後、ライブ動画像の表示のためにタッチパネル15に供給される。
 データ記憶部13は、例えばDRAM、フラッシュメモリ等が該当し、データを一時的に又は長期的に保存する。データ記憶部13には、様々なアプリケーションプログラムが記憶されている。制御部17は、上述のアプリケーションプログラムに従って、所定のデータ処理を実行する。
 また、データ記憶部13には、撮像部11で生成された画像、通信部16によって外部ネットワークから受信されたデータ等が記憶される。データ記憶部13へのデータの書き込み、データ記憶部13からのデータの読み出しは、制御部17によって制御される。
 センサ14は、スマートフォン1の動きに関する情報を検出するモーションセンサである。本実施形態では、センサ14は、スマートフォン1の3軸方向のそれぞれの加速度を検出する加速度センサである。センサ14は、スマートフォン1の3軸方向のそれぞれの加速度を検出し、それらの検出値を制御部17へ供給する。 
 センサ14は、本実施形態では加速度センサであるが、スマートフォン1の動きに関する情報を検出することができれば、加速度センサに限定されるものではない。例えば、センサ14は、速度センサ、角速度センサ(ジャイロセンサ)、地磁気センサであってもよい。
 タッチパネル15は、スマートフォン1の正面(もっと広い矩形面)に設けられている。タッチパネル15には、撮像部11により生成された又はデータ記憶部13から読み出されたフレーム画像が表示される。また、タッチパネル15には、スマートフォン1を操作するための様々な操作ボタンが表示される。
(動作モード)
 スマートフォン1は、写真撮影モード、動画撮影モード、及びライブ動画像(プレビュー動画像)モードを有している。
 写真撮影モードでは、ユーザは、タッチパネル15に表示される被写体を確認しながら、スマートフォン1の撮影位置を決める。静止画用のレリーズ操作が行われると、レリーズ操作によって特定される単一のフレーム画像(写真画像)又は複数のフレーム画像(連写画像)がデータ記憶部13に記憶され、タッチパネル15に表示される。
 動画撮影モードでは、ユーザは、タッチパネル15に表示される被写体を確認しながら、スマートフォン1の撮影位置を決める。動画用のレリーズ操作が行われると、レリーズ操作後の複数のフレーム画像(動画)がデータ記憶部13に記憶され、タッチパネル15に表示される。
 ライブ動画像モードでは、ユーザは、タッチパネル15に表示される被写体を確認する。このとき、撮像部11で生成される複数のフレーム画像(動画)がデータ記憶部13に記憶され、タッチパネル15に表示される。つまり、ライブ動画像モードでも、フレーム画像がデータ記憶部13に記憶される。
 なお、上述した3つのいずれのモードにおいても、データ記憶部13に記憶されたフレーム画像は、再生操作が行われた場合、タッチパネル15に表示される。また、制御部17は、外部サーバから静止画又は動画のフレーム画像をダウンロードして、データ記憶部13に格納することができる。その後、制御部17は、ダウンロードしたフレーム画像をデータ記憶部13から読み出して、タッチパネル15に表示させることもできる。
 通信部16は、通信ネットワークを介して、外部サーバ等の外部機器との間で、フレーム画像やその他のデータの送受信が可能である。制御部17は、例えば中央演算ユニット(CPU)を有し、データ記憶部13に記憶された撮影アプリケーション、その他の様々なアプリケーションを実行することにより、スマートフォン1全体を制御する。
 制御部17は、センサ14から3軸方向のそれぞれの検出値を周期的に受信し、それらの検出値の時間変化パターンに基づいて、スマートフォン1を制御する。具体的には、制御部17は、スマートフォン1が静止状態であるか、スマートフォン1にジェスチャが行われたかを判定し、その判定結果に基づいて静止画撮影のレリーズタイミングを決定して、静止画のフレーム画像を得る。
(ジェスチャの内容)
 ユーザは、スマートフォン1に対してジェスチャをすることで、静止画撮影のレリーズ操作を行うことができる。本実施形態では、静止画撮影のレリーズ操作を指示するジェスチャとして、タップ操作とフリップ操作がある。
 図3A及び図3Bは、スマートフォン1へのユーザのタップ操作を説明する図である。ユーザは、図3に示すように、スマートフォン1の下部を右手で持ち、被写体(例えば、自撮りする場合はユーザ自身)がタッチパネル15に適切に表示されるように、スマートフォン1の位置及び撮影方向を決定する。
 次に、ユーザは、スマートフォン1をしっかり静止させる。そして、ユーザは、スマートフォン1を静止させた状態で、スマートフォン1の背面(タッチパネル15の反対側)を人差し指ではたき、スマートフォン1に振動を与える。このように、タップ操作とは、スマートフォン1の背面を指ではたくことをいう。
 図2に示すxyz空間においては、ユーザは、スマートフォン1に対してz軸方向にタップする。なお、タップされる場所のx座標及びy座標は任意でよい。このとき、スマートフォン1には、z軸方向だけでなく、x軸方向及びy軸方向にも振動が発生する。各軸方向の振動は、図1のセンサ14によって検出される。
 なお、スマートフォン1を保持する手は、右手でも左手でもよい。また、ユーザは、スマートフォン1を縦又は横にして持ってもよい。本実施形態では、ユーザは、スマートフォン1の背面をはたいたが、スマートフォン1の正面又は側面をはたいても良い。また、ユーザは、スマートフォン1の本体の上部又は下部の側面をはたいても良い。
 図4は、スマートフォン1にタップ操作が行われた場合の3軸方向のそれぞれの加速度の変化を示す図である。スマートフォン1が静止状態の場合にフリップ操作が行われると、3軸方向のそれぞれの加速度は特徴的な波形になる。
 具体的には、フリップ操作が行われると、z軸方向の加速度d3が閾値thを超えてピークに達する。d3がピークに達するタイミング(時刻t)にほぼ同期して、x軸方向の加速度d1及びy軸方向の加速度d2もピークに達する。このように、ピーク値が初めて同期するタイミングでは、d1は負の値であるが、d2及びd3は正の値になる。
 図5は、スマートフォン1へのユーザのフリップ操作を説明する図である。ユーザは、図5に示すように、スマートフォンの下部を右手で持ち、被写体(例えば、自撮りする場合はユーザ自身)がタッチパネル15に適切に表示されるように、スマートフォン1の位置及び撮影方向を決定する。
 次に、ユーザは、スマートフォン1をしっかり静止させる。そして、ユーザは、スマートフォン1を背面側に傾けた後、素早く元の静止位置に戻し、スマートフォン1に振動を与える。このように、フリップ操作とは、スマートフォン1を静止した状態から、所定方向に傾けた後、素早く元の静止位置に戻すことをいう。
 図2に示すxyz空間においては、ユーザは、スマートフォン1をz軸周りに傾ける。なお、スマートフォン1を傾ける方向は、z軸周りに限らず、x軸周りやy軸周りであってもよい。また、スマートフォン1を保持する手は、右手でも左手でもよい。
 図6は、スマートフォン1にフリップ操作が行われた場合の3軸方向のそれぞれの加速度の変化を示す図である。スマートフォン1が静止状態の場合にフリップ操作が行われると、3軸方向のそれぞれの加速度は特徴的な波形になる。
 具体的には、フリップ操作が行われると、z軸方向の加速度d3が閾値thを超えてピークに達する。d3がピークに達するタイミング(時刻t)にほぼ同期して、x軸方向の加速度d1及びy軸方向の加速度d2もピークに達する。このように、ピーク値が初めて同期するタイミングでは、d1は負の値であるが、d2及びd3は正の値になる。つまり、フリップ操作が行われた場合の3軸方向の各加速度は、タップ操作が行われた場合と同様の特徴的な波形になる。
(静止状態の判定)
 スマートフォン1の制御部17は、写真撮影モードの場合、次のようにして静止状態を判定する。
 制御部17は、写真撮影モードの場合、常時、センサ14から供給される3軸方向のそれぞれの検出値を監視する。制御部17は、センサ14のすべての検出値の絶対値が所定値以下になる状態が所定時間以上連続する場合、その連続期間をスマートフォン1の静止状態と判定する。
 ここで、x軸方向、y軸方向及びz軸方向のそれぞれのセンサ14の検出値(加速度)をx、y及びzとする。微小時間をΔtとする。静止状態を判定するためのセンサ出力閾値をαとする。なお、αはゼロ近傍の値である。このとき、制御部17は、式(1)を満たすか否かを判定する。
(|d1|+|d2|+|d3|)/3<α   ・・・(1)
 図7は、静止状態の判定において設定される静止開始点ST及び静止終了点EDを示す図である。制御部17は、式(1)を満たす状態が所定時間を超える場合、その期間をスマートフォン1の静止状態と判定する。そして、制御部17は、式(1)を初めて満たした時点を静止開始点STとして設定し、静止開始点STの情報(静止開始点情報)をデータ記憶部13に記憶する。静止開始点情報は、静止開始点STの時間(時刻)、静止開始点STのxyzの各軸方向のそれぞれの加速度d1,d2,d3である。
 制御部17は、上記の所定時間経過後に式(1)を満たさなくなった場合、式(1)を満たさなくなった時点を静止終了点EDとして設定し、静止終了点EDの情報(静止終了点情報)をデータ記憶部13に記憶する。静止終了点情報は、静止開始点STの時間(時刻)、xyzの各軸方向の加速度である。
 なお、制御部17による静止状態の判定方法は、上述した方法に限定されるものではなく、センサ14の検出値に基づいて静止状態の始点情報を判定することができれば、その他の方法でも適用可能である。
 例えば、静止状態か否かの判定条件は、式(1)に限らず、例えば次のようなものでもよい。例えば、制御部17は、センサ14から出力された3軸方向のそれぞれの検出値の少なくとも1つが閾値th1未満になるか否かを判定してもよい(図7参照)。すなわち、制御部17は、加速度d1,d2,d3の少なくとも1つが閾値th1未満になるか否かを判定してもよい。または、制御部17は、微小時間Δt毎にセンサ14から供給される3つの加速度d1,d2,d3を用いて、それぞれの単位時間当たりの変化量Δd1,Δd2,Δd3の絶対値の少なくとも1つが所定の閾値未満であるか否か判定してもよい。
 制御部17は、上述した静止判定処理の結果、肯定判定になる状態が所定時間(例えば0.3秒)を超えた場合に、静止状態になったと判定する。なお、0.3秒に限らず、0.1~1.0秒までの任意の時間でもよい。この場合、制御部17は、上記条件を初めて満たした時点を静止開始点STとして設定し、上記条件を満たさなくなった時点を静止終了点EDとして設定する。また、静止状態の判定は、後述するジェスチャ検出の前又は後に行われる。
(ジェスチャ検出)
 図4及び図6で説明したように、ユーザがスマートフォン1にジェスチャ(タップ操作又はフリップ操作)をした場合、センサ14の3つ検出値(加速度)の時間変化パターンは、次の2つの特徴を有する。
 第1の特徴は、1つの検出値が閾値を超えて最初のピークになった場合、他の2つの検出値もほぼ同期して最初のピークになる点である。つまり、3つの検出値の最初のピークは、ほぼ同期して発生する。第2の特徴は、1つの検出値が閾値を超えて最初のピークになった場合、3つの検出値のうちの1つの検出値の正負符号は、残りの2つの検出値の正負符号と異なる点である。
 制御部17は、上述した2つの特徴を考慮して、次の手順に従って、所定期間毎にセンサ14の3軸方向のそれぞれ3つの検出値を用いて、ジェスチャ(タップ操作又はフリップ操作)があったか否かを検出して、ジェスチャがあったタイミングでトリガー信号を発生する。
(手順1)制御部17は、所定期間毎に、センサ14の3軸方向のそれぞれ3つの検出値の少なくとも1つについて、所定時間あたりの変化量が予め定める閾値を超えるか否かを判定する。制御部17は、ある所定期間において、3つの検出値の少なくとも1つの変化量が閾値を超えた場合、次の処理に移行する。
(手順2)制御部17は、上記の所定期間において、3つの検出値の1つが一方の正負符号(例えば正の値)になり、残りの2つが他方の正負符号(例えば負の値)になるか否かを判定する。
 制御部17は、肯定的な判定結果の場合、ユーザがジェスチャ操作を行っていると判定して、判定結果を得た時点をジェスチャ開始時点に設定する。このように、ジェスチャ開始時点では、センサ14の3つの検出値が瞬間的に(ほぼ同期して)変化して、かつ、3つの検出値のうちの1つの正負符号は残りの2つの正負符号と異なる、という特性がある。
(手順3)制御部17は、ジェスチャの検出後に静止状態になる期間がある場合、静止開始点の1フレーム前をジェスチャ終了時点に設定する。
(ジェスチャ検出方法1)
 制御部17は、以下のようにしてジェスチャを検出する。制御部17は、センサ14から3つの検出値d1,d2,d3を微小時間Δt毎に周期的に受信する。
 制御部17は、微小時間Δt毎に、3つの検出値d1,d2,d3のうちの少なくとも1つが閾値を超えたか否かを判定する。制御部17は、肯定判定の場合、3つの検出値d1,d2,d3のうちの少なくとも1つが閾値を超えた時点tを時間変化パターンの開始時点とする。なお、図4では、d2及びd3は閾値を超えているが、d1は閾値を超えていない。
 次に、制御部17は、時間変化パターンの開始時点において、3つの検出値d1,d2,d3の正負符号を判定する。具体的には、制御部17は、3つの検出値の1つの正負符号が残りの2つの正負符号と異なる状態になったか否かを判定する。制御部17は、肯定判定の場合、肯定判定を得た時点をジェスチャ開始時点に設定し、ジェスチャ検出を示すトリガー信号を発生する。その後、制御部17は、ジェスチャ検出後に静止状態の期間がある場合、静止開始点の1フレーム前の時点をジェスチャ終了時点に設定する。
(ジェスチャ検出方法2)
 制御部17は、上述したジェスチャ検出方法1の他に、以下のようにしてジェスチャを検出してもよい。
 図8は、ジェスチャ検出のための式のパラメータを説明するための図である。制御部17は、微小時間Δt毎に、次の式(2)~(4)を計算する。なお、Δd1,Δd2,Δd3は、微小時間Δtにおけるd1,d2,d3の変化量である。
ax=Δd1/Δt・・・(2)
ay=Δd2/Δt・・・(3)
az=Δd3/Δt・・・(4)
 ax、ay、azは、センサ14のx軸方向、y軸方向、z軸方向のそれぞれの検出値の微小時間Δt(サンプリング期間)当たりの傾きを示す。次に、制御部17は、次の式(5)~(7)の少なくとも1つを満たすか否かを判定する。
|ax|≧2  ・・・(5)
|ay|≧2  ・・・(6)
|az|≧2  ・・・(7)
 制御部17は、式(5)~(7)の少なくとも1つを満たし、かつ、ax、ay、azのうち2つの値が同符号であって残りの1つの値が異符号の場合、これらの条件を満たした時点をジェスチャ開始時点として設定し、ジェスチャ検出を示すトリガー信号を発生する。
 なお、制御部17は、フレーム画像と共に、センサ14の3つの検出値のそれぞれの変化量をデータ記憶部13に記憶してもよい。また、制御部17は、ジェスチャ検出のための計算・判定については、被写体の撮影中にリアルタイムで実行してもよいし、被写体の撮影後に独立して実行してよい。式(5)~(7)の“2”は、ジェスチャ検出のための閾値である。この閾値は“2”に限定されず、他の値でもよい。
 本実施形態では、制御部17は、ユーザのジェスチャを検出するために、式(2)~(7)を用いたが、式(2)~(7)に限定されるものではない。すなわち、制御部17は、上述した手順1~3を実行することができれば、判定式は特に限定されるものではない。
(写真撮影モードの静止画撮影)
 写真撮影モードでは、撮像部11で生成されたフレーム画像がデータ記憶部13に順次記憶される。ユーザは、スマートフォン15に表示される被写体を確認しながら、スマートフォン1を静止させて、シャッター操作(ジェスチャ)を行う。このとき、制御部17は、上述した静止状態判定処理及びジェスチャ検出処理をそれぞれ独立して実行して、静止画を取得する。
 具体的には、制御部17は、ジェスチャを検出すると、静止状態の判定結果を用いて、データ記憶部13に記憶されている複数のフレーム画像の中から、静止画として最適なフレーム画像を選択する。
 図9は、複数のフレーム画像の中から選択される静止画を説明する図である。ジェスチャが検出された場合、通常、ジェスチャ検出時TJの前又は後に静止状態になる期間(静止開始点STから静止終了点EDまで静止期間SD)が存在する。なお、ジェスチャ検出時TJの後に検出値のピーク時TPがある。そこで、制御部17は、ジェスチャ検出JDの前又は後の静止期間SDの複数のフレーム画像の中から、静止画に最適なフレーム画像を選択する。フレーム画像の選択方法は、次のようなものがある。
(フレーム画像の選択方法)
 例えば、制御部17は、ジェスチャ検出時を基準にしてその前後の両方に静止期間がある場合、静止期間内のすべてのフレーム画像の中から、ジェスチャ検出時から時間的に最も近いフレーム画像を静止画として選択してもよい。
 なお、制御部17は、静止終了点から次のジェスチャ検出時までの時間が所定時間(例えば、0~5秒までの任意の時間)を超える場合、その静止終了点を含む静止期間のフレーム画像を、静止画の対象から除外することができる。また、制御部17は、ジェスチャ検出時から次の静止開始点までの時間が上記の所定時間を超える場合、その静止開始点を含む静止期間のフレーム画像を、静止画の対象から除外することができる。
 ジェスチャと静止期間との間の時間が上記所定時間を超える場合、静止期間のフレーム画像は、ユーザの希望する静止画とは異なるケースが多い。そこで、制御部17は、上記の条件を満たす場合、静止期間のフレーム画像を静止画の対象から除外することによって、写真撮影動作の誤作動を防止することができる。また、スマートフォン1に搭載されている近接センサを利用して、誤動作を防止してもよい。
 すなわち、制御部17は、ジェスチャと静止期間との間の時間が上記所定時間を超えるか否かを判定し、ジェスチャとの間の時間が上記所定時間を超えない静止期間を選択して、選択した静止期間の中からフレーム画像を選択すればよい。
 制御部17は、静止期間のフレーム画像の中から静止画を選択する場合、例えば、静止開始点のフレーム画像を選択しても良い。また、制御部17は、静止開始点から所定時間後のフレーム画像を選択しても良いし、静止開始点から所定のフレーム数後のフレーム画像を選択してもよい。
 また、制御部17は、静止期間のフレーム画像の中から、スマートフォン1の動きに応じて、最適な静止画を選択することもできる。具体的には、制御部17は、センサ14からの3つの検出値に基づいて、スマートフォン1の振動の大きさ、傾き方向及び初速を検出する。そして、制御部17は、その検出結果を用いて、ジェスチャ検出時から何フレーム前又は何フレーム後のフレーム画像が静止画として最適であるかを判定して、その最適なフレーム画像を選択してもよい。
 さらに、制御部17は、連写機能が設定されている場合、静止期間内の複数のフレーム画像の中から、予め定められた枚数のフレーム画像を選択してもよいし、静止期間内のすべてのフレーム画像を選択してもよい。
(静止判定のみを用いた静止画撮影)
 制御部17は、ジェスチャを検出することなく、静止判定のみを行って、静止画を選択することもできる。具体的には、制御部17は、上述した静止判定処理を行って静止開始点STを設定する。次に、制御部17は、静止期間内において、静止開始点STを基準にして所定時間が経過したか否かを判定する。制御部17は、静止開始点STを基準にして所定時間が経過した時点でトリガー信号を発生する。
 そして、制御部17は、データ記憶部13に記憶されている複数のフレーム画像の中から、上記のトリガー信号が発生した時点のフレーム画像を静止画として選択する。この結果、ユーザは、スマートフォン1を静止させるだけで、静止画を撮影することができる。
(ヒストグラムを用いたフレーム画像の選択方法)
 制御部17は、ヒストグラムを用いて、静止画に最適なフレーム画像を選択することができる。具体的には、制御部17は、ジェスチャ検出時のフレーム画像のRGB色ヒストグラムと、静止期間内のフレーム画像のRGB色ヒストグラムと、をそれぞれ演算して、各フレーム画像のRGB色ヒストグラムの差を求める。
 制御部17は、各フレーム画像のRGB色ヒストグラムの差が閾値より小さい場合、静止期間内の上記フレーム画像を静止画として選択し、各フレーム画像のRGB色ヒストグラムの差が閾値以上の場合、静止期間内の上記フレーム画像を静止画の対象外とする。
 通常、ユーザは、ジェスチャ操作前に、撮影フレームの位置(撮影位置及び撮影方向)を決定する。上述したRGB色ヒストグラムの差が閾値以上の場合は、ジェスチャ検出時のフレーム画像と静止期間内のフレーム画像が大きく異なり、撮影フレームの位置ずれが発生している可能性がある。そこで、上述した処理を行うことによって、撮影フレームの位置ずれを回避することができる。
 なお、ユーザは、自身に適した時間変化パターン、閾値、判定・検出方法を予め設定してもよい。これにより、制御部17は、ユーザ毎に、最適な時間変化パターン、閾値、判定・検出方法を利用することができる。
(検出値の可視化による操作タイミングの補助)
 図10は、操作タイミングの補助のためにタッチパネル15に表示された表示物Dを示す図である。制御部17は、タッチパネル15のプレビュー画像PVにオーバーレイする透明な仮想レイヤーファイルVLFを用いて、センサ14の3軸方向の各検出値を可視化して、ユーザの操作タイミングを補助することができる。
 具体的には、制御部17は、センサ14の検出値をリアルタイムで演算する。そして、制御部17は、仮想レイヤーファイルVLFに記述されている3次元形状の表示物D(例えば水平標準器、xyz空間の3軸等)を読み出して、タッチパネル15に表示する。そして、制御部17は、センサ14の3軸方向の各検出値を3次元座標に変換して、3次元形状の表示物Dを動的に動かす。この結果、センサ14の検出値の状態を可視化した表示物Dをタッチパネル15に表示することができる。
 これにより、タッチパネル15上で、スマートフォン1の静止状態やジェスチャの動きが可視化され、スマートフォン1へのジェスチャ操作を補助することができる。なお、仮想レイヤーファイルVLFに記述される表示物Dやその他の情報は、ユーザ毎に設定可能である。表示物Dは、3次元形状のロゴやマークなどでもよい。
(フレーム画像の関連情報)
 データ記憶部13には、制御部17によって、フレーム画像だけでなく、当該フレーム画像の関連情報が記憶される。関連情報としては、例えば、対応するフレーム画像の生成時にセンサ14によって検出された3軸方向のそれぞれの検出値、各検出値の時間変化量が該当する。
 また、その他の関連情報としては、例えば、対応するフレーム画像がスマートフォン1の振動や傾きの発生時(ジェスチャ検出時)から何番目のフレームであるかを示すフレーム番号、静止状態検出時から何番目のフレームであるかを示すフレーム番号、角度、傾き方向などの特徴量が該当する。上述した各フレーム番号は、T’に同期して、自動的に付与される。また、上述した各フレーム番号が指定された場合、指定された各フレーム番号に対応するフレーム画像が読み出される。
 フレーム画像及び関連情報は、通信部16によって、外部サーバに送信され、その外部サーバに保存されてもよい。データ記憶部13又は外部サーバに保存されたフレーム画像及び関連情報は、静止画又は動画の再生時に、適宜読み出される。
 例えば、制御部17は、静止画の選択時において、3軸方向の全ての検出値又は検出値の時間変化量が予め定める閾値の範囲内にあり、その状態(静止状態)が所定時間以上継続する静止期間を検出する。次に、制御部17は、静止期間において、完全静止に最も近い状態のフレーム画像を静止画像として選択する。
 完全静止に最も近い状態のフレーム画像とは、例えば、3軸方向の全ての検出値の絶対値の合計、又は各検出値の時間変化量の絶対値の合計が最も小さい値になったときのフレーム画像が該当する。そして、制御部17は、データ記憶部13又は外部サーバから静止画像を読み出し、読み出した静止画像をタッチパネル15に表示する。
 制御部17は、静止画の選択時において、次の処理を行うこともできる。例えば、制御部17は、静止基準フレーム番号又はジェスチャ基準フレーム番号を指定して、指定した番号に対応するフレーム画像をデータ記憶部13又は外部サーバから読み出しても良い。また、制御部17は、角度や傾きなどの特徴量を指定して、指定した特徴量に対応するフレーム画像をデータ記憶部13又は外部サーバから読み出しても良い。
(再生機能)
 図11は、ジェスチャ操作による動画再生を示す図である。ユーザは、スマートフォン1を所定方向に傾けるジェスチャ操作(フリップ操作)を行うことで、動画を視聴することやタッチパネル15に表示される情報等をスクロールすることができる。
 制御部17は、上述したジェスチャ検出処理によってジェスチャを検出すると、ジェスチャ検出時におけるセンサ14の3軸方向の各検出値を用いて、ジェスチャ内容(スマートフォン1がどの方向に傾いたか)を判定する。ジェスチャ内容と再生機能との対応関係を示すテープルは、予めデータ記憶部13に記憶されている。
 テーブルの内容は次の通りである。なお、スマートフォン1の外縁を形成する4つの辺のうち、スマートフォン1に対してx軸の正方向にある短手の辺を上辺とする。さらに、x軸の負方向にある短手の辺を下辺、y軸の正方向になる辺を左辺、y軸の負方向にある辺を右辺とする。
ジェスチャ:右辺をz軸の負方向へ1回傾ける→再生
ジェスチャ:停止:右辺をz軸の負方向へ1回傾ける→停止
ジェスチャ:上辺をz軸の負方向へ1回傾ける→早送り
ジェスチャ:下辺をz軸の負方向へ1回傾ける→巻き戻し
 図12は、再生に対応するジェスチャが行われた場合の3軸方向の加速度を示す図である。図13は、停止に対応するジェスチャが行われた場合の3軸方向の加速度を示す図である。図14は、早送りに対応するジェスチャが行われた場合の3軸方向の加速度を示す図である。図15は、巻き戻しに対応するジェスチャが行われた場合の3軸方向の加速度を示す図である。
 図12から図15に示す3つの加速度は、図4及び図6で説明した2つの特徴を有している。このため、制御部17は、上述したジェスチャ検出処理を行うことによって、再生、停止、早送り、巻き戻しに対応するそれぞれのジェスチャを検出することができる。
 そこで、制御部17は、テーブルを参照して、ジェスチャ検出時に、右辺がz軸の負方向へ1回傾いたことを検出すると、データ記憶部13からフレーム画像を読み出して、タッチパネル15に動画を再生する。制御部17は、動画再生中にジェスチャを検出した場合、テーブルに従って、スマートフォン1の傾いた方向に対応する動作を実行する。
 なお、スマートフォン1は、所定時間当たりのジェスチャ検出回数を増やすことによって、多機能再生やスクロールを実行することができる。この場合、操作内容テーブルには、所定時間当たりのジェスチャ検出回数と、スマートフォン1の傾いた方向と、によって特定される様々な再生機能(一時停止、コマ送り再生、コマ戻し再生など)が記述される。よって、制御部17は、所定時間当たりのジェスチャ検出回数及びスマートフォン1の傾いた方向をそれぞれ検出し、操作内容テーブルに従って、それらの検出内容に対応する再生機能やスクロールを実行すればよい。
(類似検索)
 データ記憶部13には、非常に多くのフレーム画像が記憶される。しかし、ユーザが、フレーム画像に写った被写体(物体)に関する情報を1つ1つ探し出し、そのような情報をいつでも利用できるように準備するのは非常に困難である。
 これに対して、スマートフォン1は、データ記憶部13に記憶されたフレーム画像について、外部サーバ内にアクセスして類似画像検索を行って、当該フレーム画像に写った被写体(物体)に関する情報を入手することができる。スマートフォン1の制御部17は、類似画像検索を行うための前処理として、フレーム画像に写った物体を抽出するための局所画像の抽出処理を行う。
(局所画像の抽出)
 制御部17は、フレーム画像に写った物体を識別するために、対象となるフレーム画像の中から局所画像を抽出する。ここで、対象となる画像は、上述した処理によって得られた写真(静止画)、動画のフレーム画像、プレビュー動画のフレーム画像、ユーザのジェスチャ操作時の動画のフレーム画像などである。制御部17は、基準セルを用いて、対象となる画像から局所画像を抽出する。
 図16は、xy平面において5×5ピクセルで構成された基準セルを示す図である。対象画像の水平方向にx軸、垂直方向にy軸を設定する。x軸及びy軸の交点には、基準セルの中心ピクセルである基準中心ピクセルの座標を配置し、基準中心ピクセルの座標を(x0,y0)とする。
 このとき、基準中心ピクセルに対して、x方向に隣接する2つのピクセル、及びy方向に隣接する2つのピクセルが隣接ピクセルとなる。例えば、基準中心ピクセル(x0,y0)に対して、(x-1,y0)、(x+1,y0)、(x0,y+1)、(x0,y-1)の4つのピクセルが隣接ピクセルとなる。
 図17は、2つの基準セルの類似度の判定手法を説明する図である。制御部17は、隣接する2つの基準セルの各領域内で、赤(R)、緑(G)、青(B)について色ヒストグラムを作成し(HSV色空間変換)、2つの基準セルの類似度を判定する。制御部17は、隣接する2つの基準セルのそれぞれについて、HSV色空間での色相、彩度、明度の各要素の特徴量を検出し、2つの基準セルが類似する度合いを示す類似値を演算する。
 類似値は、2つの比較対象が完全同一の場合はゼロになり、比較対象のずれが大きくなるに従って大きな値になる。そして、制御部17は、類似値が閾値未満の場合、隣接する2つの基準セルは類似すると判定して、当該2つの基準セルを連結する。
 このように、制御部17は、隣接する2つの基準セルが類似する場合、その2つの基準セルを次々に連結することにより、基準セルをグループ化することにより、局所画像を抽出する。
(局所画像を抽出する手順)
 制御部17は、以下の手順に従って、フレーム画像から局所画像を抽出する。
(手順1)制御部17は、フレーム画像中の各基準セルにおいて、色ヒストグラムChist={C(H,1),C(H,2)…C(H,N),C(S,1),C(S,2)…C(S,N),C(V,1),C(V,2)…C(V,N)}を作成する。ここで、H,S,Vは、色相(H)、彩度(S)、明度(V)で表されるHSV色空間の各要素である。Nは量子化数である。
(手順2)制御部17は、次の色ヒストグラム式を計算することにより、C(r∈{H,S,V},n)を求める。
Figure JPOXMLDOC01-appb-M000001
 なお、Mは基準セルの大きさ(ピクセル)である。nは量子化の番号n=(1,2,・・・,N)である。f(Pc(x,y,r))はPc(x,y,r)を量子化した値である。このように、C(r,n)は、基準セル内の各ピクセルの色Pc(x,y,H)、Pc(x,y,S)、Pc(x,y,V)の累積値である。
(手順3)制御部17は、手順(1)及び(2)で算出された色ヒストグラムを用いて、セルi,jについて、次のヒストグラムインターセクション式を計算することより、類似度S(i,j)を求める。
Figure JPOXMLDOC01-appb-M000002
 なお、Bは、色ヒストグラムのビン数である。制御部17は、隣接する2つの基準セルについて、各類似度(近似値)が予め定めた範囲内にある場合は、当該隣接する基準セルを近似ピクセルとして連結する。制御部17は、隣接する基準セルを次々に連結することによって基準セルをグループ化して、グループ化された基準セルを局所画像として判別する。
 なお、局所画像の抽出方法は、上述した実施形態に限定されるものではなく、様々な方法を用いることができる。例えば、物体の形状を捉えるための局所特徴量を抽出したり、物体のエッジを検出したりすることで、局所画像を抽出してもよい。
(仮想レイヤーファイルの構成)
 図18は、フレーム画像(プレビュー画像PV)に対応づけられた仮想レイヤーファイルVLFを示す図である。制御部17は、それぞれのフレーム画像に対して仮想レイヤーファイルVLFを生成する。仮想レイヤーファイルVLFとは、対応するフレーム画像に関連する情報が記述されたファイルをいう。フレーム画像には、1枚の仮想レイヤーファイルVLFが対応づけられている(T’同期)。
 仮想レイヤーファイルには、レイヤーファイル番号が付与される。仮想レイヤーファイルには、対応するフレーム画像から抽出された局所画像の領域やその中心位置を示すxy座標、上記の局所画像のフォーカスポイントFPのxy座標(x0,y0)が記述される。
 局所画像の領域やその中心位置を示すxy座標は、局所画像の抽出処理の際に、制御部17によって算出される。フォーカスポイントFPは、被写体の撮影時に生成された情報が利用される。
 また、仮想レイヤーファイルVLFには、対応するフレーム画像の画像特徴量(ヒストグラム等)、センサ14の3軸方向のそれぞれの検出値、対応するフレーム画像との同期時間T’(対応するフレームとの時間)が記述される。
 さらに、仮想レイヤーファイルには、対応するフレーム画像が撮影された場所を示すGPS位置情報、フレーム画像に関する撮影情報が記述される。仮想レイヤーファイルには、対応するフレーム画像に同期して、上述した様々な情報が自動的に記述される。ユーザが、仮想レイヤーファイルに手動で上述した情報を書き込んでもよい。
 制御部17は、必要に応じて仮想レイヤーファイルを連続的に読み込むことで、局所画像の中心位置を認識して、追跡することが可能になる。なお、本実施形態では、フレーム画像に関する情報は、すべて仮想レイヤーファイルに記述されるものとするが、これに限定されるものではない。すなわち、フレーム画像に関する情報のうちの一部は、仮想レイヤーファイルと異なるファイルに記述されたり、通信ネットワーク上のサーバに記述・保存されてもよい。
 図19は、フレーム画像内の物体を追尾する状況を説明する図である。制御部17は、物体(局所画像)を追尾する場合、その局所画像に同期した仮想レイヤーファイルのフォーカスポイントを位置情報として利用する。
 最初に、制御部17は、データ記憶部13から局所画像を含んだフレーム画像を読み出し、当該フレーム画像に同期する仮想レイヤーファイルも読み出す。制御部17は、この仮想レイヤーファイルから追尾対象の物体のフォーカスポイント(位置情報)FPである基本座標BC(x0,y0)を取得する。
 そして、制御部17は、データ記憶部13からフレーム画像を読み出す毎に、同期する仮想レイヤーファイルも読み出し、仮想レイヤーファイルからフォーカスポイントを順次読み出すことによって、追尾座標TC(x0,y+7),(x+1,y+4),(x0,y+2),(x、0)を取得する。なお、追尾情報は、仮想レイヤーファイルに記述されてもよいし、スマートフォン1内のデータ記憶部13や外部サーバに保存されてもよい。
(情報の保存・管理)
 制御部17は、センサ14の3軸方向のそれぞれの検出値、その変化量、時間変化パターン、角度・傾き方向などの特徴量をデータ記憶部13に記憶する。また、制御部17は、すべてのフレーム画像について、RGB色ヒストグラム情報、グレースケール変換情報、局所画像に現れた物体の時間ごとの位置情報、局所画像のオブジェクト領域を表わす2次元xy軸座標、上記の物体に対するフォーカスポイントデータである3次元xyz軸座標をデータ記憶部13に記憶する。さらに、制御部17は、物体を撮影したときの撮影情報、GPS位置情報、局所画像の物体追尾情報等をデータ記憶部13に記憶する。
 なお、制御部17は、上述した各種の情報を、仮想レイヤーファイルの内部に格納してもよいが、フレーム画像の内部に格納してもよい。また、制御部17は、上述した各種情報をスマートフォン1の内部にあるデータ記憶部13に保存するのではなく、通信ネットワークを介して、外部サーバに保存してもよい。
(局所画像の表示)
 制御部17は、タッチパネル15に表示された物体(局所画像)へのタップを検出した場合、当該物体に関連する情報をデータ記憶部13から読み出し、読み出した情報をタッチパネル15に表示する。
 なお、データ記憶部13には、予め、局所画像の高画質データを記憶してもよい。この場合、制御部17は、タッチパネル15に表示された局所画像へのタップを検出すると、データ記憶部13から高画質データを読み出し、タップされた局所画像の高解像度画像(例えば4K/8Kなど)をタッチパネル15に表示してもよい。
 図20は、プレビュー画像PVとして高解像度画像が表示された状況を示す図である。プレビュー画像PVが高解像度画像の場合、制御部17は、プレビュー画像PVを例えば8分割して、分割された高解像度画像毎に、局所画像を抽出することができる。なお、プレビュー画像PVは、8分割される場合に限らず、4分割にされてもよい。
 図21Aは、局所画像をタップした状態を示す図である。制御部17は、タップされた局所画像の拡大画像及び局所画像の類似検索結果をタッチパネル15に表示する。例えば、タッチパネル15に表示された人物のサングラスがタップされた場合、制御部17は、タップされたサングラスの拡大画像をタッチパネル15に表示する。
 制御部17は、さらに、外部サーバに対して、タップされたサングラスの類似画像検索を指示する。外部サーバは、データベースの中からそのサングラスに類似する類似画像を検索すると、類似するサングラスの画像や関連情報をスマートフォン1へ送信する。
 図21Bは、サングラスの類似画像検索結果を示す図である。制御部17は、タッチパネル15に、サングラスの拡大画像だけでなく、そのサングラスに類似する複数のサングラスの画像や関連情報を表示することができる。ここで、ユーザは、このサングラスに関する情報を入力・編集することができる。
 図21Cは、ユーザ編集画面を示す図である。ユーザは、タッチパネル15上に表示される編集画面を操作して、サングラスに関する任意の情報を入力することができる。制御部17は、ユーザによって入力された情報をデータ記憶部13又は外部サーバに保存して、必要なときに読み出すことができる。
(フレーム画像に同期する情報)
 制御部17は、フレーム画像から局所画像を抽出するだけでなく、すべてのフレーム画像に対して様々な情報を同期させる。具体的には、制御部17は、写真撮影による単一のフレーム画像、連続写真撮影による連続フレーム画像、動画撮影又はプレビュー動画の連続フレーム画像のそれぞれに対して、画像特徴量として、フレーム番号及び時間情報を付与する。
 すなわち、すべてのフレーム画像に、フレーム番号及び時間情報が付与される。写真撮影又は動画撮影によって生成されたフレーム画像は、フレーム番号及び時間情報と共に、データ記憶部に記憶される。データ記憶部13に記憶されたフレーム番号及び時間情報は、フレーム画像の抽出や管理に利用される。
(局所画像と背景画像)
 図22は、背景画像BI上に表示された局所画像LIを示す図である。制御部17は、フレーム画像毎に局所画像LIを抽出した後、局所画像LIと背景画像BI(局所画像LI以外のフレーム画像)とを区別して、データ記憶部13や外部サーバに保存することができる。さらに、制御部17は、局所画像LI又は背景画像BIに関する画像情報、局所画像LIの特徴量などを、データ記憶部13又は外部サーバに保存してもよい。
 また、制御部17は、動画(連続する複数のフレーム画像)については、動きのある局所画像LIと動きのない背景画像BIとを区別してもよい。再生時には、制御部17は、例えば特徴量に基づいて局所画像LI及び背景画像BIをそれぞれデータ記憶部13等から読み出して、背景画像BI上に局所画像LIを上書きする。制御部17は、タッチパネル15上に、局所画像LI又はその拡大画像を表示する。
(プレビュー画像表示と局所画像の抽出)
 制御部17は、タッチパネル15にプレビュー画像を表示しながら、プレビュー画像のフレーム画像から局所画像を抽出してもよい。また、制御部17は、プレビュー画像をデータ記憶部13に一旦保存し、その後、データ記憶部13からプレビュー画像のフレーム画像を読み出し、フレーム画像から局所画像を抽出してもよい。
(傾きに応じた表示補正)
 制御部17は、プレビュー画像又は再生画像をタッチパネル15に表示する場合、スマートフォン1の振動や傾きに応じて、表示画像を調整することができる。具体的には、制御部17は、センサ14からの3軸方向のそれぞれの検出値に基づいて、スマートフォン1がどの方向にどの程度傾いているかを判定する。
 そして、制御部17は、上記の判定結果に基づいて、表示画面が水平になる仮想表示装置をタッチパネル15内に構成する。これにより、ユーザは、スマートフォン1の振動や傾きに影響されることなく、画像を見ることができる。
(被写体までの距離に応じた縮小画像・拡大画像)
 また、スマートフォン1から被写体までの距離に応じて縮小画像又は拡大画像を表示することも可能である。具体的には、制御部17は、撮像部11内の焦点距離f及び絞り値xを用いて、スマートフォン1(撮像レンズ)から被写体(図24ではユーザ自身)までの距離aを求める。なお、距離aの演算方法は、特に限定されず、公知の技術を使うことができる。制御部17は、求めた距離aに応じて、プレビュー画像、撮影後の画像である再生画像(例えば、静止画像や動画像)をタッチパネル15に縮小又は拡大表示することができる。
(通信ネットワークの構成例)
 図23は、スマートフォン1の通信ネットワークを説明する図である。スマートフォン1は、ネットワークNWを介して様々な外部サーバに接続されている。外部サーバとしては、例えば、通信事業者サーバ101、クラウドサーバ102、画像データベースサーバ103、事業者用画像データベースサーバ104がある。これらのサーバには、スマートフォン1で使用されるデータ、当該データに関する様々なデータが記憶されている。
 図24は、制御部17の写真撮影処理ルーチンを示すフローチャートである。制御部17は、次の写真撮影処理ルーチンに従って、撮像部11で生成された複数のフレーム画像の中から、静止画として最適なフレーム画像を選択する。なお、以下の各ステップでは、既に説明した処理が行われるため、その詳細は省略する。
 制御部17は、カメラ機能が起動すると、センサ14から3軸方向のそれぞれの検出値を受信する(ステップS1)。制御部17は、ユーザの操作によって写真撮影モードに移行して(ステップS2)、撮像部11で生成されたフレーム画像をプレビュー画像としてタッチパネル15に表示する。
 制御部17は、センサ14の3つの検出値を用いて上述した静止状態判定を行って、スマートフォン1が静止したか否かを判定する(ステップS3)。制御部17は、スマートフォン1が静止したと判定されるまでステップS3に待機して、スマートフォン1が静止したと判定されると、次のステップS4に進む。
 制御部17は、センサ14の3つの検出値を用いて上述したジェスチャ検出処理を行う(ステップS4)。制御部17は、ジェスチャを検出するまでステップS4に待機して、ジェスチャを検出すると、次のステップS5に進む。
 制御部17は、再びスマートフォン1が静止したか否かを判定する(ステップS5)。制御部17は、スマートフォン1が静止したと判定されると、次のステップS6に進む。なお、制御部17は、スマートフォン1が静止したと判定されるまでステップS5に待機するが、ジェスチャ検出時から所定時間(例えば5秒)が経過した場合、自動的に次のステップS6へ進む。
 制御部17は、静止画撮影のために、データ記憶部13に記憶されている複数のフレーム画像うち、静止期間に対応するフレーム画像の中から、静止画として最適なフレーム画像を選択する(ステップS6)。静止画として最適なフレーム画像の選択方法は、上述した通りであり、特に限定されるものではない。制御部17は、ステップS6で選択されたフレーム画像をデータ記憶部13又は外部サーバへ保存する(ステップS7)。
 なお、制御部17は、図24ではステップS3~S5のすべてで実行するが、ステップS3~S5をすべて実行する必要はなく、ステップS3又はステップS5を省略してもよい。例えば、制御部17は、ステップS5を省略して、ジェスチャ検出時より前の静止期間にある複数のフレーム画像の中から、静止画を選択してもよい。また、制御部17は、ステップS3を省略して、ジェスチャ検出時より後の静止期間にある複数のフレーム画像の中から、静止画を選択してもよい。
 図25は、局所画像抽出ルーチンを示すフローチャートである。制御部17は、次の局所画像抽出ルーチンに従って、フレーム画像から局所画像を抽出する。以下の各ステップでは、既に説明した処理が行われるため、その詳細は省略する。
 制御部17は、カメラ機能が起動すると、センサ14から3軸方向のそれぞれの検出値を受信する(ステップS11)。制御部17は、ユーザの操作によってライブ動画モードに移行して(ステップS12)、撮像部11で生成されたフレーム画像をプレビュー画像としてタッチパネル15に表示する(ステップS13)。なお、タッチパネル15に表示される画像は、ライブ動画モードのプレビュー画像に限らず、データ記憶部13から読み出されるフレーム画像であってもよい。
 制御部17は、表示画像のフレーム画像から画像特徴量を抽出して(ステップS14)、さらにフレーム画像から局所画像を抽出する(ステップS15)。制御部17は、局所画像を含むフレーム画像にT’同期する仮想レイヤーファイルを作成して、様々な情報を仮想レイヤーファイルに記述する(ステップS16)。
 例えば、制御部17は、局所画像を構成するピクセルの中心位置にxy座標を設定し、局所画像にフォーカスポイントのxy座標を設定して、これらの設定情報を仮想レイヤーファイルに記述する。さらに、制御部17は、仮想レイヤーファイルのフォーカスポイントを位置情報として利用して、局所画像を追尾する(ステップS17)。そして、制御部17は、上述した処理をフレームレート毎に管理して保存する(ステップS18)。
 図26は、局所画像の類似検索ルーチンを示すフローチャートである。制御部17は、次の局所画像の類似検索ルーチンに従って、局所画像に関する情報を検索して、タッチパネル15に表示する。以下の各ステップでは、既に説明した処理が行われるため、その詳細は省略する。
 制御部17は、タッチパネル15に画像を表示する(ステップS21)。タッチパネル15に表示される画像は、プレビュー画像でもよいし、データ記憶部13から読み出されたフレーム画像でもよい。
 制御部17は、タッチパネル15に表示されるすべての画像の局所画像について、例えば図23に示す画像データベースに対して、類似検索を指示する(ステップS22)。このとき、画像データベースは、局所画像に類似する画像や局所画像に関連する情報を検索して、検索によって求められた画像や情報をスマートフォン1へ送信する。
 スマートフォン1の制御部17は、検索によって求められた画像や情報を受信すると、それらの画像や情報をタッチパネル15に表示する。これにより、制御部17は、フレーム画像の局所画像(物体)に類似する画像を高速で検索することができる。
 制御部17は、タッチパネル15に表示される局所画像へのタップを検出したか否かを判定する(ステップS23)。制御部17は、タップが検出されるまではステップS23で待機して、タップが検出されると次のステップS24へ進む。
 制御部17は、タップされた局所画像について、画像データベースから受信した情報を動的にタッチパネル15に表示する(ステップS24)。例えば、局所画像がサングラスを示す場合、そのサングラスに類似するサングラスがタッチパネル15に表示される。このとき、ユーザは、画像情報を仮想レイヤーファイルに手動で記述できる。制御部17は、この仮想レイヤーファイルをデータ記憶部13や外部サーバ等に保存する(ステップS25)。
(その他の情報利用例)
 制御部17は、局所画像(物体)のオブジェクト領域の位置情報としてフォーカスポイントを利用することによって、フレーム画像から物体だけでなく位置情報を取得して、物体及び位置情報をタッチパネル15に表示することができる。さらに、タッチパネル15に表示される再生動画又はライブ動画像(すべてのフレーム画像)から、特定の物体等を追尾することができる。
 なお、制御部17は、センサ14の3軸方向の3つの検出値、各検出値の時間変化量、時間変化パターン、角度・傾き方向などの特徴量、全てのフレーム画像のRGB色ヒストグラム情報又はグレースケール変換情報、局所画像(物体)の時間軸における位置情報をデータ記憶部13に記憶することができる。
 さらに、制御部17は、局所画像のオブジェクト領域を表わす2次元xy座標、3次元xyz軸座標のフォーカスポイントデータ、撮影情報、GPS位置情報、局所画像の物体追尾情報などのデータセット等をデータ記憶部13に記憶することができる。
 制御部17は、上述したデータをメモリ配列にキャッシュしたり、画像ファイル内部やオーバーレイした仮想レイヤーファイル内に保存したり、図27に示す外部サーバに保存してもよい。そして、制御部17は、上述のように保存された各種のデータを必要に応じて読み込み、所定の演算処理を行って、画像やその他の方法をタッチパネル15に表示することも可能である。
 以上詳細に説明したように、本実施形態に係るスマートフォン1は、被写体を撮影する撮像部11、3軸方向に関する位置又は位置に関連する量を検出するセンサ14、及びセンサ14から出力される3つの検出値のうちの少なくとも1つを用いて、撮像部11の動作や再生機能を制御する制御部17を備える。これにより、スマートフォン1は、ユーザがスマートフォンにジェスチャ操作をすることにより、撮像部11の動作や再生機能を制御することが可能となる。
 本発明は、上述した実施形態に限定されるものではなく、請求の範囲に記載された事項の範囲内で設計変更されたものにも適用可能である。本発明は、スマートフォン1以外にも適用可能であり、例えば、電話機能のない携帯端末にも適用可能である。
 上述した実施形態では、センサ14は加速度センサであるが、センサ14は角速度センサ(ジャイロセンサ)であってもよい。
 図27は、スマートフォン1にタップ操作が行われた場合の3軸方向のそれぞれの角速度の変化を示す図である。図28は、スマートフォン1にフリップ操作が行われた場合の3軸方向のそれぞれの角速度の変化を示す図である。スマートフォン1が静止状態の場合にタップ操作又はフリップ操作が行われると、3軸方向のそれぞれの角速度は、加速度の場合と同様の2つの特徴を有する。
 図29は、角速度を用いた静止状態の判定において設定される静止開始点及び静止終了点を示す図である。この場合、制御部17は、例えば上述した式(1)を用いて、静止開始点ST及び静止終了点EDを設定することができる。なお、式(1)のαは、センサ14としてジャイロセンサを用いた場合に最適な値にする。
1 スマートフォン
11 撮像部
12 画像処理部
13 データ記憶部
14 センサ
15 タッチパネル
16 通信部
17 制御部

 

Claims (12)

  1.  携帯端末へジェスチャが行われたタイミングを示すトリガー信号を発生するトリガー信号発生装置であって、
     前記携帯端末を原点とする座標系の3軸方向のそれぞれの動き情報を検出する動き情報検出部と、
     前記動き情報検出部により検出された3つの動き情報のうちの1つの正負符号が、残りの2つの正負符号と異なるようになったタイミングで、前記トリガー信号を発生するトリガー信号発生部と、
     を備えたトリガー信号発生装置。
  2.  前記トリガー信号発生部は、前記動き情報検出部により検出された3つの動き情報のうちの少なくとも1つが閾値を超え、かつ、前記3つの動き情報のうちの1つの正負符号が、残りの2つの正負符号と異なるようになったタイミングで、前記トリガー信号を発生する
     請求項1に記載のトリガー信号発生装置。
  3.  前記トリガー信号発生部は、前記動き情報検出部により検出された3つの動き情報のそれぞれの時間当たりの変化量の絶対値の少なくとも1つが閾値を超え、かつ、前記3つの動き情報のうちの1つの正負符号が、残りの2つの正負符号と異なるようになったタイミングで、前記トリガー信号を発生する
     請求項1に記載のトリガー信号発生装置。
  4.  前記動き情報検出部は、前記動き情報として、速度、加速度、角速度、角加速度、地磁気のいずれか1つを検出する
     請求項1に記載のトリガー信号発生装置。
  5.  前記動き情報検出部によって検出された動き情報の向きと、前記トリガー信号発生部により所定時間内に発生されたトリガー信号の回数と、に基づいて、前記携帯端末の機能を制御する機能制御部を更に備えた
     請求項1に記載のトリガー信号発生装置。
  6.  被写体を撮像してフレーム画像を生成する撮像部と、
     前記撮像部により生成されたフレーム画像を順次記憶する画像記憶部と、
     前記動き情報検出部により検出された3つの動き情報に基づいて、前記携帯端末が静止状態になった静止期間を検出する静止期間検出部と、
     座標系の3軸方向のそれぞれの動き情報を検出する動き情報検出部と、
     前記動き情報検出部により検出された3つの動き情報のうちの1つの正負符号が、残りの2つの正負符号と異なるようになったタイミングで、ジェスチャが行われたタイミングを示すトリガー信号を発生するトリガー信号発生部と、
     前記画像記憶部に記憶された複数のフレーム画像の中から、前記トリガー信号の発生タイミングの前又は後に前記静止期間検出部によって検出された前記静止期間に対応するフレーム画像を、静止画として選択する静止画選択部と、
     を備えた携帯端末。
  7.  前記静止画選択部は、前記トリガー信号の発生タイミングから前又は後の前記静止期間のうち、前記トリガー信号の発生タイミングから所定時間離れた前記静止期間を除外して、残りの前記静止期間に対応するフレーム画像を、静止画として選択する
     請求項6に記載の携帯端末。
  8.  前記撮像部により生成されたフレーム画像と、3次元形状の表示物と、を表示する表示部と、
     前記動き情報検出部により検出された3軸方向のそれぞれの動き情報に応じて、前記表示部に表示された表示物を動かす制御を行う表示物制御部と、
     を更に備えた請求項6に記載の携帯端末。
  9.  前記画像選択部により静止画として選択されたフレーム画像を記憶する静止画記憶部と、
     前記静止画記憶部に記憶されたフレーム画像から、前記被写体に相当する局所画像を抽出する局所画像抽出部と、
     前記局所画像抽出部により抽出された局所画像に関連する情報について、外部サーバに検索要求する検索要求部と、
     前記外部サーバから返信された検索結果を表示する検索結果表示部と、を更に備えた
     請求項6に記載の携帯端末。
  10.  前記検索結果表示部は、前記局所画像に関連する情報として、前記局所画像に類似する類似画像を表示する
     請求項9に記載の携帯端末。
  11.  前記撮像部がフォーカス機能を用いて被写体を撮像したときのフォーカスポイント情報を前記局所画像の位置情報として記述された仮想レイヤーファイルを、フレーム画像毎に作成するファイル作成部と、
     前記ファイル作成部によって作成された仮想レイヤーファイルの位置情報に基づいて、前記局所画像を追跡する局所画像追跡部と、
     を更に備えた請求項9に記載の携帯端末。
  12.  被写体を撮像してフレーム画像を生成する撮像部と、
     前記撮像部により生成されたフレーム画像を順次記憶する画像記憶部と、
     座標系の3軸方向のそれぞれの動き情報を検出する動き情報検出部と、
     前記動き情報検出部により検出された3つの動き情報の少なくとも1つに基づいて、静止状態になったタイミングを基準にして所定時間経過したタイミングで、前記静止状態のジェスチャが行われたタイミングを示すトリガー信号を発生するトリガー信号発生部と、
     前記画像記憶部に記憶された複数のフレーム画像の中から、前記トリガー信号の発生タイミングに対応するフレーム画像を、静止画として選択する静止画選択部と、
     を備えた携帯端末。
     
     

     
PCT/JP2021/024315 2021-06-28 2021-06-28 トリガー信号発生装置及び携帯端末 WO2023275920A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023531138A JPWO2023275920A1 (ja) 2021-06-28 2021-06-28
PCT/JP2021/024315 WO2023275920A1 (ja) 2021-06-28 2021-06-28 トリガー信号発生装置及び携帯端末

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/024315 WO2023275920A1 (ja) 2021-06-28 2021-06-28 トリガー信号発生装置及び携帯端末

Publications (1)

Publication Number Publication Date
WO2023275920A1 true WO2023275920A1 (ja) 2023-01-05

Family

ID=84690988

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/024315 WO2023275920A1 (ja) 2021-06-28 2021-06-28 トリガー信号発生装置及び携帯端末

Country Status (2)

Country Link
JP (1) JPWO2023275920A1 (ja)
WO (1) WO2023275920A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006197500A (ja) * 2005-01-17 2006-07-27 Casio Comput Co Ltd 撮像装置、画像処理方法及びプログラム
JP2012522324A (ja) * 2009-03-30 2012-09-20 カイオニクス・インコーポレーテッド 加速度計を使用するタップ方向検出アルゴリズム
JP2012216149A (ja) * 2011-04-01 2012-11-08 Profield Co Ltd 電子書籍表示装置、電子書籍表示方法、及びプログラム
JP2014199280A (ja) * 2013-03-29 2014-10-23 キヤノンマーケティングジャパン株式会社 撮像装置、撮像装置の制御方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006197500A (ja) * 2005-01-17 2006-07-27 Casio Comput Co Ltd 撮像装置、画像処理方法及びプログラム
JP2012522324A (ja) * 2009-03-30 2012-09-20 カイオニクス・インコーポレーテッド 加速度計を使用するタップ方向検出アルゴリズム
JP2012216149A (ja) * 2011-04-01 2012-11-08 Profield Co Ltd 電子書籍表示装置、電子書籍表示方法、及びプログラム
JP2014199280A (ja) * 2013-03-29 2014-10-23 キヤノンマーケティングジャパン株式会社 撮像装置、撮像装置の制御方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2023275920A1 (ja) 2023-01-05

Similar Documents

Publication Publication Date Title
CN110555883B (zh) 相机姿态追踪过程的重定位方法、装置及存储介质
CN110544280B (zh) Ar系统及方法
JP5659304B2 (ja) 画像生成装置および画像生成方法
JP5659305B2 (ja) 画像生成装置および画像生成方法
JP5769813B2 (ja) 画像生成装置および画像生成方法
JP5865388B2 (ja) 画像生成装置および画像生成方法
EP3742743A1 (en) Method and apparatus for displaying additional object, computer device, and storage medium
JP4878083B2 (ja) 画像合成装置及び方法、プログラム
US11636644B2 (en) Output of virtual content
CN110427110B (zh) 一种直播方法、装置以及直播服务器
US9516214B2 (en) Information processing device and information processing method
US9313405B2 (en) Image processing device, image processing method and program
US20090227283A1 (en) Electronic device
WO2019205868A1 (zh) 相机姿态追踪过程的重定位方法、装置、设备及存储介质
CN103916587A (zh) 用于生成合成图像的拍摄装置以及使用所述装置的方法
JP2012212343A (ja) 表示制御装置、表示制御方法、およびプログラム
TW201410018A (zh) 影像擷取方法與系統
US20140354784A1 (en) Shooting method for three dimensional modeling and electronic device supporting the same
JP2023073307A (ja) プログラム、電子機器およびデータ記録方法
EP2717563A1 (en) Image processing device
CN114390186A (zh) 视频拍摄方法及电子设备
WO2018130909A2 (en) Images with virtual reality backgrounds
JP5917061B2 (ja) 撮像装置及びその制御方法、プログラム、並びに記憶媒体
WO2023275920A1 (ja) トリガー信号発生装置及び携帯端末
JP2020119335A (ja) プログラム、カメラワークデータ生成方法および電子機器

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 17419656

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21948234

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023531138

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21948234

Country of ref document: EP

Kind code of ref document: A1