WO2021126004A1 - Способ фото/видео съемки цифровым устройством профессионально скомпанованных кадров - Google Patents

Способ фото/видео съемки цифровым устройством профессионально скомпанованных кадров Download PDF

Info

Publication number
WO2021126004A1
WO2021126004A1 PCT/RU2019/000988 RU2019000988W WO2021126004A1 WO 2021126004 A1 WO2021126004 A1 WO 2021126004A1 RU 2019000988 W RU2019000988 W RU 2019000988W WO 2021126004 A1 WO2021126004 A1 WO 2021126004A1
Authority
WO
WIPO (PCT)
Prior art keywords
shooting
frame
mode
survey
dimensional
Prior art date
Application number
PCT/RU2019/000988
Other languages
English (en)
French (fr)
Inventor
Максим Владимирович ЗЕМЦОВ
Original Assignee
Общество С Ограниченной Ответственностью "Дина"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Дина" filed Critical Общество С Ограниченной Ответственностью "Дина"
Priority to PCT/RU2019/000988 priority Critical patent/WO2021126004A1/ru
Publication of WO2021126004A1 publication Critical patent/WO2021126004A1/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Definitions

  • This technical solution belongs to the field of artificial intelligence (hereinafter referred to as AI), the task of which is the most accurate reproduction of the work of the human brain in the processes of decision-making, perception and definition of visual objects, images, compositions and other creative aspects that are intuitive to humans.
  • AI artificial intelligence
  • Such solutions function thanks to the principles and algorithms of machine learning, including deep machine learning.
  • the technical solution relates to the field of computing, in particular, to a method for providing recommendations on the choice of composition for photo / video shooting by a digital device, based on preliminary, intuitive and automatic image processing using AI systems.
  • the source of information US 2019208117 A1, 07/04/2019 is known, which discloses a method for providing recommendatory information for creating images.
  • the method includes detecting an electronic device of a subject's face on a preview screen viewed by a camera of the electronic device and displayed on a display of the electronic device, identifying information about the current composition of the preview screen based on the detected face of the subject on the preview screen.
  • the recommended photographic composition is determined based on the current composition information of the preview screen and the composition information that is centered and provides a visual guide to the composition on the electronic device display, the movement of which is limited in one plane, based on the determined recommended shot.
  • Data processing takes place on the server, that is, to receive recommendations for shooting, you need access to the Internet.
  • the claimed technical solution differs from the known solution in that there are no elements in the interface, when you click on which the shooting takes place, that is, the system itself determines the moment of pressing the "shutter release button", and the interface can in a particular case be tactile to initiate the shooting process in automatic mode or in general - for service purposes. Panning and movement of the device in space is provided by a method in all available degrees of freedom and planes. The interactions with the results are recorded and processed using reinforcement machine learning techniques to further improve the survey processes and results.
  • the claimed technical solution uses the principle of decentralized computing of artificial intelligence on devices without direct connection to servers (AI on the Edge).
  • the claimed method comprises a guided survey mode, in which a map is displayed with the designation of three-dimensional objects of survey points, where each point contains interactive information, to obtain a professionally composed frame.
  • the technical problem to be solved by the claimed technical solution is the creation of a computer-implemented method of photo / video shooting with a digital device, including an optical device (s), based on the provision of recommendations for professional setting of the frame, without using the usual shutter buttons, and with the ability to create professionally composed and exposed shots on the first try, without the need for subsequent sampling and post-processing.
  • a digital device including an optical device (s)
  • the technical result consists in obtaining professionally arranged photo / video frames, without further post-processing.
  • the claimed computer-implemented method of photo / video shooting with a digital device including the optical device (s), based on the provision of recommendations for professional staging of the frame, containing the stages at which: a stream is received on a digital device data through an optical device; the data stream is processed using machine learning techniques using models trained on multiple images including at least composition information to recommend the best frame; shooting in at least one mode, automatic or semi-automatic, or tracking shooting or in guided shooting mode; moreover, in automatic mode, when you click on any area of the screen, initiate the shooting process; in a semi-automatic or tracking shooting mode, shooting is performed when the frame capture zone and the three-dimensional frame of the frame are combined; if in the automatic, semi-automatic and tracking modes there is no opportunity to create a professionally composed frame, then the guide shooting mode is activated, in which a map is displayed with the designation of three-dimensional objects of survey points, where each point contains interactive information, to obtain a professionally composed frame; the obtained frames during shooting, at least in one of the modes,
  • the optical device is a camera.
  • the optical device includes at least one camera.
  • the data stream contains at least metadata including EXIF.
  • a personal portrait profile is created by scanning a face and at least one successful posing option is determined.
  • the live object with the saved portrait profile is selected first.
  • the result of the shooting is displayed when the finger is released.
  • the three-dimensional frame in the semi-automatic shooting mode, is a fixed reference point. In another particular embodiment, in the semi-automatic shooting mode, they orient themselves relative to the three-dimensional frame moved and fixed in space, and combine the frame capture zone and the three-dimensional frame of the frame.
  • the user can select the priority object.
  • the three-dimensional frame is tracking.
  • the tracking shooting mode in the tracking shooting mode, they stabilize, relative to the center point, and combine the tracking frame capture area and the tracking three-dimensional frame of the frame.
  • the three-dimensional frame indicates the orientation of the camera, to obtain a professionally composed frame.
  • the operator can select the guided shooting mode after starting the system.
  • a map is launched, where the user selects the desired point, brings the device closer to this point and automatically switches the survey mode to the one saved at this point.
  • a map displaying three-dimensional survey points is presented in two formats: a two-dimensional map and an AR map.
  • a two-dimensional map displaying three-dimensional survey points can be displayed in full screen or in the form of a thumbnail, the thumbnail can be moved anywhere on the screen.
  • the survey points are indicated on the AR-map, taking into account the radius to them: in a radius of up to 50 meters, they show a three-dimensional object of the survey point with detailed interactive information, such as: information about the point's rating, information about the point's author, information about the lifetime points; in a radius of 50 to 10 kilometers show three-dimensional objects of a cluster of survey points with detailed information, such as: information about the number of points in the cluster, the distance to the cluster of points and information about the lifetime of the cluster of points.
  • the output of the shooting result occupies the central part of the screen, while the free areas of the screen remain active and when you click on these active areas, they return to the mode during which the shooting was carried out.
  • the obtained survey result is stored in a buffer until the next session of the output of the obtained survey results, which are queued for sorting.
  • to delete the shooting result drag the shooting result to the left.
  • training can be carried out both on the device and on the server.
  • a system is understood as a computing device that contains at least a processor and a memory, the memory containing instructions that are executed by the processor.
  • a computing device contains components such as: one or more processors, at least one memory, data storage means, input / output interfaces, I / O means, networking means.
  • the processor of a device performs the basic computational operations required for the operation of the device or the functionality of one or more of its components.
  • the processor executes the necessary machine-readable instructions contained in the main memory.
  • Memory as a rule, is made in the form of RAM and contains the necessary program logic that provides the required functionality.
  • the data storage medium can be performed in the form of HDD, SSD disks, array raid, network storage, flash memory, optical information storage devices (CD, DVD, MD, Blue-Ray disks), etc.
  • the tool allows you to perform long-term storage of various types of information, for example, the aforementioned files with user data sets, databases containing records of time intervals measured for each user, user identifiers, etc.
  • the interfaces are standard means for connecting and working with the server side, for example, USB, RS232, RJ45, LPT, COM, HDMI, PS / 2, Lightning, FireWire, etc.
  • the choice of interfaces depends on the specific version of the device, which can be a personal computer, mainframe, server cluster, thin client, smartphone, laptop, etc.
  • a keyboard must be used.
  • the hardware design of the keyboard can be any known: it can be either a built-in keyboard used on a laptop or netbook, or a stand-alone device connected to a desktop computer, server or other computer device.
  • the connection can be either wired, in which the connecting cable of the keyboard is connected to the PS / 2 or USB port located on the system unit of the desktop computer, or wireless, in which the keyboard exchanges data via a wireless communication channel, for example, a radio channel, with base station, which, in turn, is directly connected to the system unit, for example, to one of the USB ports.
  • I / O data can also include: joystick, display (touch screen), projector, touchpad, mouse, trackball, light pen, speakers, microphone, etc.
  • Networking means are selected from a device that provides network reception and transmission of data, for example, Ethernet card, WLAN / Wi-Fi module, Bluetooth module, BLE module, NFC module, IrDa, RFID module, GSM modem, etc.
  • the tools provide the organization of data exchange via a wired or wireless data transmission channel, for example, WAN, PAN, LAN, Intranet, Internet, WLAN, WMAN or GSM.
  • the components of the device are linked via a common data bus.
  • the role of the manipulator of the device on which the method is carried out can be either a human user (operator) (hereinafter referred to as an operator), or a hardware and software complex for autonomous maneuvering and movement in space (hereinafter referred to as PAC) of a device made as an automated drone. UAV, robot, etc. (hereinafter referred to as machines).
  • a human user hereinafter referred to as an operator
  • PAC hardware and software complex for autonomous maneuvering and movement in space
  • UAV, robot, etc. hereinafter referred to as machines.
  • FIG. 1 illustrates options for multi-camera digital devices.
  • FIG. 2 illustrates the different coverage area (field of view), the scale of the frame depending on the focal length of the camera lens.
  • FIG. 3 illustrates the operation of a wide-angle lens, its coverage area (field of view), frame scale and a method of switching between focal lengths (hereinafter referred to as the magnification factor).
  • FIG. 4 illustrates the operation of a standard lens, its coverage area (field of view), frame scale and the method of switching the magnification.
  • FIG. 5 illustrates the operation of a telephoto lens, its coverage area (field of view), frame scale and the method of switching the magnification.
  • FIG. 6 illustrates a dynamic “tracking” panning technique, in three planes taking into account roll, yaw and pitch relative to the center of the device.
  • FIG. 7 illustrates a stationary "look" panning technique around an operator.
  • FIG. 8 illustrates a dynamic "look" panning technique around a subject.
  • FIG. 9 illustrates the process of scanning an operator to create a personalized portrait profile.
  • FIG. 10 illustrates the process of customizing and retouching the created personal portrait profile.
  • FIG. 11 illustrates a flowchart of an algorithm for creating a personal portrait profile in the system.
  • FIG. 12 illustrates a flowchart of the AI core of the system.
  • FIG. 13 illustrates the storyboard of the process of interaction with the interface in the automatic shooting mode.
  • FIG. 14 illustrates a general flowchart of an operator using an automatic survey mode.
  • FIG. 15 illustrates a detailed flow diagram of the system's operation in auto-capture mode.
  • FIG. 16 illustrates the storyboard of the process of interaction with the interface in the semi-automatic shooting mode.
  • FIG. 17 illustrates the storyboard of the process of interaction with the interface in the semi-automatic shooting mode, when there is a living object in the frame, for example, a person and / or an animal.
  • FIG. 18 illustrates a general flowchart of an operator using a semiautomatic survey mode.
  • FIG. 19 illustrates a detailed block diagram of the system's operation in a semi-automatic survey mode.
  • FIG. 20 illustrates the storyboard of the interaction with the interface in the tracking shooting mode.
  • FIG. 21 illustrates a general flowchart of an operator using a tracking mode.
  • FIG. 22 illustrates a detailed flow diagram of the system operation in the tracking shooting mode.
  • FIG. 23 illustrates a detailed flowchart of the system in terms of the shooting process.
  • FIG. 24 illustrates an augmented reality display of an active map of viewpoints (angles) in a guided survey mode (hereinafter referred to as an AR map).
  • FIG. 25 illustrates a general flowchart of an operator using Guided Mode.
  • FIG. 26 illustrates a detailed flow diagram of data processing and presentation of visual information in guided mode.
  • FIG. 27 illustrates the output of a shooting result for saving or deleting.
  • FIG. 28 illustrates the process of interaction of the operator with the interface while saving the result (s) of the survey.
  • FIG. 29 illustrates the process of interaction of the operator with the interface during the deletion of the result (s) of the survey.
  • FIG. 30 illustrates a detailed flow diagram of the system in terms of processing survey result (s).
  • FIG. 31 illustrates a detailed flow diagram of a system in the cloud (back-end).
  • FIG. 32 illustrates a general block diagram of the interaction of the system's AI cores on devices using border AI technologies, their data exchange process in network systems and the Internet, and channels for the distribution of computing power between devices, using fog computing.
  • the claimed method solves the problem of correct frame positioning, composition selection, exposure, point and shooting angle (hereinafter - the Angle). Eliminates the need for sorting and post-processing images. It can also simulate the operation of various optics.
  • the method implemented by the system is a simple interaction functionality.
  • the system analyzes the available space around and begins to interact with the operator in one of the four modes selected by the operator: automatic, semi-automatic, tracking and guided shooting. Each mode is described in detail below in the application materials.
  • the method contains stages at which frames for the operator are made by the system automatically.
  • the interface of the system with which the method is carried out does not have the usual shutter release button.
  • edge AI On digital devices, the principle of AI edge computing (hereinafter referred to as edge AI), also known as “Edge AI” or “AI on the Edge”, is envisaged (at the time of information disclosure in the field of AI there is no established term).
  • Edge AI does not require a network connection and / or an Internet connection, that is, it can work without an Internet connection.
  • the exchange between digital devices, within the network can be carried out by direct synchronization with other devices via open interconnected channels, such as Bluetooth, Wi-Fi, etc. without access to the Internet, or via the Internet directly or through the cloud (hereinafter referred to as the Server), the exchange method is determined automatically, making a choice in favor of the maximum bandwidth.
  • Digital devices exchange the results obtained, including the results of machine learning with reinforcement (necessary for continuous complex improvement of the system), available for public exchange within the network.
  • - foggy computing To ensure an increase in the speed of computations in real time, they provide for the possibility of interacting with other devices included in the system network to distribute computing power between them on request (hereinafter - foggy computing).
  • the system each time interacting with the operator, trains and adapts to the preferences and tastes of the operator, becoming an individual tool and developing a unique shooting style. At the same time, the system is also trained globally within the entire network to improve the operation of the algorithm. And if the user restricts the transmission of data on interaction with the system for training personalized improvements, then he will be able to use only the available global improvements.
  • operator (700) means not only the user of the system and / or the owner of the device on which the system is installed, but also any other person to whom the user and / or owner has entrusted the device for taking pictures.
  • System and Operator the most common variant of manipulating the device at the time of information disclosure is presented - "System and Operator”. However, all the same described rules, algorithms and examples are applicable for the combination - "System and Machine”.
  • the aspect ratio of the frame directly depends on the physical aspect ratio of the camera matrix.
  • the standard value for most cameras is 4: 3.
  • the system at the software level, by cropping, can use, according to the preferences of the user, any other aspect ratio, for example, 3: 2, 16: 9, 1: 1, or arbitrarily set values in the photography settings.
  • a device is any digital device or machine equipped with cameras. It is obligatory to have a central processor, graphics processor, RAM, special chips / modules for wireless remote and intranet data exchange in the device.
  • a marked dataset (1501) should be understood as a set of frames in which, manually or programmatically, all available objects are marked graphically (with color and / or edging) and / or otherwise signed. Such a set is usually used in machine learning to train neural networks with the subsequent receipt of ready-made neural network models.
  • FIG. 1 shows four variants of devices (100) with different number of cameras.
  • the number of cameras is directly related to the capabilities of the form factor of the device itself (100), its compactness and the thickness of the camera lens socket.
  • Lenses come in fixed and variable focal lengths. Unlike fixed lenses, variable lenses have a complex design that requires telescopic extension of the lenses inside the lens to change the focal length.
  • On compact devices one or a series of cameras with fixed lenses due to the overall capabilities of the devices. This takes into account cameras located on either side (front, back or side) of the device (100).
  • the single camera version (101) is typically a standard lens with a wide-angle equivalent of about 26mm (angle of view about 85 °), which is closest to the focal length of the human eye.
  • the dual camera version (102) is usually equipped with a standard lens and a zoom lens, with the equivalent of a standard focal length of 52 mm (angle of view about 47 °), there are also combinations of two standard lenses, a standard and an extended lens, with an equivalent ultra-wide focal length of 13 mm ( viewing angle approx. 120 °).
  • the method uses all cameras of the device (100) with available frame coverage areas.
  • FIG. 2 illustrates the different coverage areas (field of view) and the frame size that can be fixed depending on the selected focal length of the camera lens.
  • the field of view of a frame with a wide lens (201) covers a large shooting area in comparison with the human eye, and a distancing effect is obtained.
  • the field of view of a standard lens (202) covers a smaller shooting area and in comparison with the human eye, a picture is obtained that is very close in perception.
  • the field of view of the zoom lens (203) covers an even smaller shooting area than the human eye, resulting in a zoom effect.
  • Variants (204) are alternative, if there is hardware capability to accommodate more fixed lenses and / or to use zoom lenses, and is also applicable to change the focal length at the software level, simulating the operation of different lenses and their focal lengths.
  • FIG. 3 illustrates an example of the operation of a wide lens (201). Most often, this coverage area is used in landscape photography to capture the scale of the scene being shot.
  • an indicator of the multiplicity (approach / distance) of the frame's field of view may appear.
  • the special zone (300) once, the system will switch between the available lenses (201, 202, 203, 204) of the device. Pressing and holding the special area (300) will open an animated dial (400), as shown in frame 2 in FIG. 3. By moving this scale (400), you can manually select the required image magnification using the hardware optical and digital zooming capabilities.
  • FIG. 4 illustrates an example of the operation of a standard lens (202). This coverage area is used for multi-genre photography and is the most common.
  • FIG. 5 illustrates an example of the operation of a zoom lens (203). Most often, such a coverage area is used in portrait photography or for shooting distant objects, including close-ups.
  • a lot of input data is analyzed.
  • image from cameras geolocation data, data from a gyro sensor, accelerometry data, visual odometry, available terrain map relief. Thanks to the mentioned data, the process of moving the device and the operator in space is coordinated.
  • FIG. 6 illustrates a dynamic tracking technique. This technique is used to move the device (100) in three planes, taking into account the roll, yaw and pitch relative to the center of the device. That is, its movement and rotation along all three axes X, U, Z.
  • FIG. 7 illustrates the stationary look-around panning technique (700). This technique is used to freely move the device (100) around the operator (700), with restrictions on collision with natural obstacles.
  • FIG. 8 illustrates a dynamic "look" panning technique around a subject (800).
  • This technique is used for free movement of the operator (700) together with the device (100) around the subject (800) of the survey, with restrictions on collision with natural obstacles. That is, when making decisions about where and from what angle it is better to carry out perspective shooting, the system implementing the method is not limited only to the information entering the camera viewfinder, but thanks to spatial coordination it can look for promising options for shooting that go beyond the boundaries of the coverage area and offer the operator move to the desired survey point.
  • the system as a complete shooting solution, is mainly positioned as an individual solution that interacts with the owner of the device (100), learns and seeks to meet the user's expectations regarding creative vision in shooting. However, it can also be used in multi-user solutions.
  • the operator (700) is invited to create a personal portrait profile (1001). It is worth saying that if this step is skipped at the beginning, the user can return to it at any other convenient moment in time.
  • the portrait profile (1001) is a combination of a detailed scan of the operator's face (700), side selection and retouching settings that meet the user's expectations and are considered natural and best from the user's point of view for portraits.
  • the use is not limited to only one portrait profile, at his request, the required number of portrait profiles of other people, for example, close relatives or friends, can be added to the system on the device. Scanning and fine-tuning of additional portrait profiles occurs exclusively with the consent of the operator (700).
  • the system is built in such a way as to ensure maximum protection of data associated with portrait profiles, which are stored in encrypted form exclusively on the device itself, access to which is provided by a key-password or other user authentication systems available on the device, and are not synchronized either in the cloud. nor with other devices.
  • FIG. 9 illustrates the creation of a portrait profile (1001), where the operator (700) captures (“scans") his face (902) using the front camera (900) on the device (100) that he is holding.
  • the interface elements (901) tell the operator (700) how to turn the head in order to accurately scan all the features of the head and facial features (902).
  • the prompts are made in the form of interface elements (901), and consistently indicate full rotation of the head around, full face and profile turns, raising and tilting the chin, reproducing various emotions: sadness, neutral state, light smile, confident smile, broad smile, laughter, closed eyes, usually open eyes, wide eyes.
  • the core of the AI system (hereinafter referred to as the Core) analyzes the data obtained and, comparing it with professional portrait profiles that are part of professional datasets (1507), determines the most successful posing option (s) for the user. The operation of the core will be discussed further along with the depiction of FIG. 12.
  • the user's task in the next step, illustrated in FIG. 10, choose from the proposed options, in the "carousel” mode, the most accurate version of the "working” side of the portrait profile (1001). Then, by moving the sliders (1003), adjust the parameters (1002) of the face and head. And save the result in the system.
  • the system If the system detects more than one live object in the frame with portrait profiles (1001) set, the system first of all selects the portrait profile of the user / device owner (100) as a priority, then the operator can independently select the main object and build the frame in accordance with his portrait profile (1001), while trying as much as possible to match the rest of the portrait profiles defined in the frame.
  • FIG. 11 is a flowchart of a step-by-step algorithm for creating a personal portrait profile (1001).
  • the operator (700) starts the portrait profile creation mode (1001), further as described above in FIG. 9 the first scan pass is carried out, points, signs and features are determined, and scanning, fixing and validating the data obtained in the first pass, and create versions of the digitized face / head model (902) of the operator (700), for subsequent selection of the appropriate option in the "carousel” and applying the settings of the parameters of anthropological features and retouching. Then the operator (700) saves the obtained portrait profile (1001) and exits the mode.
  • the key and central element of the system is the core of the AI system (FIG. 12).
  • the task of the kernel is to process the incoming data stream (1206, 1202, 1203, 1204, 1205, 1206, 1207, 1208, FIG. 26) in order to receive options for the composition and exposure of the frame (1209, 1210), figuratively speaking, to help the device (100) to see the world around us creatively, as a professional photo artist and / or video operator would do.
  • FIG. 12 illustrates a general block diagram of the kernel operation algorithm that generates a successful composition and exposure of a frame using combined methods of deep machine learning (with a teacher, with a partial involvement of a teacher, without a teacher, with reinforcement) (1200) (hereinafter referred to as Deep ML), as well as calculating and ranking survey points on the AR-map, which will be discussed in more detail below in conjunction with FIG. 26.
  • Deep ML deep machine learning
  • photo / video streams (1201) are collected from all available cameras of the device (100) and using an intermediate layer of pre-installed, trained convolutional neural network models (1500) (hereinafter - CNNs) in the frame streams, all objects are marked (hereinafter - detected) , the depth of the frame, the distance between the objects is calculated, the personal portrait profile (s) (1001) is detected (if any), the priority object (800) in focus is determined, the illumination of the scene is estimated, a single image matrix is compiled from all cameras marked by coverage areas (201, 202, 203, 204), as in the image of FIG. 2 (1206).
  • - CNNs trained convolutional neural network models
  • data is collected from the device (100): from the gyroscope on the position in space, from the GPS / GLONASS sensors on geolocation, as well as accelerometry and visual odometry, if necessary, when the first two types of data are not enough, for example, when manipulating the Machine through the PAK.
  • image metadata (1203) is unloaded from streams (1201), which include, but are not limited to, the following data describing the conditions and methods of obtaining, authorship, etc.: manufacturer of a digital device (camera), model of a digital device ( camera), authorship, shutter speed, aperture, photosensitivity in units. ISO, flash usage, frame resolution, focal length, sensor size, equivalent focal length, depth of field, date and shooting time, camera orientation (vertically or horizontally), type of white balance, exposure, histogram parameters, address of the shooting location, etc. (hereinafter - EXIF metadata).
  • Deep ML (1200) supports the calculations by selecting an appropriate, trained neural network model (1207) from the database of trained neuromodels (1506), the description of which will be presented in a detailed flow diagram of the system operation in the automatic shooting mode of FIG. fifteen.
  • DeepML (1200) obtains intermediate results of neural models of machine learning with reinforcement (1208) based on the user's personalized data on the results (1514) and activity in social networks (1516), the description of which will be presented in a detailed block diagram of the system operation in the mode automatic shooting of FIG. 15. Access to the mentioned data is provided by the user at his own choice and this choice can be changed at any time in the privacy settings of the system.
  • the kernel can provide the system with three outputs:
  • the operator (700) selects one of the shooting modes: automatic, semi-automatic, tracking or guided shooting. Below are examples of the above modes.
  • FIG. 13 illustrates a storyboard of the process of interaction of the operator (700) with the interface with the right hand (frame 1) and the left hand (frame 2), in the automatic shooting mode.
  • the operator (700) just needs to point the camera at the required shooting object (800), click on any place on the screen in the active zone (1301) and, while holding his finger, move the device (100) smoothly in different planes and directions, according to the description presented in FIG. 6, 7, 8, at the request of the user.
  • CNNs (1500) detect all objects in the frame, portrait user profiles, if any, their priority, position and distance, frame depth, scene illumination, external atmospheric conditions (weather, insolation and astronavigation, etc.) (1204, 1205, 1206 ).
  • the core of the AI system processes the input data, incl. (1207, 1208), and provides the system with options for the most successful combinations of composition and exposure (1209, 1210).
  • frames corresponding to successful combinations (1209, 1210) are sent to the buffer of pre-saved results, where express post-processing takes place (1511).
  • the system displays the obtained result (s) on the interface screen for judgment by the user.
  • FIG. 15 shows a detailed block diagram of the operation algorithm in this mode.
  • the database (hereinafter referred to as the DB) of marked datasets (1501), from which the learning process begins, is divided into three groups:
  • the database of labeled datasets (1501) is processed by machine learning methods designed to create trained models, incl. supervised learning, for example, the previously mentioned CNNs, which do an excellent job of recognizing and identifying patterns (1505).
  • Neuromodels trained to recognize patterns and their compositions depending on the genres of shooting, as well as datasets, are distributed in a single database (1506) into three levels:
  • the kernel is engaged in the selection of an appropriate, trained neural network model (1207) from the database of trained neuromodels (1506), depending on the input data processed by Deep ML (1200).
  • GAN (1510) consists of Generator and Discriminator neural networks, which iteratively compete with each other in the process of creating a realistic version of the image.
  • the "Generator” seeks to create imitation of distortion and approximation of objects that are distant from each other in the frame depth, corresponding to existing lenses, and the "Discriminator”, in turn, cuts out unrealistic options that, with images produced by existing lenses do not match.
  • Models GANs (1510) are also accumulated in the core (FIG. 12), however, they are used only according to the scenario, at the stage of express post-processing (1511), when the variant of the identified composition (1209) is intended for use outside the hardware focal length (104, 204 ).
  • the system in the automatic shooting mode can provide two outputs: the opportunity to create a frame is present, options for composition and exposure are provided (1209, 1210);
  • the system displays a warning on the screen (1517) that the frame cannot be "caught” in the previous conditions, and displays in the interface the options necessary to move the device (100) in space, to capture more data (expand the coverage area) (FIG. 2, 6, 7, 8). And if this does not help, then the system enters the guided shooting mode, which will be described in detail below in conjunction with the image of FIG. 24.
  • the kernel In the case of the first output, the kernel (FIG.
  • the latest GANs (1512) have the same imaging engine as the GANs (1510), only trained on the art styles / techniques of famous photographers and videographers, as well as popular photographers and video hobbyists from social networks.
  • the system displays the obtained result (s) on the interface screen for judgment by the user (FIG. 27).
  • both types of data (1514, 1516) are logged with the consent of the user and at any time such consent can be revoked, and previously transmitted data, with additional indication of this, can be deleted with the right to restore within a period not exceeding 30 days.
  • Both types of data (1514, 1516) are used to identify applicants for the "survey point” status, subsequent ranking and placement on the AR-map (FIG. 26) and for reinforcement learning globally within the network and developing an individual approach to the user.
  • FIG. 16 illustrates the process of manipulating the device (100) in the semi-automatic shooting mode.
  • the operator (700) In order for the shooting to be performed in a semi-automatic mode, the operator (700) must be aligned with each other (hereinafter referred to as “overlay”), as shown sequentially in frames 5 and 6 of FIG. 16 and 17, the frame capture area (1600) of the device (100) and the target frame (1601), which freely moves to the location of the target shooting point in AR space, as shown sequentially in frames 1, 2, 3, 4 of FIG. 16 and 17.
  • FIG. 17 as well as FIG. 16, the process of manipulating the device (100) in the semi-automatic shooting mode is illustrated, only in the indicated example, the scene of shooting a live object (1700) in the frame, a person, is added.
  • a living object (1700) means not only a person, but also animals that can be recognized by CNNs (1500).
  • the system When the system recognizes a live object (1700) in the coverage area in focus, it highlights it with an outline (1701), as shown sequentially in frames 1, 2, 3 of FIG. 17. If more than one live object (1700) is recognized in the coverage area and outlined (1701), the user can select the priority object (1700) for shooting by pressing his finger on it on the device screen (100).
  • the system then graphically draws a 3D mannequin (1702) over the object, as shown in frame 4 of FIG. 17.
  • the operator (700) In addition to the above actions, to carry out portrait photography, in semi-automatic mode, the operator (700) must advise the person - the subject of photography (1700), take the proposed successful pose (1703) and / or try to catch the subject (1700), when he takes a position corresponding to the proposed pose (1703).
  • CNNs (1500) detect all objects in the frame, portrait user profiles, if any, their priority, position and distance, frame depth, scene illumination, external atmospheric conditions (weather, insolation and astronavigation, etc. (1204, 1205, 1206) ).
  • the core of the AI system processes the input data, incl. (1207, 1208), and provides the system with options for the most successful combinations of composition and exposure (1209, 1210).
  • the best option (1209) in the form of a three-dimensional object of the target frame (1601) is displaced to the location of the target shooting point in AR space, as shown sequentially in frames 1, 2, 3, 4 of FIG. 16 and 17.
  • the system in the semi-automatic shooting mode can provide three outputs:
  • the kernel transmits to the system the generated variants of successful compositions and exposures (1209, 1210), the best of which (1209), according to the ranking result, in the form of a three-dimensional object of the target frame (1601) is shifted to the place of the target points of view in AR space, as consistently demonstrated in frames 1, 2, 3, 4 of FIG. 16 and 17.
  • the system displays the obtained result (s) on the interface screen for judgment by the user (FIG. 27).
  • the main point to pay attention to during the detailed description of FIG. 19 is the logging (saving) of data, which is also described in detail above.
  • FIG. 20 illustrates the process of manipulating the device (100) in the tracking shooting mode.
  • the operator (700) In order for the shooting to be made in the tracking mode, the operator (700) must stabilize, relative to the center point of each other and “superimpose” one on top of the other the tracking area of the frame capture (2000) of the device (100) and the tracking ("swinging") three-dimensional frame of the frame (2001) , which is obvious to the operator (700), but not significantly from the point of view of the interface of the device (100), is displaced from the center of the frame (2000), in accordance with the principles of panning described in FIG. 6, in the direction where the final shot corresponding to the most successful composition and exposure should be captured (1209).
  • the system makes a series of frames and / or a video sequence from which the system selects the result.
  • the principle of creating portrait shots and / or other genre shooting of live objects (1700) within the tracking mode is fully consistent with the principle described above, applicable to semi-automatic shooting.
  • the system actively captures the incoming stream of images along with metadata (1201, 1202, 1203).
  • CNNs (1500) detect all objects in the frame, portrait user profiles, if any, their priority, position and distance, frame depth, scene illumination, external atmospheric conditions (weather, insolation and astronavigation, etc. (1204, 1205, 1206)) ...
  • the core of the AI system processes the input data, incl. (1207, 1208), and provides the system with options for the most successful combinations of composition and exposure (1209, 1210).
  • the best option (1209) is loaded in the background at the location of the target point of the survey in AR space, and is an invisible guide for the displacement of the tracking ("swinging") three-dimensional frame of the frame (2001), as demonstrated sequentially in frames 1, 2, 3, 4 5, 6 FIG. twenty.
  • the obtained result (s) are sent to the buffer of pre-saved results, where express post-processing (1511) takes place.
  • the system displays the obtained result (s) of the survey on the interface screen for judgment to the user (FIG. 27).
  • the system in the tracking mode can provide three outputs: - the ability to create a frame is present, options for composition and exposure are provided (1209, 1210);
  • the kernel transmits to the system the generated variants of successful compositions and exposures (1209, 1210), the best of which (1209), according to the ranking result, in the background moves to the place of the target shooting point in AR space, and is an invisible reference for displacement of the tracking ("wobble") three-dimensional frame of the frame (2001), as shown sequentially in frames 1, 2, 3, 4, 5, 6 of FIG. twenty.
  • the system displays the obtained result (s) on the interface screen for judgment by the user (FIG. 27).
  • the main point to pay attention to during the detailed description of FIG. 22 is the logging (saving) of data, which is also described in detail above.
  • FIG. 24 the system interface is illustrated, in the guided survey mode with an active map of survey points (angles) (2400) in augmented reality (hereinafter referred to as AR-map).
  • AR-map augmented reality
  • the user has two types of displaying survey points (2400) in the interface:
  • the first view is a two-dimensional map (2410), which can be displayed in full screen or as a thumbnail (2407), which is located at the bottom of the screen by default, but the user can drag it to any convenient location to provide better navigation to survey points (2400 ).
  • the second view is an AR map projected onto the device screen (100) in the form of three-dimensional graphic and text elements (2400, 2401, 2402, 2403, 2404, 2405, 2406, 2407, 2408, 2409, 2410) that complement the real space, falling into the lenses of cameras.
  • FIG. 24 So in FIG. 24 are presented as three-dimensional objects placed in augmented reality, the following important elements.
  • the shooting point (angle) (2400) is a three-dimensional object that can be made in the form of a three-dimensional frame, a digital device with a screen, a photograph, a baguette frame, etc., the types of display the user can choose in the system settings, and the default is simple digital frame.
  • the shooting point (2400) exactly corresponds to the coordinates and position of the frame in space, made by the user (hereinafter referred to as the author), not always by the user / operator of the device (100).
  • Points (2400) are displayed in augmented reality if they are within a radius of 50 meters from the operator (700) This parameter is set by default and can be changed by the user at any time up to 1000 meters in the settings.
  • the following data is displayed inside the point (2400): the public name of the point's author (2406), the point's organic rating (2405) is the number of photos that have been taken (saved in the device's memory (100) and / or posted on the Internet) by other users of the system , when interacting with the selected point, and the lifetime of the point (2403) is the remaining operation time of the point, taking into account the actual data measured by the device (100) (1202, 1203), as well as the loaded predictive data (1204).
  • a group (cluster) of points (2401) is a three-dimensional object that can be made in the form of a three-dimensional ball, plate, cube and other figures with a pointer perpendicular to the earth's surface.
  • the user can choose the display types in the system settings, and by default a simple ball shape is used.
  • Survey point groups (2401) are clusters of points (2400) in one location that are displayed in augmented reality if they are within a radius of 50 meters to 10 kilometers from the operator (700).
  • the first parameter of the near border of the radius is set by default, and can be changed by the user at any time starting from 1000 meters in the system settings.
  • the number indicates the number of points (2404) in the group, next to it is the distance from the operator (700) to the point group (2402). Depending on the system of measures and weights selected in the settings, metric or imperial, the distance will be displayed in kilometers or miles. The lifetime of a group of points (2403) is also displayed next to it - this is the remaining operating time of the fastest point (2400) within the group (2401), taking into account the actual data measured by the device (100) (1202, 1203), as well as the loaded forecast data (1204).
  • the displayed number of points (2404) will decrease by one unit, and the lifetime (2403) of the point group (2401) is updated with the closest lifetime of the next point (2400) in the group (2401) ...
  • FIG. 25 illustrates, using an example of a general flowchart, the process of an operator (700) using the guided mode.
  • the system switches the operator (700) to guided shooting and launches the AR map (FIG. 24).
  • the operator (700) searches for a suitable point (2400) for survey, can additionally obtain information about the point (2400) by clicking on it.
  • the operator (700) needs to bring the device (100) to the point (2400) at a distance of thirty centimeters, and then the system will switch to one of the previously described shooting modes.
  • Automatic, semi-automatic or tracking mode - depends on point (2400) and / or selected preferences in the user settings. Tracking mode is selected by default for transition. Shooting processes in the specified modes were discussed in detail earlier. And after the survey, the results are saved / deleted, and the sorting metadata is logged and used for machine learning of the core with reinforcement. Guided mode can also be used individually, the operator (700), after starting the system, can immediately select this mode.
  • FIG. 26 a detailed block diagram of the algorithm for processing the data and providing visual information in the system interface in the guided survey mode is considered (FIG. 26).
  • the operation of the AR-Map (FIG. 24) of viewpoints (2400) with interactive interaction and elements of social activity and networks is supported by the central processor of the device (100), a server and a specialized software module for controlling the display of elements in augmented reality.
  • the AR-map (FIG. 24) constantly monitors the incoming data for the actual display of the points (2400) in augmented reality. So, EXIF, GPS / GLONASS, visual odometry and exposure metering data (1202, 1203), coming from a database of marked datasets (1501), give an idea of the position and initial illumination of a point (2400) in space. Social media user activity data (1516), in conjunction with survey results published on social media (2701), helps to correctly rank points (2400) to pass the promising point (2400) thresholds to be able to be placed on an AR map (FIG. . 24).
  • Data on external atmospheric conditions (1204) (weather, illumination, astronavigation) are loaded from open sources of meteorological conditions (2603), insolation (2604), astronavigation (2605) by API, together with predicted values seven days in advance, so as not to depend on the Internet -connections, to clarify the actualization of the lifetime of points (2403).
  • points (2400), in guided survey mode can be displayed both on a two-dimensional map (2410), where you can see all available points (2400) on a map (2602), and in augmented reality mode, but taking into account the radius from the operator (700): within a radius of up to 50 meters (2600) shows three-dimensional objects of survey points (2400), with detailed interactive information about the point's rating (2405), the author (2406) and the point's lifetime (2403); in a radius of 50 meters to 10 kilometers (2601) from the operator (700) shows three-dimensional objects of a cluster of points (2401), with detailed information about the number of points (2404), the distance to them (2402) and the lifetime of the group (2403).
  • FIGS. 27, 28, 29 demonstrate the process of interaction of the user with the interface in the process of selecting the obtained results.
  • a horizontal screen layout is presented, however, vertical use of this mode is also possible, according to the choice of the user or the initial shooting process.
  • FIG. 27 the output of the survey result in the system interface is illustrated to save or delete the obtained survey result, immediately after the system has made the survey and express post-processing (1511).
  • the result occupies the center area (2701) of the screen.
  • the remaining areas (2202), along the edges of the screen (left-right for horizontal arrangement, bottom-top for vertical), are active (clickable) and, when pressed, instantly return the user to the current shooting mode, which continues to work in the background for another 10 seconds ...
  • the previously obtained result is deposited in a special buffer folder within the application until the next output session (FIG. 27) of the obtained results and is queued. Delayed results until the completion of the sorting procedure (FIGS. 28, 29) are not saved in the results folder on the device (100).
  • FIG. 28 the process of interaction of the operator (700) with the interface during the storage of the result (s) of the survey is illustrated.
  • the user drags (swings) the result to the right, thus instructing the system to save the provided result.
  • FIG. 29 illustrates the process of interaction of the operator (700) with the interface during removal of the result (s) of the survey.
  • the user drags (swipes) the result to the left, thus instructing the system to delete the provided result.
  • the deleted result goes to the internal storage of the system inside the device (100) and can be restored by the user within 30 days if it was deleted by mistake.
  • Both types of data (1514, 1516) are logged with the consent of the user and at any time such consent can be revoked, and previously transmitted data, if further indicated, can be deleted with the right to restore within a period not exceeding 30 days.
  • Both types of data (1514, 1516) are used by the system: to identify applicants for the "survey point” status, subsequent ranking and placement on the AR-map (FIG. 26) and for reinforcement learning globally within the network and developing an individual approach to the user.
  • the system can adapt to user preferences and learns from its "mistakes” (when the shooting result is sent to the "Deleted Items” folder), and metadata about successful shots, as well as data about successful imitation of lenses (1510), are added to custom genre datasets ( 1504), in order to subsequently anticipate and guess the creative ideas of the user of the device (100) on which the system is installed.
  • trained neuromodels (1506) and GANs (1510, 1512) are continuously updated, thereby improving Deep ML (1200), the shooting result and the user experience of interacting with the system, both globally within the network and personalized.
  • FIG. 31 illustrates what processes and tasks are processed on the server.
  • DB of marked datasets (1501) are constantly synchronized with devices (100), updated and replenished.
  • devices (100) are constantly synchronized with devices (100), updated and replenished.
  • computer optical correction is used, in which GANs models (1510) are used.
  • Cloud computing is essential for fundamental calculations and global reinforcement learning from data collected from all devices (100) and others sources during the day.
  • the server part is constantly updating the kernel (FIG. 12) and this is the only opportunity for updating and improving the system for those users who, guided by personal considerations of security and privacy, have prohibited the exchange of data with the system cloud, while they deliberately refuse to personalize the system according to their preferences ...
  • FIG. 32 simplified block diagram, interactions, illustrates how, using edge AI technologies, all calculations within the internal cores (FIG. 12) are performed on the devices (100) themselves, which in turn are able to directly establish communication channels (3202), which provides not only the speed of exchange of marked and processed data, but also allows you to use the possibilities of distributing computing power between devices, significantly speeding up the data processing.
  • the structure also invariably contains a cloud core (3200) located on the servers of the system (FIG. 31), which is accessed and exchanged via the Internet (3201).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Studio Devices (AREA)

Abstract

Изобретение относится к компьютерно-реализованному способу фото/видео съемки цифровым устройством, включающим в себя оптическое(-ие) устройство(-ва), на основе предоставления рекомендаций по профессиональной постановке кадра. Способ содержит этапы, на которых: принимают на цифровом устройстве поток данных через оптическое устройство. Поток данных обрабатывают, используя методы машинного обучения с применением моделей, обученных множеством изображений. Осуществляют съемку, по меньшей мере, в одном режиме, автоматическом, или полуавтоматическом, или в режиме следящей съемки или в режиме направляемой съемки, причем, в автоматическом режиме осуществляют съемку при нажатии на любую зону экрана; в полуавтоматическом или следящем режиме съемки выполняют съемку при совмещении зоны захвата кадра и трехмерной рамки кадра. Полученные кадры во время съемки, по меньшей мере, в одном из режимов отправляют в буфер пред-сохраненных результатов съемки, где производят экспресс-постобработку и полученный результат съемки выводят на экран. Обеспечивается получение профессионально скомпонованных фото/видео кадров, без последующей постобработки.

Description

СПОСОБ ФОТО/ВИДЕО СЪЕМКИ ЦИФРОВЫМ УСТРОЙСТВОМ ПРОФЕССИОНАЛЬНО СКОМПАНОВАННЫХ КАДРОВ
ОБЛАСТЬ ТЕХНИКИ
Настоящее техническое решение относится к области искусственного интеллекта (далее - ИИ), задачей которого является наиболее точное воспроизведение работы мозга человека в процессах принятия решений, восприятия и определения визуальных объектов, образов, композиций и других творческих аспектов, интуитивно понятных человеку. Такие решения функционируют благодаря принципам и алгоритмам машинного обучения, включая глубокое машинное обучение.
В частности, техническое решение относится к области вычислительной техники, в частности, к способу предоставления рекомендаций по выбору композиции для фото/видео съемки цифровым устройством, основанному на предварительной, интуитивной и автоматической обработке изображений, с использованием систем ИИ.
УРОВЕНЬ ТЕХНИКИ
Из уровня техники известен источник информации US 2019208117 А1, 04.07.2019, в котором раскрыт способ по предоставлению рекомендательной информации, для создания снимков. Способ включает в себя обнаружение электронным устройством лица субъекта на экране предварительного просмотра, просматриваемом камерой электронного устройства и отображаемом на дисплее электронного устройства, идентификацию информации о текущей композиции экрана предварительного просмотра на основе обнаруженного лица субъекта на экране предварительного просмотра. Определяют рекомендуемую фотографическую композицию на основе текущей информации о композиции экрана предварительного просмотра и информации о композиции, которая расположена по центру и предоставляют визуальное руководство по композиции на дисплее электронного устройства, перемещение которого ограниченно в одной плоскости, на основе определенного рекомендуемого снимка. Обработка данных происходит на сервере, то есть для получения рекомендаций по съемке, необходим доступ в Интернет.
Заявленное техническое решение отличается от известного решения тем, что в интерфейсе отсутствуют элементы, при нажатии на которые происходит съемка, то есть сама система определяет момент нажатия «кнопки спуска затвора», а интерфейс может быть в частном случае тактильным для инициирования процесса съемки в автоматическом режиме или в общем - для сервисных целей. Панорамирование и перемещение устройства в пространстве обеспечивается способом во всех доступных степенях свободы и плоскостях. Взаимодействие с результатами записывается и обрабатывается методами машинного обучения с подкреплением для последующего совершенствования процессов съемки и результатов. В заявленном техническом решении применение принципа децентрализации вычислений искусственного интеллекта на устройствах без прямой привязки к серверам (AI on the Edge). Так, существенная часть вычислений и процессов обработки входящей информации осуществляется системой на самом цифровом устройстве, не зависимо от того есть ли сетевое соединение или нет, а полученные результаты обучения с подкреплением, доступные для публичного обмена, могут быть синхронизированы напрямую с другими устройствами по открытому межсетевому каналу (например по каналу Wi-Fi без доступа к сети интернет) или через облако, когда соединение доступно. Кроме того, заявленный способ содержит режим направляемой съемки, в котором отображают карту с обозначением трехмерных объектов точек съемки, где каждая точка содержит интерактивную информацию, для получения профессионально скомпонованного кадра.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Технической проблемой, на решение которой направлено заявленное техническое решение, является создание компьютерно-реализованного способа фото/видео съемки цифровым устройством, включающим в себя оптическое(-ие) устройство(-ва), на основе предоставления рекомендаций по профессиональной постановке кадра, без применения привычной кнопки спуска затвора, и с возможностью создания с первой попытки профессионально скомпонованные и проэкспонированные кадры, не требующие последующей выборки и постобработки.
Технический результат заключается в получении профессионально скомпонованных фото/видео кадров, без последующей постобработки.
В предпочтительном варианте реализации заявлен компьютерно-реализованный способ фото/видео съемки цифровым устройством, включающим в себя оптическое(-ие) устройство(-ва), на основе предоставления рекомендаций по профессиональной постановке кадра, содержащий этапы, на которых: принимают на цифровом устройстве поток данных через оптическое устройство; поток данных обрабатывают, используя методы машинного обучения с применением моделей, обученных множеством изображений, включающих, по меньшей мере, информацию о композиции, чтобы рекомендовать наилучший кадр; осуществляют съемку, по меньшей мере, в одном режиме, автоматическом, или полуавтоматическом, или следящей съемки или в режиме направляемой съемки; причем, в автоматическом режиме, при нажатии на любую зону экрана, инициируют процесс съемки; в полуавтоматическом или следящем режиме съемки выполняют съемку при совмещении зоны захвата кадра и трехмерный рамки кадра; если в автоматическом, полуавтоматическом и следящем режимах возможность для создания профессионально скомпонованного кадра отсутствует, то включается направляющий режим съемки, в котором отображают карту с обозначением трехмерных объектов точек съемки, где каждая точка содержит интерактивную информацию, для получения профессионально скомпонованного кадра; полученные кадры во время съемки, по меньшей мере, в одном из режимов отправляют в буфер пред-сохраненных результатов съемки, где производят экспресс- постобработку и полученный результат съемки выводят на экран; дальнейшее взаимодействие с результатами записывается и обрабатывается методами машинного обучения с подкреплением для последующего совершенствования процессов съемки и результатов.
В частном варианте оптическое устройство является камерой.
В другом частном варианте, оптическое устройство включает, по меньшей мере, одну камеру.
В другом частном варианте, поток данных содержит, по меньшей мере, метаданные, включая EXIF.
В другом частном варианте, создают персональный портретный профиль посредством сканирования лица и определяют, по меньшей мере, один удачный вариант позирования.
В другом частном варианте, при определении в кадре живого объекта, соответствующего настроенному персональному портретному профилю, при съемке будут учитываться параметры этого профиля.
В другом частном варианте, при определении в кадре более одного живого объекта, в первую очередь выбирают живой объект с сохраненным портретным профилем.
В другом частном варианте, в режиме автоматической съемки при нажатии на любую часть экрана, удерживают палец и перемещают цифровое устройство в разных плоскостях и направлениях.
В другом частном варианте, результат съемки выводится на экран, когда отжимают палец.
В другом частном варианте, в режиме полуавтоматической съемки трехмерная рамка является фиксированным ориентиром. В другом частном варианте, в режиме полуавтоматической съемки, ориентируются, относительно перемещенной и фиксированной в пространстве трехмерной рамки, и совмещают зону захвата кадра и трехмерную рамку кадра.
В другом частном варианте, в режиме полуавтоматической съемки и режиме следящей съемки, когда определяется в зоне охвата фокуса живой объект, его подсвечивают контуром, далее графически отрисовывают трехмерный манекен поверх объекта и манекен анимировано сменяет позу на более удачную.
В другом частном варианте, если определено более одного живого объекта, пользователь может выбрать приоритетный объект.
В другом частном варианте, в следящем режиме съемки трехмерная рамка является следящей.
В другом частном варианте, в режиме следящей съемки, стабилизируют, относительно центральной точки, и совмещают следящую зону захвата кадра и следящую трехмерную рамку кадра.
В другом частном варианте, за пару секунд до и после стабилизации и совмещения делают серию кадров и/или видео ряда.
В другом частном варианте, трехмерная рамка указывает на ориентацию камеры, для получения профессионально скомпонованного кадра.
В другом частном варианте, режим направляемой съемки оператор может выбрать после запуска системы.
В другом частном варианте, в направляющем режиме съемки запускается карта, где пользователь выбирает нужную точку, приближает устройство к данной точке и автоматически переключают режим съемки на сохраненный в данной точке.
В другом частном варианте, карта с отображением трехмерных точек съемки представлена в двух форматах: двумерная карта и AR-карта.
В другом частном варианте, двумерная карта с отображением трехмерных точек съемки может отображаться во весь экран или в виде миниатюры, миниатюру можно перемещать в любое место по экрану.
В другом частном варианте, на AR-карте указываются точки съемки с учетом радиуса до них: в радиусе до 50 метров показывают трехмерный объект точки съемки с детальной интерактивной информацией, такой как: информация о рейтинге точки, информация об авторе точки, информация о времени жизни точки; в радиусе от 50 до 10 километров показывают трехмерные объекты скопления точек съемки с детальной информацией, такой как: информация о количестве точек в скоплении, расстоянии до скопления точек и информация о времени жизни скопления точек. В другом частном варианте, вывод результата съемки занимает центральную часть экрана, при этом свободные области экрана остаются активными и при нажатии на данные активные области возвращаются к режиму, во время которого осуществлялась съемка.
В другом частном варианте, полученный результат съемки откладывается в буфер до следующий сессии вывода полученных результатов съемки, которые ставятся в очередь на сортировку.
В другом частном варианте, для сохранения результата съемки, перетаскивают результат съемки вправо.
В другом частном варианте, для удаления результата съемки, перетаскивают результат съемки влево. В другом частном варианте, при взаимодействии с результатами съемки обучение может осуществляться как на устройстве, так и на сервере.
Машиночитаемый носитель, содержащий инструкции, исполняемые процессором, при этом процессор выполнен с возможностью осуществления этапов вышеописанного способа.
В контексте данной заявки под системой понимается вычислительное устройство, которое содержит по меньшей мере процессор и память, причем память содержит инструкции, которые выполняются процессором. В общем случае вычислительное устройство содержит такие компоненты, как: один или более процессоров, по меньшей мере одну память, средство хранения данных, интерфейсы ввода/вывода, средство В/В, средства сетевого взаимодействия.
Процессор устройства выполняет основные вычислительные операции, необходимые для функционирования устройства или функциональности одного или более его компонентов. Процессор исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти.
Память, как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.
Средство хранения данных может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство позволяет выполнять долгосрочное хранение различного вида информации, например, вышеупомянутых файлов с наборами данных пользователей, базы данных, содержащих записи измеренных для каждого пользователя временных интервалов, идентификаторов пользователей и т.п.
Интерфейсы представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п. Выбор интерфейсов зависит от конкретного исполнения устройства , которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.
В качестве средств В/В данных в любом воплощении системы, реализующей описываемый способ, должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB- портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.
Средства сетевого взаимодействия выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.
Компоненты устройства сопряжены посредством общей шины передачи данных.
В роли манипулятора устройства, на котором осуществляется способ, может выступать как человек - пользователь (оператор) (далее - оператор), так и программно- аппаратный комплекс автономного маневрирования и перемещения в пространстве (далее - ПАК) устройства, выполненного по типу автоматизированного дрона, БПЛА, робота и т.п. (далее - машины).
Сферы применения способа: любительская фото и видео съемка, профессиональная операторская съемка, компьютерное зрение, где требуется творческий подход к анализу картинки, в том числе медицина (обеспечение работы перспективных глазных имплантатов), а также такие пограничные варианты применения как, например, точное AR- позиционирование или генерация фотореалистичных пространств для 3D- дизайна, кино и игровой индустрии и т.п. ОПИСАНИЕ ЧЕРТЕЖЕЙ
Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения. К заявке прилагаются следующие чертежи:
ФИГ. 1 иллюстрирует варианты мульти-камерности цифровых устройств.
ФИГ. 2 иллюстрирует, различную зону охвата (поле зрения), масштаб кадра в зависимости от фокусного расстояния объектива камеры.
ФИГ. 3 иллюстрирует работу широкоугольного объектива, его зону охвата (поле зрения), масштаб кадра и способ переключения между фокусными расстояниями (далее - кратность увеличения).
ФИГ. 4 иллюстрирует работу стандартного объектива, его зону охвата (поле зрения), масштаб кадра и способ переключения кратности.
ФИГ. 5 иллюстрирует работу телеобъектива, его зону охвата (поле зрения), масштаб кадра и способ переключения кратности.
ФИГ. 6 иллюстрирует динамический прием панорамирования «слежение», в трех плоскостях с учетом крена, рысканья и тангажа относительно центра устройства.
ФИГ. 7 иллюстрирует стационарный прием панорамирования «оглядывание» вокруг оператора.
ФИГ. 8 иллюстрирует динамический прием панорамирования «оглядывание» вокруг объекта съемки.
ФИГ. 9 иллюстрирует процесс сканирования оператора, для создания персонального портретного профиля.
ФИГ. 10 иллюстрирует процесс настройки и ретуши созданного персонального портретного профиля.
ФИГ. 11 иллюстрирует потоковую диаграмму алгоритма создания персонального портретного профиля в системе.
ФИГ. 12 иллюстрирует блок-схему алгоритма работы ядра ИИ системы.
ФИГ. 13 иллюстрирует раскадровку процесса взаимодействия с интерфейсом в режиме автоматической съемки.
ФИГ. 14 иллюстрирует общую потоковую диаграмму алгоритма использования оператором режима автоматической съемки.
ФИГ. 15 иллюстрирует детальную блок-схему алгоритма работы системы в режиме автоматической съемки. ФИГ. 16 иллюстрирует раскадровку процесса взаимодействия с интерфейсом в режиме полуавтоматической съемки.
ФИГ. 17 иллюстрирует раскадровку процесса взаимодействия с интерфейсом в режиме полуавтоматической съемки, при наличие живого объекта в кадре, например, человека и/или животного.
ФИГ. 18 иллюстрирует общую потоковую диаграмму алгоритма использования оператором режима полуавтоматической съемки.
ФИГ. 19 иллюстрирует подробную блок-схему алгоритма работы системы в режиме полуавтоматической съемки.
ФИГ. 20 иллюстрирует раскадровку процесса взаимодействия с интерфейсом в режиме следящей съемки.
ФИГ. 21 иллюстрирует общую потоковую диаграмму алгоритма использования оператором режима следящей съемки.
ФИГ. 22 иллюстрирует подробную блок-схему алгоритма работы системы в режиме следящей съемки.
ФИГ. 23 иллюстрирует подробную блок-схему алгоритма работы системы в части съемочного процесса.
ФИГ.24 иллюстрирует отображение в режиме направляемой съемки активной карты точек съемки (ракурсов) в дополненной реальности (далее - AR-карта).
ФИГ. 25 иллюстрирует общую потоковую диаграмму алгоритма использования оператором режима направляемой съемки.
ФИГ. 26 иллюстрирует подробную блок-схему алгоритма обработки данных и представление визуальной информации в режиме направляемой съемки.
ФИГ. 27 иллюстрирует вывод результата съемки для сохранения или удаления.
ФИГ. 28 иллюстрирует процесс взаимодействия оператора с интерфейсом во время сохранения результата(-ов) съемки.
ФИГ. 29 иллюстрирует процесс взаимодействия оператора с интерфейсом во время удаления результата(-ов) съемки.
ФИГ. 30 иллюстрирует подробную блок-схему алгоритма работы системы в части обработки результата(-ов) съемки.
ФИГ. 31 иллюстрирует подробную блок-схему алгоритма работы системы в облаке (серверная часть).
ФИГ. 32 иллюстрирует общую блок-схему взаимодействия ядер ИИ системы на устройствах, применяющих технологии пограничного ИИ, их процесс обмена данными в сети системы и Интернет, и каналов распределения вычислительных мощностей между устройствами, с применением туманных вычислений.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту, будет очевидно каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.
Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.
Помимо базовых задач точного определения объектов, расстояния, глубины, визуальной одометрии и цветокоррекции, заявленный способ решает проблему правильной постановки кадра, выбора композиции, экспозиции, точки и угла съемки (далее - Ракурс). Устраняет необходимость сортировки и постобработки изображений. А также может имитировать работу различной оптики.
Для оператора способ, осуществляемый системой, представляет собой простую функциональность взаимодействия. При наведении оператором камеры цифрового устройства на интересующую область съемки, система анализирует доступное пространство вокруг и начинает взаимодействовать с оператором в одном из выбранных оператором четырех режимах: автоматическом, полуавтоматическом, следящем и в режиме направляемой съемки. Каждый режим подробно описан далее в материалах заявки.
Способ содержит этапы, на которых кадры для оператора делаются системой автоматически. В интерфейсе системы, при помощи которой осуществляется способ, нет привычной кнопки спуска затвора.
Распознают объекты в кадре, выделяют главный, определяют жанр, удачную композицию, экспозицию, настройки и цветокоррекцию, точку и ракурс. Одновременно отслеживают внешние атмосферные (погода, инсоляция, астронавигация) и временные параметры. Все эти данные собираются для обработки и постановки кадра. Синхронизируют все потоки изображений с доступных камер на цифровом устройстве. Определяют перспективный кадр для съемки с учетом перемещения устройства и самого оператора с устройством во всех плоскостях с максимально доступным ракурсом. В процессе обработки на программном уровне имитируют работу объективов камер недоступных аппаратно (компьютерная оптикокоррекция).
На цифровых устройствах предусмотрено применение принципа пограничных вычислений ИИ (далее - пограничное ИИ), также известных как «Edge AI» или «AI on the Edge» (на момент раскрытия информации в области ИИ нет устоявшегося термина). Когда существенная часть вычислений и процессов обработки входящей информации происходит на самом цифровом устройстве. Пограничное ИИ, не требует сетевого соединения и/или подключения к сети Интернет, то есть возможна работа без подключения к сети Интернет.
При этом обмен между цифровыми устройствами, внутри сети, может осуществляться путем прямой синхронизации с другими устройствами по открытым межсетевым каналам, таким как Bluetooth, Wi-Fi и т.п. без доступа к сети интернет, или же через сеть Интернет напрямую или через облако (далее - Сервер) способ обмена определяется автоматически, делая выбор в пользу максимальной пропускной способности. Цифровые устройства обмениваются полученными результатами, в том числе результатами машинного обучения с подкреплением (необходимого для постоянного комплексного совершенствования системы), доступными для публичного обмена внутри сети.
Для обеспечения роста скорости вычислений в режиме реального времени предусматривают возможность взаимодействия с другими устройствами, входящими в системную сеть, для распределения вычислительных мощностей между ними по запросу (далее - туманные вычисления).
Система, каждый раз взаимодействуя с оператором, тренируется и адаптируется под предпочтения и вкусы оператора, становясь индивидуальным инструментом и вырабатывая уникальный стиль съемки. При этом система также тренируется глобально в рамках всей сети, для совершенствования работы алгоритма. И если пользователь ограничивает передачу данных о взаимодействии с системой для тренировки персонализированных улучшений, то он сможет воспользоваться только доступными глобальными улучшениями.
Любые слова по тексту, указанные в единственном числе, могут также читаться, интерпретироваться и толковаться, как слова с тем же значением во множественном числе, если только по контексту не прослеживается однозначное толкование слова в единственном числе.
Термин оператор (700) подразумевает под собой не только пользователя системы и/или владельца устройства, на котором установлена система, но и любого другого человека, которому пользователь и/или владелец передоверил устройство для осуществления съемки. Для описания заявленного способа представлен наиболее распространенный на момент раскрытия информации вариант манипулирования устройством - «Система и Оператор». Однако, все те же описанные правила, алгоритмы и примеры применимы для комбинации - «Система и Машина».
Пропорции кадра напрямую зависят от физических пропорций матрицы камеры. Стандартное значение для большинства камер 4:3. Система на программном уровне, путем кадрирования, может использовать, согласно предпочтениям пользователя, любые другие пропорции кадра, например, 3:2, 16:9, 1:1 или произвольно заданные значения в настройках фотосъемки.
Устройство - это любое цифровое устройство или машина, оснащенное камерами. Обязательно наличие в устройстве центрального процессора, графического процессора, оперативной памяти, специальных чипов/модулей для беспроводного удаленного и внутрисетевого обмена данными.
Согласно выбору оператора в настройках системы, указав правша он или левша, все тактильные элементы интерфейса, которые нужно нажимать и/или удерживать «зеркалируются» справа налево или обратно, обеспечивая лучший опыт пользовательского взаимодействия с системой.
Под понятием размеченный датасет (1501) стоит понимать набор кадров, в которых вручную или программно обозначены графически (цветом и/или окантовкой) и/или иным способом подписаны все доступные объекты. Такой набор как правило используется в машинном обучении для тренировки нейронных сетей с последующим получением готовых нейросетевых моделей.
Для начала описания способа фото/видео съемки цифровым устройством, включающим в себя оптическое(-ие) устройство(-ва), на основе предоставления рекомендаций по профессиональной постановке кадра, стоит рассмотреть главные базовые оптические возможности устройств, использующих систему, и объяснить возможности пространственного взаимодействия системы устройства с окружающей средой в рамках съемочного процесса.
На ФИГ. 1 показаны четыре варианта устройств (100) с различным количеством камер. Количество камер напрямую связано с возможностями форм-фактора самого устройства (100), его компактности и толщины посадочного гнезда объектива камеры. Объективы бывают с фиксированным и переменным фокусным расстоянием. В отличии от фиксированных, у переменных объективов сложная конструкция, требующая телескопического выдвижения линз внутри объектива, для изменения фокусного расстояния. На компактные устройства чаще устанавливают одну или серию камер с фиксированными объективами из-за габаритных возможностей устройств. При этом учитывают камеры, расположенные на любой из сторон (фронтальная, задняя или боковая) устройства (100).
Вариант с одной камерой (101), как правило это стандартный объектив с эквивалентом широкоугольного фокусного расстояния около 26 мм (угол обзора около 85°), наиболее близкий к варианту фокусного расстояния человеческого глаза.
Вариант с двумя камерами (102), как правило оснащается стандартным и зумобъективом, с эквивалентом стандартного фокусного расстояния 52 мм (угол обзора около 47°), также встречаются комбинации из двух стандартных, стандартного и расширенного объектива, с эквивалентном ультраширокого фокусного расстояния 13 мм (угол обзора около 120°).
Вариант с тремя камерами (103), где применяются все три типа объективов.
Вариант с большим количеством объективов (104), как правило это варианты промежуточных фокусных расстояний или же перспективные варианты более широкого охвата или большего фокусного расстояния.
На момент раскрытия способа зафиксированы коммерческие решения с 16 фиксированными камерами различного фокусного расстояния, эквивалентом от 11 мм до 135 мм.
Для анализа окружающей ситуации и принятия решений по композиции и экспозиции в работе способа используют все камеры устройства (100) с доступными зонами охвата кадра.
На ФИГ. 2 иллюстрируются различные зоны охвата (поле зрения) и масштаб кадра, который может быть зафиксирован, в зависимости от выбранного фокусного расстояния объектива камеры.
Так, поле зрения кадра широкого объектива (201) охватывает большую область съемки, в сравнении с человеческим взглядом, и получается эффект отдаления.
Поле зрения стандартного объектива (202) охватывает меньшую область съемки и в сравнении с человеческим взглядом, получается очень близкая по восприятию картинка.
Поле зрения зумобъектива (203) охватывает еще меньшую область съемки, в сравнении с человеческим взглядом, получается эффект приближения (зумирования).
Варианты (204) являются альтернативными, при наличии аппаратных возможностей размещения большего количества фиксированных объективов и/или использования объективов с переменным фокусным расстоянием, а также применимо для изменения фокусного расстояния на программном уровне, имитируя работу различных объективов и их фокусных расстояний. На ФИГ. 3 иллюстрируется пример работы широкого объектива (201). Чаще всего такая зона охвата применяется в пейзажной фотографии, чтобы запечатлеть масштаб снимаемой сцены.
Как представлено на ФИГ. 3 в правом верхнем углу интерфейса на кадре 1 в специальной зоне (300), в зависимости от выбранных настроек оператора, может появляться индикатор кратности (приближения/отдаления) поля зрения кадра. При однократном нажатии на специальную зону (300) система будет переключаться между доступными объективами (201, 202, 203, 204) устройства. При нажатии и удержании специальной зоны (300) откроется анимированная круговая шкала (400), как показано в кадре 2 на ФИГ. 3. Передвигая эту шкалу (400) можно вручную точно выбирать необходимую кратность изображения, используя аппаратные возможности оптического и цифрового зумирования.
На ФИГ. 4 иллюстрируется пример работы стандартного объектива (202). Такая зона охвата применяется для многожанровой фотографии и является самой распространенной.
На ФИГ. 5 иллюстрируется пример работы зумобъектива (203). Чаще всего, такая зона охвата применяется в портретной фотографии или для съемки удаленных объектов, в том числе крупным планом.
Далее стоит отметить, что до и во время съемочного процесса, при работе способа, анализируют множество входных данных. Такие как изображение с камер, данные геопозиционирования, данные с гироскопического датчика, данные акселерометрии, визуальной одометрии, доступный рельеф карты местности. Благодаря упомянутым данным координируют процесс перемещения устройства и оператора в пространстве.
На ФИГ. 6 иллюстрируется динамический прием панорамирования «слежение». Этот прием используется для перемещения устройства (100) в трех плоскостях с учетом крена, рысканья и тангажа относительно центра устройства. То есть его перемещение и вращение по всем трем осям X, U, Z.
На ФИГ. 7 иллюстрируется стационарный прием панорамирования «оглядывание» вокруг оператора (700). Этот прием используется для свободного перемещения устройства (100) вокруг оператора (700), с ограничением на столкновение с естественными препятствиями .
На ФИГ. 8 иллюстрируется динамический прием панорамирования «оглядывание» вокруг объекта (800) съемки. Этот прием используется для свободного перемещения оператора (700) вместе с устройством (100) вокруг объекта (800) съемки, с ограничением на столкновение с естественными препятствиями. To есть при принятии решений о том, где и с каким ракурсом лучше провести перспективную съемку система, осуществляющая способ, не ограничена лишь информацией, попадающей в видоискатель камер, а благодаря пространственному координированию может искать перспективные варианты для съемки выходящие за границы зоны охвата и предлагать оператору переместиться к нужной точке съемки.
Таким образом, в заявленном способе заложены существенные признаки того, что используют единовременно визуальную информацию всех камер со всеми доступными фокусными расстояниями. При этом, для создания перспективных съемочных планов у системы отсутствуют ограничения на степени свободы по панорамированию.
Система, как комплексное решение для съемки, в основном позиционируется как индивидуальное решение, которое взаимодействует с собственником устройства (100), обучается и стремится соответствовать ожиданиям пользователя в отношении творческого видения в съемке. Однако, она может использоваться и в многопользовательских решениях.
Для улучшения пользовательского опыта взаимодействия с системой в момент ее первого запуска на устройстве (100) оператору (700) предлагается создать персональный портретный профиль (1001). Стоит сказать, что, если этот шаг будет пропущен в начале, пользователь может к нему вернуться в любой другой удобный для него момент времени.
Портретный профиль (1001) - это комбинация из подробного сканирования лица оператора (700), выбора удачной стороны и настроек ретуши, которые соответствуют ожиданиям пользователя и считаются естественными и наиболее удачными с точки зрения пользователя для портретной съемки.
Пользовать не ограничен одним лишь портретным профилем, по его желанию в систему на устройстве, также может быть добавлено необходимое количество портретных профилей других людей, например, близких родственников или друзей. Сканирование и тонкая настройка дополнительных портретных профилей происходит исключительно с согласия оператора (700).
Система построена таким образом, чтобы обеспечить максимальную защиту данных, связанных с портретными профилями, которые хранятся в зашифрованном виде исключительно на самом устройстве, доступ к которым предоставляется по ключ-паролю или другим системам аутентификации пользователя доступным на устройстве, и не синхронизируются ни в облаке, ни с другими устройствами.
В случае полной потери устройства (100) будут утеряны и персональные портретные профили (1001). Поскольку, это единственный вид данных, которые невозможно синхронизировать при повторной установке системы на новое устройство. В таком случае от пользователя потребуется повторно создать портретный профиль (1001) уже на новом устройстве (100).
На ФИГ. 9 иллюстрируется создание портретного профиля (1001), где оператор (700) снимает («сканирует») свое лицо (902) с помощью фронтальной камеры (900) на устройство (100), которое держит в руках. Элементы интерфейса (901) подсказывают оператору (700) как повернуть голову, чтобы осуществить точное сканирование всех особенностей головы и черт лица (902). Подсказки выполнены в виде элементов интерфейса (901), и последовательно указывают на полное вращение головы вокруг, повороты анфас и профиль, подъем и наклон подбородка, воспроизведение различных эмоций: грусть, нейтральное состояние, легкая улыбка, уверенная улыбка, широкая улыбка, смех, закрытые глаза, обычно открытые глаза, широко раскрытые глаза.
Ядро ИИ системы (далее - Ядро) анализирует полученные данные и, сравнивая с профессиональными портретными профилями, которые входят в состав профессиональных датасетов (1507), определяет наиболее удачный(-ые) вариант(-ы) позирования для пользователя. Работа ядра будет рассмотрена дальше вместе с изображением ФИГ. 12.
Задача пользователя на следующем этапе, проиллюстрированном на ФИГ. 10, выбрать из предложенных вариантов, в режиме «карусели», наиболее точный вариант «рабочей» стороны портретного профиля (1001). Затем, перемещая ползунки (1003), настроить параметры (1002) лица и головы. И сохранить результат в системе.
Теперь в ходе съемки, когда будут определять в кадре живой объект (1700), соответствующий настроенному портретному профилю (1001), будут учитывать предпочтения пользователя по ракурсу и ретуши, для формирования идеального портретного кадра.
Таким образом решается проблема, когда пользователь просил другого оператора (700) сделать портретный снимок, и результат не соответствовал его ожиданиям.
В случае, если в кадре система детектирует более одного живого объекта, с установленными портретными профилями (1001), система в первую очередь выберет в качестве приоритетного портретный профиль пользователя/собственника устройства (100), затем уже оператор может самостоятельно выбрать главный объект и выстраивать кадр в соответствии с его портретным профилем (1001), при этом максимально стараясь соответствовать остальным портретным профилям, определенным в кадре.
На ФИГ. 11 представлена потоковая диаграмма пошагового алгоритма создания персонального портретного профиля (1001). Оператор (700) запускает режим создания портретного профиля (1001), далее как выше описывалось в ФИГ. 9 осуществляется первый проход сканирования, определяют точки, признаки и особенности, повторно проводят сканирование, закрепляя и валидируя полученные данные за первый проход, и создают варианты оцифрованной модели лица/головы (902) оператора (700), для последующего выбора подходящего варианта в «карусели» и применения настроек параметров антропологических признаков и ретуши. После чего оператор (700) сохраняет полученный портретный профиль (1001) и выходит из режима.
Ключевым и центральным элементом системы является ядро ИИ системы (ФИГ. 12). Задача ядра - обрабатывать входящий поток данных (1206, 1202, 1203, 1204, 1205, 1206, 1207, 1208, ФИГ. 26), чтобы на выходе получать варианты по композиции и экспозиции кадра (1209, 1210), говоря образно, помочь устройству (100) видеть окружающий мир творчески, так как это бы делал профессиональный фотохудожник и/или видео оператор.
На ФИГ. 12 иллюстрируется общая блок-схема алгоритма работы ядра, генерирующего удачную композицию и экспозицию кадра с помощью комбинированных методов глубокого машинного обучения (с учителем, с частичным привлечением учителя, без учителя, с подкреплением) (1200) (далее - Deep ML), а также обсчитывающего и ранжирующего точки съемки на AR-карте, которые будут более детально рассмотрены далее вместе с ФИГ. 26.
Так, первоначально, со всех доступных камер устройства (100) собираются фото/видео потоки (1201) и с помощью промежуточного слоя предустановленных, натренированных сверточных нейросетевых моделей (1500) (далее - CNNs) в потоках кадров размечаются (далее - детектируются) все объекты, рассчитывается глубина кадра, расстояние между объектами, детектируется (при наличии) персональный(-ые) портретный(-ые) профиль(-и) (1001), определяют приоритетный объект (800) в фокусе, оценивают освещенность сцены, составляется единая матрица изображения со всех камер с разметкой по зонам охвата (201, 202, 203, 204), как на изображении ФИГ. 2 (1206).
Затем с устройства (100) собираются данные: с гироскопа о положении в пространстве, с датчиков GPS/ГЛОНАСС о геопозиционировании, а также акселерометрии и визуальной одометрии, при необходимости, когда первых двух типов данных недостаточно, например, при манипулировании Машиной через ПАК.
Далее выгружаются метаданные изображений (1203) из потоков (1201), в состав которых входят, но не ограничиваются ими, следующие данные, описывающие условия и способы получения, авторство и т.п.: производитель цифрового устройства (камеры), модель цифрового устройства (камеры), авторство, выдержка, диафрагма, светочувствительность в ед. ISO, использование вспышки, разрешение кадра, фокусное расстояние, размер матрицы, эквивалентное фокусное расстояние, глубина резкости, дата и время съёмки, ориентация камеры (вертикально или горизонтально), тип баланса белого, экспозиция, параметры гистограммы, адрес места съёмки и т.д. (далее - EXIF метаданные).
При наличии подключения к сети Интернет, из открытых источников по API подгружаются данные, в т.ч. и прогнозные на период ближайших 7 дней на случай отсутствия Интернет-соединения, о внешних атмосферных условиях (погода, инсоляции и астронавигации (1204)). В совокупности эти данные дают точное представление об уровне освещенности сцены и продолжительности определенного состояния, а также помогают точно спрогнозировать и подобрать правильную композицию и экспозицию, например, для съемки в период «золотого часа» (это первый час после восхода солнца и последний час перед заходом солнца, хотя точная продолжительность варьируется в зависимости от времени года) или ночной замедленной астросъемки млечного пути (т.н. «ночной таймлапс»).
В рамках подстраховки, если на этапе (1206) персональные портретные профили (1001) не были определены, все предустановленные персональные портретные профили (1001) подгружаются к процессу (1200).
Затем Deep ML (1200) подкрепляет вычисления подбором соответствующей, натренированной нейросетевой модели (1207) из состава базы данных натренированных нейромоделей (1506), описание которых будет представлено в детальной блок-схеме алгоритма работы системы в режиме автоматической съемки ФИГ. 15.
В ходе непрерывного цикла сбора данных ядра о результатах съемки для обучения с подкреплением, о котором подробно будет рассказано в рамках описания подробной блок- схемы алгоритма работы системы в части обработки результата(-ов) съемки ФИГ. 30, DeepML (1200) получает промежуточные результаты нейромоделей машинного обучения с подкреплением (1208) на основе персонализированных данных пользователя о результатах (1514) и активности в социальный сетях (1516), описание которых будет представлено в детальной блок-схеме алгоритма работы системы в режиме автоматической съемки ФИГ. 15. Доступ к упомянутым данным пользователь предоставляет, по собственному выбору и этот выбор может быть в любой момент изменен в параметрах конфиденциальности системы.
Как было упомянуто ранее, в рамках работы ядра на финальном шаге Deep ML (1200) подгружают данные о точках съемки на AR-карте и их ранжировании, для выработки альтернативных вариантов композиции и экспозиции (1210).
Так, в ходе обработки ядро может предоставлять системе три вывода:
- возможность для создания кадра присутствует, предоставляются варианты композиции и экспозиции (1209, 1210); - создание кадра вероятно, для чего необходимо системе дать больше данных (расширить зону охвата) (ФИГ. 2, 6, 7, 8);
- возможность для создания качественного, профессионально поставленного кадра отсутствует, например, когда кадр полностью не в фокусе, в таком случае система переходит в режим направляемой съемки, который будет подробно описан далее вместе с изображением ФИГ.24.
И в завершение описания ядра ИИ системы (ФИГ. 12) стоит указать, что на аппаратном уровне, для обеспечения вычислений пограничного ИИ, система работает совместно с контроллером машинного обучения и автоматически распределяет задачи между так называемой системой «нейронного движка», центральным и графическим процессорами.
К этому моменту раскрытия информации описаны и определены все базовые принципы и ключевые элементы системы, позволяющие обеспечить более полное понимание нового способа фото/видео съемки цифровым устройством, включающим в себя оптическое(-ие) устройство(-ва), на основе предоставления рекомендаций по профессиональной постановке кадра.
После запуска системы, оператор (700) выбирает один из режимов съемки: автоматический, полуавтоматический, следящий или режим направляемой съемки. Ниже приведены примеры вышеуказанных режимов.
ФИГ. 13 иллюстрирует раскадровку процесса взаимодействия оператора (700) с интерфейсом правой рукой (кадр 1) и левой рукой (кадр 2), в режиме автоматической съемки. В данном режиме оператору (700) достаточно навести камеру на необходимый объект съемки (800), нажать на любое место на экране в активной зоне (1301) и, удерживая палец, перемещать плавно устройство (100) в разных плоскостях и направлениях, согласно описанию представленному на ФИГ. 6, 7, 8, по желанию пользователя.
Далее, продолжая описание в рамках общей потоковой диаграммы алгоритма использования оператором режима автоматической съемки, продемонстрированной на ФИГ. 14, в момент панорамирования кадра активно производят захват поступающего потока изображений вместе с метаданными (1201, 1202, 1203). Одновременно CNNs (1500) детектируют все объекты в кадре, портретные профили пользователей, при наличии, их приоритетность, положение и расстояние, глубину кадра, освещенность сцены, внешние атмосферные условия (погодные, инсоляции и астронавигации и др.) (1204, 1205, 1206). После чего ядро ИИ системы (ФИГ. 12) обрабатывает входные данные, в т.ч. (1207, 1208), и предоставляет системе варианты наиболее удачных комбинаций композиции и экспозиции (1209, 1210). В ходе автоматической съемки, кадры, соответствующие удачным комбинациям (1209, 1210), отправляются в буфер пред-сохраненных результатов, где происходит экспресс-постобработка (1511).
А после того, как пользователь отжимает палец, система выдает на экране интерфейса полученный(-ые) результат(-ы) на суд пользователю.
Отбор результатов и подробная блок-схема алгоритма работы системы в части обработки результата(-ов) съемки продемонстрированы на изображениях ФИГ. 27, 28, 29, 30, которые будут рассмотрены далее по тексту.
Далее продолжается подробное описание способа съемки в автоматическом режиме, продемонстрированное на ФИГ. 15, где указана детальная блок-схема алгоритма работы в этом режиме.
Углубляясь в детали способа, стоит разобрать процесс получения данных о соответствующей натренированной нейросетевой модели (1207).
База данных (далее - БД) размеченных датасетов (1501), с которой начинается процесс обучения, делится на три группы:
- жанровые датасеты из отобранных профессиональных кадров, опубликованных в течение всей истории всемирной фотографии (1502);
- кадры из социальных сетей, проходящие минимальный порог валидации (в зависимости от жанра, пороговое значение определенного параметра валидации (лайки, комментарии, репосты, клики, переходы, и т.п.) может меняться (процесс определения параметров валидации не раскрывается по соображениям коммерческой тайны), попадают в жанровые датасеты с после дующей разметкой (1503);
- жанровые датасеты, составленные из кадров пользователей системы (1504).
БД размеченных датасетов (1501) обрабатывается методами машинного обучения, предназначенными для создания натренированных моделей, в т.ч. методом обучения с учителем, например, уже упоминаемые ранее CNNs, которые прекрасно справляются с распознаваниями и определениями образов (1505).
Натренированные на распознавание образов и их композиций в зависимости от жанров съемки нейромодели, также, как и датасеты, распределяются в единой БД (1506) на три уровня:
- модели профессиональной компоновки (в мире фото/видео съемки существует свыше двадцати общеизвестных композиционных правил и в рамках раскрытия информации о заявленном способе нет необходимости о каждом рассказывать отдельно) и экспонирования жанровой съемки (1507), включающие также группу профессиональных портретных профилей, - модели популярной компоновки и экспонирования жанровой съемки, натренированные на популярных кадрах из социальных сетей (1508), модели пользовательской компоновки и экспонирования жанровой съемки, натренированные на непрерывно пополняемых пользовательских кадрах (1509).
Таким образом, ядро занимается подбором соответствующей, натренированной нейросетевой модели (1207) из состава базы данных натренированных нейромоделей (1506), в зависимости от обработанных Deep ML (1200) входных данных.
Вместе с этим, как упоминалось ранее, для имитации недоступных на устройстве (100) объективов камер используется, так называемая компьютерная оптикокоррекция. Для этого используют натренированные модели генеративно-состязательных сетей (далее - GANs), которые имитируют работу объективов (1510).
GAN (1510) состоит из нейронных сетей «Генератора» и «Дискриминатора», которые итерационно соревнуются друг с другом, в процессе создания реалистичного варианта изображения. На этапе 1510, фиг.15, «Генератор» стремится создать имитацию дисторсии и приближения объектов, удаленных друг от друга по глубине кадра, соответствующую существующим объективам, а «Дискриминатор» в свою очередь отсекает нереалистичные варианты, которые с изображениями, выдаваемыми существующими объективами, не совпадают.
Модели GANs (1510), также аккумулируются в ядре (ФИГ. 12), однако применяются лишь по сценарию, на этапе экспресс-постобработки (1511), когда вариант выявленной композиции (1209) имеет назначение к применению вне аппаратного фокусного расстояния (104, 204).
Итак, в ходе обработки ядра (ФИГ. 12) система в автоматическом режиме съемки может предоставлять два вывода: возможность для создания кадра присутствует, предоставляются варианты композиции и экспозиции (1209, 1210);
- возможность для создания качественного и профессионально поставленного кадра отсутствует, например, когда кадр полностью не в фокусе. В таком случае на экране система показывает предупреждение (1517) о том, что кадр «поймать» не получается в прежних условиях, и отображает в интерфейсе варианты необходимые для перемещения устройства (100) в пространстве, для захвата большего количества данных (расширить зону охвата) (ФИГ. 2, 6, 7, 8). А если и это не помогает, тогда система переходит в режим направляемой съемки, который будет подробно описан далее вместе с изображением ФИГ.24. В случае же первого вывода, ядро (ФИГ. 12) передает системе сгенерированные варианты удачных композиций и экспозиций (1209, 1210), которые отправляются в буфер пред-сохраненных результатов, где происходит экспресс-постобработка (1511) с применением жанровых настроек (таких как яркость, контрастность, четкость и т.п. - для всех жанров в фото/видео индустрии уже отработаны промышленные стандарты применения таких параметров, потому, описывая заявленный способ, в рамках раскрытия информации, останавливаться на этом не будем) и, при необходимости, с применением GANs (имитирующих объективы) (1510) и GANs (имитирующих художественный стиль) (1512).
Последние GANs (1512) имеют тот же механизм генерации изображений, что и GANs (1510), только натренированных на художественных стилях/приемах известных фотохудожников и видео операторов, а также популярных фотографов и видео любителей из социальных сетей.
После того, как оператор (700) отжимает палец, система выдает на экране интерфейса полученные результат(ы) на суд пользователю (ФИГ. 27).
Отбор результатов и подробная блок-схема алгоритма работы системы, в части, обработки результата(-ов) съемки продемонстрирован на изображениях ФИГ. 28, 29, 30, которые будут рассмотрены и описаны далее по тексту.
Главное, что стоит отметить в ходе детального описания ФИГ. 15, это журналирование (сохранение) данных о сохранении и удалении пользователем результатов съемки (1514) и данных о распространении результата в социальных сетях и активности взаимодействия с ним (1516).
При этом, оба типа данных (1514, 1516) журналируются с согласия пользователя и в любой момент времени такое согласие может быть отозвано, а переданные ранее данные при дополнительном указании на это, могут быть удалены с правом восстановления в срок, не превышающий 30 дней.
Оба типа данных (1514, 1516) используются для выявления претендентов на статус «точки съемки», последующего ранжирования и размещения на AR-карте (ФИГ. 26) и для обучения с подкреплением глобально в рамках сети и выработки индивидуального подхода к пользователю.
Таким образом, система может адаптироваться к предпочтениям пользователя и учиться на своих «ошибках» (когда результат съемки отправляется в папку «Удаленные» (ФИГ. 29)), чтобы в последствии предвосхищать и угадывать творческие идеи пользователя устройства (100), на котором установлена система. На ФИГ. 16 проиллюстрирован процесс манипулирования устройством (100) в режиме полуавтоматической съемки.
Чтобы съемка была произведена в полуавтоматическом режиме, оператору (700) необходимо совместить друг с другом (далее - «наложить»), как последовательно продемонстрировано на кадрах 5 и 6 ФИГ. 16 и 17, зону захвата кадра (1600) устройства (100) и целевую рамку кадра (1601), которая свободно смещается до места целевой точки съемки в AR пространстве, как последовательно продемонстрировано на кадрах 1, 2, 3, 4 ФИГ. 16 и 17.
В момент наложения, а именно за пару секунд до и пару секунд после, осуществляют серию кадров и/или видео ряд, из которого выбирает результат.
На ФИГ. 17 также, как и ФИГ. 16, проиллюстрирован процесс манипулирования устройством (100) в режиме полуавтоматической съемки, только в обозначенном примере добавлен сюжет съемки живого объекта (1700) в кадре, человека. При этом под живым объектом (1700) понимается не только человек, но и животные, которые могут быть распознаны CNNs (1500).
Когда система распознает в зоне охвата в фокусе живой объект (1700), она его подсвечивает контуром (1701), как последовательно продемонстрировано на кадрах 1, 2, 3 ФИГ. 17. Если в зоне охвата распознано и выделено контуром (1701) более одного живого объекта (1700), пользователь может выбрать приоритетный объект (1700) для съемки, нажав пальцем по нему на экране устройства (100).
Далее система графически обрисовывает трехмерный манекен (1702) поверх объекта, как продемонстрировано в кадре 4 ФИГ. 17.
И на основании полученных рекомендаций (1209) от ядра (ФИГ. 12) манекен (1702) анимировано сменяет позу на более удачную (1703), как последовательно продемонстрированно на кадрах 4 и 5 ФИГ. 17.
В дополнение, к указанным выше действиям, для осуществления портретной съемки, в полуавтоматическом режиме, оператору (700) необходимо посоветовать человеку - объекту съемки (1700), занять предлагаемую удачную позу (1703) и/или же постараться поймать объект съемки (1700), когда он займет положение, соответствующее предлагаемой позе (1703).
Стоит отметить, что в режиме полуавтоматической съемки в приоритете стоит наложение зоны охвата (1600) и целевой рамки (1601), а уже во вторую очередь - совпадение объекта съемки (1700) с удачной позой (1703). При этом система будет стараться максимально приблизить момент съемки, когда обе задачи будут выполнены. Далее продолжается описание в рамках общей потоковой диаграммы алгоритма использования оператором режима полуавтоматической съемки, продемонстрированной на ФИГ. 18.
В момент панорамирования кадра и наведения камер на желаемый объект съемки, производят захват поступающего потока изображений вместе с метаданными (1201, 1202, 1203). Одновременно CNNs (1500) детектируют все объекты в кадре, портретные профили пользователей, при наличии, их приоритетность, положение и расстояние, глубину кадра, освещенность сцены, внешние атмосферные условия (погода, инсоляция и астронавигация и др. (1204, 1205, 1206)). После чего ядро ИИ системы (ФИГ. 12) обрабатывает входные данные, в т.ч. (1207, 1208), и предоставляет системе варианты наиболее удачных комбинаций композиции и экспозиции (1209, 1210). Лучший вариант (1209) в виде трехмерного объекта целевой рамки (1601) смещается до места целевой точки съемки в AR пространстве, как последовательно продемонстрировано на кадрах 1, 2, 3, 4 ФИГ. 16 и 17.
После самого процесса полуавтоматической съемки (1902) и (1511), описанного выше, полученный результат отправляются в буфер пред-сохраненных результатов, где происходит экспресс-постобработка (1511).
Дальше выдают на экране интерфейса полученный(-ые) результат(-ы) на суд пользователю.
Отбор результатов и подробная блок-схема алгоритма работы системы, в части, обработки результата(-ов) съемки, продемонстрированы на изображениях ФИГ. 27, 28, 29, 30, которые будут рассмотрены далее по тексту.
Далее продолжается подробное описание способа съемки в полуавтоматическом режиме, продемонстрированное на ФИГ. 19, изображающей детальную блок-схему алгоритма работы системы в этом режиме.
Углубляясь в детали способа, стоит отметить, что процессы получения данных о соответствующей натренированной нейросетевой модели (1207), совпадают с упомянутыми ранее процессами. Для имитации недоступных на устройстве (100) объективов камер используется, так называемая компьютерная оптикокоррекция, в которой используют модели GANs (1510).
Итак, в ходе обработки ядра (ФИГ. 12) система в полуавтоматическом режиме съемки может предоставлять три вывода:
- возможность для создания кадра присутствует, предоставляются варианты композиции и экспозиции (1209, 1210);
- создание кадра вероятно, для чего необходимо системе дать больше данных (расширить зону охвата) (ФИГ. 2, 6, 7, 8); - возможность для создания качественного, профессионально поставленного кадра отсутствует, например, когда кадр полностью не в фокусе, в таком случае система переходит в режим направляемой съемки, который будет подробно описан далее вместе с изображением ФИГ.24.
В случае же первого вывода, ядро (ФИГ. 12) передает системе сгенерированные варианты удачных композиций и экспозиций (1209, 1210), лучший из которых (1209), по результату ранжирования, в виде трехмерного объекта целевой рамки (1601) смещается до места целевой точки съемки в AR пространстве, как последовательно продемонстрировано на кадрах 1, 2, 3, 4 ФИГ. 16 и 17.
После самого процесса полуавтоматической съемки (1902) и (1511), описанного выше, полученный результат отправляются в буфер пред-сохраненных результатов, где происходит экспресс-постобработка (1511).
Дальше система выдает на экране интерфейса полученный(-ые) результат(-ы) на суд пользователю (ФИГ. 27).
Отбор результатов и подробная блок-схема алгоритма работы системы, в части, обработки результата(-ов) съемки, продемонстрирован на изображениях ФИГ. 28, 29, 30, которые будут рассмотрены и описаны далее по тексту.
Главное, на что стоит обращать внимание в ходе детального описания ФИГ. 19, это журналирование (сохранение) данных, которое также подробно описывалось выше.
ФИГ. 20 иллюстрирует процесс манипулирования устройством (100) в режиме следящей съемки.
Чтобы съемка была произведена в следящем режиме оператору (700) необходимо стабилизировать, относительно центральной точки друг друга и «наложить» одну на другую следящую зону захвата кадра (2000) устройства (100) и следящую («качающуюся») трехмерную рамку кадра (2001), которая очевидно для оператора (700), но не значительно с точки зрения интерфейса устройства (100), смещается относительно центра кадра (2000), в соответствии с принципами панорамирования, описанными в ФИГ. 6, в сторону, где должен быть запечатлен итоговый кадр, соответствующий наиболее удачной композиции и экспозиции (1209). То есть процесс «слежения» осуществляется до виртуального местоположения целевой точки съемки в AR пространстве, где местоположение целевой точки выполнено без графических представлений на экране. Последовательность действий описанного выше следящего режима продемонстрирована на кадрах 1, 2, 3, 4, 5 ФИГ. 20.
В момент стабилизации/отцентровки и наложения, а именно за пару секунд до и пару секунд после, система делает серию кадров и/или видео ряд, из которого система выбирает результат. Принцип создания портретных кадров и/или иной жанровой съемки живых объектов (1700) в рамках следящего режима полностью соответствует описанному выше принципу, применимому к полуавтоматической съемке.
Далее продолжается описание в рамках общей потоковой диаграммы алгоритма использования оператором режима следящей съемки, продемонстрированной на ФИГ. 21. В момент панорамирования кадра и наведения камер на желаемый объект съемки, система активно производит захват поступающего потока изображений вместе с метаданными (1201, 1202, 1203). Одновременно CNNs (1500) детектируют все объекты в кадре, портретные профили пользователей, при наличии, их приоритетность, положение и расстояние, глубину кадра, освещенность сцены, внешние атмосферные условия (погода инсоляция и астронавигация и др. (1204, 1205, 1206)). После чего ядро ИИ системы (ФИГ. 12) обрабатывает входные данные, в т.ч. (1207, 1208), и предоставляет системе варианты наиболее удачных комбинаций композиции и экспозиции (1209, 1210). Лучший вариант (1209) загружается в фоновом режиме на место целевой точки съемки в AR пространстве, и является невидимым ориентиром для смещения следящей («качающейся») трехмерной рамки кадра (2001), как последовательно продемонстрировано на кадрах 1, 2, 3, 4, 5, 6 ФИГ. 20.
После самого процесса следящей съемки (2202) и (1511), описанного выше, полученный(-ые) результат (-ты) отправляются в буфер пред-сохраненных результатов, где происходит экспресс-постобработка (1511).
Дальше система выдает на экране интерфейса полученный(-ые) результат(-ы) съемки на суд пользователю (ФИГ. 27).
Отбор результатов и подробная блок-схема алгоритма работы системы в части обработки результата(-ов) съемки продемонстрированы на изображениях ФИГ. 28, 29, 30, которые будут рассмотрены далее по тексту.
Далее продолжается подробное описание способа съемки в следящем режиме, продемонстрированное на ФИГ. 22, изображающей детальную блок-схему алгоритма работы системы в этом режиме.
Углубляясь в детали способа, стоит отметить, что процессы получения данных о соответствующей натренированной нейросетевой модели (1207), совпадают с упомянутыми ранее процессами. Для имитации недоступных на устройстве (100) объективов камер используется, так называемая компьютерная оптикокоррекция, в которой используют модели GANs (1510).
Итак, в ходе обработки ядра (ФИГ. 12) система в следящем режиме съемки может предоставлять три вывода: - возможность для создания кадра присутствует, предоставляются варианты композиции и экспозиции (1209, 1210);
- создание кадра вероятно, для чего необходимо системе дать больше данных (расширить зону охвата), а визуально кадр (2000) наклоняется и/или смещается относительно центра кадра, указывая направление для расширения поля зрения камер (кадр 4 ФИГ. 20);
- возможность для создания качественного, профессионально поставленного кадра отсутствует, например, когда кадр полностью не в фокусе, в таком случае система переходит в режим направляемой съемки, который будет подробно описан далее вместе с изображением ФИГ.24.
В случае же первого вывода, ядро (ФИГ. 12) передает системе сгенерированные варианты удачных композиций и экспозиций (1209, 1210), лучший из которых (1209), по результату ранжирования, в фоновом режиме перемещается на место целевой точки съемки в AR пространстве, и является невидимым ориентиром для смещения следящей («качающейся») трехмерной рамки кадра (2001), как последовательно продемонстрировано на кадрах 1, 2, 3, 4, 5, 6 ФИГ. 20.
После самого процесса следящей съемки (2202) и (1511), описанного выше, полученный(-ые) результат отправляются в буфер пред-сохраненных результатов, где происходит экспресс-постобработка (1511), процесс которой подробно изложен выше.
Дальше система выдает на экране интерфейса полученный(-ые) результат(-ы) на суд пользователю (ФИГ. 27).
Отбор результатов и подробная блок-схема алгоритма работы системы в части обработки результата(-ов) съемки продемонстрирована на изображениях ФИГ. 28, 29, 30, которые будут рассмотрены и описаны далее по тексту.
Главное, на что стоит обращать внимание в ходе детального описания ФИГ. 22, это журналирование (сохранение) данных, которое также подробно описывалось выше.
Ниже по тексту рассматривается подробная блок-схема алгоритма работы системы в части съемочного процесса (ФИГ. 23).
Так, все вышеописанные режимы съемки раскрываемого способа, проходят один и тот же цикл съемочного процесса, детально изложенного ранее на этапе описания ФИГ. 15.
Далее рассмотрим четвертый режим съемки заявленного способа - режим направляемой съемки.
На ФИГ. 24, проиллюстрирован интерфейс системы, в режиме направляемой съемки с активной картой точек съемки (ракурсов) (2400) в дополненной реальности (далее - AR- карта). Пользователю доступны два вида отображения точек съемки (2400) в интерфейсе:
Первый вид - это двухмерная карта (2410), которая может отображаться во весь экран или в виде миниатюры (2407), которая по умолчанию располагается внизу экрана, однако пользователь может перетащить ее в любое удобное место, для обеспечения лучшей навигации по точкам съемки (2400).
Второй вид - это AR-карта, проецируемая на экран устройства (100) в виде трехмерных графических и текстовых элементов (2400, 2401, 2402, 2403, 2404, 2405, 2406, 2407, 2408, 2409, 2410), дополняющих реальное пространство, попадающее в объективы камер.
Так на ФИГ. 24 представлены в виде трехмерных объектов, размещенные в дополненной реальности, следующие важные элементы.
Точка съемки (ракурс) (2400) - это трехмерный объект, который может быть выполнен в виде трехмерной рамки, цифрового устройства с экраном, фотокарточки, багетной рамки и т.п, виды отображения пользователь может выбирать в настройках системы, а по умолчанию используется простая цифровая рамка. Точка съемки (2400) точно соответствует координатам и положению кадра в пространстве, сделанного пользователем (далее - автор), далеко не всегда пользователем/оператором устройства (100).
Точки (2400) отображаются в дополненной реальности, если находятся в радиусе 50 метром от оператора (700) Данный параметр установлен по умолчанию, и может быть изменен пользователем в любое время до 1000 метров в настройках.
Внутри точки (2400) отображаются следующие данные: публичное имя автора точки (2406), органический рейтинг точки (2405) - это количество фотографий, которое было сделано (сохранено в памяти устройства (100) и/или размещено в сети Интернет) другими пользователями системы, при взаимодействии с выбранной точкой, и время жизни точки (2403) - это оставшееся время функционирования точки с учетом актуальных измеряемых устройством (100) данных (1202, 1203), а также подгружаемых прогнозных данных (1204).
Нажимая на точку (2400), можно посмотреть оригинал кадра, который был сделан автором (2406), размещенного в социальных сетях, просмотреть краткий обзор аккаунта автора (2406), его рейтинг в системе, другие кадры, подписаться (отслеживать) или отправить запрос в чат для переписки.
Группа (скопление) точек (2401) - это трехмерный объект, который может быть выполнен в виде трехмерного шара, таблички, куба и прочих фигур с указателем, перпендикулярным поверхности земли. Виды отображения пользователь может выбирать в настройках системы, а по умолчанию используется простая форма шара. Группы точек съемки (2401) - это скопления точек (2400) в одном месте, которые отображается в дополненной реальности, если находятся в радиусе от 50 метров до 10 километров от оператора (700). Первый параметр ближней границы радиуса установлен по умолчанию, и может быть изменен пользователем в любое время начиная от 1000 метров в настройках системы.
Внутри объекта группы точек (2401) цифрой отображается количество точек (2404) в группе, рядом указано расстояние от оператора (700) до группы точек (2402). В зависимости от выбранной в настройках системы мер и весов, метрической или имперской, расстояние будет отражаться в километрах или милях. Также рядом отображается время жизни группы точек (2403) - это оставшееся время функционирования самой скорой точки (2400) внутри группы (2401) с учетом актуальных измеряемых устройством (100) данных (1202, 1203), а также подгружаемых прогнозных данных (1204).
После того как срок жизни (2403) самой ранней точки истечет, отображаемое количество точек (2404) уменьшится на одну единицу, а время жизни (2403) группы точек (2401) обновится по ближайшему сроку жизни следующей точки (2400) в группе (2401).
Вне зависимости от радиуса положения все точки можно найти на двухмерной карте (2410). Там же можно увидеть по центру точку (2409), отображающую точное местоположение устройства (100) и зону охвата и направление (2408) куда оно (100) «смотрит».
В популярных местах, где потенциально точек (2400), в радиусе 50 метров, больше 10 штук, а активных пользователей системы в зоне пересекаемых километровых радиусов больше одного, система покажет каждому пользователю не более десяти точек (2400) единовременно и эти точки (2400) будут отличаться друг от друга и точек (2400), которые видят на AR карте другие пользователи системы.
ФИГ. 25 иллюстрирует на примере общей потоковой диаграммы процесс использования оператором (700) режима направляемой съемки.
Так, после получения подтверждения от ядра ИИ (ФИГ. 12) об отсутствии возможности для съемки в автоматическом, полуавтоматическом или следящем режиме, система переводит оператора (700) в режим направляемой съемки и запускает AR-карту (ФИГ. 24). Оператор (700) осуществляет поиск подходящей точки (2400) для съемки, может дополнительно получить информацию о точке (2400), нажав на нее. После выбора нужной точки (2400), оператору (700) необходимо приблизить устройство (100) к точке (2400) на расстоянии тридцати сантиметров, и тогда система переключится в один из описанных ранее режимов съемки. Автоматический, полуавтоматический или следящий режим - зависит от точки (2400) и/или выбранных предпочтений в настройках пользователя. По умолчанию выбран для перехода следящий режим. Процессы съемки в указанных режимах были подробно разобраны ранее. А по итогам съемки результаты сохраняются/удаляются, а метаданные о сортировке журналируются и используются для машинного обучения ядра с подкреплением. Режим направляемой съемки также можно использовать индивидуально, оператор (700), после запуска системы, может сразу выбрать данный режим.
Далее рассматривается подробная блок-схема алгоритма обработки данных и предоставления визуальной информации в интерфейсе системы в режиме направляемой съемки (ФИГ. 26).
Работа AR-Карты (ФИГ. 24) точек съемки (2400) с интерактивным взаимодействием и элементами социальной активности и сети, поддерживается центральным процессором устройства (100), сервером и специализированным программным модулем управления отображения элементов в дополненной реальности.
AR-карта (ФИГ. 24) постоянно мониторит поступающие данные для актуального отображения точек (2400) в дополненной реальности. Так, данные EXIF, GPS/ГЛОНАСС, визуальной одометрии и экспонометрии (1202, 1203), поступающие из БД размеченных датасетов (1501), дают представление о положении и исходной освещенности точки (2400) в пространстве. Данные об активности пользователей социальных сетей (1516) во взаимодействии с результатами съемки, опубликованными в социальных сетях (2701), помогают правильно ранжировать точки (2400) для преодоления перспективной точкой (2400) пороговых значений, чтобы получить возможность размещаться на AR-карте (ФИГ. 24). Данные о внешних атмосферных условиях (1204) (погода, освещенность, астронавигация) подгружаются из открытых источников метеоусловий (2603), инсоляции (2604), астронавигации (2605) по API, вместе с прогнозными значениями на семь дней вперед, чтобы не зависеть от Интернет-подключения, для уточнения актуализации времени жизни точек (2403).
Как описывалось выше, точки (2400), в режиме направляемой съемки, могут отображаться как на двухмерной карте (2410), где можно увидеть все доступные точки (2400) на карте (2602), так и в режиме дополненной реальности, но с учетом радиуса от оператора (700): в радиусе до 50 метров (2600) показывает трехмерные объекты точек съемки (2400), с детальной интерактивной информацией о рейтинге точки (2405), авторе (2406) и времени жизни точки (2403); в радиусе от 50 метров до 10 километров (2601) от оператора (700) показывает трехмерные объекты скопления точек (2401), с детальной информацией о количестве точек (2404), расстоянии до них (2402) и времени жизни группы (2403).
Далее предоставленные изображения (ФИГ. 27, 28, 29) демонстрируют процесс взаимодействия пользователя с интерфейсом в процессе отбора полученных результатов. Для упрощения разъяснения представлен горизонтальный вариант расположения экрана, однако, возможно и вертикальное использование этого режима, согласно выбору пользователя или исходного процесса съемки.
ФИГ. 27, проиллюстрирован вывод результата съемки в интерфейсе системы для сохранения или удаления полученного результата съемки, сразу после того, как система произвела съемку и экспресс-постобработку (1511).
Результат занимает центральную область (2701) экрана. Оставшиеся области (2202), по краям экрана (слева-справа для горизонтального расположения, снизу-сверху для вертикального), являются активными (кликабельными) и при единовременном нажатии моментально возвращают пользователя к текущему режиму съемки, который продолжает работать в фоновом режиме еще 10 секунд. При этом полученный ранее результат откладывается в специальную папку-буфер внутри приложения до следующей сессии вывода (ФИГ. 27) полученных результатов и ставится в очередь. Отложенные результаты до завершения процедуры сортировки (ФИГ. 28, 29) не сохраняются в папке результатов на устройстве (100).
ФИГ. 28, проиллюстрирован процесс взаимодействия оператора (700) с интерфейсом во время сохранения результата(-ов) съемки. Пользователь перетаскивает (смахивает) результат вправо, таким действием, отдавая команду системе сохранить предоставленный результат.
Если результатов съемки было несколько и/или в папке-буфере накопились результаты, требующие сортировки, то эти результаты друг за другом, как указано на позиции 2801, появляются вслед за сохраненным результатом.
ФИГ. 29, иллюстрирует процесс взаимодействия оператора (700) с интерфейсом во время удаления результата(-ов) съемки. Пользователь перетаскивает (смахивает) результат влево, таким действием, отдавая команду системе удалить предоставленный результат.
Если результатов съемки было несколько и/или в папке-буфере накопились результаты, требующие сортировки, то эти результаты друг за другом, как указано на позиции 2801, появляются вслед за удаленным результатом.
Удаленный результат поступает во внутреннее хранилище системы внутри устройства (100) и может быть восстановлен пользователем в течение 30 дней, если был удален ошибочно.
Все метаданные о сортировке результатов (1514) журналируются.
Далее рассматривается подробная блок-схема алгоритма работы системы в части обработки результата(-ов) съемки (ФИГ. 30). После сохранения/удаления результатов (ФИГ. 28, 29) ведется журналирование (учет) данных о сохранении и удалении пользователем результатов съемки (1514) и данных о распространении результата в социальных сетях и активности взаимодействия с ним (1516).
Оба типа данных (1514, 1516) журналируются с согласия пользователя и в любой момент такое согласие может быть отозвано, а переданные ранее данные при дополнительном указании на это, могут быть удалены с правом восстановления в срок, не превышающий 30 дней.
Оба типа данных (1514, 1516) используются системой: для выявления претендентов на статус «точки съемки», последующего ранжирования и размещения на AR-карте (ФИГ. 26) и для обучения с подкреплением глобально в рамках сети и выработки индивидуального подхода к пользователю. Таким образом система может адаптироваться к предпочтениям пользователя и учится на своих «ошибках» (когда результат съемки отправляется в папку «Удаленные» ), а метаданные об удачных кадрах, а также данные об успешной имитации объективов (1510), добавляют к пользовательским жанровым датасетам (1504), чтобы в последствии предвосхищать и угадывать творческие идеи пользователя устройства (100), на котором установлена система.
Таким образом натренированные нейромодели (1506) и GANs (1510, 1512) непрерывно обновляются, тем самым улучшая Deep ML (1200), результат съемки и пользовательский опыт взаимодействия с системой, как глобально в рамках сети, так и персонифицировано.
ФИГ. 31 иллюстрирует какие процессы и задачи обрабатываются на сервере. БД размеченных датасетов (1501) постоянно синхронизируются с устройствами (100), обновляются и пополняются. Вместе с этим, для имитации недоступных на устройстве (100) объективов камер используют, так называемую компьютерную оптикокоррекцию, в которой используют модели GANs (1510).
Данные об их применении в создании результатов журналируются и синхронизируются с размеченными датасетами (1501).
Также на сервере помимо постоянно тренирующегося Ядра ИИ (ФИГ. 12) собираются и журналируются данные о взаимодействии с результатами в социальных сетях и на основании этих данных система обучается, отчего растет пользовательский опыт взаимодействия с режимами съемки, в т.ч. направляемой съемкой в дополненной реальности.
Облачные вычисления необходимы для фундаментальных расчетов и глобального обучения с подкреплением на данных, собираемых со всех устройств (100) и прочих источников в течение суток. Серверная часть постоянно обновляет ядро (ФИГ. 12) и это является единственной возможностью для обновления и усовершенствования системы теми пользователям, которые руководствуясь личными соображениями о безопасности и конфиденциальности, запретили обмен данными с облаком системы, при этом они осознанно отказываются от персонализации системы под их предпочтения.
В завершении раскрытия заявки обязательно стоит рассмотреть ключевую особенность системы, которая описана в рамках общей блок-схемы взаимодействия ядер ИИ системы на устройствах, применяющих технологии пограничного ИИ, их процесс обмена данными в сети системы и Интернет и каналов распределения вычислительных мощностей между устройствами, с применением туманных вычислений.
Изображенная на ФИГ. 32 упрощенная блок-схема, взаимодействия, иллюстрирует как применяя технологии пограничных ИИ, все вычисления в рамках внутренних ядер (ФИГ. 12), производятся на самих устройствах (100), которые в свою очередь способны напрямую устанавливать каналы (3202) обмена данными, что обеспечивает не только скорость обмена размеченных и обработанных данных, но и позволяет использовать возможности распределения вычислительных мощностей между устройствами, существенно ускоряя процесс обработки данных. При этом в структуре также неизменно присутствует облачное ядро (3200), размещенное на серверах системы (ФИГ. 31), обращение к которому и обмен происходит по каналам Интернет (3201).
Благодаря подобной структуре с ростом сети пользователи максимально автономно и оперативно смогут осуществлять съемку любой сложности без задержек.
В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.

Claims

ФОРМУЛА
1. Компьютерно-реализованный способ фото/видео съемки цифровым устройством, включающим в себя оптическое(-ие) устройство(-ва), на основе предоставления рекомендаций по профессиональной постановке кадра, содержащий этапы, на которых: принимают на цифровом устройстве поток данных через оптическое устройство; поток данных обрабатывают, используя методы машинного обучения с применением моделей, обученных множеством изображений, включающих, по меньшей мере, информацию о композиции, чтобы рекомендовать наилучший кадр; осуществляют съемку, по меньшей мере, в одном режиме, автоматическом, или полуавтоматическом, или следящей съемки или в режиме направляемой съемки; причем, в автоматическом режиме, при нажатии на любую зону экрана, инициируют процесс съемки; в полуавтоматическом или следящем режиме съемки выполняют съемку при совмещении зоны захвата кадра и трехмерный рамки кадра; если в автоматическом, полуавтоматическом и следящем режимах возможность для создания профессионально скомпонованного кадра отсутствует, то включается направляющий режим съемки, в котором отображают карту с обозначением трехмерных объектов точек съемки, где каждая точка содержит интерактивную информацию, для получения профессионально скомпонованного кадра; полученные кадры во время съемки, по меньшей мере, в одном из режимов отправляют в буфер пред-сохраненных результатов съемки, где производят экспресс- постобработку и полученный результат съемки выводят на экран; дальнейшее взаимодействие с результатами записывается и обрабатывается методами машинного обучения с подкреплением для последующего совершенствования процессов съемки и результатов.
2. Способ по п.1, отличающийся тем, что оптическое устройство является камерой.
3. Способ по п.2, отличающийся тем, что включает, по меньшей мере, одну камеру.
4. Способ по п.1, отличающийся тем, что поток данных содержит, по меньшей мере, метаданные, включая EXIF.
5. Способ по п.1 , отличающийся тем, что создают индивидуальный портретный профиль посредством сканирования лица и определяют, по меньшей мере, один удачный вариант позирования.
6. Способ по п.5, отличающийся тем, что при определении в кадре живого объекта, соответствующего настроенному индивидуальному портретному профилю, при съемке будут учитываться параметры этого профиля.
7. Способ по п.6, отличающийся тем, что при определении в кадре более одного живого объекта, в первую очередь выбирают живой объект с сохраненным портретным профилем.
8. Способ по п.1, отличающийся тем, что в режиме автоматической съемки при нажатии на любую часть экрана, удерживают палец и перемещают цифровое устройство в разных плоскостях и направлениях.
9. Способ по п.8, отличающийся тем, что результат съемки выводится на экран, когда отжимают палец.
10. Способ по п.1 , отличающийся тем, что в режиме полуавтоматической съемки трехмерная рамка является фиксированным ориентиром.
11. Способ по п.1 , отличающийся тем, что в режиме полуавтоматической съемки, ориентируются, относительно перемещенной и фиксированной в пространстве трехмерной рамки, и совмещают зону захвата кадра и трехмерную рамку кадра.
12. Способ по п.1 , отличающийся тем, что в режиме полуавтоматической съемки и режиме следящей съемки, когда определяется в зоне охвата фокуса живой объект, его подсвечивают контуром, далее графически отрисовывают трехмерный манекен поверх объекта и манекен анимировано сменяет позу на более удачную.
13. Способ по п.12, отличающийся тем, что, если определено более одного живого объекта, пользователь может выбрать приоритетный объект.
14. Способ по п.1, отличающийся тем, что в следящем режиме съемки трехмерная рамка является следящей.
15. Способ по п.1, отличающийся тем, что в режиме следящей съемки, стабилизируют, относительно центральной точки, и совмещают следящую зону захвата кадра и следящую трехмерную рамку кадра.
16. Способ по п.11 и п.15, отличающийся тем, что за пару секунд до и после стабилизации и совмещения делают серию кадров и/или видео ряда.
17. Способ по п.11 и п.15, отличающийся тем, что трехмерная рамка указывает на ориентацию камеры, для получения профессионально скомпонованного кадра.
18. Способ по п.1, отличающийся тем, что режим направляемой съемки оператор может выбрать после запуска системы
19. Способ по п.1, отличающийся тем, в направляющем режиме съемки запускается карта, где пользователь выбирает нужную точку, приближает устройство к данной точке и автоматически переключают режим съемки на сохраненный в данной точке.
20. Способ по п.1, отличающийся тем, что карта с отображением трехмерных точек съемки представлена в двух форматах: двумерная карта и AR-карта.
21. Способ по п.20, отличающийся тем, что двумерная карта с отображением трехмерных точек съемки может отображаться во весь экран или в виде миниатюры, миниатюру можно перемещать в любое место по экрану.
22. Способ по п.20, отличающийся тем, что на AR-карте указываются точки съемки с учетом радиуса до них: в радиусе до 50 метров показывают трехмерный объект точки съемки с детальной интерактивной информацией, такой как: информация о рейтинге точки, информация об авторе точки, информация о времени жизни точки; в радиусе от 50 до 10 километров показывают трехмерные объекты скопления точек съемки с детальной информацией, такой как: информация о количестве точек в скоплении, расстоянии до скопления точек и информация о времени жизни скопления точек.
23. Способ по п.1, отличающийся тем, что вывод результата съемки занимает центральную часть экрана, при этом свободные области экрана остаются активными и при нажатии на данные активные области возвращаются к режиму, во время которого осуществлялась съемка.
24. Способ по п.23, отличающийся тем, что полученный результат съемки откладывается в буфер до следующий сессии вывода полученных результатов съемки, которые ставятся в очередь на сортировку.
25. Способ по п. 24, отличающийся тем, что для сохранения результата съемки, перетаскивают результат съемки вправо.
26. Способ по п.24, отличающийся тем, что для удаления результата съемки, перетаскивают результат съемки влево.
27. Способ по п. 1, отличающийся тем, что при взаимодействии с результатами съемки обучение может осуществляться как на устройстве, так и на сервере.
28. Машиночитаемый носитель, содержащий инструкции, исполняемые процессором, при этом процессор выполнен с возможностью осуществления этапов способа по п.1-27.
PCT/RU2019/000988 2019-12-20 2019-12-20 Способ фото/видео съемки цифровым устройством профессионально скомпанованных кадров WO2021126004A1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/RU2019/000988 WO2021126004A1 (ru) 2019-12-20 2019-12-20 Способ фото/видео съемки цифровым устройством профессионально скомпанованных кадров

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2019/000988 WO2021126004A1 (ru) 2019-12-20 2019-12-20 Способ фото/видео съемки цифровым устройством профессионально скомпанованных кадров

Publications (1)

Publication Number Publication Date
WO2021126004A1 true WO2021126004A1 (ru) 2021-06-24

Family

ID=76476641

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2019/000988 WO2021126004A1 (ru) 2019-12-20 2019-12-20 Способ фото/видео съемки цифровым устройством профессионально скомпанованных кадров

Country Status (1)

Country Link
WO (1) WO2021126004A1 (ru)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104717413A (zh) * 2013-12-12 2015-06-17 北京三星通信技术研究有限公司 拍照辅助方法及设备
US20160284095A1 (en) * 2015-03-27 2016-09-29 Edmond Chalom Machine learning of real-time image capture parameters
US20160286132A1 (en) * 2015-03-24 2016-09-29 Samsung Electronics Co., Ltd. Electronic device and method for photographing
US20190208117A1 (en) * 2017-12-01 2019-07-04 Samsung Electronics Co., Ltd. Method and system for providing recommendation information related to photography

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104717413A (zh) * 2013-12-12 2015-06-17 北京三星通信技术研究有限公司 拍照辅助方法及设备
US20160286132A1 (en) * 2015-03-24 2016-09-29 Samsung Electronics Co., Ltd. Electronic device and method for photographing
US20160284095A1 (en) * 2015-03-27 2016-09-29 Edmond Chalom Machine learning of real-time image capture parameters
US20190208117A1 (en) * 2017-12-01 2019-07-04 Samsung Electronics Co., Ltd. Method and system for providing recommendation information related to photography

Similar Documents

Publication Publication Date Title
US12079942B2 (en) Augmented and virtual reality
US12056837B2 (en) Employing three-dimensional (3D) data predicted from two-dimensional (2D) images using neural networks for 3D modeling applications and other applications
US10832488B2 (en) Optimizing head mounted displays for augmented reality
US10652522B2 (en) Varying display content based on viewpoint
CN112771539B (zh) 采用使用神经网络从二维图像预测的三维数据以用于3d建模应用
US11057561B2 (en) Capture, analysis and use of building data from mobile devices
US10748313B2 (en) Dynamic multi-view interactive digital media representation lock screen
EP3798801A1 (en) Image processing method and apparatus, storage medium, and computer device
US20210042950A1 (en) Depth-Aware Photo Editing
US10523916B2 (en) Modifying images with simulated light sources
CN101910936A (zh) 基于图像捕捉设备呈现的用户推荐的引导摄影
CN109997175A (zh) 确定虚拟对象的大小
CA3069813C (en) Capturing, connecting and using building interior data from mobile devices
CN116783894A (zh) 基于多模态元数据通过数据过滤和同步来协调不协调内容以便生成复合媒体资产的方法和系统
WO2021126004A1 (ru) Способ фото/видео съемки цифровым устройством профессионально скомпанованных кадров
CN107993247A (zh) 追踪定位方法、系统、介质和计算设备
CN116643648B (zh) 一种三维场景匹配交互方法、装置、设备及存储介质
JP7320400B2 (ja) 映像演出処理装置及びそのプログラム
CN118628661A (zh) 基于头显设备的建模方法、系统、头显设备及存储介质
CN118334114A (zh) 三维布局信息的确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19956749

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 04-11-2022)

122 Ep: pct application non-entry in european phase

Ref document number: 19956749

Country of ref document: EP

Kind code of ref document: A1