RU2768551C1 - Method for local generation and representation of wallpaper stream and computer implementing it - Google Patents
Method for local generation and representation of wallpaper stream and computer implementing it Download PDFInfo
- Publication number
- RU2768551C1 RU2768551C1 RU2020133033A RU2020133033A RU2768551C1 RU 2768551 C1 RU2768551 C1 RU 2768551C1 RU 2020133033 A RU2020133033 A RU 2020133033A RU 2020133033 A RU2020133033 A RU 2020133033A RU 2768551 C1 RU2768551 C1 RU 2768551C1
- Authority
- RU
- Russia
- Prior art keywords
- wallpaper
- computing device
- neural network
- generative neural
- user
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
Description
Область техники, к которой относится изобретениеThe field of technology to which the invention belongs
[0001] Настоящее изобретение относится, в общем, к области искусственного интеллекта и, в частности, к способу генерирования и предоставления потока обоев на вычислительном устройстве с использованием глубокой генеративной нейросети, а также к вычислительному устройству, реализующему данный способ.[0001] The present invention relates generally to the field of artificial intelligence and, in particular, to a method for generating and providing a wallpaper stream on a computing device using a deep generative neural network, as well as to a computing device that implements this method.
Описание предшествующего уровня техникиDescription of the Prior Art
[0002] Обои составляют большую часть того, что видит пользователь на различных устройствах, включая смартфоны, интеллектуальные телевизоры, ноутбуки и т.п. В настоящее время для регулярного получения новых эстетически приятных обоев пользователи могут подписаться на обновления в режиме онлайн, то есть на сервисы (например, Unsplash), регулярно отправляющие новые обои на пользовательское устройство через Интернет-соединение. К недостаткам этого метода относится, по меньшей мере, необходимость подключения к Интернету, а также потребление трафика и полосы пропускания.[0002] Wallpapers make up the majority of what a user sees on various devices, including smartphones, smart TVs, laptops, and the like. Currently, in order to regularly receive new aesthetically pleasing wallpapers, users can subscribe to online updates, that is, services (for example, Unsplash ) that regularly send new wallpapers to the user device via an Internet connection. The disadvantages of this method include, at the very least, the need to connect to the Internet, as well as the consumption of traffic and bandwidth.
[0003] Современные генеративные нейросети способны синтезировать высокореалистичные 2D-изображения, 3D-изображения и видео. Следовательно, такие сети можно обучить генерировать изображения реалистичных эстетически приятных обоев. После обучения многие из этих моделей (самым широко используемым классом которых являются генеративные состязательные сети) могут генерировать бесконечное количество самых разнообразных обоев, принимая в качестве ввода произвольный высокоразмерный вектор и генерируя оригинальное изображение для этого вектора. Включение нового вектора приведет к получению существенно отличающегося изображения.[0003] Modern generative neural networks are capable of synthesizing highly realistic 2D images, 3D images, and videos. Therefore, such networks can be trained to generate images of realistic, aesthetically pleasing wallpapers. Once trained, many of these models (of which generative adversarial networks are the most widely used class) can generate an infinite variety of wallpapers by taking an arbitrary high-dimensional vector as input and generating an original image for that vector. Including a new vector will result in a significantly different image.
СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION
[0004] Предложено альтернативное технические решение, которое позволяет регулярно обновлять обои пользовательского устройства без использования Интернета. Согласно первому аспекту настоящего изобретения предложен способ локального генерирования и предоставления вычислительному устройству потока обоев, заключающийся в том, что: генерируют на вычислительном устройстве по меньшей мере одни первые обои потока обоев, используя глубокую генеративную нейросеть, причем глубокая генеративная нейросеть обучена на коллекции высококачественных изображений/видео и заранее загружена в вычислительное устройство, и устанавливают на вычислительном устройстве по меньшей мере одни первые обои в качестве обоев данного вычислительного устройства. Поскольку приемлемые обои синтезируются на самом вычислительном устройстве, т.е. не загружаются из сети Интернет, отсутствуют описанные выше недостатки, и изобретение позволяет уменьшить/исключить потребление трафика и полосы пропускания, которые требовались в известных аналогах для загрузки.[0004] An alternative technical solution has been proposed that allows the wallpaper of a user device to be regularly updated without using the Internet. According to a first aspect of the present invention, there is provided a method for locally generating and providing a wallpaper stream to a computing device, comprising: generating at least one first wallpaper of the wallpaper stream on the computing device using a deep generative neural network, wherein the deep generative neural network is trained on a collection of high-quality images/ video and pre-loaded into the computing device, and set on the computing device at least one first wallpaper as the wallpaper of this computing device. Since acceptable wallpapers are synthesized on the computing device itself, i.e. are not downloaded from the Internet, there are no disadvantages described above, and the invention allows to reduce/eliminate the consumption of traffic and bandwidth, which were required in the known analogues for downloading.
[0005] Согласно второму аспекту настоящего изобретения предложено вычислительное устройство, содержащее процессор и устройство хранения, на котором хранится обученная глубокая генеративная нейросеть для локального генерирования и предоставления потока обоев посредством выполнения способа согласно первому аспекту при выполнении процессором обученной глубокой генеративной нейросети.[0005] According to a second aspect of the present invention, there is provided a computing device comprising a processor and a storage device storing a trained deep generative neural network for locally generating and providing a wallpaper stream by executing the method according to the first aspect when the trained deep generative neural network is executed by the processor.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS
[0006] Описанные выше и другие аспекты, признаки и преимущества настоящего изобретения будут более понятны из следующего подробного описания в совокупности с прилагаемыми чертежами, на которых:[0006] The above and other aspects, features and advantages of the present invention will be better understood from the following detailed description taken in conjunction with the accompanying drawings, in which:
фиг. 1 - последовательность операций способа локального генерирования и предоставления вычислительному устройству потока обоев в соответствии с вариантом осуществления изобретения, раскрытым в данном документе;fig. 1 is a flowchart of a method for locally generating and providing a wallpaper stream to a computing device in accordance with the embodiment of the invention disclosed herein;
фиг. 2 - последовательность операций способа локального генерирования и предоставления вычислительному устройству потока обоев в соответствии с другим вариантом осуществления изобретения, раскрытым в данном документе;fig. 2 is a flowchart of a method for locally generating and providing a wallpaper stream to a computing device in accordance with another embodiment of the invention disclosed herein;
фиг. 3 - блок-схема вычислительного устройства согласно варианту осуществления изобретения, раскрытому в данном документе.fig. 3 is a block diagram of a computing device according to an embodiment of the invention disclosed herein.
[0007] В дальнейшем описании, если не указано иное, одинаковые ссылочные обозначения используются для одних и тех же элементов, изображенных на разных чертежах, и их параллельное описание может быть опущено.[0007] In the following description, unless otherwise indicated, the same reference signs are used for the same elements shown in different drawings, and their parallel description may be omitted.
ПОДРОБНОЕ ОПИСАНИЕ DETAILED DESCRIPTION
[0008] На фиг. 1 показана последовательность операций способа локального генерирования и предоставления вычислительному устройству потока обоев согласно варианту осуществления изобретения, раскрытому в данном документе. Способ заключается в следующем: генерируют S105 на вычислительном устройстве по меньшей мере одни первые обои потока обоев, используя глубокую генеративную нейросеть, причем глубокая генеративная нейросеть обучена на коллекции высококачественных изображений/видео и заранее загружена в вычислительное устройство. Под генерированием подразумевается искусственный синтез обоев глубокой генеративной нейросетью. В зависимости от типа контента в коллекции высококачественных изображений/видео, который использовался на этапе обучения глубокой генеративной нейросети, глубокая генеративная нейросеть при обучении на такой коллекции конфигурируется для генерирования типа обоев подобного данному контенту. Например, если коллекция высококачественных изображений содержит изображения пейзажей, то глубокая генеративная нейросеть при обучении на этой коллекции будет сконфигурирована для генерирования пейзажных обоев и т.д. Однако настоящее изобретение не ограничено пейзажными обоями, поскольку на этапе обучения глубокой генеративной нейросети можно использовать коллекцию высококачественных изображений/видео с любым другим типом контента. Кроме того, если на этапе обучения глубокой генеративной нейросети использовалась коллекция высококачественных видео, то глубокая генеративная нейросеть при обучении на такой коллекции будет настроена на генерирование видеообоев с типом контента, соответствующим типу контента обучающей коллекции высококачественных видео. Под потоком обоев подразумевается одно или несколько изображений, которые могут быть статическими, динамическими или интерактивными, и/или одним или несколькими видео. При обучении глубокой генеративной нейросети, ее можно загрузить в вычислительное устройство вместе с весовыми коэффициентами и другими параметрами заранее, то есть до фазы использования (inference). Глубокая генеративная нейросеть может храниться в устройстве хранения, таком как память вычислительного устройства. При генерировании по меньшей мере одних первых обоев глубокой генеративной нейросетью способ включает в себя этап установки S110 в вычислительном устройстве этих по меньшей мере одних первых обоев в качестве обоев вычислительного устройства. Генерируемые обои могут быть предназначены для любого типа пользовательского интерфейса, например, генерируемые обои могут быть обоями для основного рабочего стола, для экрана блокировки, для пустой страницы браузера, и так далее без ограничений. Генерируемые обои можно использовать в качестве экранной заставки вычислительного устройства.[0008] FIG. 1 shows the sequence of operations a method for locally generating and providing a wallpaper stream to a computing device according to an embodiment of the invention disclosed herein. The method is as follows: at least one first wallpaper of the wallpaper stream is generated S105 on the computing device using a deep generative neural network, wherein the deep generative neural network is trained on a collection of high-quality images/videos and pre-loaded into the computing device. Generating refers to the artificial synthesis of wallpapers by a deep generative neural network. Depending on the type of content in the collection of high-quality images/videos that was used in the training phase of the deep generative neural network, the deep generative neural network, when trained on such a collection, is configured to generate a type of wallpaper similar to this content. For example, if a collection of high-quality images contains images of landscapes, then a deep generative neural network, when trained on this collection, will be configured to generate landscape wallpapers, etc. However, the present invention is not limited to landscape wallpapers, since a collection of high-quality images/videos with any other type of content can be used in the training phase of a deep generative neural network. In addition, if a collection of high-quality videos was used at the training stage of a deep generative neural network, then the deep generative neural network, when trained on such a collection, will be configured to generate video wallpapers with a content type corresponding to the content type of the training collection of high-quality videos. A wallpaper stream refers to one or more images, which may be static, dynamic, or interactive, and/or one or more videos. When training a deep generative neural network, it can be loaded into a computing device along with weights and other parameters in advance, that is, before the use phase (inference). The deep generative neural network may be stored in a storage device such as a memory of a computing device. When generating at least one first wallpaper by a deep generative neural network, the method includes setting S110 in the computing device these at least one first wallpaper as the wallpaper of the computing device. The generated wallpaper can be for any type of user interface, for example, the generated wallpaper can be the wallpaper for the main desktop, for the lock screen, for a blank browser page, and so on without limitation. The generated wallpaper can be used as a screen saver of a computing device.
[0009] Как показано на фиг. 1, способ дополнительно содержит этап определения S115, выполняется ли условие или нет. Эта проверка на выполнение условия используется для определения, следует ли обновить первые обои вторыми обоями. Условие включает в себя, без ограничения, одно или несколько из следующих условий: (i) на вычислительном устройстве получен пользовательский ввод, при этом пользовательский ввод представляет то, выражает ли пользователь вычислительного устройства неодобрение обоям, установленным в данный момент в качестве обоев вычислительного устройства, или нет; (ii) истек преднастроенный период времени; (iii) изменилось местоположение GPS вычислительного устройства, причем местоположение GPS вычислительного устройства может быть зарегистрировано блоком GPS, имеющемся в данном вычислительном устройстве. Если пользователь выразил неодобрение текущим установленным обоям, то можно адаптировать способ для генерирования других обоев. На основании информации таких одобрений/неодобрений (likes/dislikes) система может научиться генерировать обои, которые будут нравиться пользователю. Если определено, что данное условие удовлетворено (т.е. получено неодобрение на этапе S115), способ обновляет обои, установленные в данный момент в качестве обоев вычислительного устройства, выполняя следующие действия: генерируют S120 на вычислительном устройстве по меньшей мере одни вторые обои потока обоев, используя глубокую генеративную нейросеть; устанавливают S125 на вычислительном устройстве эти по меньшей мере одни вторые обои в качестве обоев вычислительного устройства. Описанное обновление обоев может выполняться автоматически в фоновом режиме. Например, пользователь может включить функцию генерирования новых обоев каждое утро. Термины "первый" и "второй" применительно к термину "обои" используются в целях их различия и не должны истолковываться как термины, представляющие какие-либо порядковые отношения между указанными обоями или этапами способа. По меньшей мере одни вторые обои отличаются от по меньшей мере одних первых обоев. В альтернативном варианте осуществления способа (не проиллюстрирован) этап определения S115, выполняется ли условие или нет, может выполняться перед генерированием и установкой каждых последующих обоев, включая случай, когда этап определения S115 выполняется перед описанными выше этапами S105 и S110. Поэтому должно быть понятно, что ссылочные номера используются только в целях иллюстрации и не должны истолковываться как представляющие какие-либо порядковые отношения между этапами способа.[0009] As shown in FIG. 1, the method further comprises the step of determining S115 whether the condition is met or not. This condition check is used to determine if the first wallpaper should be updated with the second wallpaper. The condition includes, without limitation, one or more of the following: (i) a user input is received on the computing device, wherein the user input represents whether the user of the computing device expresses disapproval of the wallpaper currently set as the wallpaper of the computing device, or not; (ii) a preset time period has elapsed; (iii) the computing device's GPS location has changed, wherein the computing device's GPS location can be registered by a GPS unit present in the computing device. If the user has expressed disapproval of the currently set wallpaper, then the method can be adapted to generate other wallpapers. Based on the information of such approvals/disapprovals (likes/dislikes), the system can learn to generate wallpapers that the user will like. If it is determined that this condition is satisfied (i.e., a disapproval is received at step S115), the method updates the wallpaper currently set as the wallpaper of the computing device by performing the following steps: generating S120 on the computing device at least one second wallpaper of the wallpaper stream using a deep generative neural network; setting S125 on the computing device the at least one second wallpaper as the wallpaper of the computing device. The wallpaper update described can be performed automatically in the background. For example, the user can enable the feature to generate new wallpapers every morning. The terms "first" and "second" in relation to the term "wallpaper" are used for the purpose of distinguishing them and should not be construed as terms representing any ordinal relationship between said wallpaper or method steps. At least one second wallpaper is different from at least one first wallpaper. In an alternative embodiment of the method (not illustrated), the step of determining whether a condition is met or not S115 may be performed before generating and setting each subsequent wallpaper, including the case where the step of determining S115 is performed before steps S105 and S110 described above. Therefore, it should be understood that the reference numbers are used for purposes of illustration only and should not be construed as representing any ordinal relationship between the steps of the method.
[0010] На фиг. 2 показана блок-схема способа локального генерирования и предоставления вычислительному устройству потока обоев согласно другому варианту осуществления изобретения, раскрытому в данном документе. Вариант осуществления способа, показанный на фиг. 2, отличается от варианта осуществления способа, показанного на фиг. 1, тем, что он дополнительно содержит этапы индивидуализации S95 глубокой генеративной нейросети для пользователя вычислительного устройства путем использования произвольного ввода в качестве параметра глубокой генеративной нейросети, обеспечивающего, что данная глубокая генеративная нейросеть сконфигурирована для генерирования уникальных обоев для данного пользователя вычислительного устройства, и персонализации S100 глубокой генеративной нейросети для пользователя вычислительного устройства, обеспечивающей, что обои, генерируемые данной глубокой генеративной нейросетью, персонализированы для данного пользователя. Этапы S105-S125, показанные на фиг. 2, могут быть аналогичны этапам S105-S125, показанным на фиг. 1, за исключением того, что по меньшей мере одни первые обои и по меньшей мере одни вторые обои, генерируемые и установленные в варианте по фиг. 2, индивидуализированы и персонализированы. Таким образом, каждый пользователь получает каждый раз свои собственные уникальные обои.[0010] FIG. 2 is a flow diagram of a method for locally generating and providing a wallpaper stream to a computing device according to another embodiment of the invention disclosed herein. The embodiment of the method shown in FIG. 2 differs from the embodiment of the method shown in FIG. 1 in that it further comprises the steps of customizing the deep generative neural network S95 for a computing device user by using arbitrary input as a parameter of the deep generative neural network ensuring that the deep generative neural network is configured to generate a unique wallpaper for a given computing device user, and personalizing S100 a deep generative neural network for the user of the computing device, ensuring that the wallpapers generated by this deep generative neural network are personalized for this user. Steps S105-S125 shown in FIG. 2 may be similar to steps S105-S125 shown in FIG. 1, except that at least one first wallpaper and at least one second wallpaper generated and installed in the embodiment of FIG. 2, customized and personalized. Thus, each user gets their own unique wallpaper every time.
[0011] Персонализация S100 может быть основана, но без ограничения, на одном или нескольких из следующих параметров персонализации: одно или несколько пользовательских предпочтений, один или несколько пользовательских входов, одна или несколько настроек вычислительного устройства, текущее время суток, текущее время года, текущее местоположение GPS вычислительного устройства, контент пользовательской галереи, хранящейся в данный момент на вычислительном устройстве, содержимое истории браузера, хранящейся в данный момент на вычислительном устройстве, текущая погода и прогноз погоды, положение и цвета иконок и виджетов на экране устройства. Текущее положение и цвета иконок и виджетов на экране устройства могут определяться и использоваться в данном способе для синтеза обоев, которые не сливаются с иконками и виджетами. В этом случае текущее положение и цвета иконок и виджетов на экране устройства можно ввести в глубокую генеративную нейросеть перед генерированием/синтезом обоев в качестве соответствующих параметров, чтобы оказать соответствующее воздействие на вывод глубокой генеративной нейросети. Способ может дополнительно включать в себя (не показано) этапы анализа содержимого пользовательской галереи, логического вывода, что пользователь увлекается фотографией гор, и адаптации глубокой генеративной нейросети для генерирования большего количества изображений/видео/интерактивных обоев гор. Несмотря на то, что на фиг. 2 показано, что этапы S95 и S100 выполняются перед этапами S105 и S110, это не следует рассматривать как ограничение, поскольку при необходимости эти этапы можно выполнить в другом порядке, например, один или оба этапа S95 и S100 можно выполнять перед генерированием и установкой каждых последующих обоев, включая случай, когда один или оба этапа S95 и S100 выполняются перед описанными выше этапами S120 и S125. Таким образом, должно быть понятно, что ссылочные номера используются только в целях иллюстрации и не должны истолковываться как представляющие какие-либо порядковые отношения между этапами способа.[0011] The S100 personalization may be based on, but not limited to, one or more of the following personalization parameters: one or more user preferences, one or more user inputs, one or more computing device settings, current time of day, current time of year, current the computing device's GPS location, the content of the user's gallery currently stored on the computing device, the contents of the browser history currently stored on the computing device, the current weather and weather forecast, the position and colors of icons and widgets on the device's screen. The current position and colors of icons and widgets on a device screen can be determined and used in this method to synthesize wallpapers that do not merge with the icons and widgets. In this case, the current position and colors of icons and widgets on the screen of the device can be entered into the deep generative neural network before generating/synthesizing the wallpaper as the relevant parameters to have a corresponding effect on the output of the deep generative neural network. The method may further include (not shown) the steps of parsing the contents of the user's gallery, inferring that the user is into photography of mountains, and adapting the deep generative neural network to generate more images/videos/interactive wallpapers of the mountains. Although in FIG. 2 shows that steps S95 and S100 are performed before steps S105 and S110, this should not be considered as limiting, since these steps can be performed in a different order if necessary, for example, one or both of steps S95 and S100 can be performed before generating and installing each subsequent wallpaper, including the case where one or both of steps S95 and S100 are performed before steps S120 and S125 described above. Thus, it should be understood that the reference numbers are used for purposes of illustration only and should not be construed as representing any ordinal relationship between the steps of the method.
[0012] Глубокая генеративная нейросеть обучается с использованием состязательного процесса обучения вместе с одной или несколькими дискриминантными сетями. Обучение выполняется на высокопроизводительном компьютере или вычислительном кластере на большом наборе данных изображений и/или видео, имеющих качество обоев. Глубокая генеративная нейросеть может иметь одну или несколько из следующих переменных: векторные переменные, латентные переменные в форме двумерной матрицы или набора двумерных матриц. В одном варианте осуществления латентные переменные могут быть получены из единичных нормальных распределений (unit normal distributions). Персонализацию можно выполнять отдельной сетью кодировщика, обученной отображать параметры персонализации в параметры пространственных распределений латентных переменных, такие как среднее значение и ковариация нормального распределения Гаусса, из которых извлекаются латентные переменные для глубокой генеративной нейросети. Когда конфиденциальная информация пользователя, например, одно или несколько пользовательских предпочтений, один или несколько пользовательских вводов, одна или несколько настроек вычислительного устройства, текущее местоположение GPS вычислительного устройства, контент пользовательской галереи, хранящейся в данный момент на вычислительном устройстве, содержимое истории браузера, хранящееся в данный момент на вычислительном устройстве, обрабатывается в качестве параметра (параметров) персонализации, должно быть понятно, что такая конфиденциальная информация пользователя не компрометируется, так как вся обработка указанной конфиденциальной информации пользователя выполняется процессором вычислительного устройства пользователя, а также отдельной сетью кодировщика и глубокой генеративной нейросетью, хранящимися в устройстве хранения вычислительного устройства пользователя. Другими словами, предпочтительно, чтобы конфиденциальная информация пользователя не покидала вычислительное устройство для обработки.[0012] A deep generative neural network is trained using an adversarial learning process along with one or more discriminant networks. Training is performed on a high performance computer or computing cluster on a large set of image and/or video data having wallpaper quality. A deep generative neural network may have one or more of the following variables: vector variables, latent variables in the form of a two-dimensional matrix, or a set of two-dimensional matrices. In one embodiment, latent variables can be obtained from unit normal distributions (unit normal distributions). Personalization can be performed by a separate encoder network trained to map personalization parameters to parameters of spatial distributions of latent variables, such as the mean and the covariance of the Gaussian normal distribution,from which latent variables are extracted for a deep generative neural network. When the user's sensitive information, such as one or more user preferences, one or more user inputs, one or more computing device settings, the computing device's current GPS location, the content of the user gallery currently stored on the computing device, the contents of the browser history stored in at the moment on the computing device is processed as a personalization parameter(s), it should be clear that such confidential user information is not compromised, since all processing of the specified confidential user information is performed by the processor of the user's computing device, as well as a separate encoder network and a deep generative neural network stored in the storage device of the user's computing device. In other words, it is preferable that the user's confidential information does not leave the computing device for processing.
[0013] В альтернативном варианте осуществления способа (не проиллюстрирован) этап генерирования S105, S120 по меньшей мере одних обоев дополнительно содержит этапы синтеза изображения и модификации изображения и этап установки S110, S125 по меньшей мере одних обоев в качестве обоев вычислительного устройства дополнительно содержит этап установки модифицированного изображения в качестве по меньшей мере одних первых обоев. В еще одном варианте осуществления (не проиллюстрирован) способа этап генерирования S105, S120 по меньшей мере одних обоев дополнительно содержит этапы синтеза изображения и анимации изображения и этап установки S110, S125 по меньшей мере одних обоев в качестве обоев вычислительного устройства дополнительно содержит этап установки анимированного изображения в качестве по меньшей мере одних первых обоев. Благодаря отсутствию ограничений на пропускную способность и по существу бесплатному получению контента можно генерировать с помощью соответствующей модели бесплатные динамические обои (видео с высоким разрешением). Кроме динамических обоев можно генерировать интерактивные обои. Обои на смартфоне могут менять внешний вид в ответ на проведение пальцем пользователя по экрану, наклон телефона или некоторые события интерфейса. Например, смахивание к другой вкладке на экране Android может внести некоторое изменение в изображение (например, переместить облака на изображении в направлении смахивания). Согласно другому альтернативному варианту осуществления предложенного способа глубокая генеративная нейросеть может быть адаптирована для генерирования не только реалистичных и правдоподобных изображений, но также гиперреалистичных изображений, которые могут иметь, например, преувеличенные признаки, такие как чрезвычайно насыщенные краски заката, преувеличенные геометрические пропорции объектов (деревьев, зданий) и т.п. Некоторые пользователи могут пожелать и предпочесть такие гиперреалистичные обои. Большинство генеративных моделей (например, обученные состязательно генеративные нейросети) могут позволить каждому пользователю установить собственный предпочтительный компромисс между реализмом и гиперреализмом. В еще одном варианте осуществления способа этап генерирования S105, S120 по меньшей мере одних обоев дополнительно содержит этап применения сверхвысокого разрешения к синтезированному изображению, а этап установки S110, S125 по меньшей мере одних обоев в качестве обоев вычислительного устройства дополнительно содержит этап установки изображения, имеющего сверхвысокое разрешение, в качестве по меньшей мере одних первых обоев. Конкретные методы модификации изображения, применения к изображению сверхвысокого или гиперразрешения известны в данной области техники.[0013] In an alternative embodiment of the method (not illustrated), the step of generating at least one wallpaper S105, S120 further comprises the steps of image synthesis and image modification, and the step of setting S110, S125 of at least one wallpaper as the wallpaper of the computing device further comprises the step of setting modified image as at least one first wallpaper. In another embodiment (not illustrated) of the method, the step of generating at least one wallpaper S105, S120 further comprises the steps of image synthesis and image animation, and the step of setting S110, S125 of at least one wallpaper as the wallpaper of the computing device further comprises the step of setting an animated image as at least one first wallpaper. Due to the lack of bandwidth restrictions and essentially free content, it is possible to generate free dynamic wallpapers (high resolution videos) using the corresponding model. In addition to dynamic wallpapers, you can generate interactive wallpapers. The wallpaper on a smartphone can change appearance in response to a user's swipe, phone tilt, or certain interface events. For example, swiping to a different tab on the Android screen may make some change to the image (for example, move the clouds in the image in the direction of the swipe). According to another alternative implementation of the proposed method, a deep generative neural network can be adapted to generate not only realistic and believable images, but also hyperrealistic images, which may, for example, have exaggerated features, such as extremely saturated sunset colors, exaggerated geometric proportions of objects (trees, buildings), etc. Some users may desire and prefer such hyper-realistic wallpapers. Most generative models (such as adversarially trained neural networks) can allow each user to set their own preferred trade-off between realism and hyperrealism. In another embodiment of the method, the step of generating at least one wallpaper S105, S120 further comprises the step of applying ultra-high resolution to the synthesized image, and the step of setting S110, S125 of at least one wallpaper as wallpaper of the computing device further comprises the step of setting an image having super high resolution. resolution, as at least one first wallpaper. Specific methods for modifying an image, applying ultra high resolution or hyper resolution to an image, are known in the art.
[0014] На фиг. 3 показана блок-схема вычислительного устройства 200 согласно одному варианту осуществления изобретения, раскрытого в данном документе. Вычислительное устройство 200 содержит процессор 205 и устройство хранения 210. Процессор 205 выполнен с возможностью выполнения задач обработки и вычислений, связанных с работой вычислительного устройства и операциями согласно предложенному способу. В устройстве хранения хранится обученная глубокая генеративная нейросеть 210.1 для локального генерирования и предоставления потока обоев посредством выполнения предложенного способа при выполнении обученной глубокой генеративной нейросети 210.1 процессором 205. В устройстве хранения 210 могут также храниться исполняемые процессором инструкции, побуждающие процессор выполнять один или несколько из описанных выше этапов способа. Процессор 205 и устройство хранения 210 могут быть взаимосвязаны функционально. Процессор 205 и устройство хранения 210 могут быть также связаны с другими компонентами (не показаны) вычислительного устройства. Другой компонент может включать в себя, без ограничения, один или несколько дисплеев, сенсорный экран, клавиатуру, малую клавиатуру, блок связи, динамик, микрофон, камеру, блок Bluetooth, блок NFC (связи ближнего действия), блок RF (радиочастотный), блок GPS, средства ввода/вывода, а также необходимые электрические провода и соединения и т.д. Процессор 205 может быть реализован, но без ограничения, в виде универсального процессора, специализированной интегральной схемы (ASIC), программируемой пользователем вентильной матрицы (FPGA) или системы на кристалле (SoC). Устройство хранения 210 может включать в себя, без ограничения, RAM, ROM и так далее. Таким образом, вычислительное устройство может быть, без ограничения, вычислительным устройством пользователя, таким как смартфон, планшет, ноутбук, лэптоп, интеллектуальный телевизор, информационно-развлекательная система в автомобиле и т.д.[0014] FIG. 3 shows a block diagram of a
Другие детали реализацииOther implementation details
[0015] Любая часть следующей информации не должна рассматриваться в качестве ограничения настоящего изобретения. Напротив, последующая информация представлена для того, чтобы специалист смог применить на практике описанные варианты и чтобы доказать достаточность данного раскрытия. Любые конкретные значения любых параметров, указанных ниже, не следует рассматривать как ограничивающие.[0015] Any part of the following information should not be construed as a limitation of the present invention. Rather, the following information is provided to enable those skilled in the art to practice the embodiments described and to prove the sufficiency of this disclosure. Any specific values for any of the parameters below should not be construed as limiting.
[0016] Архитектура модели. Архитектура модели может быть основана на StyleGAN. Модель выдает изображения с разрешением 256×256 (или 512×512) и имеет четыре набора латентных переменных:[0016] Model architecture . Model architecture can be based on StyleGAN. The model produces images with a resolution of 256x256 (or 512x512) and has four sets of latent variables:
- вектор , который кодирует цвета и общий план сцены;- vector , which encodes colors and the general plan of the scene;
- вектор , который кодирует глобальное освещение (например, время суток);- vector ,which the encodes global illumination (e.g. time of day);
- набор квадратных матриц , , которые кодируют формы и детали статических объектов при N=7 различных разрешений между 4×4 and 256×256 (N=8 для 512×512);- kit square matrices , , which encode the shapes and details of static objects at N=7 different resolutions between 4x4 and 256x256 (N=8 for 512x512);
- набор квадратных матриц , , которые кодируют формы и детали динамических объектов при соответствующих разрешениях.- kit square matrices , , which encode the shapes and details of dynamic objects at appropriate resolutions.
[0017] Генератор имеет два компонента: многослойный персептрон M и сверточный генератор G. Персептрон M берет конкатенированный вектор и преобразует его в вектор стиля . Сверточный генератор G имеет N=7 (или 8) блоков. Внутри каждого блока за сверткой следуют два поэлементных сложения двух тензоров, полученных из and с помощью обучаемого поканального масштабирования. И наконец, применяется преобразование AdaIN с использованием поканальных масштабов и смещений, полученных из W с помощью обучаемого линейного преобразования. В каждом блоке эта последовательность шагов повторяется дважды, а затем следует повышающая дискретизация и сверточные слои.[0017] The generator has two components: a multilayer perceptron M and a convolutional generator G. The perceptron M takes a concatenated vector and convert it to style vector . The convolutional generator G has N= 7 (or 8) blocks. Within each block, the convolution is followed by two element-wise additions of the two tensors obtained from and using learnable per-channel scaling. Finally, the AdaIN transform is applied using the per-channel scales and offsets obtained from W with the trainable linear transform. In each block, this sequence of steps is repeated twice, followed by upsampling and convolutional layers.
[0018] Далее будет упоминаться следующий набор входных латентных переменных:[0018] The following set of input latent variables will be mentioned next:
} }
в качестве исходных вводов (или исходных латентных переменных). Как и в StyleGAN, сверточный генератор может использовать отдельные векторы W при каждом разрешении (смешивание стилей). Набор всех векторов стилей будет обозначаться И наконец, набор всех пространственных случайных вводов генератора будет обозначаться какas initial inputs (or initial latent variables). As with StyleGAN, the convolutional generator can use separate W vectors at each resolution (style blending). The set of all style vectors will be denoted Finally, the set of all spatial random generator inputs will be denoted as
. .
[0019] Обучение модели. Модель обучается на двух источниках данных: наборе данных статических изображений пейзажей и наборе данных таймлапсовых видео пейзажей . Большой набор данных статических изображений собрать относительно легко, кроме того, авторы приложили максимальные усилия для сбора нескольких сотен видео, которые не охватывают все разнообразие пейзажей. Таким образом, оба источника данных можно использовать для построения модели с улучшенными характеристиками. Для этого предлагаемую генеративную модель (глубокую генеративную нейросеть) обучают состязательным методом с двумя разными дискриминаторами.[0019] Model training. The model is trained on two data sources: a static landscape image dataset and a time-lapse video landscape dataset . A large set of still image data is relatively easy to collect, and the authors have made every effort to collect several hundred videos that do not cover all the variety of landscapes. Thus, both data sources can be used to build a model with improved performance. To do this, the proposed generative model (deep generative neural network) is trained by the adversarial method with two different discriminators.
[0020] Статический дискриминатор имеет такие же выборы архитектуры и дизайна как и в StyleGAN. Он рассматривает изображения из как реальные, а фиктивные экземпляры генерируются моделью. Парный дискриминатор рассматривает пары изображений. Он дублирует архитектуру , за исключением первого сверточного блока, который применяется отдельно к каждому кадру. Реальная пара изображений получается путем выборки видео из , и последующей выборки двух произвольных кадров (произвольно удаленных друг от друга) из него. Фиктивная пара получается путем выборки общих статичных латентных переменных и , а затем индивидуальных динамичных латентных переменных , , и , . Затем два изображения получаются как и . Все экземпляры берутся из единичных нормальных распределений. [0020] Static discriminator has the same architecture and design choices as in StyleGAN. He looks at pictures from as real, and dummy instances are generated by the model. Paired discriminator considers pairs of images. It duplicates the architecture , except for the first convolution block, which is applied separately to each frame. A real pair of images is obtained by sampling video from , and then fetching two arbitrary frames (arbitrarily distant from each other) from it. A dummy pair is obtained by sampling common static latent variables And , and then individual dynamic latent variables , , And , . The two images are then obtained as And . All instances are taken from unit normal distributions .
[0021] Модель обучается в рамках метода GAN с ненасыщающими потерями с регуляризацией R1. Во время каждого обновления генератора производится выборка пакета фиктивных изображений, к которым применяется статический дискриминатор, или выборка пакета пар изображений, к которому применяется парный дискриминатор. Пропорции статического дискриминатора и парного дискриминатора выбираются от 0,5/0,5 до 0,9/0,1 соответственно на каждой фазе перехода разрешения, а затем сохраняются фиксированными на уровне 0,1. Это помогает генератору научиться заблаговременно разделять статические и динамические латентные переменные для каждого разрешения и предотвращает переобучение парного генератора на относительно небольшом наборе данных видео, используемом для обучения.[0021] The model is trained in a non-saturating loss GAN with R1 regularization. During each update of the generator, a batch of dummy images is sampled to which a static discriminator is applied, or a batch of image pairs is sampled to which a pairwise discriminator is applied. The proportions of the static discriminator and the paired discriminator are selected from 0.5/0.5 to 0.9/0.1, respectively, at each resolution transition phase, and then kept fixed at 0.1. This helps the generator learn to separate the static and dynamic latents for each resolution ahead of time and prevents the paired generator from overfitting on the relatively small video dataset used for training.
[0022] Во время обучения целью парного дискриминатора является фокусировка на несоответствиях в каждой паре, а целью статического дискриминатора – фокусировка на визуальном качестве. Кроме того, поскольку парный дискриминатор видит только реальные кадры, выбранные из ограниченного количества видео, он может быть склонен к переобучению на этом ограниченном наборе и фактически перестать вносить вклад в процесс обучения (в то время как статический дискриминатор, наблюдающий более разнообразный набор сцен, продолжает улучшать разнообразие модели). Оказалось, что обе проблемы (сосредоточение на качестве изображения, а не на парной согласованности, переобучение на ограниченном разнообразии видео) можно решить простым методом. Он заключается в том, что фиктивный набор кадров дополняется парами фрагментов изображений, взятых из одного видеокадра, но из разных мест. Поскольку эти фрагменты имеют такое же визуальное качество, как изображения в реальных кадрах, и поскольку они получены из тех же видео, что и изображения в реальных парах, парный дискриминатор фактически перестает обращать внимание на качество изображения, не может просто переобучиться на статистике сцен в наборе данных видео, и должен сфокусироваться на поиске парных несоответствий в фиктивных парах. Этот метод выборки можно использовать для значительного улучшения качества модели.[0022] During training, the goal of the paired discriminator is to focus on the inconsistencies in each pair, and the goal of the static discriminator is to focus on visual quality. Also, since the pairwise discriminator only sees real frames selected from a limited number of videos, it may be prone to overfitting on this limited set and actually stop contributing to the learning process (while a static discriminator observing a more diverse set of scenes continues to improve model diversity). It turned out that both problems (focusing on image quality rather than pairwise consistency, overfitting on a limited variety of videos) can be solved with a simple method. It lies in the fact that a fictitious set of frames is supplemented with pairs of image fragments taken from the same video frame, but from different places. Since these fragments have the same visual quality as images in real frames, and since they are obtained from the same videos as images in real pairs, the pair discriminator actually stops paying attention to image quality, cannot simply retrain on the statistics of scenes in the set video data, and should focus on finding pair mismatches in dummy pairs. This sampling method can be used to greatly improve the quality of the model.
[0023] Выборка видео из модели. Модель не пытается обучиться полной временной динамике видео, а фокусируется на парной согласованности кадров, которые генерируются при повторной выборке динамических латентных переменных. В частности, парный дискриминатор в модели не производит выборку реальных кадров последовательно. Процедура выборки для фиктивных пар также не пытается генерировать смежные кадры. Одной из причин, почему описанная фаза обучения не пытается обучиться непрерывности, заключается в том, что обучающий набор данных содержит видео с широко варьирующимися временными коэффициентами, что делает фактически бессмысленным понятие временной близости для пары кадров.[0023]Sample video from model. The model does not try to learn the full temporal dynamics of the video, but focuses on pairwise consistency. frames that are generated by resampling dynamic latent variables. In particular, the pairwise discriminator in the model does not sample real frames sequentially. The sampling procedure for dummy pairs also does not attempt to generate contiguous frames. One of the reasons why the described training phase does not attempt to learn continuity is that the training dataset contains videos with widely varying temporal coefficients, which makes the notion of temporal proximity for a pair of frames virtually meaningless.
[0024] По этой причине предложенный процесс генерации не зависит от модели движения. Генератор вынужден генерировать правдоподобные кадры независимо от изменений и . В ходе экспериментов было обнаружено, что для генерирования привлекательных видео достаточно описанной ниже простой модели движения. В частности, для выборки видео можно выбрать один статический вектор из единичного нормального распределения, а затем интерполировать динамический латентный вектор между двумя единичными нормально распределенными выборками и . Для пространственных отображений также можно выбрать и из единичного нормального распределения, а затем непрерывно деформировать тензор, используя преобразование гомографии, параметризованное смещениями двух верхних углов и двух точек на горизонте. Направление гомографии выбирается произвольно, скорость выбирается в соответствии со средней скоростью облаков в наборе обучающих данных. Гомография транспонируется по вертикали для положений ниже горизонта, чтобы имитировать процесс отражения. Для получения можно сделать композицию из идентичных преобразований, а затем применить ее к . По мере интерполяции/деформации латентных переменных они проходят через обученную модель для получения плавных видео. Следует отметить, что описываемая модель не требует пользовательского ввода для конкретного изображения.[0024] For this reason, the proposed generation process is independent of the motion model. The generator is forced to generate believable frames regardless of changes And. Through experimentation, it has been found that the simple motion model described below is sufficient to generate compelling videos. In particular, one static vector can be selected for video sampling from a unit normal distribution and then interpolate a dynamic latent vector between two unit normally distributed samples And .For spatial mappings can also be selected And from a unit normal distribution and then deform continuously tensor using a homography transformation parameterized by the offsets of the top two corners and the two horizon points. The direction of the homography is chosen arbitrarily, the speed is chosen according to the average speed of the clouds in the training dataset. The homography is transposed vertically for positions below the horizon to simulate the reflection process. For getting you can make a composition identical transformations, and then apply it to. As the latent variables are interpolated/warped, they are passed through the trained model to produce smooth videos. It should be noted that the described model does not require user input for a particular image.
[0025] Анимация реальных изображений пейзажа с помощью модели. Стадия использования. Чтобы анимировать определенное изображение пейзажа , выводится набор латентных переменных, которые генерируют такое изображение в генераторе. Отыскиваются расширенные латентные параметры и , так чтобы После этого можно применить ту же процедуру, что и выше, для анимации данного изображения.[0025] Animation of real scenery images using the . stage of use. To animate a specific landscape image , a set of latent variables is displayed that generate such an image in the generator. Searching for extended latent parameters And , so that After that, you can apply the same procedure as above to animate this image.
[0026] Латентное пространство генератора является высокоизбыточным, и для получения хорошей анимации необходимо гарантировать, что латентные переменные происходят примерно из того же распределения, что и во время обучения модели (что наиболее важно, должна принадлежать выходному многообразию ). Без такого предварительного распределения латентные переменные, которые генерируют хорошую реконструкцию, могли бы все же привести к неправдоподобной анимации (или ее отсутствию). Следовательно, вывод можно реализовать, используя следующую трехэтапную процедуру:[0026] The latent space of the generator is highly redundant, and to get good animation it is necessary to ensure that the latent variables come from approximately the same distribution as during model training (most importantly, must belong to the output manifold ). Without this predistribution, latent variables that generate a good reconstruction might still result in implausible animation (or no animation). Therefore, the output can be implemented using the following three-step procedure:
1. Этап 1: прогнозируется набор векторов стиля используя сеть кодировщика прямого распространения. Кодировщик имеет архитектуру ResNet-152 и обучен на 200000 синтетических изображениях со средней абсолютной потерей на ошибки. предсказывается двухслойным персептроном с ReLU на основе конкатенации признаков с нескольких слоев ResNet, агрегированных глобальным усредняющим пулингом. 1. Stage 1 : a set of style vectors is predicted using encoder network direct distribution. The encoder has a ResNet-152 architecture and is trained on 200,000 synthetic images with an average absolute error loss. predicted by a two-layer perceptron with ReLU based on the concatenation of features from multiple ResNet layers aggregated by global average pooling.
2. Этап 2: начиная с ' и нулевого , все латентные параметры оптимизируются для уменьшения ошибки реконструкции. Кроме того, назначаются штрафы на отклонение от прогнозируемого (с коэффициентом 0,01) и отклонение S от нуля (путем снижения скорости обучения). Оптимизация выполняется в процессе вплоть до 500 шагов с ADAM и большой начальной скоростью обучения (0,1), которая уменьшается вдвое каждый раз, когда потери не улучшаются в течение 20 итераций. В одном варианте метода, который оценивался отдельно, используется двоичная маска сегментации, полученная с помощью предварительно обученной сети сегментации ADE20k. Эта маска определяет динамические (небо + вода) и остальные (статические) части сцены. В данном варианте (соответственно, ) сохраняются нулевыми для динамических (соответственно, статических) частей изображения. 2. Stage 2: beginning with' and zero, all latent parameters are optimized to reduce the reconstruction error. In addition, penalties are imposed for deviation from the predicted (with a factor of 0.01) and the deviation of S from zero (by reducing the learning rate). Optimization is done in process up to 500 steps with ADAM and a large initial learning rate (0.1), which is halved every time the loss does not improve over 20 iterations. One variant of the method, which was evaluated separately, uses a binary segmentation mask obtained from a pretrained ADE20k segmentation network. This mask defines the dynamic (sky + water) and the rest (static) parts of the scene. In this variant (respectively,) are kept zero for dynamic (respectively, static) parts of the image.
3. Этап 3: замораживаются латентные параметры, и производится тонкая настройка весов для дальнейшего уменьшения ошибки на реконструкцию. Этот этап необходим, так как даже после оптимизации остается расхождение между реконструкцией и введенным изображением. Во время тонкой настройки минимизируется комбинация попиксельной средней абсолютной ошибки и потери восприятия, причем последняя имеет гораздо больший вес (10х). Выполняется 500 шагов с ADAM и =0,001. 3. Stage 3 : latent parameters are frozen and the scale is fine-tuned to further reduce the reconstruction error . This step is necessary because even after optimization there is a discrepancy between the reconstruction and the input image. During fine tuning, the combination of per-pixel mean absolute error and perceptual loss is minimized, with the latter having a much higher weight (10x). Perform 500 steps with ADAM and =0.001.
[0027] Манипулирование освещением. Во время обучения модели используется для отображения в Осуществляется повторная выборка , чтобы учесть изменения освещения, погоды и т.п. и чтобы описывала только статические атрибуты (землю, строения, форму горизонта и т.д.). Для изменения освещения в реальном изображении необходимо изменить , а затем использовать MLP для получения новых стилей . Однако описанная процедура вывода выдает только и было обнаружено, что очень сложно инвертировать и получить [0027] Lighting Manipulation . During model training used to display in Resampling in progress to account for changes in lighting, weather, etc. and to described only static attributes (land, buildings, horizon shape, etc.). To change the lighting in the real image, you need to change and then use MLP to get the new styles . However, the described inference procedure only produces and it was found to be very difficult to invert and get
Для решения этой проблемы отдельную нейросеть обучают аппроксимировать локальные динамические параметры . Пусть и тогда оптимизируется следующим образом: , где - коэффициент интерполяции между и . Таким образом, с=0 соответствует , так что ; c=1 соответствует , так что .To solve this problem, a separate neural network train to approximate local dynamic parameters . Let be And then is optimized as follows: , where - interpolation factor between And . So c=0 corresponds to , so ; c=1 matches , so .
[0028] Это реализуется комбинацией L1 потери и относительной потери направления . Общий критерий оптимизации: . обучается с ADAM до схождения. Во время тестирования сеть позволяет сделать выборку случайной цели и обновить в соответствии с ней путем увеличения коэффициента интерполяции по мере продвижения анимации.[0028] This is implemented by the combination of loss L1 and relative loss of direction . General optimization criterion: . trains with ADAM until convergence. During testing, the network allows you to select a random target and update according to it by increasing the interpolation factor as the animation progresses.
[0029] Суперразрешение (SR). Поскольку модели обучаются при среднем разрешении (например, 256×256), можно получить мелкие детали из данного изображения, подлежащего анимации, с помощью отдельной процедуры суперразрешения. Основная идея метода суперразрешения состоит в том, чтобы как можно больше позаимствовать из исходного изображения с высоким разрешением (которое подвергается субдискретизации для анимации с помощью ). Для этого анимации придается суперразрешение, и она смешивается с исходным изображением с помощью стандартного метода получения суперразрешения изображения. Можно использовать ESRGANx4, обученный на специальном наборе данных, который генерируется следующим образом. Чтобы получить пару (высокое разрешение, низкое разрешение), берется кадр из набора данных видео в качестве изображения с высоким разрешением, затем кадр подвергается субдискретизации, выполняются первые два этапа логического вывода и получается изображение с низким разрешением (неидеальное). Таким образом, сеть обучается на более сложной задаче, чем суперразрешение.[0029] Super resolution (SR). Since the models are trained at a medium resolution (eg 256x256), fine details can be obtained from a given image to be animated using a separate super-resolution procedure. The main idea of the super resolution method is to borrow as much as possible from the original high resolution image (which is subsampled for animation with ). This animation is super-resised and blended with the original image using the standard image super-resizing method. You can use ESRGANx4 trained on a custom dataset that is generated as follows. To get a pair (high resolution, low resolution), a frame is taken from the video dataset as a high-resolution image, then the frame is down-sampled, the first two steps of inference are performed, and a low-resolution (non-ideal) image is obtained. Thus, the network is trained on a more complex task than super resolution.
[0030] После получения видео с суперразрешением динамические части (небо и вода) переносятся из него в окончательный результат. Статические части получаются путем запуска направляемого фильтра на кадрах с суперразрешением при использовании введенного изображения высокого разрешения в качестве ориентира. Такая процедура эффективно передает детали с высоким разрешением из ввода, сохраняя при этом изменение освещения, вызванное манипуляцией освещением.[0030] After receiving the super-resolution video, the dynamic parts (sky and water) are transferred from it to the final result. The static parts are obtained by running a guided filter on super-resolution frames, using an input high-resolution image as a guide. Such a procedure effectively captures high-resolution detail from the input while preserving the lighting change caused by the lighting manipulation.
[0031] По меньшей мере один из множества модулей, узлов, компонентов, этапов, подэтапов можно реализовать в модели искусственного интеллекта (ИИ)). Функцию, связанную с ИИ, можно выполнять с использованием энергонезависимой памяти, энергозависимой памяти и процессора. Процессор может включать в себя один или несколько процессоров. При этом один или несколько процессоров могут быть процессором общего назначения, например, центральным процессором (ЦП), процессором приложений (ПП) или т.п., блоком обработки только графики, таким как графический процессор (ГП), процессор визуальной информации (ПВИ) и/или специализированный процессор ИИ, такой как нейронный процессор (НП). Один или несколько процессоров управляют обработкой входных данных в соответствии с заранее определенным рабочим правилом или моделью искусственного интеллекта (ИИ), хранящейся в энергонезависимой памяти и энергозависимой памяти. Заранее определенное рабочее правило или модель искусственного интеллекта предоставляется посредством обучения. В данном контексте предоставление посредством обучения означает, что предварительно определенное рабочее правило или модель ИИ с желаемой характеристикой генерируется посредством применения алгоритма обучения к множеству обучающих данных. Обучение может выполняться на самом устройстве, в котором реализуется ИИ согласно варианту осуществления, и/или может быть реализовано через отдельный сервер/систему.[0031] At least one of a plurality of modules, nodes, components, steps, sub-steps can be implemented in an artificial intelligence (AI) model). An AI-related function can be performed using non-volatile memory, volatile memory, and a processor. The processor may include one or more processors. Here, one or more processors may be a general purpose processor such as a central processing unit (CPU), an application processor (AP) or the like, a graphics-only processing unit such as a graphics processing unit (GPU), a visual information processor (VIP) and/or a dedicated AI processor such as a Neural Processor (NP). One or more processors direct the processing of input data in accordance with a predetermined operating rule or artificial intelligence (AI) model stored in non-volatile memory and non-volatile memory. A predetermined operating rule or artificial intelligence model is provided through training. In this context, provision by training means that a predetermined operating rule or AI model with a desired performance is generated by applying a learning algorithm to a set of training data. The training may be performed on the device itself in which the AI is implemented according to the embodiment and/or may be implemented via a separate server/system.
[0032] Модель ИИ может состоять из множества слоев нейронной сети. Каждый слой имеет множество значений весов и выполняет работу слоя путем вычисления предыдущего слоя и работы с множеством весов. Примеры нейронных сетей включают в себя, без ограничения перечисленным, сверточную нейросеть (CNN), глубокую нейросеть (DNN), рекуррентную нейросеть (RNN), ограниченную машину Больцмана (RBM), глубокую сеть доверия (DBN), двунаправленную рекуррентную глубокую нейросеть (BRDNN), генеративные состязательные сети (GAN) и глубокие Q-сети. Алгоритмом обучения является метод обучения заранее определенного целевого устройства (например, робота) с использованием множества обучающих данных для того, чтобы побудить, разрешать или контролировать целевое устройство для выполнения определения или прогнозирования. Примеры алгоритмов обучения включают в себя, без ограничения, обучение с учителем, обучение без учителя, обучение c частичным привлечением учителя или обучение с подкреплением.[0032] An AI model may be composed of multiple neural network layers. Each layer has a set of weights and does the work of the layer by calculating the previous layer and operating on the set of weights. Examples of neural networks include, but are not limited to, Convolutional Neural Network (CNN), Deep Neural Network (DNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN) , generative adversarial networks (GANs), and deep Q-nets. The learning algorithm is a method of training a predetermined target device (eg, a robot) using a plurality of training data to induce, enable, or control the target device to perform a determination or prediction. Examples of learning algorithms include, without limitation, supervised learning, unsupervised learning, partially supervised learning, or reinforcement learning.
[0033] Следует четко понимать, что нет необходимости использовать все технические эффекты, упомянутые в данном документе, во всех и каждом варианте осуществления настоящего способа. Например, варианты осуществления могут быть реализованы без использования пользователем некоторых из этих технических эффектов, а другие варианты могут быть реализованы с использованием других технических эффектов или вообще без них.[0033] It should be clearly understood that it is not necessary to use all the technical effects mentioned in this document, in each and every embodiment of the present method. For example, embodiments may be implemented without the user using some of these technical effects, and other embodiments may be implemented with or without other technical effects.
[0034] Модификации и усовершенствования описанных выше реализаций предложенного способа могут быть очевидными для специалистов в данной области техники. Приведенное выше описание предназначено скорее для примера, чем для ограничения. Таким образом, объем настоящего изобретения ограничивается только объемом прилагаемой формулы изобретения.[0034] Modifications and improvements to the implementations of the proposed method described above may be apparent to those skilled in the art. The above description is intended to be illustrative rather than limiting. Thus, the scope of the present invention is limited only by the scope of the appended claims.
[0035] Хотя представленные выше варианты осуществления были описаны и показаны со ссылкой на конкретные этапы, выполняемые в определенном порядке, следует понимать, что эти этапы можно объединить, разделить на части или изменить порядок их выполнения, не выходя за рамки объема настоящего изобретения. Соответственно, порядок и группировка этапов не являются ограничением предложенного способа.[0035] While the above embodiments have been described and shown with reference to specific steps performed in a particular order, it should be understood that these steps can be combined, subdivided, or reordered without departing from the scope of the present invention. Accordingly, the order and grouping of steps is not a limitation of the proposed method.
Claims (25)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020133033A RU2768551C1 (en) | 2020-10-07 | 2020-10-07 | Method for local generation and representation of wallpaper stream and computer implementing it |
PCT/KR2021/000224 WO2022075533A1 (en) | 2020-10-07 | 2021-01-08 | Method of on-device generation and supplying wallpaper stream and computing device implementing the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2020133033A RU2768551C1 (en) | 2020-10-07 | 2020-10-07 | Method for local generation and representation of wallpaper stream and computer implementing it |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2768551C1 true RU2768551C1 (en) | 2022-03-24 |
Family
ID=80819470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2020133033A RU2768551C1 (en) | 2020-10-07 | 2020-10-07 | Method for local generation and representation of wallpaper stream and computer implementing it |
Country Status (2)
Country | Link |
---|---|
RU (1) | RU2768551C1 (en) |
WO (1) | WO2022075533A1 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6202083B1 (en) * | 1998-05-18 | 2001-03-13 | Micron Electronics, Inc. | Method for updating wallpaper for computer display |
JP2004357176A (en) * | 2003-05-30 | 2004-12-16 | V-Cube Inc | Wallpaper image creation system |
US20120023425A1 (en) * | 2009-11-13 | 2012-01-26 | Google Inc. | Live Wallpaper |
US20150205498A1 (en) * | 2014-01-17 | 2015-07-23 | Southern Telecom Inc. | Automatic wallpaper image changer for a computing device |
EP2696338B1 (en) * | 2012-08-08 | 2017-11-29 | Samsung Electronics Co., Ltd | Terminal and method for generating live image |
CN107817999A (en) * | 2016-08-31 | 2018-03-20 | 上海卓易科技股份有限公司 | The generation method and terminal of a kind of dynamic wallpaper |
DE102019102279A1 (en) * | 2018-02-14 | 2019-08-14 | Nvidia Corporation | Generation of synthetic images for training a neuronal network model |
CN106354385B (en) * | 2016-08-26 | 2020-03-13 | Oppo广东移动通信有限公司 | Image processing method and device and terminal equipment |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8843853B1 (en) * | 2006-12-05 | 2014-09-23 | At&T Mobility Ii Llc | Home screen user interface for electronic device display |
US10726593B2 (en) * | 2015-09-22 | 2020-07-28 | Fyusion, Inc. | Artificially rendering images using viewpoint interpolation and extrapolation |
US11049147B2 (en) * | 2016-09-09 | 2021-06-29 | Sony Corporation | System and method for providing recommendation on an electronic device based on emotional state detection |
CN108604246A (en) * | 2016-12-29 | 2018-09-28 | 华为技术有限公司 | A kind of method and device adjusting user emotion |
US10748314B2 (en) * | 2018-02-15 | 2020-08-18 | Microsoft Technology Licensing, Llc | Controllable conditional image generation |
-
2020
- 2020-10-07 RU RU2020133033A patent/RU2768551C1/en active
-
2021
- 2021-01-08 WO PCT/KR2021/000224 patent/WO2022075533A1/en active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6202083B1 (en) * | 1998-05-18 | 2001-03-13 | Micron Electronics, Inc. | Method for updating wallpaper for computer display |
JP2004357176A (en) * | 2003-05-30 | 2004-12-16 | V-Cube Inc | Wallpaper image creation system |
US20120023425A1 (en) * | 2009-11-13 | 2012-01-26 | Google Inc. | Live Wallpaper |
EP2696338B1 (en) * | 2012-08-08 | 2017-11-29 | Samsung Electronics Co., Ltd | Terminal and method for generating live image |
US20150205498A1 (en) * | 2014-01-17 | 2015-07-23 | Southern Telecom Inc. | Automatic wallpaper image changer for a computing device |
CN106354385B (en) * | 2016-08-26 | 2020-03-13 | Oppo广东移动通信有限公司 | Image processing method and device and terminal equipment |
CN107817999A (en) * | 2016-08-31 | 2018-03-20 | 上海卓易科技股份有限公司 | The generation method and terminal of a kind of dynamic wallpaper |
DE102019102279A1 (en) * | 2018-02-14 | 2019-08-14 | Nvidia Corporation | Generation of synthetic images for training a neuronal network model |
Also Published As
Publication number | Publication date |
---|---|
WO2022075533A1 (en) | 2022-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fan et al. | Unified implicit neural stylization | |
KR20210119438A (en) | Systems and methods for face reproduction | |
US11544880B2 (en) | Generating modified digital images utilizing a global and spatial autoencoder | |
US11544905B2 (en) | Method and apparatus for providing virtual clothing wearing service based on deep-learning | |
WO2022089166A1 (en) | Facial image processing method and apparatus, facial image display method and apparatus, and device | |
US20230401672A1 (en) | Video processing method and apparatus, computer device, and storage medium | |
CN112102477A (en) | Three-dimensional model reconstruction method and device, computer equipment and storage medium | |
Logacheva et al. | Deeplandscape: Adversarial modeling of landscape videos | |
TW202336694A (en) | Integrated machine learning algorithms for image filters | |
CN113240687A (en) | Image processing method, image processing device, electronic equipment and readable storage medium | |
CN114972574A (en) | WEB-based digital image real-time editing using latent vector stream renderer and image modification neural network | |
US11989846B2 (en) | Mixture of volumetric primitives for efficient neural rendering | |
CN112381707A (en) | Image generation method, device, equipment and storage medium | |
Ouyang et al. | Real-time neural character rendering with pose-guided multiplane images | |
US20210407153A1 (en) | High-resolution controllable face aging with spatially-aware conditional gans | |
US11677897B2 (en) | Generating stylized images in real time on mobile devices | |
RU2768551C1 (en) | Method for local generation and representation of wallpaper stream and computer implementing it | |
US20240062495A1 (en) | Deformable neural radiance field for editing facial pose and facial expression in neural 3d scenes | |
US11935217B2 (en) | Generating deep harmonized digital images | |
WO2022256167A1 (en) | Video reenactment taking into account temporal information | |
EP4272173A1 (en) | Flow-guided motion retargeting | |
CN114418835A (en) | Image processing method, apparatus, device and medium | |
CN116071478B (en) | Training method of image reconstruction model and virtual scene rendering method | |
US20240185393A1 (en) | Learning parameters for an image harmonization neural network to generate deep harmonized digital images | |
US20240155071A1 (en) | Text to video generation |