RU2245580C2 - Способ представления человека - Google Patents

Способ представления человека Download PDF

Info

Publication number
RU2245580C2
RU2245580C2 RU2001122361/09A RU2001122361A RU2245580C2 RU 2245580 C2 RU2245580 C2 RU 2245580C2 RU 2001122361/09 A RU2001122361/09 A RU 2001122361/09A RU 2001122361 A RU2001122361 A RU 2001122361A RU 2245580 C2 RU2245580 C2 RU 2245580C2
Authority
RU
Russia
Prior art keywords
artificial
dimensional object
person
face
characteristic areas
Prior art date
Application number
RU2001122361/09A
Other languages
English (en)
Other versions
RU2001122361A (ru
Inventor
А.В. Свириденко (RU)
А.В. Свириденко
Original Assignee
Свириденко Андрей Владимирович
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Свириденко Андрей Владимирович filed Critical Свириденко Андрей Владимирович
Priority to RU2001122361/09A priority Critical patent/RU2245580C2/ru
Publication of RU2001122361A publication Critical patent/RU2001122361A/ru
Application granted granted Critical
Publication of RU2245580C2 publication Critical patent/RU2245580C2/ru

Links

Abstract

Изобретение относится к средствам связи в компьютерных сетях. Его использование для представления человека при интерактивном общении по сети позволяет обеспечить технический результат в виде повышения точности и надежности этого отражения. Способ включает в себя: преобразование речи в электрический цифровой сигнал; передачу этого сигнала к звуковоспроизводящему устройству; преобразование изображения человеческого лица в электрический цифровой сигнал; распознавание человеческого лица, его характерных областей и характеристик их движения; передачу распознанной информации по каналам связи к устройству вывода графической информации; визуализацию искусственного трехмерного объекта на устройстве вывода графической информации; управление изменениями формы и пространственной ориентации искусственного трехмерного объекта и его характерных областей. Технический результат достигается за счет того, что способ дополнительно содержит: выявление ошибок при распознавании лица, его характерных областей и характеристик их движения путем определения несоответствий между конфигурациями характерных областей лица и характеристиками их движения говорящего человека в электрических цифровых сигналах; и исправление ошибок перед визуализацией искусственного трехмерного объекта путем формирования команд управления по предварительно записанным признакам формы и ориентации искусственного трехмерного объекта и его характерных областей для характеристик речи. 2 з.п. ф-лы, 1 ил.

Description

Изобретение относится к области телекоммуникаций с помощью электронных средств, в частности компьютерных сетей. Более конкретно изобретение относится к способам представления человека на устройствах отображения графической информации.
Известны способы представления человека на дисплее компьютера при телекоммуникациях в компьютерных сетях посредством искусственных трехмерных объектов, так называемых анимированных чатов (см., например, R.Lea, Y.Honda, K.Matsuda, and S.Matsuda. Community Place: Architecture and Performance, in Proceedings of the VRML'97 Symposium, ACM SIGGRAPH, 1997, p. 41-49).
Наиболее близким к предлагаемому является способ представления человека посредством искусственного трехмерного объекта на основе видео и аудиоинформации при телекоммуникации в компьютерных сетях (см., например, http://www.worldsaway.com)
Этот способ и выбирается в качестве прототипа. Способ-прототип включает преобразование с помощью микрофона аудиоинформации, включающей речь человека, в цифровой электрический сигнал, операцию передачи этого сигнала по каналам связи к звуковоспроизводящему устройству, операцию преобразования с помощью видеокамеры изображения сцены, включающей лицо человека, в электрический цифровой сигнал, операцию распознавания лица человека, его характерных областей и характеристик их движения, операцию передачи вышеупомянутой информации по каналу связи, операцию визуализации искусственного трехмерного объекта на устройстве вывода графической информации, операции управления изменениями формы, пространственной ориентации искусственного трехмерного объекта и его характерных областей.
В способе-прототипе электронный цифровой сигнал, соответствующий лицу человека, его характерным областям и характеристикам их движения поступает непосредственно на визуализацию искусственного трехмерного объекта и с его помощью производится управление изменениями формы и пространственной ориентацией искусственного трехмерного объекта. Поскольку он содержит, кроме достоверной информации, также и ошибки распознавания, связанные с несовершенством метода и технических средств распознавания, то способ-прототип имеет следующие недостатки:
- искажения формы искусственного трехмерного объекта в целом;
- искажение характерных областей искусственного трехмерного объекта;
- искажение движений, мимики и жестов искусственного трехмерного объекта.
Упомянутые недостатки приводят к тому, что искусственный трехмерный объект неадекватно отражает человека и его поведение и, соответственно, способ-прототип обладает плохой точностью и надежностью представления человека при телекоммуникациях.
Техническим результатом предлагаемого способа представления человека при телекоммуникациях является повышение точности отражения эмоциональных состояний человека в процессе телекоммуникаций.
Другим техническим результатом предложенного способа является повышение его надежности за счет исключения потери информации, связанной с несовершенством технических средств и методов распознавания на основе видеоинформации.
Эти технические результаты достигнуты в способе представления человека посредством искусственного трехмерного объекта на устройстве вывода графической информации на основе аудио- и видеоинформации при телекоммуникациях в компьютерных сетях, включающем в себя: операцию преобразования аудиоинформации, содержащей человеческую речь, с помощью микрофона в электрический цифровой сигнал; операцию передачи этого сигнала по каналам связи к звуковоспроизводящему устройству; операцию преобразования изображения сцены, содержащей человеческое лицо, с помощью видеокамеры в электрический цифровой сигнал; операцию распознавания в этой сцене упомянутого человеческого лица, его характерных областей и характеристик их движения; операцию передачи вышеупомянутой распознанной информации по каналам связи к устройству вывода графической информации; операцию визуализации искусственного трехмерного объекта на упомянутом устройстве вывода графической информации; операцию управления изменениями формы и пространственной ориентации искусственного трехмерного объекта и его характерных областей, который дополнительно содержит: операцию выявления ошибок при распознавании человеческого лица, его характерных областей и характеристик их движения путем определения несоответствий между конфигурациями характерных областей человеческого лица и характеристиками их движения говорящего человека, содержащимися в упомянутых электрических цифровых сигналах; и операцию исправления упомянутых ошибок перед визуализацией искусственного трехмерного объекта путем формирования команд управления с использованием предварительно записанных признаков формы и пространственной ориентации искусственного трехмерного объекта и его характерных областей, соответствующих характеристикам речи.
Отличия способа согласно изобретению заключаются также в том, что операцию выявления ошибок распознавания лица человека, его характерных областей и характеристик их движения осуществляют путем определения несоответствий конфигураций характерных областей лица человека и характеристик их движения в речи человека, содержащихся в цифровых сигналах, соответствующих видео- и аудиоинформации, а операцию исправления упомянутых ошибок распознавания перед визуализацией искусственного трехмерного объекта производят путем формирования упомянутых по крайней мере части команд управления на основе аудиоинформации.
Отличия второго варианта способа согласно изобретению заключаются также в том, что операцию выявления ошибок распознавания лица человека, его характерных областей и характеристик их движения осуществляют путем определения несоответствий конфигураций характерных областей лица человека и характеристик их движения в речи человека, содержащихся в цифровых сигналах, соответствующих видеоинформации и модели поведения искусственного трехмерного объекта, включающей в себя набор характерных жестов и мимики, а операцию исправления упомянутых ошибок распознавания перед визуализацией искусственного трехмерного объекта производят путем формирования упомянутых команд управления на основе упомянутой модели поведения.
Способ представления человека посредством искусственного трехмерного объекта согласно изобретению поясняется чертежом.
Способ представления человека согласно настоящему изобретению предполагает предварительное проведение операции 1 создания модели поведения искусственного трехмерного объекта. Модель поведения может представлять собой наборы конфигурации характерных областей лица искусственного трехмерного объекта, например, нескольких конфигураций рта, соответствующих различным возможным эмоциональным состояниям искусственного трехмерного объекта. В модель поведения могут быть включены и дополнительные взаимные расположения различных характерных областей лица искусственного трехмерного объекта, например, глаза всегда могут располагаться надо ртом, а брови над глазами. В модель поведения могут быть включены также значения предельно допустимых скоростей перемещения и углов поворота лица искусственного трехмерного объекта в различных направлениях. Перечисленным выше не ограничиваются все возможные варианты моделей поведения. Модели поведения могут представлять собой и различные комбинации статических и динамических параметров. Модели могут быть представлены в виде цифровых кодов, записаны в запоминающее устройство (операция 2) и считываться (операция 3) из запоминающего устройства в виде цифровых электрических сигналов.
Способ включает следующие операции:
- операцию 4 получения в последовательные моменты времени видеоизображения сцены, включающей, по крайней мере, лицо одного человека - первого участника телекоммуникаций;
- операцию 5 получение аудиоинформации, включающей, речь первого участника телекоммуникаций;
- операцию 6 обнаружение лица первого участника телекоммуникаций и распознавание его характерных областей в каждом из последовательных моментов времени;
- операцию 7 определение конфигураций характерных областей лица человека из аудиоинформации;
- операцию 8 формирования цифрового сигнала, соответствующего распознанному на основе видеоинформации лицу человека и его характерным областям;
- операцию 9 формирования цифрового сигнала, соответствующего распознанному на основе аудиоинформации лицу человека и его характерным областям;
- операцию 10 выявления ошибок распознавания лица человека и его характерных областей (например, рта, глаз и т.д.) и характеристик их движения (например, направлений, скорости, углов поворота);
- операцию 11 исправления упомянутых выше ошибок;
- операцию 12 визуализации человека посредством искусственного трехмерного объекта на устройстве вывода графической информации (например, дисплее компьютера). Согласно первому варианту предложенного способа операцию 10 выявления ошибок распознавания лица человека, его характерных областей и характеристик их движения осуществляют путем определения несоответствий конфигураций характерных областей лица человека и характеристик их движения речи человека, содержащихся в цифровых сигналах, соответствующих видео и аудиоинформации, а операцию 11 исправления упомянутых ошибок распознавания перед операцией визуализации 12 искусственного трехмерного объекта, производят путем формирования упомянутых по крайней мере части команд управления на основе аудиоинформации. Например, если в течение некоторого промежутка времени аудиоинформация содержит признаки речи, а видеоинформация таких не содержит (например, конфигурация рта не изменяется в это время), то формирует команду на изменение конфигурации рта. При этом, если аудиоинформация содержит признаки смеха, то формирует команду на изменение конфигурации рта, соответствующее улыбке. При этом используют предварительно записанные в постоянное запоминающие устройство признаки формы, пространственной ориентации искусственного трехмерного объекта и его характерных областей, например рта и глаз, соответствующим характеристикам речи. Записанная в постоянное запоминающее устройство информация включает наборы взаимных сочетаний характеристик речи и геометрических форм, например, если аудиоинформация содержит признаки смеха, то видео информация должна содержать признаки улыбки. Если в поступающей для интерпретации информации такое соответствие отсутствует, то, следуя этому правилу, выдают команду отображения улыбки при визуализации трехмерного искусственного объекта. Если аудиоинформация содержит признаки печали, а видеоинформация таких признаков не содержит, то подбирают соответствующую конфигурацию рта и других характерных областей лица. Согласно второму варианту предложенного способа операцию 10 выявления ошибок осуществляют путем определения несоответствий конфигураций характерных областей лица человека и характеристик их движения речи человека, содержащихся в цифровых сигналах, соответствующих видеоинформации и модели поведения искусственного трехмерного объекта, созданной на операции 1, набор характерных жестов и мимики. При этом операцию исправления упомянутых ошибок распознавания перед визуализацией искусственного трехмерного объекта производят путем формирования упомянутых команд управления на основе упомянутой модели поведения с использованием предварительно записанных форм, пространственной ориентации искусственного трехмерного объекта и его характерных областей, соответствующих характеристикам речи. Например, если перемещение лица человека по сцене выявленное из видеоинформации происходит со скоростью, превышающей допустимую, то есть на соответствующей модели поведения, то при визуализации скорость задают в соответствии с моделью поведения искусственного трехмерного объекта. Таким же образом исправляют и другие ошибки распознавания в углах поворотов лица, жестов и мимике.
Способ согласно изобретению может быть использован, например для обмена информацией между, по крайней мере, двумя лицами, находящимися на большом расстоянии друг от друга, и связанными между собой какими-либо каналами связи. В качестве канала связи может быть использована, например, компьютерная сеть Internet. Участники телекоммуникации должны быть оснащены техническими средствами, включающими видеокамеру, микрофон, компьютер с программным обеспечением для поддержки телекоммуникации. Программное обеспечение кроме операционной системы должно включать, например, программу, которая позволяет в реальном масштабе времени производить обмен аудиоинформацией и видеоинформацией между по крайней мере двумя участниками в компьютерной сети.
Способ согласно изобретению может быть использован, например, при телекоммуникациях следующим образом. Первый участник телекоммуникации размещается в поле зрения объектива видеокамеры и перед микрофоном и делает речевые сообщения, сопровождаемые движениями. Видеокамера в дискретные последовательные моменты времени формирует видеоизображения сцены, включающей лицо этого первого участника телекоммуникации. Одновременно с этим микрофон формирует аудиоинформацию, включающую речь первого участника телекоммуникации и вырабатывает соответствующий цифровой сигнал. На технических средствах первого участника телекоммуникации с помощью программного обеспечения осуществляют операцию обнаружения на сложном фоне сцены в поле зрения видеокамеры лица первого участника телекоммуникации в каждом из последовательных моментов времени. Операция обнаружения лица производится, например, методом описанным в Jean-Christophe Terrillon, Mahdad N. Shirazi, Mohamed Sadek, Hideo Fukamachi, Shigeru Akamatsu “Invariant Face Detection with Support Vector Machines”, (p.4210, International Conference on Pattern Recognition (ICPR'00)-Volume 4, September 03-08, 2000, Barcelona, Spain). В результате операции обнаружения лица и слежения за его перемещением и поворотами в каждом из последовательных моментов времени формируется цифровой сигнал, несущий информацию о положении лица на сцене и конфигураций характерных областей лица (рта, глаз и т.д.). С помощью технических средств и программного обеспечения первого участника телекоммуникации упомянутые цифровые сигналы передаются по каналам связи на технические средства второго участника телекоммуникации. Одновременно с этим по каналам связи на технические средства второго участника телекоммуникации передается и цифровой сигнал, несущий аудиоинформацию, включая речевые сообщения первого участника телекоммуникации. Далее техническими средствами и программным обеспечением второго участника телекоммуникации производится упомянутые операции выявления и исправления ошибок распознавания и визуализация первого участника телекоммуникации. Приведенным примером, однако, не исчерпываются все возможные применения предложенного способа представления человека посредством искусственного трехмерного объекта. Способ может найти широкое применение в различных компьютерных технологиях.

Claims (3)

1. Способ представления человека посредством искусственного трехмерного объекта на устройстве вывода графической информации на основе аудио- и видеоинформации при телекоммуникациях в компьютерных сетях, включающий в себя операцию преобразования аудиоинформации, содержащей человеческую речь, с помощью микрофона в электрический цифровой сигнал; операцию передачи этого сигнала по каналам связи к звуковоспроизводящему устройству; операцию преобразования изображения сцены, содержащей человеческое лицо, с помощью видеокамеры в электрический цифровой сигнал; операцию распознавания в этой сцене упомянутого человеческого лица, его характерных областей и характеристик их движения; операцию передачи вышеупомянутой распознанной информации по каналам связи к устройству вывода графической информации; операцию визуализации искусственного трехмерного объекта на упомянутом устройстве вывода графической информации; операцию управления изменениями формы и пространственной ориентации искусственного трехмерного объекта и его характерных областей, отличающийся тем, что дополнительно содержит операцию выявления ошибок при распознавании человеческого лица, его характерных областей и характеристик их движения путем определения несоответствий между конфигурациями характерных областей человеческого лица и характеристиками их движения говорящего человека, содержащимися в упомянутых электрических цифровых сигналах; операцию исправления упомянутых ошибок перед визуализацией искусственного трехмерного объекта путем формирования команд управления с использованием предварительно записанных признаков формы и пространственной ориентации искусственного трехмерного объекта и его характерных областей, соответствующих характеристикам речи.
2. Способ представления человека посредством искусственного трехмерного объекта по п.1, отличающийся тем, что операцию выявления ошибок распознавания лица человека, его характерных областей и характеристик их движения осуществляют путем определения несоответствий конфигураций характерных областей лица человека и характеристик их движения в речи человека, содержащихся в цифровых сигналах, соответствующих видео- и аудиоинформации, а операцию исправления упомянутых ошибок распознавания перед визуализацией искусственного трехмерного объекта производят путем формирования упомянутых по крайней мере части команд управления на основе аудиоинформации.
3. Способ представления человека посредством искусственного трехмерного объекта по п.1, отличающийся тем, что операцию выявления ошибок распознавания лица человека, его характерных областей и характеристик их движения осуществляют путем определения несоответствий конфигураций характерных областей лица человека и характеристик их движения в речи человека, содержащихся в цифровых сигналах, соответствующих видеоинформации и модели поведения искусственного трехмерного объекта, включающей в себя набор характерных жестов и мимики, а операцию исправления упомянутых ошибок распознавания перед визуализацией искусственного трехмерного объекта производят путем формирования упомянутых команд управления на основе упомянутой модели поведения.
RU2001122361/09A 2001-08-10 2001-08-10 Способ представления человека RU2245580C2 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2001122361/09A RU2245580C2 (ru) 2001-08-10 2001-08-10 Способ представления человека

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2001122361/09A RU2245580C2 (ru) 2001-08-10 2001-08-10 Способ представления человека

Publications (2)

Publication Number Publication Date
RU2001122361A RU2001122361A (ru) 2003-06-27
RU2245580C2 true RU2245580C2 (ru) 2005-01-27

Family

ID=35139306

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2001122361/09A RU2245580C2 (ru) 2001-08-10 2001-08-10 Способ представления человека

Country Status (1)

Country Link
RU (1) RU2245580C2 (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012107860A1 (en) * 2011-02-07 2012-08-16 Yuri Salamatov Method of remote video communication and system of synthesis, analysis and protection of user video images
US8698914B2 (en) 2009-06-22 2014-04-15 S1 Corporation Method and apparatus for recognizing a protrusion on a face
RU2608001C2 (ru) * 2007-10-19 2017-01-11 Артек Груп, Инк. Система и способ для распознавания человека на основе биометрического поведенческого контекста

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
КОЛЬЦОВ Б.П., ЛЕБЕДЕВ О.Б. Музейные объекты в виртуальной реальности (опыт применения VRML-технологии). - 1999, с. 3 (доступно на сайте http://www.adit.ru/adit99/material/pd609_r.htm). *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2608001C2 (ru) * 2007-10-19 2017-01-11 Артек Груп, Инк. Система и способ для распознавания человека на основе биометрического поведенческого контекста
US8698914B2 (en) 2009-06-22 2014-04-15 S1 Corporation Method and apparatus for recognizing a protrusion on a face
WO2012107860A1 (en) * 2011-02-07 2012-08-16 Yuri Salamatov Method of remote video communication and system of synthesis, analysis and protection of user video images

Similar Documents

Publication Publication Date Title
Ji et al. Audio-driven emotional video portraits
Lavagetto et al. The facial animation engine: Toward a high-level interface for the design of MPEG-4 compliant animated faces
US6919892B1 (en) Photo realistic talking head creation system and method
US9030486B2 (en) System and method for low bandwidth image transmission
WO2021229415A1 (en) Method and system for virtual 3d communications
CN111402399B (zh) 人脸驱动和直播方法、装置、电子设备及存储介质
US11551393B2 (en) Systems and methods for animation generation
CN109872297A (zh) 图像处理方法及装置、电子设备和存储介质
JP2009533786A (ja) 自分でできるフォトリアリスティックなトーキングヘッド作成システム及び方法
CN1732687A (zh) 用于远程临场通信的方法、系统和装置
CN109492506A (zh) 图像处理方法、装置和系统
CN110446000A (zh) 一种生成对话人物形象的方法和装置
CN109814718A (zh) 一种基于Kinect V2的多模态信息采集系统
EP3407248B1 (en) An apparatus, a method and a computer program for video coding and decoding
CN108648251A (zh) 3d表情制作方法及系统
CN108810561A (zh) 一种基于人工智能的三维偶像直播方法及装置
RU2245580C2 (ru) Способ представления человека
CN116828129B (zh) 一种超清2d数字人生成方法及系统
CN116468992B (zh) 一种重复校正性监督空间识别与还原方法与装置
CN111797897A (zh) 一种基于深度学习的音频生成人脸图像方法
CN104780341B (zh) 一种信息处理方法以及信息处理装置
Ladwig et al. Unmasking Communication Partners: A Low-Cost AI Solution for Digitally Removing Head-Mounted Displays in VR-Based Telepresence
Eisert et al. Speech driven synthesis of talking head sequences
Chandrasiri et al. Real time facial expression recognition system with applications to facial animation in MPEG-4
CN111144287A (zh) 视听辅助交流方法、装置及可读存储介质

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20080811