RU2245580C2

RU2245580C2 - Способ представления человека

Info

Publication number: RU2245580C2
Application number: RU2001122361/09A
Authority: RU
Inventors: А.В. Свириденко (RU); А.В. Свириденко
Original assignee: Свириденко Андрей Владимирович
Priority date: 2001-08-10
Filing date: 2001-08-10
Publication date: 2005-01-27

Abstract

Изобретение относится к средствам связи в компьютерных сетях. Его использование для представления человека при интерактивном общении по сети позволяет обеспечить технический результат в виде повышения точности и надежности этого отражения. Способ включает в себя: преобразование речи в электрический цифровой сигнал; передачу этого сигнала к звуковоспроизводящему устройству; преобразование изображения человеческого лица в электрический цифровой сигнал; распознавание человеческого лица, его характерных областей и характеристик их движения; передачу распознанной информации по каналам связи к устройству вывода графической информации; визуализацию искусственного трехмерного объекта на устройстве вывода графической информации; управление изменениями формы и пространственной ориентации искусственного трехмерного объекта и его характерных областей. Технический результат достигается за счет того, что способ дополнительно содержит: выявление ошибок при распознавании лица, его характерных областей и характеристик их движения путем определения несоответствий между конфигурациями характерных областей лица и характеристиками их движения говорящего человека в электрических цифровых сигналах; и исправление ошибок перед визуализацией искусственного трехмерного объекта путем формирования команд управления по предварительно записанным признакам формы и ориентации искусственного трехмерного объекта и его характерных областей для характеристик речи. 2 з.п. ф-лы, 1 ил.

Description

Изобретение относится к области телекоммуникаций с помощью электронных средств, в частности компьютерных сетей. Более конкретно изобретение относится к способам представления человека на устройствах отображения графической информации.

Известны способы представления человека на дисплее компьютера при телекоммуникациях в компьютерных сетях посредством искусственных трехмерных объектов, так называемых анимированных чатов (см., например, R.Lea, Y.Honda, K.Matsuda, and S.Matsuda. Community Place: Architecture and Performance, in Proceedings of the VRML'97 Symposium, ACM SIGGRAPH, 1997, p. 41-49).

Наиболее близким к предлагаемому является способ представления человека посредством искусственного трехмерного объекта на основе видео и аудиоинформации при телекоммуникации в компьютерных сетях (см., например, http://www.worldsaway.com)

Этот способ и выбирается в качестве прототипа. Способ-прототип включает преобразование с помощью микрофона аудиоинформации, включающей речь человека, в цифровой электрический сигнал, операцию передачи этого сигнала по каналам связи к звуковоспроизводящему устройству, операцию преобразования с помощью видеокамеры изображения сцены, включающей лицо человека, в электрический цифровой сигнал, операцию распознавания лица человека, его характерных областей и характеристик их движения, операцию передачи вышеупомянутой информации по каналу связи, операцию визуализации искусственного трехмерного объекта на устройстве вывода графической информации, операции управления изменениями формы, пространственной ориентации искусственного трехмерного объекта и его характерных областей.

В способе-прототипе электронный цифровой сигнал, соответствующий лицу человека, его характерным областям и характеристикам их движения поступает непосредственно на визуализацию искусственного трехмерного объекта и с его помощью производится управление изменениями формы и пространственной ориентацией искусственного трехмерного объекта. Поскольку он содержит, кроме достоверной информации, также и ошибки распознавания, связанные с несовершенством метода и технических средств распознавания, то способ-прототип имеет следующие недостатки:

- искажения формы искусственного трехмерного объекта в целом;

- искажение характерных областей искусственного трехмерного объекта;

- искажение движений, мимики и жестов искусственного трехмерного объекта.

Упомянутые недостатки приводят к тому, что искусственный трехмерный объект неадекватно отражает человека и его поведение и, соответственно, способ-прототип обладает плохой точностью и надежностью представления человека при телекоммуникациях.

Техническим результатом предлагаемого способа представления человека при телекоммуникациях является повышение точности отражения эмоциональных состояний человека в процессе телекоммуникаций.

Другим техническим результатом предложенного способа является повышение его надежности за счет исключения потери информации, связанной с несовершенством технических средств и методов распознавания на основе видеоинформации.

Эти технические результаты достигнуты в способе представления человека посредством искусственного трехмерного объекта на устройстве вывода графической информации на основе аудио- и видеоинформации при телекоммуникациях в компьютерных сетях, включающем в себя: операцию преобразования аудиоинформации, содержащей человеческую речь, с помощью микрофона в электрический цифровой сигнал; операцию передачи этого сигнала по каналам связи к звуковоспроизводящему устройству; операцию преобразования изображения сцены, содержащей человеческое лицо, с помощью видеокамеры в электрический цифровой сигнал; операцию распознавания в этой сцене упомянутого человеческого лица, его характерных областей и характеристик их движения; операцию передачи вышеупомянутой распознанной информации по каналам связи к устройству вывода графической информации; операцию визуализации искусственного трехмерного объекта на упомянутом устройстве вывода графической информации; операцию управления изменениями формы и пространственной ориентации искусственного трехмерного объекта и его характерных областей, который дополнительно содержит: операцию выявления ошибок при распознавании человеческого лица, его характерных областей и характеристик их движения путем определения несоответствий между конфигурациями характерных областей человеческого лица и характеристиками их движения говорящего человека, содержащимися в упомянутых электрических цифровых сигналах; и операцию исправления упомянутых ошибок перед визуализацией искусственного трехмерного объекта путем формирования команд управления с использованием предварительно записанных признаков формы и пространственной ориентации искусственного трехмерного объекта и его характерных областей, соответствующих характеристикам речи.

Отличия способа согласно изобретению заключаются также в том, что операцию выявления ошибок распознавания лица человека, его характерных областей и характеристик их движения осуществляют путем определения несоответствий конфигураций характерных областей лица человека и характеристик их движения в речи человека, содержащихся в цифровых сигналах, соответствующих видео- и аудиоинформации, а операцию исправления упомянутых ошибок распознавания перед визуализацией искусственного трехмерного объекта производят путем формирования упомянутых по крайней мере части команд управления на основе аудиоинформации.

Отличия второго варианта способа согласно изобретению заключаются также в том, что операцию выявления ошибок распознавания лица человека, его характерных областей и характеристик их движения осуществляют путем определения несоответствий конфигураций характерных областей лица человека и характеристик их движения в речи человека, содержащихся в цифровых сигналах, соответствующих видеоинформации и модели поведения искусственного трехмерного объекта, включающей в себя набор характерных жестов и мимики, а операцию исправления упомянутых ошибок распознавания перед визуализацией искусственного трехмерного объекта производят путем формирования упомянутых команд управления на основе упомянутой модели поведения.

Способ представления человека посредством искусственного трехмерного объекта согласно изобретению поясняется чертежом.

Способ представления человека согласно настоящему изобретению предполагает предварительное проведение операции 1 создания модели поведения искусственного трехмерного объекта. Модель поведения может представлять собой наборы конфигурации характерных областей лица искусственного трехмерного объекта, например, нескольких конфигураций рта, соответствующих различным возможным эмоциональным состояниям искусственного трехмерного объекта. В модель поведения могут быть включены и дополнительные взаимные расположения различных характерных областей лица искусственного трехмерного объекта, например, глаза всегда могут располагаться надо ртом, а брови над глазами. В модель поведения могут быть включены также значения предельно допустимых скоростей перемещения и углов поворота лица искусственного трехмерного объекта в различных направлениях. Перечисленным выше не ограничиваются все возможные варианты моделей поведения. Модели поведения могут представлять собой и различные комбинации статических и динамических параметров. Модели могут быть представлены в виде цифровых кодов, записаны в запоминающее устройство (операция 2) и считываться (операция 3) из запоминающего устройства в виде цифровых электрических сигналов.

Способ включает следующие операции:

- операцию 4 получения в последовательные моменты времени видеоизображения сцены, включающей, по крайней мере, лицо одного человека - первого участника телекоммуникаций;

- операцию 5 получение аудиоинформации, включающей, речь первого участника телекоммуникаций;

- операцию 6 обнаружение лица первого участника телекоммуникаций и распознавание его характерных областей в каждом из последовательных моментов времени;

- операцию 7 определение конфигураций характерных областей лица человека из аудиоинформации;

- операцию 8 формирования цифрового сигнала, соответствующего распознанному на основе видеоинформации лицу человека и его характерным областям;

- операцию 9 формирования цифрового сигнала, соответствующего распознанному на основе аудиоинформации лицу человека и его характерным областям;

- операцию 10 выявления ошибок распознавания лица человека и его характерных областей (например, рта, глаз и т.д.) и характеристик их движения (например, направлений, скорости, углов поворота);

- операцию 11 исправления упомянутых выше ошибок;

- операцию 12 визуализации человека посредством искусственного трехмерного объекта на устройстве вывода графической информации (например, дисплее компьютера). Согласно первому варианту предложенного способа операцию 10 выявления ошибок распознавания лица человека, его характерных областей и характеристик их движения осуществляют путем определения несоответствий конфигураций характерных областей лица человека и характеристик их движения речи человека, содержащихся в цифровых сигналах, соответствующих видео и аудиоинформации, а операцию 11 исправления упомянутых ошибок распознавания перед операцией визуализации 12 искусственного трехмерного объекта, производят путем формирования упомянутых по крайней мере части команд управления на основе аудиоинформации. Например, если в течение некоторого промежутка времени аудиоинформация содержит признаки речи, а видеоинформация таких не содержит (например, конфигурация рта не изменяется в это время), то формирует команду на изменение конфигурации рта. При этом, если аудиоинформация содержит признаки смеха, то формирует команду на изменение конфигурации рта, соответствующее улыбке. При этом используют предварительно записанные в постоянное запоминающие устройство признаки формы, пространственной ориентации искусственного трехмерного объекта и его характерных областей, например рта и глаз, соответствующим характеристикам речи. Записанная в постоянное запоминающее устройство информация включает наборы взаимных сочетаний характеристик речи и геометрических форм, например, если аудиоинформация содержит признаки смеха, то видео информация должна содержать признаки улыбки. Если в поступающей для интерпретации информации такое соответствие отсутствует, то, следуя этому правилу, выдают команду отображения улыбки при визуализации трехмерного искусственного объекта. Если аудиоинформация содержит признаки печали, а видеоинформация таких признаков не содержит, то подбирают соответствующую конфигурацию рта и других характерных областей лица. Согласно второму варианту предложенного способа операцию 10 выявления ошибок осуществляют путем определения несоответствий конфигураций характерных областей лица человека и характеристик их движения речи человека, содержащихся в цифровых сигналах, соответствующих видеоинформации и модели поведения искусственного трехмерного объекта, созданной на операции 1, набор характерных жестов и мимики. При этом операцию исправления упомянутых ошибок распознавания перед визуализацией искусственного трехмерного объекта производят путем формирования упомянутых команд управления на основе упомянутой модели поведения с использованием предварительно записанных форм, пространственной ориентации искусственного трехмерного объекта и его характерных областей, соответствующих характеристикам речи. Например, если перемещение лица человека по сцене выявленное из видеоинформации происходит со скоростью, превышающей допустимую, то есть на соответствующей модели поведения, то при визуализации скорость задают в соответствии с моделью поведения искусственного трехмерного объекта. Таким же образом исправляют и другие ошибки распознавания в углах поворотов лица, жестов и мимике.

Способ согласно изобретению может быть использован, например для обмена информацией между, по крайней мере, двумя лицами, находящимися на большом расстоянии друг от друга, и связанными между собой какими-либо каналами связи. В качестве канала связи может быть использована, например, компьютерная сеть Internet. Участники телекоммуникации должны быть оснащены техническими средствами, включающими видеокамеру, микрофон, компьютер с программным обеспечением для поддержки телекоммуникации. Программное обеспечение кроме операционной системы должно включать, например, программу, которая позволяет в реальном масштабе времени производить обмен аудиоинформацией и видеоинформацией между по крайней мере двумя участниками в компьютерной сети.

Способ согласно изобретению может быть использован, например, при телекоммуникациях следующим образом. Первый участник телекоммуникации размещается в поле зрения объектива видеокамеры и перед микрофоном и делает речевые сообщения, сопровождаемые движениями. Видеокамера в дискретные последовательные моменты времени формирует видеоизображения сцены, включающей лицо этого первого участника телекоммуникации. Одновременно с этим микрофон формирует аудиоинформацию, включающую речь первого участника телекоммуникации и вырабатывает соответствующий цифровой сигнал. На технических средствах первого участника телекоммуникации с помощью программного обеспечения осуществляют операцию обнаружения на сложном фоне сцены в поле зрения видеокамеры лица первого участника телекоммуникации в каждом из последовательных моментов времени. Операция обнаружения лица производится, например, методом описанным в Jean-Christophe Terrillon, Mahdad N. Shirazi, Mohamed Sadek, Hideo Fukamachi, Shigeru Akamatsu “Invariant Face Detection with Support Vector Machines”, (p.4210, International Conference on Pattern Recognition (ICPR'00)-Volume 4, September 03-08, 2000, Barcelona, Spain). В результате операции обнаружения лица и слежения за его перемещением и поворотами в каждом из последовательных моментов времени формируется цифровой сигнал, несущий информацию о положении лица на сцене и конфигураций характерных областей лица (рта, глаз и т.д.). С помощью технических средств и программного обеспечения первого участника телекоммуникации упомянутые цифровые сигналы передаются по каналам связи на технические средства второго участника телекоммуникации. Одновременно с этим по каналам связи на технические средства второго участника телекоммуникации передается и цифровой сигнал, несущий аудиоинформацию, включая речевые сообщения первого участника телекоммуникации. Далее техническими средствами и программным обеспечением второго участника телекоммуникации производится упомянутые операции выявления и исправления ошибок распознавания и визуализация первого участника телекоммуникации. Приведенным примером, однако, не исчерпываются все возможные применения предложенного способа представления человека посредством искусственного трехмерного объекта. Способ может найти широкое применение в различных компьютерных технологиях.

Claims

1. Способ представления человека посредством искусственного трехмерного объекта на устройстве вывода графической информации на основе аудио- и видеоинформации при телекоммуникациях в компьютерных сетях, включающий в себя операцию преобразования аудиоинформации, содержащей человеческую речь, с помощью микрофона в электрический цифровой сигнал; операцию передачи этого сигнала по каналам связи к звуковоспроизводящему устройству; операцию преобразования изображения сцены, содержащей человеческое лицо, с помощью видеокамеры в электрический цифровой сигнал; операцию распознавания в этой сцене упомянутого человеческого лица, его характерных областей и характеристик их движения; операцию передачи вышеупомянутой распознанной информации по каналам связи к устройству вывода графической информации; операцию визуализации искусственного трехмерного объекта на упомянутом устройстве вывода графической информации; операцию управления изменениями формы и пространственной ориентации искусственного трехмерного объекта и его характерных областей, отличающийся тем, что дополнительно содержит операцию выявления ошибок при распознавании человеческого лица, его характерных областей и характеристик их движения путем определения несоответствий между конфигурациями характерных областей человеческого лица и характеристиками их движения говорящего человека, содержащимися в упомянутых электрических цифровых сигналах; операцию исправления упомянутых ошибок перед визуализацией искусственного трехмерного объекта путем формирования команд управления с использованием предварительно записанных признаков формы и пространственной ориентации искусственного трехмерного объекта и его характерных областей, соответствующих характеристикам речи.

2. Способ представления человека посредством искусственного трехмерного объекта по п.1, отличающийся тем, что операцию выявления ошибок распознавания лица человека, его характерных областей и характеристик их движения осуществляют путем определения несоответствий конфигураций характерных областей лица человека и характеристик их движения в речи человека, содержащихся в цифровых сигналах, соответствующих видео- и аудиоинформации, а операцию исправления упомянутых ошибок распознавания перед визуализацией искусственного трехмерного объекта производят путем формирования упомянутых по крайней мере части команд управления на основе аудиоинформации.

3. Способ представления человека посредством искусственного трехмерного объекта по п.1, отличающийся тем, что операцию выявления ошибок распознавания лица человека, его характерных областей и характеристик их движения осуществляют путем определения несоответствий конфигураций характерных областей лица человека и характеристик их движения в речи человека, содержащихся в цифровых сигналах, соответствующих видеоинформации и модели поведения искусственного трехмерного объекта, включающей в себя набор характерных жестов и мимики, а операцию исправления упомянутых ошибок распознавания перед визуализацией искусственного трехмерного объекта производят путем формирования упомянутых команд управления на основе упомянутой модели поведения.