WO2013059894A1 - Sistema e método para geração de conteúdo em língua de sinais apresentado por agente virtual tridimensional - Google Patents

Sistema e método para geração de conteúdo em língua de sinais apresentado por agente virtual tridimensional Download PDF

Info

Publication number
WO2013059894A1
WO2013059894A1 PCT/BR2012/000377 BR2012000377W WO2013059894A1 WO 2013059894 A1 WO2013059894 A1 WO 2013059894A1 BR 2012000377 W BR2012000377 W BR 2012000377W WO 2013059894 A1 WO2013059894 A1 WO 2013059894A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
sign language
input
animation
model
Prior art date
Application number
PCT/BR2012/000377
Other languages
English (en)
French (fr)
Inventor
Wanessa Machado Do AMARAL
José Mário de MARTINO
Original Assignee
Estadual De Campinas - Unicamp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Estadual De Campinas - Unicamp filed Critical Estadual De Campinas - Unicamp
Publication of WO2013059894A1 publication Critical patent/WO2013059894A1/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons

Definitions

  • This patent application relates to a novel system and method for generating sign language content being presented via a virtual three-dimensional agent.
  • This methodology can be used in any digital system such as desktop applications, web systems, email reader, social networks, mobile devices and digital TV.
  • Video media authoring is currently used for presentation of sign language content. This option has disadvantages such as cost of production, need for specific physical infrastructure such as video cameras and appropriate room, participation of experienced interpreters, difficulty in maintaining content and problems in ensuring material continuity such as using the same interpreter with the same clothes and the same background. There are also transmission and storage issues as video files are larger. which files containing only text.
  • a signaling virtual agent is a three-dimensional model that represents a human figure and articulates in sign language. This option proves to be an advantageous alternative to using videos. Advantages include that sign language content can be created by a single person using a computer without the need for special video capture and processing equipment. Content can also be created more easily by people not necessarily trained and fluent in sign language. There is the possibility of generating content in real time. Continuity is also no longer a problem as content can be changed at any time without having to rewrite the entire signal sequence. Storing content is another advantage. The disk space on the computer required to store the signal description is much less compared to the storage of video files. Transmission of content is also facilitated as transcribed content can be stored in text files, which are smaller and easier to transmit compared to video files.
  • a 2-minute MPEG-4 format video containing the Libras alphabet occupies approximately 6.62 MB of disk space, the equivalent of 6,946,816 bytes.
  • a text file containing the description of the same content in the computational transcription methodology described here occupies 4 KB, the equivalent of 4,096 bytes.
  • the video file is about 1696 times larger than the text file describing the same content, for only 2 minutes of articulation. It is also possible to offer the user additional control over the transmitted material, such as changing the point of view during playback so that the signal is better viewed, which is impossible for video playback.
  • US20100843622 refers to a handheld system and device in which the user enters a word and the program displays the corresponding signal.
  • the translator has an internal (limited) memory that stores some words, letters and numbers in a database, in video form, with a person articulating the signals. It does not describe all the information necessary to generate signage animation in Pounds. It is limited as it uses a dictionary of animations with images of a person articulating the signals. Therefore, the insertion of new signals is limited to the technology owner and not the user. It works in two dimensions, which prevents the user from having additional control over the interface, such as changing the viewing angle and / or inserting another model (avatar).
  • avatar another model
  • FR20090051978 describes a system that translates a web page into sign language. Translate word for word. As this is another language, sign languages (such as Libras) have a different linguistic structure than oral languages and the faithful translation of the content cannot be done simply by matching words. Uses a dictionary of animations. There is no coarticulation of signals.
  • Sign language transcription systems have not been Created for computational purposes and have characteristics such as ambiguity and omission of information, making it impossible to use to generate animations on the computer.
  • recognition and reproduction of a signal in existing transcription systems is possible only by experienced interpreters or profoundly aware of the notation.
  • To create signal language signaling software requires a transcription methodology that explicitly records enough information to make signal reproduction close to reality.
  • the system is presented by a three-dimensional virtual agent and implements a sign language transcription methodology developed specifically for computational purposes.
  • the system also allows, through the use of detailed signal description by computational transcription, to represent non-manual expressions during signaling. Facial and body expressions are fundamental for quality articulation and the correct interpretation of the user.
  • the presented system With the use of the presented system it is possible to present in three-dimensional virtual environment content in sign language. This gives the user additional control over viewing, which is impossible with video content or computational content in two dimensions.
  • the system allows the customization of the interface, where the user can change the signaling speed, zoom in, zoom out, move and rotate the camera.
  • This additional control of the interface offered by the system through its three-dimensional implementation is an important feature, especially for those who are learning sign language and want to change the viewing angle to their preference for better viewing of the reproduced signal.
  • the system describes the signals textually. This is another interesting and innovative feature of the system as it is possible to implementation of plugins to be coupled with other software such as internet browsers, mobile devices and digital TV system.
  • Another differential is that, by working with the textual description of the signs, the system can be used for any sign language.
  • the present method can draw on existing video transcripts, which can serve as input to the system and generate the virtual articulation of the same transcribed content in the video.
  • This patent application relates to a novel system and method for generating sign language content being presented via a virtual three-dimensional agent.
  • Said system consists basically of: a processor; an input channel; a set of system input rules; a methodology for signal language transcription for computational purposes and a three-dimensional virtual model.
  • the method for generating sign language content through a three-dimensional virtual agent consists basically of the following steps:
  • The. Processor (A) receives an input text.
  • This text as described in detail in the System Input section, can be entered by the user, received remotely, over the internet, for example, or even as a voice input converted into text;
  • Processor (A) identifies the input signals (B, D and F);
  • ç. Processor (A) loads the transcript files containing the description of each signal. These files contain all the phonological transcription of the signal, ie whether the signal is described with one or both hands, if and what movements are performed, among other information; d.
  • the system imports a three-dimensional model that will be the sign language interpreter (G);
  • the system generates the animation by rotating the joints of the loaded model
  • the system displays the sign language animation via an interface.
  • Figure 1 illustrates the system architecture as:
  • Figure 2 shows an example of sign in Pounds: NO sign (Capovilla & Raphael, 2001). NO sign: Right hand in D, palm forward. Swing left and right with negative facial expression.
  • Figure 3 shows an example of a pound sign: Signal A (Capovilla & Raphael, 2001) Signal A: Right hand in D, back to front.
  • Figure 4 demonstrates the system input structure.
  • Figure 5 demonstrates the methodology of transcription of sign languages.
  • Figure 6 shows the nomenclature of the joints of the human hand (adapted from Xavier, 2006).
  • Figure 7 demonstrates Hand Configurations that are distinguished by finger tilt (adapted from Xavier, 2006).
  • Figure 8 shows the description of the hand configuration.
  • Figure 9 shows the horizontal orientation of the palm with the arm 1
  • Figure 10 demonstrates the arm line 1 .
  • Figure 11 shows the wrist rotations.
  • Figure 12 shows the mapped location points.
  • Figure 13 demonstrates the Libras MAZE Sign (Capovilla and Raphael, 2001).
  • Figure 14 shows the Libras MOTO Signal (Capovilla and Raphael, 2001).
  • Figure 15 shows the Libras WONDER Sign (Capovilla and Raphael, 2001).
  • Annex 1 refers to a view of the implementation of the method.
  • the system offers a sign language content generation mechanism. From an input text, for example, a virtual three-dimensional model is animated to perform the corresponding articulation.
  • Figure 1 illustrates the system architecture consisting of at least one processor (A); at least one input (B); a set of system input rules (C); description of signs (D); a methodology for signal language transcription for computational purposes (E); a three-dimensional virtual model (F); and animation (G).
  • the arrows indicate the flow of the program. Items B, D, and F are entries for the program. The arrows
  • Dotted lines are rule documents that dictate the format of items B and D.
  • the rounded corner quadrilateral symbol of item A is used to emphasize that it is an item responsible for system processing, while the straight corner quadrilateral used in B, C, D, E, F represent information that will feed the system.
  • Item G represents the visualization of the articulation in sign language, with the animation of the model in three dimensions.
  • the symbol used resembles a monitor figure to emphasize that viewing can take place on any digital medium, such as televisions, computers or cell phones.
  • the system receives an input and processes the information identifying which signals will be articulated and in what manner.
  • the description of each signal is previously stored in the system and follows rules defined in the signal language transcription methodology for computational purposes.
  • the system retrieves the description of each signal and calculates the necessary rotations at the model skeleton joints to perform the animation.
  • the model is loaded and manipulated by the system and the end result is the visualization of the sign language articulation of the input text.
  • Processor (A) receives input.
  • This entry as described in detail in the System Entry section, can be user-entered text remotely received over the Internet, for example, or a voice input converted to text;
  • Processor (A) identifies the input signals (B, D and F);
  • ç. Processor loads the transcript files containing the description of each signal. These files contain all the phonological transcription of the signal, ie whether the signal is described with one or both hands, if and what movements are performed, among other information; d.
  • the system imports a three-dimensional model that will be the interpreter of sign language (G);
  • the system generates the animation by rotating the joints of the loaded model
  • the system displays the sign language animation via an interface.
  • the system input consists of information, usually text, and may contain signs, phrases, or a typology. Typing is the spelling of a word from Portuguese or another language written using the Libras manual alphabet.
  • System input text can be stored on any digital media, such as files or database systems.
  • the system allows to receive the input remotely, through the local network or through internet connection, or through the system implementation interface.
  • Another possibility that the system offers is the use of existing video transcripts.
  • Signals are described with a sign language transcription methodology developed specifically for computational purposes.
  • Each articulatory feature that makes up the signal is described as an element of the signal.
  • the information that the element can contain is called signal attributes.
  • Several values have been described for each of the attributes. However, as the description was conceived, new attribute values can be added as needed.
  • UML Unified Modeling Language
  • Each element of the description is illustrated as a UML class (a box containing the element name), with or without attributes.
  • the input text may contain a list of signs, the spelling of words or the description of movements.
  • the input is described hierarchically in a tree structure ( Figure 1, C).
  • the root element of the tree is the phrase element. ( Figure 4).
  • the phrase element contains one or more signs, described by signs element, which stores the glosses of the signs.
  • Glosa is a word in Portuguese or another written language, used to represent the hand signal with the same meaning.
  • the sign element can have as its value any sequence of letters, numbers and special characters.
  • the above entry tells the system to perform movements that in Libras have the same meaning as the words: I live in a beautiful house.
  • the system then retrieves the descriptions corresponding to each signal, such as hand location information, movement, etc., and performs the respective animation of the virtual three-dimensional model.
  • Some words do not have a corresponding sign in sign languages. This is mainly for new words or for proper nouns. In this case, the deaf usually use the spelling of the word articulating letter by letter, which is called typing.
  • the system performed the articulation of typing in two ways: implicit and explicit. For example, to articulate the word J-O-A-O, the system input looks like:
  • the system looks in the existing descriptions for a sign associated with the word JOAO, and if not found, signals the letters J, O, A and O respectively.
  • the input text may contain the description of movements that do not belong to a specific signal.
  • the description is made with the halt, globalMovement and bodyMovement elements, children of the phrase root element.
  • the halt element describes a joint in which the hands do not move, stand still in the air, and may or may not contain local movements, ie wrist, forearm or finger movements.
  • the globalMovement element describes movements that move hands through signaling space, which may also contain local movements.
  • the coarticulate element describes signals or articulated movements simultaneously. It has as children all other elements of phrase: sign, halt, globalMovement and bodyMovement. Thus, it is possible to describe the coarticulation of specific signals, suspensions and movements.
  • the signs element has an attribute associated with it, skip, which describes whether one hand should be omitted in the coarticulation, and which one.
  • every sign may have facial expressions, demonstrating emotions, or altering the meaning of the signal as augmentative or diminutive.
  • facial expressions that are not part of the signal description, but that make sense only in the context of the signaling.
  • the face element can be described at any time in the sentence, with one of the values: angry, happy, surprise, fear, disgust, sarcasm , contempt (contempt), respect (respect), fear (disrespect), pity (compassion, pity), augmentative (diminutive), diminutive (diminutive). If not filled the element will be considered with default value which means a neutral facial expression.
  • the sign element describes information needed to perform the computational animation of the signal. Its attribute is name, which stores the signal name, and has the following child elements:
  • bodyMovement description of body movements such as trunk, shoulders and head.
  • the suspension of a signal, described by the halt element can be performed with one or both hands, and are described by the rightHand and leftHand elements.
  • the localMovement attribute can be described within both the halt element and the element. globalMovement.
  • the localMovement attribute contains the description of movements performed by the fingers, wrist and forearm, without the detachment of the hands through space.
  • the rightHand element describes right-hand behavior and contains the following attributes:
  • ⁇ Location location of hands in the signaling space.
  • the hand configuration (configuration attribute of the rightHand and leftHand elements) describes the arrangement of each of the fingers, for example, whether they are joined or separated, flexed or extended. A separate description is used for hand configuration. This description is associated with a name, which is referenced in the signal description.
  • the human hand has three joints in the index, middle, ring, and minimum fingers: distal, medial, and proximal, as illustrated in ( Figure 6: 1, 2, and 3, respectively).
  • distal distal
  • medial medial
  • proximal proximal
  • Finger tilt is an attribute of the description, as there are hand configurations in sign languages that are distinguished only by the finger tilt angle, as illustrated in Figure 7.
  • the description of the hand configuration has as its root element the configuration element, whose child elements are the thumb, index, middle, ring and little elements. Each of these elements has the attributes proximal, distal and inclined, which describe, respectively, the angle of rotation of the proximal, distal and inclined joints of the fingers, the opening between the fingers.
  • Figure 8 illustrates the description of the handheld configuration.
  • the description of hand configuration is done textually, as well as the description of the signs.
  • the XML markup language was used, but other description formalisms may be used.
  • the value of the name attribute of the configuration element is used in the signal description, in the configuration attribute of the rightHand and leftHand elements.
  • supination (a) the palm is facing upwards.
  • the Unite attribute of the rightHand and leftHand elements defines the arm line relative to the cue space, and can be equal to vertical ( Figure 10a) or horizontal ( Figure 10b).
  • the wrist attribute of the rightHand and leftHand elements describes the rotation of the pulse and can contain the values:
  • Location is the region of the signal space in which the hands articulate the signal.
  • the location can be a point in space or a point of contact with the hand, face or body.
  • the signaling space is mapped as shown in Figure 12, at different depths. Each dot is given a number, which is referenced in the signal description by the location attribute. Each numbered point in Figure 12 is mapped in the system as a hand locating point, which can be reached by rotating the shoulders and elbow of the model around the X, Y, and Z Cartesian axes.
  • the system then loads a list of mapped locations and the necessary rotations at the shoulder and elbow joints to reach each location.
  • the invention describes locating points independently of model, that is, it makes no specific reference to the size or body parts of the flag.
  • the invention has the advantage of describing the signals and reproducing them identically in any embodiment, even if the geometry of the three-dimensional virtual model is different.
  • dynamic For the left hand description there is an attribute called dynamic that describes the dynamics of the left hand. Its default value is default, meaning that the left hand is independent of the right. However, the dynamic attribute can assume the symmetric and mirrored values, which allow description of symmetric or left-hand mirror movements and configurations. This way there is no need to describe the same settings and movements twice.
  • Facial expressions are important in sign languages.
  • the system describes the movements needed to attribute personality and emotion to the articulation, convincingly and realistically expressing the content being articulated in sign language.
  • facial expressions are associated with suspension.
  • the face element describes the face strokes separately.
  • the preDefined attribute facilitates descriptions of ready expressions, as happy or sad. This attribute can be used when too great a precision of face description is desired, simply by saying that the expression is of joy or sadness for a good articulation.
  • the preDefined attribute can also be used to express augmentative and diminutive. For example, the word fat and fat may differ only by the facial expression associated with them.
  • the face element has the following attributes (Table 1), all of optional fill and with initial value of default
  • teeth biteUpperLip upper touching lower lip
  • biteLowerLip lower touching upper lip
  • default neutral, inside the mouth
  • Table 1 Face element attributes for description of facial expressions.
  • the localMovement element describes local movements by dividing them into three categories:
  • Forearm is the movement of the forearm about its own axis. The forearm does not move, only rotates (Example Figure 13).
  • the orientation attribute has the same value as the rightHand and leftHand element of the same name attribute.
  • Example Figure 14 The configuration attribute has the same value as the attribute of the same name as the rightHand and leftHand element.
  • the repeat and speed attributes store, respectively, a numerical value corresponding to the number of times the motion repeats and how fast the movement articulates, respectively.
  • the hand attribute refers to which hand refers to local, right or left movement.
  • Global Movements Global movement is one in which the movement of the hands through the signaling space occurs. They involve the rotation of the shoulder and elbow joints. They are described in the system by the globalMovement element.
  • the element describing global movement in the system contains the following attributes:
  • FineISpeed Describes whether there is acceleration or deceleration of motion and stores a numeric value. It is up to the realization of the system to decide when the movement begins to accelerate or decelerate.
  • ⁇ Type describes the type of movement. Can be straight
  • the globalMovement element must also contain the movement path information, with the points in the location space through which the hands must move. Therefore the trajectory attribute appears with the * sign, to emphasize that this attribute may contain more than one value. If the movement is spiral or zigzag, the points of the path should appear in the description in the order in which the hand should follow.
  • the radius of the sphere that forms in the circle movement between two points can be changed, for example by adding points on the path.
  • Body movements are described in the system by the bodyMovement element, and contain the following attributes:
  • body describes the trunk movement and can take the values: turnLeft (turn left), turnRight (turn right), inclineLeft (lean left), inclineRight (lean left) right) and tilt (tilt to frentre).
  • head describes head movement and can be: inclineForward, inclineBackward, forward, left, right, inclineLeft, and inclineRight (tilt right).
  • IShoulder describes left shoulder movements. It can be shrug (lift) or default (shoulder rest position). The attribute defaults to default, and is optional.
  • rShoulder describes right shoulder movements. Like this like IShoulder, can have the value shrug (raise) or default (shoulder rest position). The attribute defaults to default, and is optional.
  • Body movements are articulated in sign languages while performing other aspects, for example global movements or suspensions. Therefore, the bodyMovement element is associated with the halt, globalMovement elements, and also directly with the sign root element.
  • the compounds element describes signals that are formed by other signals. Thus, the system allows composite signals to be described by their primitive signals without the need for redundant descriptions.
  • the compounds element has a child element called signs, which contains the names of the signals that make up the composite signal. Again the attribute is succeeded by * , indicating that multiple values are accepted at one time.
  • the compounds element contains the skip, which lets you tell if and what part of the signal will be omitted in the signal formation, and can have the value rHghtHand, leftHand, face, halt, localMovement, globalMovement, or bodyMovement.
  • a virtual signaling agent was used, a three-dimensional model representing a human figure (Figure 1, F).
  • the model was constructed with a control skeleton, with all the joints of the human body considered necessary for the articulation of the sign language signals.
  • the control skeleton is attached to a polygon mesh that shapes a woman with realistic features.
  • the system is model independent, or that is, it makes no specific mention of any three-dimensional model, referring only to the name of the control skeleton joints.
  • the control skeleton contains the same joints with equal nomenclature.
  • This advantage enables the system to be used for different purposes, using different three-dimensional models.
  • the model is endowed with textures that seek to reproduce the look of skin, hair, iris and clothing.
  • textures that seek to reproduce the look of skin, hair, iris and clothing.
  • the upper body, trunk, arms and shoulders, head and especially the hands are more commonly used in the joint than the lower body such as hips and legs.
  • the higher density of polygon mesh is concentrated at the top of the model.
  • the initial viewport frames the hip line model upward, but this view can be changed by the user through buttons on the interface, zooming in or out or rotating the camera through the cue space.
  • the computational transcription methodology used to describe the signals was implemented in XML markup language.
  • An XML document obeys predefined rules that structure the document hierarchically.
  • the implementation made for the system receives the input data by reading XML files with the transcription of the signals.
  • the read data is converted to rotation and translation angles of the skeletal joints ( Figure 1, A).
  • Figure 1, G When manipulating the skeleton, the polygonal mesh that makes up the model is deformed, generating the sensation of movement and the consequent animation of the model.
  • all animation (Figure 1, G) is done in real time and there are no signals previously recorded in the database.
  • the system implementation allows the user to change the signaling speed, zoom in, zoom out, move and rotate the camera, making it easy for the user to customize the interface.
  • the interface has a data entry area. This area allows the user to upload a system file with sign language content for articulation, and also provides an editing area where the user can change previously uploaded content or enter new content for signage.
  • Figure 17 illustrates the system implementation screen.
  • the invention provides a technology that enables agile and flexible generation of sign language content.
  • the system can be used to reproduce signal language signals in general digital devices.
  • digital TVs for example, can benefit from the system to increase the accessibility of the hearing impaired by offering an alternative to the Closed Caption system of today's televisions.
  • the system also has the ability to function as a Libras - Portuguese dictionary through an interface where the user views the signaling and retrieves the corresponding word in Portuguese.
  • the computational transcription methodology allows to perform statistical manipulations of the sign language signals. Thus, it is possible for a linguist to know how many signals are produced with one hand, or which movement is more or less used in a given sign language.
  • the computer transcription system and methodology facilitate deaf users' access to the computing environment by providing sign language content.
  • the sign language computational transcription methodology allows for other applications such as:
  • a sign language transcription system can be used to catalog existing material, providing an efficient way to share data about published material with other researchers.

Abstract

Refere-se o presente pedido de patente de invenção a um novo sistema e método para gerar conteúdo em língua de sinais sendo esta apresentada por intermédio de um agente tridimensional virtual.

Description

SISTEMA E MÉTODO PARA GERAÇÃO DE CONTEÚDO EM LÍNGUA DE SINAIS APRESENTADO POR AGENTE VIRTUAL TRIDIMENSIONAL
Campo da invenção
Refere-se o presente pedido de patente de invenção a um novo sistema e método para gerar conteúdo em língua de sinais sendo esta apresentada por intermédio de um agente tridimensional virtual.
Essa metodologia pode ser utilizada em qualquer sistema digital, como aplicativos desktop, sistemas web, leitor de email, redes sociais, dispositivos móveis e TV digital.
Fundamentos da invenção
O Brasil possui 5,7 milhões de pessoas com algum grau de deficiência auditiva, de acordo com o Censo realizado em 2000. Para pessoas que adquirem a surdez antes da alfabetização, materiais escritos são, em sua maioria, menos acessíveis do que se apresentados em línguas de sinais. Para a comunidade de surdos, a língua de sinais é geralmente a primeira língua adquirida, e ler um texto em uma língua escrita é o equivalente a utilizar uma língua estrangeira. É possível aprimorar a interação homem-máquina de portadores de deficiência auditiva adequando as respostas dos sistemas computacionais às necessidades dos surdos.
A Libras, língua de sinais brasileira, utiliza gestos e expressões faciais para a comunicação, sendo utilizada pela comunidade brasileira de surdos.
A criação de mídia de vídeo é utilizada atualmente para apresentação de conteúdo em língua de sinais. Essa opção possui desvantagens, como custo de produção, necessidade de infraestrutura física específica, como câmeras de vídeo e sala apropriada, participação de intérpretes experientes, dificuldade de manutenção do conteúdo e problemas para garantir a continuidade do material, como utilizar o mesmo intérprete, com as mesmas roupas e o mesmo fundo. Existem também problemas de transmissão e armazenamento uma vez que arquivos de vídeo são maiores que arquivos contendo apenas texto.
Um agente virtual sinalizador é um modelo tridimensional que representa uma figura humana e que articula em língua de sinais. Esta opção mostra-se como uma alternativa vantajosa ao uso de vídeos. Entre as vantagens, destacam-se que a criação de conteúdo em língua de sinais poderá ser realizada por uma única pessoa, utilizando um computador, sem a necessidade de equipamentos especiais para captura e processamento de vídeos. O conteúdo também pode ser criado mais facilmente, por pessoas não necessariamente treinadas e com fluência em língua de sinais. Há a possibilidade de geração de conteúdo em tempo real. A continuidade também deixa de ser um problema, uma vez que o conteúdo poderá ser alterado a qualquer momento, sem a necessidade de regravar a sequência de sinalização inteira. O armazenamento do conteúdo é outra vantagem. O espaço em disco no computador requerido para armazenar a descrição dos sinais é bastante inferior se comparado ao armazenamento de arquivos de vídeo. A transmissão do conteúdo também é facilitada, uma vez que o conteúdo transcrito pode ser armazenado em arquivos de texto, que são menores e mais fáceis de serem transmitidos em comparação à arquivos de vídeo. Por exemplo, um vídeo de 2 minutos em formato MPEG-4 contento o alfabeto da Libras ocupa aproximadamente 6,62 MB de espaço em disco, o equivalente a 6.946.816 bytes. Um arquivo de texto contendo a descrição do mesmo conteúdo na metodologia de transcrição computacional descrita aqui ocupa 4 KB, o equivalente a 4.096 bytes. Neste caso, o arquivo de vídeo é cerca de 1696 vezes maior do que o arquivo de texto que descreve o mesmo conteúdo, para apenas 2 minutos de articulação. Existe ainda a possibilidade de oferecer ao usuário controle adicional sobre o material transmitido, como alteração do ponto de vista durante a reprodução para que o sinal seja mais bem visualizado, o que é impossível na reprodução por vídeo.
As soluções apresentadas na literatura até o momento para a animação de agentes virtuais sinalizadores possuem limitações. Para reproduzir virtualmente a articulação de línguas de sinais é necessário conhecimento profundo da estrutura linguística dos sinais, a fim de recriar todos os detalhes relevantes para o entendimento dos sinais pela comunidade de surdos.
No pedido de patente PI0502931-7, o sistema faz a conversão de uma palavra em português para um sinal da Libras, através da animação de imagens. Neste trabalho, faz-se uso de um dicionário de animações, não existe a coarticulações de sinais, não oferece realismo do sinalizador, utiliza um articulador fixo, uma figura humanoide em duas dimensões; trabalha em duas dimensões e não permite customização da visualização, como aproximar e rotacionar; por se tratar de outra língua, uma língua de sinal como a Libras possui estrutura linguística diferente das línguas orais e a tradução fiel do conteúdo não pode ser realizada com uma simples correspondência entre palavras.
A patente US20100843622 refere-se a um sistema e dispositivo de mão em que o usuário digita uma palavra e o programa exibe o sinal correspondente. Neste caso o tradutor tem uma memória interna (limitada) que armazena algumas palavras, letras e números em uma base de dados, em forma de vídeo, com uma pessoa articulando os sinais. Não descreve todas as informações necessárias para gerar animação da sinalização em Libras. É limitado, pois utiliza um dicionário de animações com as imagens de uma pessoa articulando os sinais. Portanto, a inserção de novos sinais é limitada ao dono da tecnologia e não ao usuário. Trabalha em duas dimensões, o que impede o usuário de ter controle adicional sobre a interface, como alterar o ângulo de visão e/ou inserir outro modelo (avatar).
O pedido de patente FR20090051978 descreve um sistema que traduz uma página web em língua de sinais. Traduz palavra por palavra. Por se tratar de outra língua, as línguas de sinais (como a Libras) possuem estrutura linguística diferente das línguas orais e a tradução fiel do conteúdo não pode ser realizada com uma simples correspondência entre palavras. Utiliza um dicionário de animações. Não existe a coarticulação de sinais.
Os sistemas de transcrição das línguas de sinais não foram criados para fins computacionais e possuem características como ambiguidades e omissão de informações, impossibilitando seu uso para gerar animações no computador. Em geral o reconhecimento e a reprodução de um sinal nos sistemas de transcrições existentes são possíveis apenas por intérpretes experientes ou por profundos conhecedores da notação. Para criar softwares de sinalização das línguas de sinais é necessário uma metodologia de transcrição que registre explicitamente quantidade suficiente de informações para que a reprodução computacional dos sinais seja próxima à realidade.
O sistema é apresentado por um agente virtual tridimensional e implementa uma metodologia de transcrição das línguas de sinais desenvolvida especificamente para fins computacionais.
Cada país tem sua própria língua de sinais. A Libras é a língua de sinais brasileira reconhecida pelo Estado. No entanto, para um país de proporções continentais como o Brasil, não é incomum encontrarmos regionalidades linguísticas. Portanto até dentro de um mesmo país existem diferenças entre a língua de sinais utilizada em regiões diferentes. Dessa maneira, qualquer iniciativa para aumentar a acessibilidade de deficientes auditivos nos ambientes computacionais deve levar em consideração a regionalidade das línguas gestuais e prever que o sistema não deve ser fechado e estático. Diferentemente dos demais, o sistema apresentado aqui não é apenas um dicionário das línguas de sinais. Não existe um banco de dados fixo e pré-estabelecido de sinais. Novos sinais podem ser descritos pelo próprio usuário - inclusive por pessoas não necessariamente experientes em língua de sinais - e automaticamente inseridos no sistema.
Outro diferencial do sistema é a possibilidade de articular não apenas sinais isolados, mas frases em línguas de sinais. As línguas de sinais são bem mais complexas do que a simples articulação robótica de sequências de sinais, sem conexão entre si. Nas línguas faladas os efeitos da coarticulação se manifestam pela alteração do padrão articulatório de um determinado segmento sonoro pela influência de outro adjacente, ou próximo, na cadeia de produção sonora. Os efeitos da coarticulação fazem com que, por exemplo, o "t" da palavra "talher" seja visualmente distinto na boca do orador do que o "t" da palavra "tudo". Essa influência de segmentos adjacentes também ocorre nas línguas de sinais. Portanto, para uma sinalização realista e mais próxima da língua utilizada pelos surdos não basta manter um dicionário de sinais e reproduzi-los em sequência. O sistema incorpora os traços de coarticulação e permite que a articulação ocorra de forma coesa e conexa, diferenciando-o das demais propostas existentes.
A transição entre as articulações é realizada no sistema de maneira suave, com a interpolação entre o final de um sinal e o início do outro. Nos sistemas que utilizam dicionário de sinais, sempre que um sinal é articulado, as mãos retornam à posição de repouso, antes de uma nova sinalização. Esse problema é contornado no sistema apresentado aqui, o que torna a visualização menos robótica e mais amigável ao usuário surdo.
O sistema permite ainda, através do uso da detalhada descrição dos sinais pela transcrição computacional, representar expressões não manuais durante a sinalização. As expressões faciais e corporais são fundamentais para uma articulação de qualidade e para a correta interpretação do usuário.
Com o uso do sistema apresentado é possível a apresentação em ambiente virtual tridimensional de conteúdo em língua de sinais. Dessa forma é oferecido ao usuário controle adicional sobre a visualização, o que é impossível com conteúdo de vídeo ou conteúdo computacional em duas dimensões. O sistema permite a customização da interface, onde o usuário pode alterar a velocidade de sinalização, aproximar, distanciar, movimentar e girar a câmera. Este controle adicional da interface que o sistema oferece através de sua implementação tridimensional é uma característica importante, em especial para aquele que está aprendendo língua de sinais e deseja alterar o ângulo de visão de acordo com a sua preferência para melhor visualização do sinal reproduzido.
O sistema descreve os sinais de forma textual. Esta é outra característica interessante e inovadora do sistema, uma vez que é possível a implementação de plugins para serem acoplados a outros softwares, como navegadores da internet, aparelhos celulares e sistema de TV digital.
Outro diferencial está centrado no fato de, por trabalhar com a descrição textual dos sinais, o sistema pode ser utilizado para qualquer língua de sinais.
Outrossim, o presente método pode se valer das transcrições de vídeo existentes, que podem servir de entrada para o sistema e gerar a articulação virtual do mesmo conteúdo transcrito no vídeo.
Breve descrição da invenção
Refere-se o presente pedido de patente de invenção a um novo sistema e método para gerar conteúdo em língua de sinais sendo esta apresentada por intermédio de um agente tridimensional virtual.
O dito sistema é constituído basicamente de: um processador; um canal de entrada; um conjunto de regras de entrada do sistema; uma metodologia de transcrição das línguas de sinais para fins computacionais e um modelo virtual tridimensional.
O método para gerar conteúdo em língua de sinais por intermédio de um agente virtual tridimensional é constituído basicamente das seguintes etapas:
a. O processador (A) recebe um texto de entrada. Este texto, conforme descrito em detalhes na seção Entrada do sistema, pode ser digitado pelo usuário, recebido remotamente, pela internet, por exemplo, ou ainda ser uma entrada de voz convertida em texto;
b. O processador (A) identifica os sinais de entrada (B, D e F);
c. O processador (A) carrega os arquivos de transcrição contendo a descrição de cada sinal. Estes arquivos contém toda a transcrição fonológica do sinal, ou seja, se o sinal é descrito com uma ou ambas as mãos, se e quais movimentos são realizados, entre outras informações; d. O sistema importa um modelo tridimensional que será o intérprete de língua de sinais (G);
e. A partir da transcrição do sinal (E), o sistema identifica quais juntas do modelo serão movimentadas para gerar a animação correspondente ao texto de entrada;
f. O sistema gera a animação rotacionando as juntas do modelo carregado;
g. O sistema exibe, por intermédio de uma interface, a animação em língua de sinais.
Tanto o sistema quanto a metodologia aqui desenvolvida para a transformação de língua escrita ou falada em língua de sinais se destacam por completo do estado da técnica conforme os diferenciais já levantados nesse documento. A tecnologia é possuidora de aplicação industrial, podendo ser utilizada em qualquer sistema digital, como aplicativos desktop, sistemas web, leitor de email, redes sociais, dispositivos móveis e TV digital.
Breve descrição das figuras
A figura 1 ilustra a arquitetura do sistema sendo que:
• A - processador;
• B - entrada;
• C - regras de entrada do sistema;
• D - descrição dos sinais;
• E - metodologia de transcrição das línguas de sinais para fins computacionais;
• F - modelo virtual tridimensional; e
• G - animação.
A figura 2 demonstra um exemplo de sinal em Libras: Sinal NÃO (Capovilla & Raphael, 2001). Sinal NÃO: Mão direita em D, palma para frente. Balançar a mão para a esquerda e para a direita, com expressão facial negativa.
A figura 3 demonstra um exemplo de sinal em Libras: Sinal UM (Capovilla & Raphael, 2001) Sinal UM: Mão direita em D, dorso para frente.
A figura 4 demonstra a estrutura de entrada do sistema.
A figura 5 demonstra a metodologia de transcrição das línguas de sinais. A figura 6 demonstra a nomenclatura das juntas da mão humana (adaptado de Xavier, 2006).
A figura 7 demonstra Configurações de mão que se distinguem pela inclinação dos dedos (adaptado de Xavier, 2006).
A figura 8 demonstra a descrição da configuração de mão.
A figura 9 demonstra as orientações da palma da mão com o braço na horizontal1
A figura 10 demonstra a linha do braço1.
A figura 11 demonstra as rotações do pulso.2
A figura 12 demonstra os pontos de localização mapeados.
A figura 13 demonstra o Sinal MAÇANETA da Libras (Capovilla e Raphael, 2001 ).
A figura 14 demonstra o Sinal MOTO da Libras (Capovilla e Raphael, 2001).
A figura 15 demonstra o Sinal MARAVILHA da Libras (Capovilla e Raphael, 2001).
O anexo 1 refere-se a uma visualização da implementação do método.
Descrição detalhada da invenção
O sistema oferece um mecanismo de geração de conteúdo em língua de sinais. A partir de um texto de entrada, por exemplo, um modelo tridimensional virtual é animado para realizar a articulação correspondente.
A figura 1 ilustra a arquitetura do sistema sendo este constituído de pelo menos um processador (A); pelo menos uma entrada (B); um conjunto de regras de entrada do sistema (C); descrição dos sinais (D); uma metodologia de transcrição das línguas de sinais para fins computacionais (E); um modelo virtual tridimensional (F); e animação (G). As setas indicam o fluxo do programa. Os itens B, D e F são entradas para o programa. As setas
1 Adaptado de Stumpf, Lições sobre o SignWriting, acessado no dia 07/07/2011 em:
www.signwiting.org/archive/docs5/sw0472-BR-Licoes-SignWriting.pdf
2 Adaptado de http://w f.chem.purdue.edu chenisafetv/safetvclass/iniurv/lecture/chaDÍv.htm. acessado no dia 07/07/2011 pontilhadas são documentos de regras que ditam o formato dos itens B e D. O símbolo de quadrilátero com canto arredondado do item A é utilizado para enfatizar que se trata de um item responsável pelo processamento do sistema, enquanto que os quadriláteros com canto reto, utilizados em B, C, D, E, F representam informações que alimentarão o sistema.
O item G representa a visualização da articulação em língua de sinais, com a animação do modelo em três dimensões. O símbolo utilizado se assemelha a figura de um monitor para realçar que a visualização pode se dar em qualquer meio digital, como televisores, computadores ou celulares.
O sistema recebe uma entrada e processa as informações identificando quais sinais serão articulados e de que maneira. A descrição de cada sinal está previamente armazenada no sistema e segue regras definidas na metodologia de transcrição das línguas de sinais para fins computacionais. O sistema recupera a descrição de cada sinal e calcula as rotações necessárias nas juntas do esqueleto do modelo para realizar a animação. O modelo é carregado e manipulado pelo sistema e o resultado final é a visualização da articulação em língua de sinais do texto de entrada.
Outro objeto de proteção do presente pedido de patente de invenção seria o método empregado para se possibilitar a transformação de uma língua escrita ou falada em uma língua de sinais. Podemos descrever basicamente a metodologia desenvolvida por intermédio dos seguintes passos: a. O processador (A) recebe a entrada. Esta entrada, conforme descrita em detalhes na seção Entrada do sistema, pode ser um texto digitado pelo usuário, recebido remotamente, pela internet, por exemplo, ou ainda ser uma entrada de voz convertida em texto;
b. O processador (A) identifica os sinais de entrada (B, D e F);
c. O processador (A) carrega os arquivos de transcrição contendo a descrição de cada sinal. Estes arquivos contêm toda a transcrição fonológica do sinal, ou seja, se o sinal é descrito com uma ou ambas as mãos, se e quais movimentos são realizados, entre outras informações; d. O sistema importa um modelo tridimensional que será o intérprete de língua de sinais (G);
e. A partir da transcrição do sinal (E), o sistema identifica quais juntas do modelo serão movimentadas para gerar a animação correspondente ao texto de entrada;
f. O sistema gera a animação rotacionando as juntas do modelo carregado;
g. O sistema exibe, por intermédio de uma interface, a animação em língua de sinais.
Entrada do sistema
A entrada do sistema consiste em informação, geralmente de texto, e pode conter sinais, frases ou uma datilologia. A datilologia é a soletração de uma palavra do português ou de outra língua escrita usando o alfabeto manual de Libras.
O texto de entrada do sistema pode estar armazenado em qualquer meio digital, como por exemplo arquivos ou sistemas de banco de dados. O sistema permite receber a entrada remotamente, pela rede local ou através de conexão com a internet, ou ainda pela interface de implementação do sistema. Outra possibilidade que o sistema oferece é o aproveitamento de transcrições de vídeos já existentes. Existe ainda a possibilidade de entrada de dados via voz, uma vez que existem tecnologias que transformam voz em texto, que depois pode ser facilmente lido e interpretado pelo sistema (Figura 1 , B).
Os sinais são descritos com uma metodologia de transcrição das línguas de sinais desenvolvida especificamente para fins computacionais. Cada traço articulatório que compõe o sinal como, por exemplo, a posição da mão ou o movimento realizado, é descrito como um elemento do sinal. As informações que o elemento pode conter são chamadas de atributos do sinal. Vários valores foram descritos para cada um dos atributos. No entanto, da forma como foi concebida a descrição, novos valores para os atributos podem ser acrescentados conforme a necessidade.
É importante ressaltar que na invenção descrita a animação dos sinais é gerada em tempo real. Dessa forma, não existe um banco de dados de animações ou vídeos pré existente. Toda a sinalização é gerada novamente, cada vez que o usuário solicitar. Dessa forma, é possível dizer que o sistema não necessita de banco de dados de sinais, pois o que está armazenado é apenas uma descrição de como o sinal é feito (Figura , D), e não o sinal em si. O que o sistema grava, e recupera depois, é a transcrição do sinal, com todas as informações relevantes para a sua posterior reprodução computacional, como por exemplo, o que faz cada mão e como os movimentos são realizados. Desse modo, qualquer novo sinal pode ser descrito, pelo próprio usuário, e depois referenciado no sistema para que ocorra a respectiva animação. Adicionalmente, o sistema é independente de avatar, ou seja, não faz menção às características de um modelo tridimensional específico. Qualquer modelo que contenha um esqueleto de controle pode ser utilizado para gerar o resultado final, que é a visualização da articulação em línguas de sinais.
Para descrever um sinal da Libras é preciso por exemplo especificar se as mãos estão com a palma visível para o sinalizador ou para o receptor da articulação. O sistema descreve esse traço do sinal com o atributo orientation do elemento rightHand. Nos sinais NÃO (Figura 2) e UM (Figura 3) da Libras a orientação da palma da mão assume valores opostos, no primeiro caso a palma está visível para o receptor e no segundo caso, para o articulador.
A descrição dos sinais será ilustrada com diagramas de classes da UML (Unified Modeling Language). Cada elemento da descrição é ilustrado como uma classe da UML (uma caixa contendo o nome do elemento), com ou sem atributos.
Regras de entrada do sistema
O texto de entrada pode conter uma lista de sinais, a soletração de palavras ou a descrição de movimentos. Para o sistema, a entrada é descrita de forma hierárquica em uma estrutura em árvore (Figura 1 , C). O elemento raiz da árvore é o elemento phrase. (Figura 4).
O elemento phrase contém um ou mais sinais, descritos pelo elemento signs, que armazena as glosas dos sinais. Glosa é uma palavra em português ou outra língua escrita, usada para representar o sinal manual com o mesmo sentido. O elemento sign pode ter como valor qualquer sequência de letras, números e caracteres especiais.
Os sinais são articulados na sequência em que aparecem no texto de entrada. Por exemplo:
Phrase:
signs: eu morar casa bonita
A entrada acima diz ao sistema para realizar movimentos que na Libras tenham o mesmo sentido das palavras: eu morar casa bonita. O sistema então recupera as descrições correspondentes à cada sinal, como as informações de localização de mão, movimento, etc, e realiza a respectiva animação do modelo tridimensional virtual.
Algumas palavras não têm um sinal correspondente nas línguas de sinais. Isso ocorre principalmente para palavras novas ou para nome próprio. Neste caso, os surdos costumam utilizar a soletração da palavra articulando letra por letra, o que é chamado de datilologia.
O sistema realizada a articulação de datilologia de duas formas: implícita e explícita. Por exemplo, para articular a palavra J-O-A-O, a entrada do sistema fica como:
Phrase:
signs: J O Ã O
Ou seja, a palavra a ser soletrada deve ser entrada no sistema com cada letra separada por espaço. No entanto, se o sistema receber como entrada a seguinte palavra: Phrase:
signs: JOAO
o sistema procura nas descrições existentes um sinal associado à palavra JOAO, e se não encontrar, sinaliza as letras J, O, A e O respectivamente.
Alternativamente, o texto de entrada pode conter a descrição de movimentos que não pertençam a um sinal específico. Neste caso a descrição é feita com os elementos halt, globalMovement e bodyMovement, filhos do elemento raiz phrase.
O elemento halt descreve uma articulação em que as mãos não se movem, ficam paradas em suspensão no ar, podendo ou não conter movimentos locais, ou seja, movimentos de pulso, antebraço ou dedos. O elemento globalMovement descreve movimentos que deslocam as mãos pelo espaço de sinalização, que também podem conter movimentos locais.
O elemento coarticulate descreve sinais ou movimentos articulados simultaneamente. Tem como filhos todos os demais elementos de phrase: sign, halt, globalMovement e bodyMovement. Dessa forma, é possível descrever a coarticulação de sinais, suspensões e movimentos específicos. O elemento signs tem um atributo associado a ele, skip, que descreve se uma das mãos deve ser omitida na coarticulação, e qual delas.
Por exemplo, para articular a frase "Enquanto andava de bicicleta, seu chapéu caiu" articula-se o sinal "bicicleta" e tira uma das mãos para articular o sinal de cair o chapéu da cabeça, indicando que o chapéu caiu da cabeça enquanto se andava de bicicleta. Com dois sinais a frase é articulada. No entanto, a articulação dos sinais separadamente, em ordem sequêncial, não alcança o mesmo sentido da frase. A descrição desta frase no sistema é a seguinte: Phrase:
signs: bicicleta
coarticulate: bicicleta skip rightHand
globalMovement
(descrição de chapéu cair)
Mais adiante, na descrição dos sinais, será mostrado que todo sinal pode ter expressões faciais, demonstrando emoções, ou alterando o significado da sinalização como aumentativo ou diminutivo.
Para a descrição das frases é possível adicionar expressões faciais que não façam parte da descrição do sinal, mas que têm sentido somente no contexto da sinalização. O elemento face pode ser descrito em qualquer momento da frase, com um dos valores: angry (raiva ou irritação), happy (alegria), surprise (surpresa), fear (medo), disgust (nojo ou aversão), sarcasm (sarcasmo), contempt (desprezo), respect (respeito), disrespect (desrespeito), pity (compaixão, pena), augmentative (aumentativo), diminutive (diminutivo). Se não preenchido o elemento será considerado com valor default (padrão), que significa uma expressão facial neutra.
Phrase:
signs: minha casa <face augmentative> grande
O exemplo acima ilustra o uso da expressão facial para expressar o aumentativo de grande, um sinal já descrito no sistema, mas sem expressão facial associada. A sinalização da frase acima poderia ser traduzida para o português como: "A minha casa é grandona" ou "A minha casa é muito grande".
Ao final da sinalização de cada frase há uma pausa, antes do início da articulação da próxima frase. Essa pausa não é descrita no sistema de transcrição de forma explícita. No entanto, caso considere necessário, o usuário do sistema pode descrever explicitamente esta pausa com o elemento pause.
Metodologia de transcrição das línguas de sinais para fins computacionais
Os sinais são descritos no sistema de forma textual, através de uma metodologia de transcrição detalhada, que armazena as informações necessárias para uma reprodução natural e contínua, como acontece na conversação real entre os surdos. A Figura 5 ilustra a metodologia de transcrição.
O elemento sign descreve informações necessárias para realizar a animação computacional do sinal. Tem como atributo name, que armazena o nome do sinal, e possui os seguintes elementos filhos:
• halt (suspensão): descrição de traços independentes de movimento, como configuração e orientação da mão.
• globalMovement (movimento global): descrição dos movimentos das mãos pelo espaço de sinalização, como trajetória e velocidade do movimento.
• bodyMovement (movimento corporal): descrição dos movimentos corporais, como tronco, ombros e cabeça.
• Pause: é possível com este atributo definir um tempo em segundos que o sinal fica em pausa, após ser articulado, durante sua articulação.
• Compounds: utilizado para a descrição de sinais compostos, formados pela junção de dois sinais existentes, com ou sem omissão de partes de um dos sinais.
A suspensão de um sinal, descrita pelo elemento halt pode ser realizada com uma ou ambas as mãos, e são descritas pelos elementos rightHand e leftHand. Um terceiro elemento, face, descreve a expressão facial associada à suspensão. O atributo localMovement (movimento local), pode estar descrito tanto dentro do elemento halt como do elemento globalMovement. O atributo localMovement contém a descrição de movimentos realizados pelos dedos, pulso e antebraço, sem o descolamento das mãos pelo espaço.
O elemento rightHand descreve o comportamento da mão direita e contém os seguintes atributos:
• configuration , configuração de mão.
• orientation , orientação da palma.
• Une, linha do braço.
• wrist, rotação do pulso.
· location: localização das mãos no espaço de sinalização.
Configuração de mão
A configuração de mão (atributo configuration dos elementos rightHand e leftHand) descreve a disposição de cada um dos dedos das mãos, por exemplo, se estão unidos ou separados, flexionados ou distendidos. Uma descrição separada é utilizada para a configuração de mão. A essa descrição é associado um nome, que é referenciado na descrição do sinal.
A mão humana possui três juntas nos dedos indicador, médio, anelar e mínimo: junta distai, medial e proximal, como ilustra a (Figura 6: 1 , 2 e 3, respectivamente). Para descrever a configuração da mão são necessários apenas os ângulos de rotação das juntas proximal e distai. Uma vez que quando se flexiona a junta distai de um dedo, a grande maioria das pessoas flexiona também a junta medial. O polegar não possui junta medial. Por outro lado, a junta do metacarpo, que liga a palma da mão ao polegar, possui influência em sua movimentação. Dessa forma, a junta do metacarpo é descrita para o polegar na configuração de mão.
A inclinação dos dedos é um atributo da descrição, pois existem configurações de mão nas línguas de sinais que se distinguem apenas pelo ângulo de inclinação dos dedos, conforme ilustra a Figura 7.
A descrição da configuração de mão tem como elemento raiz o elemento configuration, que tem como elementos filhos os elementos thumb, index, middle, ring e little. Cada um desses elementos tem os atributos proximal, distai e inclined, que descrevem, respectivamente, o ângulo de rotação das juntas proximal, distai e de inclinação dos dedos, a abertura entre os dedos. A (Figura 8) ilustra a descrição da configuração de mão.
A descrição de configuração de mão é feita de forma textual, assim como a descrição dos sinais. Em uma realização do sistema foi utilizada a língua de marcação XML, porém outros formalismos de descrição podem ser utilizados.
Para exemplificar a descrição, a configuração de mão da Figura 8 é ilustrada a seguir:
<?xml version="1.0" encoding="utf-8"?>
<configuration name="B">
<index proximal="0.0" distal="0.0" inclined="-3.07> <middle proximal="0.0" distal="0.0" inclined="-0.67> <ring proximal="0.0" distal="0.0" inclined="3.87>
<little proximal="0.0" distal="0.0" inclined="5.47>
<thumb proximal="-30.0" distal="-66.8" metacarpal="-
12.2" inclined="-23.87>
</configuration>
O valor do atributo name do elemento configuration é utilizado na descrição do sinal, no atributo configuration dos elementos rightHand e leftHand.
Existem configurações de mão mais utilizadas nas línguas de sinais de forma que é possível estabelecer um conjunto finito no sistema, permitindo a inserção de novas configurações quando necessário.
Orientação da palma de mão
O atributo oríentation dos elementos rightHand e leftHand descreve a palma da mão como se o sinalizador estivesse olhando para suas próprias mãos, de sua própria perspectiva. Os valores possíveis para o atributo orientation são ilustrados na Figura 9, como segue: 1
• supination (a): a palma da mão está voltada para cima. · half-supination (b): no caso da mão direita, a palma está voltada para a esquerda.
• pronation (c): a palma da mão está voltada para baixo.
• half-pronation(d): no caso da mão direita, a palma está voltada para direita.
Linha do braço
O atributo Une dos elementos rightHand e leftHand define a linha do braço em relação ao espaço de sinalização, e pode ser igual a vertical (Figura 10 a) ou horizontal (Figura 10 b).
Pulso
O atributo wrist dos elementos rightHand e leftHand descreve a rotação do pulso e pode conter os valores:
• extensioh. Pulso virado para cima, Figura 1 (a).
• flexion. Pulso virado para baixo, Figura 11 (b).
· radialDeviation: Figura 11 (c).
• ulnarDeviation: Figura 11 (d).
• neutral. Está é a posição padrão. Caso não preenchido, o pulso fica na posição neutra Figura 11 (e).
Localização
Localização (atributo location dos elementos rightHand e leftHand) é a região do espaço de sinalização na qual as mãos articulam o sinal. A localização pode ser um ponto no espaço ou um ponto de contato com a mão, com o rosto ou com o corpo.
O espaço de sinalização é mapeado como ilustra a Figura 12, em diferentes profundidades. Cada ponto recebe um número, que é referenciado na descrição do sinal pelo atributo location. Cada ponto numerado na Figura 12 é mapeado no sistema como um ponto de localização para as mãos, que podem ser alcançados rotacionando os ombros e o cotovelo do modelo, em torno dos eixos cartesianos X, Y e Z.
O sistema carrega então uma lista com as localizações mapeadas e com as rotações necessárias nas juntas do ombro e cotovelo para alcançar cada localização.
Embora os pontos de localização estejam mapeados previamente, o sistema permite a inserção de novos pontos de localização, apenas inserindo novas linhas na tabela de localizações.
A invenção descreve os pontos de localização de maneira independente de modelo, ou seja, não faz referência específica à dimensão ou partes do corpo do sinalizador. Dessa maneira a invenção tem a vantagem de descrever os sinais e reproduzi-los de maneira idêntica em qualquer realização, mesmo que a geometria do modelo virtual tridimensional seja diferente.
Simetria
Para a descrição da mão esquerda existe um atributo chamado de dynamic que descreve a dinâmica da mão esquerda. Seu valor padrão é default, e significa que a mão esquerda é independente da direita. No entanto o atributo dynamic pode assumir os valores symmetric e mirrored, que permitem descrição de movimentos e configurações simétricas ou espelhadas para a mão esquerda. Dessa forma não há necessidade de descrever duas vezes as mesmas configurações e movimentos.
Expressões Faciais
As expressões faciais são importantes nas línguas de sinais. O sistema descreve os movimentos necessários para atribuir personalidade e emoção à articulação, expressando de maneira convincente e realista o conteúdo que está sendo articulado em língua de sinais.
Na descrição dos sinais, as expressões faciais são associadas à suspensão. O elemento face descreve separadamente os traços da face.
O atributo preDefined facilita descrições de expressões prontas, como feliz ou triste. Este atributo pode ser utilizado quando não é desejada uma precisão muito grande na descrição da face, bastando dizer que a expressão é de alegria ou tristeza para uma boa articulação. O atributo preDefined também pode ser utilizado para expressar aumentativo e diminutivo. Por exemplo, a palavra gordo e gordão podem diferir apenas pela expressão facial associada a elas.
O elemento face possui os seguintes atributos (Tabela 1), todos de preenchimento opcional e com o valor inicial igual a default
Nome Valores do atributo
do atributo
forehea creased (franzida), default (neutra)
d (testa)
eyebro up (cima), default (reta), down (baixo), up ws (sobrancelhas) inside(para cima e para dentro)
eyes default (abertos), squeezed (espremidos), closed
(olhos) (fechados), wide (arregalados).
look top (para cima), top right (cima, deireira), top left
(olhar) (cima, esquerda), default (para frente), low (para baixo), low right
(baixo, direita), low left (baixo, esquerda)
cheeks stewed (estufadas), sucked (sugadas), tight
(bochechas) (tensas), blow (soprar), default (neutras)
nose wrinkled (franzido), default (neutro)
(nariz)
mouth smile (sorriso fechado), laugh (riso), yawn (bocejo),
(boca) kiss (beijo), tense (tensa), ajar (entreaberta), default (neutra) tongue default (neutra, dentro da boca), outsideMouth
(lingua) (fora da boca) Nome Valores do atributo
do atributo
teeth biteUpperLip (superiores tocando lábio inferior), biteLowerLip (inferiores tocando lábio superior), default (neutros, dentro da boca).
preDefi angry (raiva ou irritação), happy (alegria), surprise ned (surpresa), fear (medo), disgust (nojo ou aversão), sarcasm
(sarcasmo), contempt (desprezo), respect (respeito), disrespect (desrespeito), pity (compaixão, pena), default (neutra), augmentative (aumentativo), diminutive (diminutivo).
Tabela 1 : Atributos do elemento face para descrição de expressões faciais.
Movimentos Locais
O elemento localMovement descreve os movimentos locais dividindo-os em três categorias:
· forearm (antebraço): é o movimento do antebraço em torno do seu próprio eixo. O antebraço não se movimenta, só rotaciona (Exemplo Figura 13). O atributo orientation tem o mesmo valor do atributo de mesmo nome do elemento rightHand e leftHand.
• hand (mão). Movimento de dedos. Exemplo Figura 14. O atributo configuration tem o mesmo valor do atributo de mesmo nome do elemento rightHand e leftHand.
• wrist (pulso). Movimento de rotação do pulso (Exemplo Figura 15). O atributo wrist tem o mesmo valor do atributo de mesmo nome do elemento rightHand e leftHand.
Os atributos repeat e speed armazenam, respectivamente, um valor numérico correspondente ao número de vezes que o movimento se repete e qual a velocidade de articulação do movimento, respectivamente. O atribuo hand diz respeito à qual mão se refere o movimento local, direita ou esquerda.
Movimentos Globais Movimento global é aquele em que há o deslocamento das mãos pelo espaço de sinalização. Envolvem a rotação das juntas dos ombros e cotovelos. São descritos no sistema pelo elemento globalMovement.
O elemento que descreve o movimento global no sistema contém os seguintes atributos:
• speed : é opcional e define qual é a velocidade com que o movimento será executado e armazena um valor numérico. Caso não preenchido, o movimento será executado com a velocidade de articulação padrão definida no sistema.
· finaISpeed : descreve se há aceleração ou desaceleração do movimento e armazena um valor numérico. Cabe a realização do sistema decidir qual o momento que o movimento começa a acelerar ou desacelerar.
• repeat : descreve quantas vezes o movimento é repetido, armazena um valor numérico.
· type: descreve o tipo de movimento. Pode ser straight
(reto), circular (circular horário) ou circualarCC (circular anti horário). Caso não preenchido, assume o valor straight.
Além desses atributos, o elemento globalMovement deve conter ainda a informação de trajetória do movimento, com os pontos no espaço de localização pelos quais as mãos devem se mover. Por isso o atributo trajectory aparece com o sinal de *, para enfatizar que este atributo pode conter mais de um valor. Caso o movimento seja em espiral ou em zigue-zague, os pontos da trajetória devem aparecer na descrição na ordem pela qual a mão deve seguir.
Por exemplo, para o movimento reto do ponto A para o ponto B (Figura 16 a), a descrição seria a seguinte:
GlobalMovement: A B
Para o movimento em arco do ponto A para o ponto B (Figura 16 b), a descrição seria a seguinte:
GlobalMovement: type circular A B
O raio da esfera que se forma no movimento em circulo entre dois pontos pode ser alterado, por exemplo, adicionando-se pontos na trajetória.
Para o movimento circular partindo e chegando ao mesmo ponto A (Figura 16 c), a descrição seria a seguinte:
GlobalMovement: type circular
Movimento Corporal
Os movimentos corporais são descritos no sistema pelo elemento bodyMovement, e contém os seguintes atributos:
• body : descreve o movimento do tronco e pode assumir os valores: turnLeft(v\ r-se para a esquerda), turnRight (virar-se para a direita), inclineLeft (inclinar-se para esquerda), inclineRight (inclinar-se para direita) e incline (inclinar-se para frentre).
• head : descreve o movimento da cabeça e pode ser: inclineForward (inclinar para frente), inclineBackward (inclinar para trás), forward (para frente), left (esquerda), right (direita), inclineLeft (inclinar para esquerda) e inclineRight (inclinar para direita).
• repeat : descreve quantas vezes o movimento é repetido, armazena um valor numérico.
• IShoulder. descreve movimentos do ombro esquerdo. Pode ser shrug (elevar) ou default (posição de repouso do ombro). O atributo tem como padrão o valor default, e é de preenchimento opcional.
• rShoulder. descreve movimentos do ombro direito. Assim como IShoulder, pode ter o valor shrug (elevar) ou default (posição de repouso do ombro). O atributo tem como padrão o valor default, e é de preenchimento opcional.
Outros movimentos corporais são possíveis se considerada apenas a anatomia do corpo humano. Por exemplo, os ombros podem realizar movimentos circulares para frente e para trás. Embora não foram encontrados sinais na Libras que usem estes movimentos, é possível descrevê-los apenas adicionando valores para os atributos rShoulder e IShoulder.
Os movimentos corporais são articulados nas línguas de sinais durante a realização de outros aspectos, por exemplo, os movimentos globais ou as suspensões. Portanto, o elemento bodyMovement está associado aos elementos halt, globalMovement, e também diretamente ao elemento raiz sign. Sinais compostos
O elemento compounds descreve sinais que são formados por outros sinais. Dessa forma, o sistema permite que sinais compostos sejam descritos pelos sinais primitivos que os compõem, sem a necessidade de descrições redundantes. O elemento compounds possui um elemento filho chamado signs, que contém os nomes dos sinais que compõem o sinal composto. Novamente o atributo é sucedido de *, indicando que vários valores são aceitos ao mesmo tempo. O elemento compounds contém o skip, que permite dizer se e qual parte do sinal será omitida na formação do sinal, e pode ter o valor ríghtHand, leftHand, face, halt, localMovement, globalMovement ou bodyMovement.
Modelo virtual tridimensional
Em uma realização do sistema foi utilizado um agente virtual sinalizador, modelo tridimensional que representa uma figura humana (Figura 1 , F). O modelo foi construído com um esqueleto de controle, com todas as juntas do corpo humano consideradas necessárias para a articulação dos sinais das línguas de sinais. O esqueleto de controle é anexado à uma malha de polígonos que modela uma mulher com características realistas.
É importante notar que o sistema é independente de modelo, ou seja, não faz menção específica a nenhum modelo tridimensional, referenciando apenas o nome das juntas do esqueleto de controle. Dessa forma é possível gerar implementações para outros modelos, com outra malha poligonal, outra aparência e outras roupas, desde que o esqueleto de controle contenha as mesmas juntas com igual nomenclatura. Essa vantagem possibilita que o sistema seja utilizado para diferentes propósitos, com o uso de diferentes modelos tridimensionais. Pode-se por exemplo utilizar um modelo com vestimentas formais para a apresentação de um jornal, ou um modelo infantil para crianças. É possível até mesmo a utilização de um modelo não humano, desde que contenha um esqueleto com as mesmas juntas e suas respectivas nomenclaturas, que permita sua movimentação e consequente articulação dos sinais.
Para obter uma aparência realista na realização do sistema, o modelo é dotado de texturas que procuram reproduzir a aparência da pele, cabelo, íris e roupa. Em geral nas línguas de sinais a parte superior do corpo, tronco, braços e ombros, cabeça e principalmente as mãos, são mais utilizadas na articulação do que a parte inferior do corpo, como quadris e pernas. Dessa forma, a densidade maior de malha de polígonos concentra-se na parte superior do modelo. Pelos mesmos motivos, a janela de exibição inicial enquadra a modelo da linha do quadril para cima, mas esse ponto de vista pode ser alterado pelo usuário através de botões na interface, aproximando, afastando ou girando a câmera pelo espaço de sinalização.
Animação
Em uma realização do sistema a metodologia de transcrição computacional utilizada para descrever os sinais foi implementada em língua de marcação XML. Um documento XML obedece a regras pré-definidas que estruturam o documento de maneira hierárquica. A implementação realizada para o sistema recebe os dados de entrada através da leitura de arquivos XML com a transcrição dos sinais. Os dados lidos são convertidos em ângulos de rotação e translação das juntas do esqueleto (Figura 1 , A). Ao manipular o esqueleto, a malha poligonal que compõe o modelo é deformada, gerando a sensação de movimento e a consequente animação do modelo. Dessa maneira, toda a animação (Figura 1 , G) é feita em tempo real e não há sinais gravados previamente em banco de dados.
A implementação do sistema permite ao usuário alterar a velocidade de sinalização, aproximar, distanciar, movimentar e girar a câmera, facilitando a customização da interface pelo usuário. Além destes controles, a interface possui uma área para entrada de dados. Esta área permite ao usuário carregar um arquivo do sistema com o conteúdo em língua de sinais pra que seja articulado, e oferece ainda uma área de edição, onde o usuário pode alterar o conteúdo carregado anteriormente, ou digitar um novo conteúdo para sinalização. A Figura 17 ilustra a tela da implementação do sistema.
Aplicação da tecnologia
A invenção provê uma tecnologia que permite a geração de forma ágil e flexível de conteúdo em língua de sinais.
É possível utilizar o sistema para reproduzir os sinais das línguas de sinais em dispositivos digitais em geral. Dessa maneira, as TVs digitais, por exemplo, podem se beneficiar do sistema para aumentar a acessibilidade dos deficientes auditivos oferecendo uma alternativa ao sistema Closed Caption dos televisores atuais.
Com o sistema é possível gerar conteúdo em tempo real, não necessitando gravação prévia da sinalização, uma vez que ela será gerada pelo software através do conteúdo transcrito.
Existe a possibilidade de implementar ferramentas adicionais ao sistema, como por exemplo um modulo tradutor. Dessa maneira, texto digitado diretamente em outra língua, como o português, poderá facilmente ser sinalizado em Libras, em tempo real, sem a necessidade de gravar sequências de vídeo. Essa metodologia pode ser utilizada em qualquer sistema digital, como aplicativos desktop, sistemas web, leitor de email, redes sociais, dispositivos móveis e TV digital.
O sistema também tem a possibilidade de funcionar como um dicionário Libras - português, através de uma interface onde o usuário visualiza a sinalização e recupera a palavra correspondente em português.
A metodologia de transcrição computacional permite realizar manipulações estatísticas dos sinais das línguas de sinais. Dessa forma, é possível para um linguista saber quantos sinais são produzidos com apenas uma mão, ou qual movimento é mais ou menos utilizado em determinada língua de sinal.
De maneira geral, o sistema e a metodologia de transcrição computacional facilitam o acesso dos usuários surdos aos meios computacionais disponibilizando conteúdo em língua de sinais. De forma detalhada, a metodologia de transcrição computacional das línguas de sinais permite ainda outras aplicações, tais como:
• Indexar e compartilhar material já existente. Um sistema de transcrição para língua de sinais pode ser utilizado para catalogar material existente, oferecendo uma maneira eficiente de compartilhar dados sobre o material publicado com outros pesquisadores.
• Gerar conteúdo em tempo real, não necessitando gravação prévia da sinalização, uma vez que ela será gerada pelo software através do conteúdo transcrito.
• Criar um dicionário de sinais classificado por seus traços. É possível classificar os sinais, por exemplo, como sinais de uma ou duas mãos, com ou sem movimento, assim por diante. Para se produzir um dicionário de língua de sinais que permita ao utilizador procurar um sinal por diferentes traços de sua estrutura, um banco de dados organizado ao longo das linhas fonológicas é indispensável.
· Realizar manipulações estatísticas dos sinais. Ter um banco de dados de sinais com suas respectivas descrições fonológicas pode tornar mais fácil para um usuário executar automaticamente diversos tipos de manipulações estatísticas dos dados. Embora seja possível armazenar descrições fonológicas na forma de prosa, uma abreviação dessa descrição através do uso de um sistema de transcrição inevitavelmente ocupará menos espaço de armazenamento e facilitará posteriores buscas pelo conteúdo. • Dar um passo em busca de uma notação padrão para as línguas de sinais.
• Poupar tempo e esforço dos pesquisadores. Com o uso de um sistema de transcrição é possível diminuir o tempo gasto na produção de fotografias, desenhos e vídeos para a descrição das mãos e ao mesmo tempo permitir que os pesquisadores apresentem de forma explicita os traços dos sinais que são relevantes às suas aplicações.
• Facilitar o acesso dos usuários surdos ao conteúdo escrito em língua de sinais. A apresentação de informações em uma notação padrão que seja amplamente conhecida entre os pesquisadores de língua de sinais evita que os leitores de sinais tenham que aprender vários sistemas de transcrição a fim de acompanhar os dados das publicações disponíveis.
• Oferecer alternativa ao sistema Closed Caption disponível atualmente nos televisores. Uma vez que as TVs digitais permitem que diferentes aplicações sejam embutidas na programação, uma interessante aplicação é utilizar o modelo de transcrição e o sinalizador para oferecer conteúdo em língua de sinais nos programas de televisão.
• Opção de descrição dos sinais utilizando o princípio de simetria, onde ambas as mãos assumem traços descritivos semelhantes, diminuindo o tamanho da notação. Descrição textual - e não simbólica - utilizando arquivos XML, fáceis de serem editados e interpretados por programas de computador.

Claims

REIVINDICAÇÕES
1. Sistema para geração de conteúdo em língua de sinais caracterizado por ser constituído basicamente de pelo menos um processador (A); pelo menos uma entrada (B); um conjunto de regras de entrada do sistema (C); descrição dos sinais (D); uma metodologia de transcrição das línguas de sinais para fins computacionais (E); um modelo virtual tridimensional (F); e animação (G).
2. Sistema para geração de conteúdo em língua de sinais, de acordo com a reivindicação 1 , caracterizado por receber uma entrada e processar as informações identificando quais sinais serão articulados e de que maneira; a descrição de cada sinal estará previamente armazenada no sistema e segue regras definidas na metodologia de transcrição das línguas de sinais para fins computacionais; o sistema recupera a descrição de cada sinal e calcula as rotações necessárias nas juntas do esqueleto do modelo para realizar a animação; o modelo é carregado e manipulado pelo sistema e o resultado final é a visualização da articulação em língua de sinais do texto de entrada.
3. Sistema para geração de conteúdo em língua de sinais, de acordo com a reivindicação 1 , caracterizado por o item G representar a visualização da articulação em língua de sinais, com a animação do modelo em três dimensões.
4. Sistema para geração de conteúdo em língua de sinais, de acordo com a reivindicação 1 , caracterizado por a animação dos sinais ser gerada em tempo real.
5. Sistema para geração de conteúdo em língua de sinais, de acordo com a reivindicação 1 , caracterizado por gravar, e recuperar posteriormente, a transcrição do sinal contendo todas as informações relevantes para a sua posterior reprodução computacional.
6. Método para geração de conteúdo em língua de sinais caracterizado por compreender as etapas:
a. o processador (A) recebe a entrada;
b. o processador (A) identifica os sinais de entrada (B, D e F);
c. o processador (A) carrega os arquivos de transcrição contendo a descrição de cada sinal; estes arquivos contêm toda a transcrição fonológica do sinal;
d. o sistema importa um modelo tridimensional que será o intérprete de língua de sinais (G);
e. a partir da transcrição do sinal (E), o sistema identifica quais juntas do modelo serão movimentadas para gerar a animação correspondente ao texto de entrada;
f . o sistema gera a animação rotacionando as juntas do modelo carregado; g. o sistema exibe, por intermédio de uma interface, a animação em língua de sinais.
7. Método para geração de conteúdo em língua de sinais, de acordo com a reivindicação 4, caracterizado por a entrada (A) consistir em informação e pode ser um texto digitado pelo usuário, recebido remotamente, pela internet, por exemplo, ou ainda ser uma entrada de voz convertida em texto.
8. Uso do sistema e do método descrito nas reivindicações de 1 a 7, caracterizado por ser utilizada em qualquer sistema digital, como aplicativos desktop, sistemas web, leitor de email, redes sociais, dispositivos móveis e TV digital.
PCT/BR2012/000377 2011-10-27 2012-09-20 Sistema e método para geração de conteúdo em língua de sinais apresentado por agente virtual tridimensional WO2013059894A1 (pt)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
BRPI1104855-7A BRPI1104855B1 (pt) 2011-10-27 2011-10-27 sistema e método para geração de conteúdo em língua de sinais apresentado por agente virtual tridimensional
BRPI1104855-7 2011-10-27

Publications (1)

Publication Number Publication Date
WO2013059894A1 true WO2013059894A1 (pt) 2013-05-02

Family

ID=48166964

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/BR2012/000377 WO2013059894A1 (pt) 2011-10-27 2012-09-20 Sistema e método para geração de conteúdo em língua de sinais apresentado por agente virtual tridimensional

Country Status (2)

Country Link
BR (1) BRPI1104855B1 (pt)
WO (1) WO2013059894A1 (pt)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496168A (zh) * 2020-04-02 2021-10-12 百度在线网络技术(北京)有限公司 手语数据采集方法、设备、存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6535215B1 (en) * 1999-08-06 2003-03-18 Vcom3D, Incorporated Method for animating 3-D computer generated characters

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6535215B1 (en) * 1999-08-06 2003-03-18 Vcom3D, Incorporated Method for animating 3-D computer generated characters

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AMARAL, W. M. ET AL.: "Towards a transcription system of sign language for 3D virtual agents", INNOVATIONS IN COMPUTING SCIENCES AND- SOFTWARE ENGINEERING., 2010, NETHERLANDS, pages 85 - 90 *
KARPOUZIS, K. ET AL.: "Educational resources and implementation of a Greek sign language synthesis architecture", COMPUTERS & EDUCATION., vol. 49, no. 1, August 2007 (2007-08-01), pages 54 - 74, XP005864621 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496168A (zh) * 2020-04-02 2021-10-12 百度在线网络技术(北京)有限公司 手语数据采集方法、设备、存储介质

Also Published As

Publication number Publication date
BRPI1104855B1 (pt) 2021-04-20
BRPI1104855A2 (pt) 2014-05-27

Similar Documents

Publication Publication Date Title
Zhao et al. A machine translation system from English to American Sign Language
Farooq et al. Advances in machine translation for sign language: approaches, limitations, and challenges
ES2230290T3 (es) Animacion de personajes.
Naert et al. A survey on the animation of signing avatars: From sign representation to utterance synthesis
Ma Automatic conversion of natural language to 3D animation
JP2013511087A (ja) 仮想表情の創成方法
CN109166409A (zh) 一种手语转换方法及装置
Kryvonos et al. Construction and identification of elements of sign communication
De Wit et al. The design and observed effects of robot-performed manual gestures: A systematic review
Murtagh A linguistically motivated computational framework for irish sign language
López-Colino et al. Spanish sign language synthesis system
WO2013059894A1 (pt) Sistema e método para geração de conteúdo em língua de sinais apresentado por agente virtual tridimensional
Gibet et al. Signing Avatars-Multimodal Challenges for Text-to-sign Generation
Johnston Aesthetic Animism: Digital Poetry as Ontological Probe
López-Colino et al. Hybrid paradigm for Spanish sign language synthesis
Papadogiorgaki et al. Synthesis of virtual reality animations from SWML using MPEG-4 body animation parameters
Havasi et al. A motion capture system for sign language synthesis: Overview and related issues
McDonald et al. An improved framework for layering linguistic processes in sign language generation: Why there should never be a “brows” tier
Yi et al. sEditor: A prototype for a sign language interfacing system
Van Wyk Virtual human modelling and animation for real-time sign language visualisation
JP4379146B2 (ja) 情報表示装置
Papadogiorgaki et al. Gesture synthesis from sign language notation using MPEG-4 humanoid animation parameters and inverse kinematics
Glauert et al. Virtual human signing as expressive animation
Jernigan et al. Aesthetic affordances: Computer animation and Wayang Kulit puppet theatre
Antona et al. Universal Access in Human–Computer Interaction. Designing Novel Interactions: 11th International Conference, UAHCI 2017, Held as Part of HCI International 2017, Vancouver, BC, Canada, July 9–14, 2017, Proceedings, Part II

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12843694

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12843694

Country of ref document: EP

Kind code of ref document: A1