WO2013059894A1

WO2013059894A1 - Sistema e método para geração de conteúdo em língua de sinais apresentado por agente virtual tridimensional

Info

Publication number: WO2013059894A1
Application number: PCT/BR2012/000377
Authority: WO
Inventors: Wanessa Machado Do AMARAL; José Mário de MARTINO
Original assignee: Estadual De Campinas - Unicamp
Priority date: 2011-10-27
Filing date: 2012-09-20
Publication date: 2013-05-02
Also published as: BRPI1104855B1; BRPI1104855A2

Abstract

Refere-se o presente pedido de patente de invenção a um novo sistema e método para gerar conteúdo em língua de sinais sendo esta apresentada por intermédio de um agente tridimensional virtual.

Description

SISTEMA E MÉTODO PARA GERAÇÃO DE CONTEÚDO EM LÍNGUA DE SINAIS APRESENTADO POR AGENTE VIRTUAL TRIDIMENSIONAL

Campo da invenção

Essa metodologia pode ser utilizada em qualquer sistema digital, como aplicativos desktop, sistemas web, leitor de email, redes sociais, dispositivos móveis e TV digital.

Fundamentos da invenção

O Brasil possui 5,7 milhões de pessoas com algum grau de deficiência auditiva, de acordo com o Censo realizado em 2000. Para pessoas que adquirem a surdez antes da alfabetização, materiais escritos são, em sua maioria, menos acessíveis do que se apresentados em línguas de sinais. Para a comunidade de surdos, a língua de sinais é geralmente a primeira língua adquirida, e ler um texto em uma língua escrita é o equivalente a utilizar uma língua estrangeira. É possível aprimorar a interação homem-máquina de portadores de deficiência auditiva adequando as respostas dos sistemas computacionais às necessidades dos surdos.

A Libras, língua de sinais brasileira, utiliza gestos e expressões faciais para a comunicação, sendo utilizada pela comunidade brasileira de surdos.

A criação de mídia de vídeo é utilizada atualmente para apresentação de conteúdo em língua de sinais. Essa opção possui desvantagens, como custo de produção, necessidade de infraestrutura física específica, como câmeras de vídeo e sala apropriada, participação de intérpretes experientes, dificuldade de manutenção do conteúdo e problemas para garantir a continuidade do material, como utilizar o mesmo intérprete, com as mesmas roupas e o mesmo fundo. Existem também problemas de transmissão e armazenamento uma vez que arquivos de vídeo são maiores que arquivos contendo apenas texto.

Um agente virtual sinalizador é um modelo tridimensional que representa uma figura humana e que articula em língua de sinais. Esta opção mostra-se como uma alternativa vantajosa ao uso de vídeos. Entre as vantagens, destacam-se que a criação de conteúdo em língua de sinais poderá ser realizada por uma única pessoa, utilizando um computador, sem a necessidade de equipamentos especiais para captura e processamento de vídeos. O conteúdo também pode ser criado mais facilmente, por pessoas não necessariamente treinadas e com fluência em língua de sinais. Há a possibilidade de geração de conteúdo em tempo real. A continuidade também deixa de ser um problema, uma vez que o conteúdo poderá ser alterado a qualquer momento, sem a necessidade de regravar a sequência de sinalização inteira. O armazenamento do conteúdo é outra vantagem. O espaço em disco no computador requerido para armazenar a descrição dos sinais é bastante inferior se comparado ao armazenamento de arquivos de vídeo. A transmissão do conteúdo também é facilitada, uma vez que o conteúdo transcrito pode ser armazenado em arquivos de texto, que são menores e mais fáceis de serem transmitidos em comparação à arquivos de vídeo. Por exemplo, um vídeo de 2 minutos em formato MPEG-4 contento o alfabeto da Libras ocupa aproximadamente 6,62 MB de espaço em disco, o equivalente a 6.946.816 bytes. Um arquivo de texto contendo a descrição do mesmo conteúdo na metodologia de transcrição computacional descrita aqui ocupa 4 KB, o equivalente a 4.096 bytes. Neste caso, o arquivo de vídeo é cerca de 1696 vezes maior do que o arquivo de texto que descreve o mesmo conteúdo, para apenas 2 minutos de articulação. Existe ainda a possibilidade de oferecer ao usuário controle adicional sobre o material transmitido, como alteração do ponto de vista durante a reprodução para que o sinal seja mais bem visualizado, o que é impossível na reprodução por vídeo.

As soluções apresentadas na literatura até o momento para a animação de agentes virtuais sinalizadores possuem limitações. Para reproduzir virtualmente a articulação de línguas de sinais é necessário conhecimento profundo da estrutura linguística dos sinais, a fim de recriar todos os detalhes relevantes para o entendimento dos sinais pela comunidade de surdos.

No pedido de patente PI0502931-7, o sistema faz a conversão de uma palavra em português para um sinal da Libras, através da animação de imagens. Neste trabalho, faz-se uso de um dicionário de animações, não existe a coarticulações de sinais, não oferece realismo do sinalizador, utiliza um articulador fixo, uma figura humanoide em duas dimensões; trabalha em duas dimensões e não permite customização da visualização, como aproximar e rotacionar; por se tratar de outra língua, uma língua de sinal como a Libras possui estrutura linguística diferente das línguas orais e a tradução fiel do conteúdo não pode ser realizada com uma simples correspondência entre palavras.

A patente US20100843622 refere-se a um sistema e dispositivo de mão em que o usuário digita uma palavra e o programa exibe o sinal correspondente. Neste caso o tradutor tem uma memória interna (limitada) que armazena algumas palavras, letras e números em uma base de dados, em forma de vídeo, com uma pessoa articulando os sinais. Não descreve todas as informações necessárias para gerar animação da sinalização em Libras. É limitado, pois utiliza um dicionário de animações com as imagens de uma pessoa articulando os sinais. Portanto, a inserção de novos sinais é limitada ao dono da tecnologia e não ao usuário. Trabalha em duas dimensões, o que impede o usuário de ter controle adicional sobre a interface, como alterar o ângulo de visão e/ou inserir outro modelo (avatar).

O pedido de patente FR20090051978 descreve um sistema que traduz uma página web em língua de sinais. Traduz palavra por palavra. Por se tratar de outra língua, as línguas de sinais (como a Libras) possuem estrutura linguística diferente das línguas orais e a tradução fiel do conteúdo não pode ser realizada com uma simples correspondência entre palavras. Utiliza um dicionário de animações. Não existe a coarticulação de sinais.

Os sistemas de transcrição das línguas de sinais não foram criados para fins computacionais e possuem características como ambiguidades e omissão de informações, impossibilitando seu uso para gerar animações no computador. Em geral o reconhecimento e a reprodução de um sinal nos sistemas de transcrições existentes são possíveis apenas por intérpretes experientes ou por profundos conhecedores da notação. Para criar softwares de sinalização das línguas de sinais é necessário uma metodologia de transcrição que registre explicitamente quantidade suficiente de informações para que a reprodução computacional dos sinais seja próxima à realidade.

O sistema é apresentado por um agente virtual tridimensional e implementa uma metodologia de transcrição das línguas de sinais desenvolvida especificamente para fins computacionais.

Cada país tem sua própria língua de sinais. A Libras é a língua de sinais brasileira reconhecida pelo Estado. No entanto, para um país de proporções continentais como o Brasil, não é incomum encontrarmos regionalidades linguísticas. Portanto até dentro de um mesmo país existem diferenças entre a língua de sinais utilizada em regiões diferentes. Dessa maneira, qualquer iniciativa para aumentar a acessibilidade de deficientes auditivos nos ambientes computacionais deve levar em consideração a regionalidade das línguas gestuais e prever que o sistema não deve ser fechado e estático. Diferentemente dos demais, o sistema apresentado aqui não é apenas um dicionário das línguas de sinais. Não existe um banco de dados fixo e pré-estabelecido de sinais. Novos sinais podem ser descritos pelo próprio usuário - inclusive por pessoas não necessariamente experientes em língua de sinais - e automaticamente inseridos no sistema.

Outro diferencial do sistema é a possibilidade de articular não apenas sinais isolados, mas frases em línguas de sinais. As línguas de sinais são bem mais complexas do que a simples articulação robótica de sequências de sinais, sem conexão entre si. Nas línguas faladas os efeitos da coarticulação se manifestam pela alteração do padrão articulatório de um determinado segmento sonoro pela influência de outro adjacente, ou próximo, na cadeia de produção sonora. Os efeitos da coarticulação fazem com que, por exemplo, o "t" da palavra "talher" seja visualmente distinto na boca do orador do que o "t" da palavra "tudo". Essa influência de segmentos adjacentes também ocorre nas línguas de sinais. Portanto, para uma sinalização realista e mais próxima da língua utilizada pelos surdos não basta manter um dicionário de sinais e reproduzi-los em sequência. O sistema incorpora os traços de coarticulação e permite que a articulação ocorra de forma coesa e conexa, diferenciando-o das demais propostas existentes.

A transição entre as articulações é realizada no sistema de maneira suave, com a interpolação entre o final de um sinal e o início do outro. Nos sistemas que utilizam dicionário de sinais, sempre que um sinal é articulado, as mãos retornam à posição de repouso, antes de uma nova sinalização. Esse problema é contornado no sistema apresentado aqui, o que torna a visualização menos robótica e mais amigável ao usuário surdo.

O sistema permite ainda, através do uso da detalhada descrição dos sinais pela transcrição computacional, representar expressões não manuais durante a sinalização. As expressões faciais e corporais são fundamentais para uma articulação de qualidade e para a correta interpretação do usuário.

Com o uso do sistema apresentado é possível a apresentação em ambiente virtual tridimensional de conteúdo em língua de sinais. Dessa forma é oferecido ao usuário controle adicional sobre a visualização, o que é impossível com conteúdo de vídeo ou conteúdo computacional em duas dimensões. O sistema permite a customização da interface, onde o usuário pode alterar a velocidade de sinalização, aproximar, distanciar, movimentar e girar a câmera. Este controle adicional da interface que o sistema oferece através de sua implementação tridimensional é uma característica importante, em especial para aquele que está aprendendo língua de sinais e deseja alterar o ângulo de visão de acordo com a sua preferência para melhor visualização do sinal reproduzido.

O sistema descreve os sinais de forma textual. Esta é outra característica interessante e inovadora do sistema, uma vez que é possível a implementação de plugins para serem acoplados a outros softwares, como navegadores da internet, aparelhos celulares e sistema de TV digital.

Outro diferencial está centrado no fato de, por trabalhar com a descrição textual dos sinais, o sistema pode ser utilizado para qualquer língua de sinais.

Outrossim, o presente método pode se valer das transcrições de vídeo existentes, que podem servir de entrada para o sistema e gerar a articulação virtual do mesmo conteúdo transcrito no vídeo.

Breve descrição da invenção

O dito sistema é constituído basicamente de: um processador; um canal de entrada; um conjunto de regras de entrada do sistema; uma metodologia de transcrição das línguas de sinais para fins computacionais e um modelo virtual tridimensional.

O método para gerar conteúdo em língua de sinais por intermédio de um agente virtual tridimensional é constituído basicamente das seguintes etapas:

a. O processador (A) recebe um texto de entrada. Este texto, conforme descrito em detalhes na seção Entrada do sistema, pode ser digitado pelo usuário, recebido remotamente, pela internet, por exemplo, ou ainda ser uma entrada de voz convertida em texto;

b. O processador (A) identifica os sinais de entrada (B, D e F);

c. O processador (A) carrega os arquivos de transcrição contendo a descrição de cada sinal. Estes arquivos contém toda a transcrição fonológica do sinal, ou seja, se o sinal é descrito com uma ou ambas as mãos, se e quais movimentos são realizados, entre outras informações; d. O sistema importa um modelo tridimensional que será o intérprete de língua de sinais (G);

e. A partir da transcrição do sinal (E), o sistema identifica quais juntas do modelo serão movimentadas para gerar a animação correspondente ao texto de entrada;

f. O sistema gera a animação rotacionando as juntas do modelo carregado;

g. O sistema exibe, por intermédio de uma interface, a animação em língua de sinais.

Tanto o sistema quanto a metodologia aqui desenvolvida para a transformação de língua escrita ou falada em língua de sinais se destacam por completo do estado da técnica conforme os diferenciais já levantados nesse documento. A tecnologia é possuidora de aplicação industrial, podendo ser utilizada em qualquer sistema digital, como aplicativos desktop, sistemas web, leitor de email, redes sociais, dispositivos móveis e TV digital.

Breve descrição das figuras

A figura 1 ilustra a arquitetura do sistema sendo que:

• A - processador;

• B - entrada;

• C - regras de entrada do sistema;

• D - descrição dos sinais;

• E - metodologia de transcrição das línguas de sinais para fins computacionais;

• F - modelo virtual tridimensional; e

• G - animação.

A figura 2 demonstra um exemplo de sinal em Libras: Sinal NÃO (Capovilla & Raphael, 2001). Sinal NÃO: Mão direita em D, palma para frente. Balançar a mão para a esquerda e para a direita, com expressão facial negativa.

A figura 3 demonstra um exemplo de sinal em Libras: Sinal UM (Capovilla & Raphael, 2001) Sinal UM: Mão direita em D, dorso para frente.

A figura 4 demonstra a estrutura de entrada do sistema.

A figura 5 demonstra a metodologia de transcrição das línguas de sinais. A figura 6 demonstra a nomenclatura das juntas da mão humana (adaptado de Xavier, 2006).

A figura 7 demonstra Configurações de mão que se distinguem pela inclinação dos dedos (adaptado de Xavier, 2006).

A figura 8 demonstra a descrição da configuração de mão.

A figura 9 demonstra as orientações da palma da mão com o braço na horizontal¹

A figura 10 demonstra a linha do braço¹.

A figura 11 demonstra as rotações do pulso.²

A figura 12 demonstra os pontos de localização mapeados.

A figura 13 demonstra o Sinal MAÇANETA da Libras (Capovilla e Raphael, 2001 ).

A figura 14 demonstra o Sinal MOTO da Libras (Capovilla e Raphael, 2001).

A figura 15 demonstra o Sinal MARAVILHA da Libras (Capovilla e Raphael, 2001).

O anexo 1 refere-se a uma visualização da implementação do método.

Descrição detalhada da invenção

O sistema oferece um mecanismo de geração de conteúdo em língua de sinais. A partir de um texto de entrada, por exemplo, um modelo tridimensional virtual é animado para realizar a articulação correspondente.

A figura 1 ilustra a arquitetura do sistema sendo este constituído de pelo menos um processador (A); pelo menos uma entrada (B); um conjunto de regras de entrada do sistema (C); descrição dos sinais (D); uma metodologia de transcrição das línguas de sinais para fins computacionais (E); um modelo virtual tridimensional (F); e animação (G). As setas indicam o fluxo do programa. Os itens B, D e F são entradas para o programa. As setas

¹ Adaptado de Stumpf, Lições sobre o SignWriting, acessado no dia 07/07/2011 em:

www.signwiting.org/archive/docs5/sw0472-BR-Licoes-SignWriting.pdf

² Adaptado de http://w ^f.chem.purdue.edu chenisafetv/safetvclass/iniurv/lecture/chaDÍv.htm. acessado no dia 07/07/2011 pontilhadas são documentos de regras que ditam o formato dos itens B e D. O símbolo de quadrilátero com canto arredondado do item A é utilizado para enfatizar que se trata de um item responsável pelo processamento do sistema, enquanto que os quadriláteros com canto reto, utilizados em B, C, D, E, F representam informações que alimentarão o sistema.

O item G representa a visualização da articulação em língua de sinais, com a animação do modelo em três dimensões. O símbolo utilizado se assemelha a figura de um monitor para realçar que a visualização pode se dar em qualquer meio digital, como televisores, computadores ou celulares.

O sistema recebe uma entrada e processa as informações identificando quais sinais serão articulados e de que maneira. A descrição de cada sinal está previamente armazenada no sistema e segue regras definidas na metodologia de transcrição das línguas de sinais para fins computacionais. O sistema recupera a descrição de cada sinal e calcula as rotações necessárias nas juntas do esqueleto do modelo para realizar a animação. O modelo é carregado e manipulado pelo sistema e o resultado final é a visualização da articulação em língua de sinais do texto de entrada.

Outro objeto de proteção do presente pedido de patente de invenção seria o método empregado para se possibilitar a transformação de uma língua escrita ou falada em uma língua de sinais. Podemos descrever basicamente a metodologia desenvolvida por intermédio dos seguintes passos: a. O processador (A) recebe a entrada. Esta entrada, conforme descrita em detalhes na seção Entrada do sistema, pode ser um texto digitado pelo usuário, recebido remotamente, pela internet, por exemplo, ou ainda ser uma entrada de voz convertida em texto;

b. O processador (A) identifica os sinais de entrada (B, D e F);

c. O processador (A) carrega os arquivos de transcrição contendo a descrição de cada sinal. Estes arquivos contêm toda a transcrição fonológica do sinal, ou seja, se o sinal é descrito com uma ou ambas as mãos, se e quais movimentos são realizados, entre outras informações; d. O sistema importa um modelo tridimensional que será o intérprete de língua de sinais (G);

f. O sistema gera a animação rotacionando as juntas do modelo carregado;

Entrada do sistema

A entrada do sistema consiste em informação, geralmente de texto, e pode conter sinais, frases ou uma datilologia. A datilologia é a soletração de uma palavra do português ou de outra língua escrita usando o alfabeto manual de Libras.

O texto de entrada do sistema pode estar armazenado em qualquer meio digital, como por exemplo arquivos ou sistemas de banco de dados. O sistema permite receber a entrada remotamente, pela rede local ou através de conexão com a internet, ou ainda pela interface de implementação do sistema. Outra possibilidade que o sistema oferece é o aproveitamento de transcrições de vídeos já existentes. Existe ainda a possibilidade de entrada de dados via voz, uma vez que existem tecnologias que transformam voz em texto, que depois pode ser facilmente lido e interpretado pelo sistema (Figura 1 , B).

Os sinais são descritos com uma metodologia de transcrição das línguas de sinais desenvolvida especificamente para fins computacionais. Cada traço articulatório que compõe o sinal como, por exemplo, a posição da mão ou o movimento realizado, é descrito como um elemento do sinal. As informações que o elemento pode conter são chamadas de atributos do sinal. Vários valores foram descritos para cada um dos atributos. No entanto, da forma como foi concebida a descrição, novos valores para os atributos podem ser acrescentados conforme a necessidade.

É importante ressaltar que na invenção descrita a animação dos sinais é gerada em tempo real. Dessa forma, não existe um banco de dados de animações ou vídeos pré existente. Toda a sinalização é gerada novamente, cada vez que o usuário solicitar. Dessa forma, é possível dizer que o sistema não necessita de banco de dados de sinais, pois o que está armazenado é apenas uma descrição de como o sinal é feito (Figura , D), e não o sinal em si. O que o sistema grava, e recupera depois, é a transcrição do sinal, com todas as informações relevantes para a sua posterior reprodução computacional, como por exemplo, o que faz cada mão e como os movimentos são realizados. Desse modo, qualquer novo sinal pode ser descrito, pelo próprio usuário, e depois referenciado no sistema para que ocorra a respectiva animação. Adicionalmente, o sistema é independente de avatar, ou seja, não faz menção às características de um modelo tridimensional específico. Qualquer modelo que contenha um esqueleto de controle pode ser utilizado para gerar o resultado final, que é a visualização da articulação em línguas de sinais.

Para descrever um sinal da Libras é preciso por exemplo especificar se as mãos estão com a palma visível para o sinalizador ou para o receptor da articulação. O sistema descreve esse traço do sinal com o atributo orientation do elemento rightHand. Nos sinais NÃO (Figura 2) e UM (Figura 3) da Libras a orientação da palma da mão assume valores opostos, no primeiro caso a palma está visível para o receptor e no segundo caso, para o articulador.

A descrição dos sinais será ilustrada com diagramas de classes da UML (Unified Modeling Language). Cada elemento da descrição é ilustrado como uma classe da UML (uma caixa contendo o nome do elemento), com ou sem atributos.

Regras de entrada do sistema

O texto de entrada pode conter uma lista de sinais, a soletração de palavras ou a descrição de movimentos. Para o sistema, a entrada é descrita de forma hierárquica em uma estrutura em árvore (Figura 1 , C). O elemento raiz da árvore é o elemento phrase. (Figura 4).

O elemento phrase contém um ou mais sinais, descritos pelo elemento signs, que armazena as glosas dos sinais. Glosa é uma palavra em português ou outra língua escrita, usada para representar o sinal manual com o mesmo sentido. O elemento sign pode ter como valor qualquer sequência de letras, números e caracteres especiais.

Os sinais são articulados na sequência em que aparecem no texto de entrada. Por exemplo:

Phrase:

signs: eu morar casa bonita

A entrada acima diz ao sistema para realizar movimentos que na Libras tenham o mesmo sentido das palavras: eu morar casa bonita. O sistema então recupera as descrições correspondentes à cada sinal, como as informações de localização de mão, movimento, etc, e realiza a respectiva animação do modelo tridimensional virtual.

Algumas palavras não têm um sinal correspondente nas línguas de sinais. Isso ocorre principalmente para palavras novas ou para nome próprio. Neste caso, os surdos costumam utilizar a soletração da palavra articulando letra por letra, o que é chamado de datilologia.

O sistema realizada a articulação de datilologia de duas formas: implícita e explícita. Por exemplo, para articular a palavra J-O-A-O, a entrada do sistema fica como:

Phrase:

signs: J O Ã O

Ou seja, a palavra a ser soletrada deve ser entrada no sistema com cada letra separada por espaço. No entanto, se o sistema receber como entrada a seguinte palavra: Phrase:

signs: JOAO

o sistema procura nas descrições existentes um sinal associado à palavra JOAO, e se não encontrar, sinaliza as letras J, O, A e O respectivamente.

Alternativamente, o texto de entrada pode conter a descrição de movimentos que não pertençam a um sinal específico. Neste caso a descrição é feita com os elementos halt, globalMovement e bodyMovement, filhos do elemento raiz phrase.

O elemento halt descreve uma articulação em que as mãos não se movem, ficam paradas em suspensão no ar, podendo ou não conter movimentos locais, ou seja, movimentos de pulso, antebraço ou dedos. O elemento globalMovement descreve movimentos que deslocam as mãos pelo espaço de sinalização, que também podem conter movimentos locais.

O elemento coarticulate descreve sinais ou movimentos articulados simultaneamente. Tem como filhos todos os demais elementos de phrase: sign, halt, globalMovement e bodyMovement. Dessa forma, é possível descrever a coarticulação de sinais, suspensões e movimentos específicos. O elemento signs tem um atributo associado a ele, skip, que descreve se uma das mãos deve ser omitida na coarticulação, e qual delas.

Por exemplo, para articular a frase "Enquanto andava de bicicleta, seu chapéu caiu" articula-se o sinal "bicicleta" e tira uma das mãos para articular o sinal de cair o chapéu da cabeça, indicando que o chapéu caiu da cabeça enquanto se andava de bicicleta. Com dois sinais a frase é articulada. No entanto, a articulação dos sinais separadamente, em ordem sequêncial, não alcança o mesmo sentido da frase. A descrição desta frase no sistema é a seguinte: Phrase:

signs: bicicleta

coarticulate: bicicleta skip rightHand

globalMovement

(descrição de chapéu cair)

Mais adiante, na descrição dos sinais, será mostrado que todo sinal pode ter expressões faciais, demonstrando emoções, ou alterando o significado da sinalização como aumentativo ou diminutivo.

Para a descrição das frases é possível adicionar expressões faciais que não façam parte da descrição do sinal, mas que têm sentido somente no contexto da sinalização. O elemento face pode ser descrito em qualquer momento da frase, com um dos valores: angry (raiva ou irritação), happy (alegria), surprise (surpresa), fear (medo), disgust (nojo ou aversão), sarcasm (sarcasmo), contempt (desprezo), respect (respeito), disrespect (desrespeito), pity (compaixão, pena), augmentative (aumentativo), diminutive (diminutivo). Se não preenchido o elemento será considerado com valor default (padrão), que significa uma expressão facial neutra.

Phrase:

signs: minha casa <face augmentative> grande

O exemplo acima ilustra o uso da expressão facial para expressar o aumentativo de grande, um sinal já descrito no sistema, mas sem expressão facial associada. A sinalização da frase acima poderia ser traduzida para o português como: "A minha casa é grandona" ou "A minha casa é muito grande".

Ao final da sinalização de cada frase há uma pausa, antes do início da articulação da próxima frase. Essa pausa não é descrita no sistema de transcrição de forma explícita. No entanto, caso considere necessário, o usuário do sistema pode descrever explicitamente esta pausa com o elemento pause.

Metodologia de transcrição das línguas de sinais para fins computacionais

Os sinais são descritos no sistema de forma textual, através de uma metodologia de transcrição detalhada, que armazena as informações necessárias para uma reprodução natural e contínua, como acontece na conversação real entre os surdos. A Figura 5 ilustra a metodologia de transcrição.

O elemento sign descreve informações necessárias para realizar a animação computacional do sinal. Tem como atributo name, que armazena o nome do sinal, e possui os seguintes elementos filhos:

• halt (suspensão): descrição de traços independentes de movimento, como configuração e orientação da mão.

• globalMovement (movimento global): descrição dos movimentos das mãos pelo espaço de sinalização, como trajetória e velocidade do movimento.

• bodyMovement (movimento corporal): descrição dos movimentos corporais, como tronco, ombros e cabeça.

• Pause: é possível com este atributo definir um tempo em segundos que o sinal fica em pausa, após ser articulado, durante sua articulação.

• Compounds: utilizado para a descrição de sinais compostos, formados pela junção de dois sinais existentes, com ou sem omissão de partes de um dos sinais.

A suspensão de um sinal, descrita pelo elemento halt pode ser realizada com uma ou ambas as mãos, e são descritas pelos elementos rightHand e leftHand. Um terceiro elemento, face, descreve a expressão facial associada à suspensão. O atributo localMovement (movimento local), pode estar descrito tanto dentro do elemento halt como do elemento globalMovement. O atributo localMovement contém a descrição de movimentos realizados pelos dedos, pulso e antebraço, sem o descolamento das mãos pelo espaço.

O elemento rightHand descreve o comportamento da mão direita e contém os seguintes atributos:

• configuration , configuração de mão.

• orientation , orientação da palma.

• Une, linha do braço.

• wrist, rotação do pulso.

· location: localização das mãos no espaço de sinalização.

Configuração de mão

A configuração de mão (atributo configuration dos elementos rightHand e leftHand) descreve a disposição de cada um dos dedos das mãos, por exemplo, se estão unidos ou separados, flexionados ou distendidos. Uma descrição separada é utilizada para a configuração de mão. A essa descrição é associado um nome, que é referenciado na descrição do sinal.

A mão humana possui três juntas nos dedos indicador, médio, anelar e mínimo: junta distai, medial e proximal, como ilustra a (Figura 6: 1 , 2 e 3, respectivamente). Para descrever a configuração da mão são necessários apenas os ângulos de rotação das juntas proximal e distai. Uma vez que quando se flexiona a junta distai de um dedo, a grande maioria das pessoas flexiona também a junta medial. O polegar não possui junta medial. Por outro lado, a junta do metacarpo, que liga a palma da mão ao polegar, possui influência em sua movimentação. Dessa forma, a junta do metacarpo é descrita para o polegar na configuração de mão.

A inclinação dos dedos é um atributo da descrição, pois existem configurações de mão nas línguas de sinais que se distinguem apenas pelo ângulo de inclinação dos dedos, conforme ilustra a Figura 7.

A descrição da configuração de mão tem como elemento raiz o elemento configuration, que tem como elementos filhos os elementos thumb, index, middle, ring e little. Cada um desses elementos tem os atributos proximal, distai e inclined, que descrevem, respectivamente, o ângulo de rotação das juntas proximal, distai e de inclinação dos dedos, a abertura entre os dedos. A (Figura 8) ilustra a descrição da configuração de mão.

A descrição de configuração de mão é feita de forma textual, assim como a descrição dos sinais. Em uma realização do sistema foi utilizada a língua de marcação XML, porém outros formalismos de descrição podem ser utilizados.

Para exemplificar a descrição, a configuração de mão da Figura 8 é ilustrada a seguir:

<?xml version="1.0" encoding="utf-8"?>

<thumb proximal="-30.0" distal="-66.8" metacarpal="-

12.2" inclined="-23.87>

</configuration>

O valor do atributo name do elemento configuration é utilizado na descrição do sinal, no atributo configuration dos elementos rightHand e leftHand.

Existem configurações de mão mais utilizadas nas línguas de sinais de forma que é possível estabelecer um conjunto finito no sistema, permitindo a inserção de novas configurações quando necessário.

Orientação da palma de mão

O atributo oríentation dos elementos rightHand e leftHand descreve a palma da mão como se o sinalizador estivesse olhando para suas próprias mãos, de sua própria perspectiva. Os valores possíveis para o atributo orientation são ilustrados na Figura 9, como segue: ¹

• supination (a): a palma da mão está voltada para cima. · half-supination (b): no caso da mão direita, a palma está voltada para a esquerda.

• pronation (c): a palma da mão está voltada para baixo.

• half-pronation(d): no caso da mão direita, a palma está voltada para direita.

Linha do braço

O atributo Une dos elementos rightHand e leftHand define a linha do braço em relação ao espaço de sinalização, e pode ser igual a vertical (Figura 10 a) ou horizontal (Figura 10 b).

Pulso

O atributo wrist dos elementos rightHand e leftHand descreve a rotação do pulso e pode conter os valores:

• extensioh. Pulso virado para cima, Figura 1 (a).

• flexion. Pulso virado para baixo, Figura 11 (b).

· radialDeviation: Figura 11 (c).

• ulnarDeviation: Figura 11 (d).

• neutral. Está é a posição padrão. Caso não preenchido, o pulso fica na posição neutra Figura 11 (e).

Localização

Localização (atributo location dos elementos rightHand e leftHand) é a região do espaço de sinalização na qual as mãos articulam o sinal. A localização pode ser um ponto no espaço ou um ponto de contato com a mão, com o rosto ou com o corpo.

O espaço de sinalização é mapeado como ilustra a Figura 12, em diferentes profundidades. Cada ponto recebe um número, que é referenciado na descrição do sinal pelo atributo location. Cada ponto numerado na Figura 12 é mapeado no sistema como um ponto de localização para as mãos, que podem ser alcançados rotacionando os ombros e o cotovelo do modelo, em torno dos eixos cartesianos X, Y e Z.

O sistema carrega então uma lista com as localizações mapeadas e com as rotações necessárias nas juntas do ombro e cotovelo para alcançar cada localização.

Embora os pontos de localização estejam mapeados previamente, o sistema permite a inserção de novos pontos de localização, apenas inserindo novas linhas na tabela de localizações.

A invenção descreve os pontos de localização de maneira independente de modelo, ou seja, não faz referência específica à dimensão ou partes do corpo do sinalizador. Dessa maneira a invenção tem a vantagem de descrever os sinais e reproduzi-los de maneira idêntica em qualquer realização, mesmo que a geometria do modelo virtual tridimensional seja diferente.

Simetria

Para a descrição da mão esquerda existe um atributo chamado de dynamic que descreve a dinâmica da mão esquerda. Seu valor padrão é default, e significa que a mão esquerda é independente da direita. No entanto o atributo dynamic pode assumir os valores symmetric e mirrored, que permitem descrição de movimentos e configurações simétricas ou espelhadas para a mão esquerda. Dessa forma não há necessidade de descrever duas vezes as mesmas configurações e movimentos.

Expressões Faciais

As expressões faciais são importantes nas línguas de sinais. O sistema descreve os movimentos necessários para atribuir personalidade e emoção à articulação, expressando de maneira convincente e realista o conteúdo que está sendo articulado em língua de sinais.

Na descrição dos sinais, as expressões faciais são associadas à suspensão. O elemento face descreve separadamente os traços da face.

O atributo preDefined facilita descrições de expressões prontas, como feliz ou triste. Este atributo pode ser utilizado quando não é desejada uma precisão muito grande na descrição da face, bastando dizer que a expressão é de alegria ou tristeza para uma boa articulação. O atributo preDefined também pode ser utilizado para expressar aumentativo e diminutivo. Por exemplo, a palavra gordo e gordão podem diferir apenas pela expressão facial associada a elas.

O elemento face possui os seguintes atributos (Tabela 1), todos de preenchimento opcional e com o valor inicial igual a default

Nome Valores do atributo

do atributo

forehea creased (franzida), default (neutra)

d (testa)

eyebro up (cima), default (reta), down (baixo), up ws (sobrancelhas) inside(para cima e para dentro)

eyes default (abertos), squeezed (espremidos), closed

(olhos) (fechados), wide (arregalados).

look top (para cima), top right (cima, deireira), top left

(olhar) (cima, esquerda), default (para frente), low (para baixo), low right

(baixo, direita), low left (baixo, esquerda)

cheeks stewed (estufadas), sucked (sugadas), tight

(bochechas) (tensas), blow (soprar), default (neutras)

nose wrinkled (franzido), default (neutro)

(nariz)

mouth smile (sorriso fechado), laugh (riso), yawn (bocejo),

(boca) kiss (beijo), tense (tensa), ajar (entreaberta), default (neutra) tongue default (neutra, dentro da boca), outsideMouth

(lingua) (fora da boca) Nome Valores do atributo

do atributo

teeth biteUpperLip (superiores tocando lábio inferior), biteLowerLip (inferiores tocando lábio superior), default (neutros, dentro da boca).

preDefi angry (raiva ou irritação), happy (alegria), surprise ned (surpresa), fear (medo), disgust (nojo ou aversão), sarcasm

(sarcasmo), contempt (desprezo), respect (respeito), disrespect (desrespeito), pity (compaixão, pena), default (neutra), augmentative (aumentativo), diminutive (diminutivo).

Tabela 1 : Atributos do elemento face para descrição de expressões faciais.

Movimentos Locais

O elemento localMovement descreve os movimentos locais dividindo-os em três categorias:

· forearm (antebraço): é o movimento do antebraço em torno do seu próprio eixo. O antebraço não se movimenta, só rotaciona (Exemplo Figura 13). O atributo orientation tem o mesmo valor do atributo de mesmo nome do elemento rightHand e leftHand.

• hand (mão). Movimento de dedos. Exemplo Figura 14. O atributo configuration tem o mesmo valor do atributo de mesmo nome do elemento rightHand e leftHand.

• wrist (pulso). Movimento de rotação do pulso (Exemplo Figura 15). O atributo wrist tem o mesmo valor do atributo de mesmo nome do elemento rightHand e leftHand.

Os atributos repeat e speed armazenam, respectivamente, um valor numérico correspondente ao número de vezes que o movimento se repete e qual a velocidade de articulação do movimento, respectivamente. O atribuo hand diz respeito à qual mão se refere o movimento local, direita ou esquerda.

Movimentos Globais Movimento global é aquele em que há o deslocamento das mãos pelo espaço de sinalização. Envolvem a rotação das juntas dos ombros e cotovelos. São descritos no sistema pelo elemento globalMovement.

O elemento que descreve o movimento global no sistema contém os seguintes atributos:

• speed : é opcional e define qual é a velocidade com que o movimento será executado e armazena um valor numérico. Caso não preenchido, o movimento será executado com a velocidade de articulação padrão definida no sistema.

· finaISpeed : descreve se há aceleração ou desaceleração do movimento e armazena um valor numérico. Cabe a realização do sistema decidir qual o momento que o movimento começa a acelerar ou desacelerar.

• repeat : descreve quantas vezes o movimento é repetido, armazena um valor numérico.

· type: descreve o tipo de movimento. Pode ser straight

(reto), circular (circular horário) ou circualarCC (circular anti horário). Caso não preenchido, assume o valor straight.

Além desses atributos, o elemento globalMovement deve conter ainda a informação de trajetória do movimento, com os pontos no espaço de localização pelos quais as mãos devem se mover. Por isso o atributo trajectory aparece com o sinal de ^*, para enfatizar que este atributo pode conter mais de um valor. Caso o movimento seja em espiral ou em zigue-zague, os pontos da trajetória devem aparecer na descrição na ordem pela qual a mão deve seguir.

Por exemplo, para o movimento reto do ponto A para o ponto B (Figura 16 a), a descrição seria a seguinte:

GlobalMovement: A B

Para o movimento em arco do ponto A para o ponto B (Figura 16 b), a descrição seria a seguinte:

GlobalMovement: type circular A B

O raio da esfera que se forma no movimento em circulo entre dois pontos pode ser alterado, por exemplo, adicionando-se pontos na trajetória.

Para o movimento circular partindo e chegando ao mesmo ponto A (Figura 16 c), a descrição seria a seguinte:

GlobalMovement: type circular

Movimento Corporal

Os movimentos corporais são descritos no sistema pelo elemento bodyMovement, e contém os seguintes atributos:

• body : descreve o movimento do tronco e pode assumir os valores: turnLeft(v\ r-se para a esquerda), turnRight (virar-se para a direita), inclineLeft (inclinar-se para esquerda), inclineRight (inclinar-se para direita) e incline (inclinar-se para frentre).

• head : descreve o movimento da cabeça e pode ser: inclineForward (inclinar para frente), inclineBackward (inclinar para trás), forward (para frente), left (esquerda), right (direita), inclineLeft (inclinar para esquerda) e inclineRight (inclinar para direita).

• IShoulder. descreve movimentos do ombro esquerdo. Pode ser shrug (elevar) ou default (posição de repouso do ombro). O atributo tem como padrão o valor default, e é de preenchimento opcional.

• rShoulder. descreve movimentos do ombro direito. Assim como IShoulder, pode ter o valor shrug (elevar) ou default (posição de repouso do ombro). O atributo tem como padrão o valor default, e é de preenchimento opcional.

Outros movimentos corporais são possíveis se considerada apenas a anatomia do corpo humano. Por exemplo, os ombros podem realizar movimentos circulares para frente e para trás. Embora não foram encontrados sinais na Libras que usem estes movimentos, é possível descrevê-los apenas adicionando valores para os atributos rShoulder e IShoulder.

Os movimentos corporais são articulados nas línguas de sinais durante a realização de outros aspectos, por exemplo, os movimentos globais ou as suspensões. Portanto, o elemento bodyMovement está associado aos elementos halt, globalMovement, e também diretamente ao elemento raiz sign. Sinais compostos

O elemento compounds descreve sinais que são formados por outros sinais. Dessa forma, o sistema permite que sinais compostos sejam descritos pelos sinais primitivos que os compõem, sem a necessidade de descrições redundantes. O elemento compounds possui um elemento filho chamado signs, que contém os nomes dos sinais que compõem o sinal composto. Novamente o atributo é sucedido de ^*, indicando que vários valores são aceitos ao mesmo tempo. O elemento compounds contém o skip, que permite dizer se e qual parte do sinal será omitida na formação do sinal, e pode ter o valor ríghtHand, leftHand, face, halt, localMovement, globalMovement ou bodyMovement.

Modelo virtual tridimensional

Em uma realização do sistema foi utilizado um agente virtual sinalizador, modelo tridimensional que representa uma figura humana (Figura 1 , F). O modelo foi construído com um esqueleto de controle, com todas as juntas do corpo humano consideradas necessárias para a articulação dos sinais das línguas de sinais. O esqueleto de controle é anexado à uma malha de polígonos que modela uma mulher com características realistas.

É importante notar que o sistema é independente de modelo, ou seja, não faz menção específica a nenhum modelo tridimensional, referenciando apenas o nome das juntas do esqueleto de controle. Dessa forma é possível gerar implementações para outros modelos, com outra malha poligonal, outra aparência e outras roupas, desde que o esqueleto de controle contenha as mesmas juntas com igual nomenclatura. Essa vantagem possibilita que o sistema seja utilizado para diferentes propósitos, com o uso de diferentes modelos tridimensionais. Pode-se por exemplo utilizar um modelo com vestimentas formais para a apresentação de um jornal, ou um modelo infantil para crianças. É possível até mesmo a utilização de um modelo não humano, desde que contenha um esqueleto com as mesmas juntas e suas respectivas nomenclaturas, que permita sua movimentação e consequente articulação dos sinais.

Para obter uma aparência realista na realização do sistema, o modelo é dotado de texturas que procuram reproduzir a aparência da pele, cabelo, íris e roupa. Em geral nas línguas de sinais a parte superior do corpo, tronco, braços e ombros, cabeça e principalmente as mãos, são mais utilizadas na articulação do que a parte inferior do corpo, como quadris e pernas. Dessa forma, a densidade maior de malha de polígonos concentra-se na parte superior do modelo. Pelos mesmos motivos, a janela de exibição inicial enquadra a modelo da linha do quadril para cima, mas esse ponto de vista pode ser alterado pelo usuário através de botões na interface, aproximando, afastando ou girando a câmera pelo espaço de sinalização.

Animação

Em uma realização do sistema a metodologia de transcrição computacional utilizada para descrever os sinais foi implementada em língua de marcação XML. Um documento XML obedece a regras pré-definidas que estruturam o documento de maneira hierárquica. A implementação realizada para o sistema recebe os dados de entrada através da leitura de arquivos XML com a transcrição dos sinais. Os dados lidos são convertidos em ângulos de rotação e translação das juntas do esqueleto (Figura 1 , A). Ao manipular o esqueleto, a malha poligonal que compõe o modelo é deformada, gerando a sensação de movimento e a consequente animação do modelo. Dessa maneira, toda a animação (Figura 1 , G) é feita em tempo real e não há sinais gravados previamente em banco de dados.

A implementação do sistema permite ao usuário alterar a velocidade de sinalização, aproximar, distanciar, movimentar e girar a câmera, facilitando a customização da interface pelo usuário. Além destes controles, a interface possui uma área para entrada de dados. Esta área permite ao usuário carregar um arquivo do sistema com o conteúdo em língua de sinais pra que seja articulado, e oferece ainda uma área de edição, onde o usuário pode alterar o conteúdo carregado anteriormente, ou digitar um novo conteúdo para sinalização. A Figura 17 ilustra a tela da implementação do sistema.

Aplicação da tecnologia

A invenção provê uma tecnologia que permite a geração de forma ágil e flexível de conteúdo em língua de sinais.

É possível utilizar o sistema para reproduzir os sinais das línguas de sinais em dispositivos digitais em geral. Dessa maneira, as TVs digitais, por exemplo, podem se beneficiar do sistema para aumentar a acessibilidade dos deficientes auditivos oferecendo uma alternativa ao sistema Closed Caption dos televisores atuais.

Com o sistema é possível gerar conteúdo em tempo real, não necessitando gravação prévia da sinalização, uma vez que ela será gerada pelo software através do conteúdo transcrito.

Existe a possibilidade de implementar ferramentas adicionais ao sistema, como por exemplo um modulo tradutor. Dessa maneira, texto digitado diretamente em outra língua, como o português, poderá facilmente ser sinalizado em Libras, em tempo real, sem a necessidade de gravar sequências de vídeo. Essa metodologia pode ser utilizada em qualquer sistema digital, como aplicativos desktop, sistemas web, leitor de email, redes sociais, dispositivos móveis e TV digital.

O sistema também tem a possibilidade de funcionar como um dicionário Libras - português, através de uma interface onde o usuário visualiza a sinalização e recupera a palavra correspondente em português.

A metodologia de transcrição computacional permite realizar manipulações estatísticas dos sinais das línguas de sinais. Dessa forma, é possível para um linguista saber quantos sinais são produzidos com apenas uma mão, ou qual movimento é mais ou menos utilizado em determinada língua de sinal.

De maneira geral, o sistema e a metodologia de transcrição computacional facilitam o acesso dos usuários surdos aos meios computacionais disponibilizando conteúdo em língua de sinais. De forma detalhada, a metodologia de transcrição computacional das línguas de sinais permite ainda outras aplicações, tais como:

• Indexar e compartilhar material já existente. Um sistema de transcrição para língua de sinais pode ser utilizado para catalogar material existente, oferecendo uma maneira eficiente de compartilhar dados sobre o material publicado com outros pesquisadores.

• Gerar conteúdo em tempo real, não necessitando gravação prévia da sinalização, uma vez que ela será gerada pelo software através do conteúdo transcrito.

• Criar um dicionário de sinais classificado por seus traços. É possível classificar os sinais, por exemplo, como sinais de uma ou duas mãos, com ou sem movimento, assim por diante. Para se produzir um dicionário de língua de sinais que permita ao utilizador procurar um sinal por diferentes traços de sua estrutura, um banco de dados organizado ao longo das linhas fonológicas é indispensável.

· Realizar manipulações estatísticas dos sinais. Ter um banco de dados de sinais com suas respectivas descrições fonológicas pode tornar mais fácil para um usuário executar automaticamente diversos tipos de manipulações estatísticas dos dados. Embora seja possível armazenar descrições fonológicas na forma de prosa, uma abreviação dessa descrição através do uso de um sistema de transcrição inevitavelmente ocupará menos espaço de armazenamento e facilitará posteriores buscas pelo conteúdo. • Dar um passo em busca de uma notação padrão para as línguas de sinais.

• Poupar tempo e esforço dos pesquisadores. Com o uso de um sistema de transcrição é possível diminuir o tempo gasto na produção de fotografias, desenhos e vídeos para a descrição das mãos e ao mesmo tempo permitir que os pesquisadores apresentem de forma explicita os traços dos sinais que são relevantes às suas aplicações.

• Facilitar o acesso dos usuários surdos ao conteúdo escrito em língua de sinais. A apresentação de informações em uma notação padrão que seja amplamente conhecida entre os pesquisadores de língua de sinais evita que os leitores de sinais tenham que aprender vários sistemas de transcrição a fim de acompanhar os dados das publicações disponíveis.

• Oferecer alternativa ao sistema Closed Caption disponível atualmente nos televisores. Uma vez que as TVs digitais permitem que diferentes aplicações sejam embutidas na programação, uma interessante aplicação é utilizar o modelo de transcrição e o sinalizador para oferecer conteúdo em língua de sinais nos programas de televisão.

• Opção de descrição dos sinais utilizando o princípio de simetria, onde ambas as mãos assumem traços descritivos semelhantes, diminuindo o tamanho da notação. Descrição textual - e não simbólica - utilizando arquivos XML, fáceis de serem editados e interpretados por programas de computador.

Claims

REIVINDICAÇÕES

1. Sistema para geração de conteúdo em língua de sinais caracterizado por ser constituído basicamente de pelo menos um processador (A); pelo menos uma entrada (B); um conjunto de regras de entrada do sistema (C); descrição dos sinais (D); uma metodologia de transcrição das línguas de sinais para fins computacionais (E); um modelo virtual tridimensional (F); e animação (G).

2. Sistema para geração de conteúdo em língua de sinais, de acordo com a reivindicação 1 , caracterizado por receber uma entrada e processar as informações identificando quais sinais serão articulados e de que maneira; a descrição de cada sinal estará previamente armazenada no sistema e segue regras definidas na metodologia de transcrição das línguas de sinais para fins computacionais; o sistema recupera a descrição de cada sinal e calcula as rotações necessárias nas juntas do esqueleto do modelo para realizar a animação; o modelo é carregado e manipulado pelo sistema e o resultado final é a visualização da articulação em língua de sinais do texto de entrada.

3. Sistema para geração de conteúdo em língua de sinais, de acordo com a reivindicação 1 , caracterizado por o item G representar a visualização da articulação em língua de sinais, com a animação do modelo em três dimensões.

4. Sistema para geração de conteúdo em língua de sinais, de acordo com a reivindicação 1 , caracterizado por a animação dos sinais ser gerada em tempo real.

5. Sistema para geração de conteúdo em língua de sinais, de acordo com a reivindicação 1 , caracterizado por gravar, e recuperar posteriormente, a transcrição do sinal contendo todas as informações relevantes para a sua posterior reprodução computacional.

6. Método para geração de conteúdo em língua de sinais caracterizado por compreender as etapas:

a. o processador (A) recebe a entrada;

b. o processador (A) identifica os sinais de entrada (B, D e F);

c. o processador (A) carrega os arquivos de transcrição contendo a descrição de cada sinal; estes arquivos contêm toda a transcrição fonológica do sinal;

d. o sistema importa um modelo tridimensional que será o intérprete de língua de sinais (G);

f . o sistema gera a animação rotacionando as juntas do modelo carregado; g. o sistema exibe, por intermédio de uma interface, a animação em língua de sinais.

7. Método para geração de conteúdo em língua de sinais, de acordo com a reivindicação 4, caracterizado por a entrada (A) consistir em informação e pode ser um texto digitado pelo usuário, recebido remotamente, pela internet, por exemplo, ou ainda ser uma entrada de voz convertida em texto.

8. Uso do sistema e do método descrito nas reivindicações de 1 a 7, caracterizado por ser utilizada em qualquer sistema digital, como aplicativos desktop, sistemas web, leitor de email, redes sociais, dispositivos móveis e TV digital.