PT116967B - Método para processamento de língua natural com base em segmentos de múltiplos modelos usando um híbrido pln - Google Patents

Método para processamento de língua natural com base em segmentos de múltiplos modelos usando um híbrido pln Download PDF

Info

Publication number
PT116967B
PT116967B PT116967A PT11696720A PT116967B PT 116967 B PT116967 B PT 116967B PT 116967 A PT116967 A PT 116967A PT 11696720 A PT11696720 A PT 11696720A PT 116967 B PT116967 B PT 116967B
Authority
PT
Portugal
Prior art keywords
natural language
language processing
data
pln
hybrid
Prior art date
Application number
PT116967A
Other languages
English (en)
Other versions
PT116967A (pt
Inventor
Miguel Sousa Jorge
Silva Furão Sara
Nuno De Sousa Rocha Pedro
Original Assignee
Altice Labs S A
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Altice Labs S A filed Critical Altice Labs S A
Priority to PT116967A priority Critical patent/PT116967B/pt
Priority to EP21000357.0A priority patent/EP4020304A1/en
Publication of PT116967A publication Critical patent/PT116967A/pt
Publication of PT116967B publication Critical patent/PT116967B/pt

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

A PRESENTE INVENÇÃO FORNECE UMA SOLUÇÃO DE PROCESSAMENTO DE LINGUAGEM NATURAL BASEADA EM UM MÉTODO QUE UTILIZA PEQUENOS MODELOS DE DADOS TREINADOS, QUE PODEM SER INDIVIDUALMENTE ATIVADOS OU ASSINADOS, PARA SELECIONAR O MAIS ADEQUADO A FIM DE DAR A MELHOR RESPOSTA, DADO O CONTEXTO DO DIÁLOGO. ESTE MÉTODO PERMITE O USO DE VÁRIOS MODELOS CRIADOS ANTERIORMENTE, SEM EXIGIR O TREINAMENTO DE UM ENORME CONJUNTO DE DADOS, E É BASEADO NA APLICAÇÃO DE HEURÍSTICAS (102) SOBRE OS RESULTADOS DE UM MOTOR DE ENTENDIMENTO DE LINGUAGEM NATURAL, APROVEITANDO A SEGMENTAÇÃO DO CONJUNTO DE DADOS (101) PARA DEFINIR CONTEXTOS PARA CADA CONJUNTO DE DADOS (100), PERMITINDO O PROCESSAMENTO DE LINGUAGEM NATURAL CIENTE DO CONTEXTO E UM MECANISMO DE PLN HÍBRIDO QUE REDUZ OU ELIMINA A AMBIGUIDADE NA ESCOLHA DA MELHOR RESPOSTA DE TODOS OS MODELOS. ISSO NÃO SERIA POSSÍVEL APENAS COM UM MECANISMO DE ENTENDIMENTO DA LINGUAGEM NATURAL.

Description

DESCRIÇÃO MÉTODO PARA PROCESSAMENTO DE LINGUAGEM NATURAL COM BASE EM SEGMENTOS DE MÚLTIPLOS MODELOS USANDO UM PNL HÍBRIDO
CAMPO DA INVENÇÃO
[0001] A presente invenção está incluída na área técnica de Processamento de Linguagem Natural. Especificamente, pertence ao campo da inteligência artificial conversacional e relaciona-se aos mecanismos de Entendimento da Linguagem Natural e ao processo de escolha do melhor modelo a ser aplicado em cada momento a um determinado enunciado.
TÉCNICA ANTECEDENTE
[0002] Hoje em dia vive-se numa era digital onde empresas e indústrias procuram uma transformação digital. Esta transformação digital implica muitas mudanças na sociedade, nos negócios e na indústria impulsionadas pelas tecnologias da informação que permitem que os dados sejam processados em tempo real e entregues aos utilizadores de forma inteligente e customizada. É neste ponto que surge a pergunta: como processar uma grande quantidade de dados rapidamente? Os mecanismos de Entendimento de Linguagem Natural (NLU) para Inteligência Artificial (IA) conversacional são com base no tratamento de grandes conjuntos de dados de frases, também designadas como frases de treino, e respetiva classificação. Uma abordagem de aprendizagem supervisionada precisa de dados marcados, o que exige tempo e esforço. Tempo e conhecimento específico para construir e processar dados para construir um Assistente Virtual com base na aprendizagem supervisionada são o que os utilizadores não devem ter. O que se pode fazer com dados não marcados? Uma característica importante de um sistema inteligente é entender histórias como os humanos entendem. Uma história é uma sequência de sequências e pode ser na forma de texto simples ou conteúdo falado. Para avaliar a compreensão do modelo sobre a história, é solicitado que responda a perguntas sobre a história. Essa tarefa é chamada de perguntas e respostas (QA) , e também existe um questionário de perguntas frequentes (FAQ) que, como o nome indica, são as perguntas e respostas mais frequentes feitas pelos utilizadores. As FAQ são um uso comum nas necessidades de casos de uso da empresa na sua transformação digital.
PROBELMA A SER RESOLVIDO
[0003] As tecnologias e métodos de Entendimento de Línguas Naturais (NLU) e Processamento de Linguagem Natural (NLP) atualmente em uso têm um problema ao lidar com grandes conjuntos de dados. Além disso, acrescentando ao problema mencionado, existe a pergunta de lidar ou coexistir duas abordagens técnicas diferentes: 1) modelos com base em dados marcados (modelos supervisionados) e 2) modelos com base em dados não marcados (modelos não supervisionados ou com base em pré-treinados). Essa dificuldade ou ambiguidade na manipulação com ambos os tipos de dados e grandes conjuntos de dados leva a falsos positivos, resultando em respostas incorretas.
[0004] A presente invenção tem como objetivo superar tais questões desenvolvendo um método para lidar e escolher a melhor abordagem para cada enunciado do utilizador num mecanismo de PNL, de modo a retornar a resposta mais adequada, selecionando o modelo certo, a partir de uma lista de modelos atribuídos.
SUMÁRIO DA INVENÇÃO
[0005] A presente invenção refere-se a um método que permite a PNL de um enunciado ou frase através de diversos modelos disponíveis, modelos que podem ser de naturezas diferentes, nomeadamente: 1) modelos com base em dados marcados (modelos supervisionados) e 2) modelos com base em dados não marcados (modelos não supervisionados ou com base pré-treinados); e que podem ser ativadas ou assinadas individualmente, selecionando-se as mais adequadas para dar a melhor resposta, de acordo com o contexto do diálogo. Os enunciados do utilizador são testados contra todos os modelos supervisionados e não supervisionados ativados, determinando a resposta mais precisa, executando uma bateria de testes que eliminam ou reduzem a ambiguidade, antes de identificar a resposta adequada e final.
[0006] A presente invenção e a solução proposta nasceram com o objetivo de resolver a limitação presente neste estado da técnica, e surgiu da necessidade de se melhorar e passar a oferecer uma solução que combine as duas aprendizagens: o supervisionado e o não supervisionado.
DESCCRIÇÃO DAS FIGURAS
[0007]
Figura 1 - representação de bateria de diagrama da preparação do conjunto de dados e do modelo heurístico usado na presente invenção, em que representam os números de referência:
100 - definição do grande conjunto de dados com dados marcados ou não marcados para alimentar o modelo de IA, incluindo as intenções e suas frases de treino associadas (dados marcados) ou perguntas e respostas (dados não marcados);
101 - segmentação do conjunto de dados sobre domínios de compreensão linguística;
102 - modelo heurístico para seleção de intenções ou questões.
[0008]
Figura 2 - representação de bateria de diagrama da seleção de resposta adequada heurística e de modelo usada na presente invenção, em que os números de referência representam:
200 - nível mínimo de confiança da intenção e/ou pergunta;
201 - contexto de conversação;
202 - entidades correspondentes;
203 - valor de confiança da intenção e/ou pergunta;
204 - seleção da resposta correta.
DESCRIÇÃO DETALHADA
[0009] O processo que suporta a presente inovação descrita no Resumo da invenção será detalhado a seguir de acordo com outros modelos de realização vantajosos e/ou preferidos de implementação da presente invenção.
[0010] A presente invenção fornece um método para melhorar as técnicas de PNL conhecidas, considerando a possibilidade de adicionar modelos não supervisionados, o que permite a manipulação de enormes conjuntos de dados de intenções e de perguntas frequentes (FAQ) (100). Considerando o objetivo de construir uma IA conversacional capaz de falar sobre um conjunto de assuntos e do seu conjunto de dados de suporte com dados marcados e não marcados, foi considerado um processo composto pelas seguintes etapas:
1. segmentação do conjunto de dados (101) conforme apresentado na Figura 1;
2. bateria de testes heurísticos que são usados para realizar a identificação da intenção da pergunta (102); e
3. seleção da resposta adequada quando um utilizador final interage com o método (204), conforme apresentado na Figura 2.
[0011] A heurística de seleção é o núcleo do método agora desenvolvido.
Etapa 1:
[0012] A primeira etapa do método proposto impacta a maneira como os dados são categorizados e mantidos. Para otimizar a organização da informação e as frases de treino mapeadas correspondentes que podem incluir entidades, que são armazenadas num mecanismo de armazenamento, pode ser dividido por um utilizador, em vários subconjuntos de intenções, criando modelos menores, que são designados como programas. No entanto, a presente invenção adiciona a possibilidade de suportar novos tipos de modelos, os não supervisionados ou não marcados, com base em dados prétreinados, que permitem lidar com um grande conjunto de informações, como as FAQ (onde para um tópico não há frases de treino) . O utilizador tem a liberdade de definir uma lógica de divisão, podendo dividir todos os dados a serem identificados em diferentes assuntos conversacionais, respeitando a premissa de que um programa deve conter subconjuntos de dados (marcados ou não) que estão relacionados entre si num domínio de compreensão linguística. Essas intenções podem incluir certas ligações lógicas entre eles e também os modelos não marcados que suportam as perguntas frequentes. Num exemplo, ao solicitar informações sobre as características técnicas de um telemóvel, como o número de megapixel da sua câmara, a sua velocidade de processador ou a sua quantidade de RAM, todas as consultas possuem um elemento comum que as vincula logicamente, pois representam caracteristicas da especificação do telemóvel. Essa segmentação é realizada pelo utilizador, como criador do conjunto de dados, uma vez que ele tem a capacidade de entender as relações lógicas entre os conceitos ao classificar os dados.
[0013] Um conjunto de intenções para cada programa pode ser formulado como:
Pik = yk = {yk.....y£] (Eq.l) onde k denota cada programa de intenção.
[0014] O vetor original de intenções y define um espaço, em termos matemáticos, a ser esse espaço definido pelos vetores das frases de treino associadas. Esses vetores gerados a partir de frases de treino são o resultado de uma operação de vectorização realizada de acordo com a operação NLP word2vec. Por outras palavras, uma intenção possui um espaço vetorial associado definido pelo conjunto de vetores gerados a partir das frases de treino associadas a essa intenção.
[0015] A presente metodologia inclui a noção de FAQ do Programa, com base em modelos não marcados que podem ser definidos por um conjunto de questões de cada programa como segue:
PPk — qk — {qk...<fà (Eq.2) onde k denota cada programa de FAQ e q denota cada pergunta.
[0016] O programa é representado por um conjunto de perguntas associadas qk (FAQ). Desta forma, a avaliação no nível de compreensão da linguagem natural (NLU) passa a/evolui para ser realizada sobre o vetor y ou q, ou seja, o cálculo do grau de confiança do enunciado refere-se a uma determinada intenção ou pergunta, os conjuntos de intenções e perguntas são armazenados separadamente com a noção clara de que o valor de confiança refere-se a uma intenção ou pergunta que faz parte do programa aos quais pertencem.
[0017] Isto permitirá tratar as informações e programas que possuem naturezas diferentes de forma independente e realizar alguns testes deterministicos (apresentados a seguir) obtendo uma metodologia híbrida, que combina um modelo probabilístico com um modelo com base em regras.
Etapa 2;
[0018] A segunda etapa do método permite melhorar a precisão da primeira etapa, selecionando uma pluralidade de limiares de confiança por programa, na etapa de reconhecimento de resposta, em vez de usar um único valor para todos os programas. Existe um conjunto de problemas associados às identificações de intenções de um único conjunto de dados. Com a abordagem de segmentação (101), os problemas/dificuldade podem ser superados/controlados. Em situações mais extremas, é possível adicionar a alguns programas altos limites de confiança do que a outros para a identificação da intenção ou da pergunta. Executar os enunciados contra todos os programas do modelo pode, portanto, produzir um ou mais candidatos.
[0019] Os candidatos de intenção podem ser definidos da seguinte forma:
_ (yb yconfiançat > ak : yt c PIk jcandidatos 0 (Eq.3) onde ak é o limite para um programa específico PIk onde é definida a intenção yi.
[0020] As questões candidatas são, portanto, as seguintes:
n _ ÍQú qconf lançai > ^k : Qi <= PFk
Hcandidatos 0 (Eq.4) onde ak é o limite para um programa especifico PFk onde é definida a pergunta qi.
[0021] Após esta etapa, para os candidatos que permanecerem, serão aplicados outros critérios de testes. Outra parte importante do método leva em consideração o histórico do contexto de conversação para programas de intenção. Este método é irrelevante para o programa de FAQ (PF), pois representa questões abertas sem nenhum fluxo. Em relação aos programas de intenções, mais testes devem ser feitos se ainda houver ambiguidade sobre o vetor ycandidatos ·
[0022] Uma heurística pode, portanto, ser usada para modelar essa suposição/afirmação anterior, e essa é a base do método proposto.
, =e pk-3yk£ Pk.yk θ Hy ycandidatos 0 (Eq.5)
[0023] Os dois critérios descritos anteriormente ajudam a resolver a ambiguidade de múltiplas intenções, e o primeiro ajuda a resolver a ambiguidade de múltiplas questões, mas o fato é que ainda permanecerá em algumas situações a ambiguidade. Nesses casos, uma nova etapa de processamento deve ser aplicada para resolver a ambiguidade, que está relacionada com a extração e análise de entidades. As entidades podem ser substantivos ou conteúdos de ações executadas. A título de exemplo, num enunciado: Gosto de jogar futebol, futebol é um substantivo. Pode-se facilmente substituir futebol por basquetebol, mesa de bilhar, hóquei mudando o objeto, mantendo a ideia de que eu gosto de praticar <desporto>. Portanto, entidades são os substantivos ou o conteúdo da ação que precisa ser executada. Por exemplo, Londres, Madrid e Paris são palavras diferentes, mas todas referem-se a uma cidade, portanto, cidade deve ser uma entidade. Os enunciados podem incluir várias entidades neles, e o modelo que identifica as intenções dos enunciados também é capaz de extrair as entidades do enunciado. Para cada enunciado, os resultados do reconhecimento de intenção também devem incluir as entidades reconhecidas e a heurística de seleção de intenção, quando confrontada com ambiguidade entre determinados candidatos a intenção, escolherá a intenção que possui um número maior de entidades reconhecidas. No entanto, se os dois candidatos de intenção tiverem o mesmo número de entidades reconhecidas, a ambiguidade continuará e a solução não será capaz de resolver o problema.
[0024] Confrontada com essa ambiguidade remanescente, a heurística pode assumir o comportamento padrão de selecionar a intenção de confiança mais alta. Este método não se aplica a programas de perguntas frequentes, porque não é necessário extrair uma palavra específica da expressão para realizar uma ação.
[0025] Se após todos esses três critérios aplicados, a ambiguidade permanecer, então é escolhido o candidato de maior confiança identificado. Os últimos candidatos são, portanto, os seguintes:
^candidatos {.Vk > Qi} (Eq.6) onde hcandidatos representa um conjunto de candidatos, representa a intenção escolhida após todos os critérios mencionados anteriormente e representa o candidato de pergunta de maior confiança identificado.
[0026] Conforme mencionado para a etapa 1, existem dois tipos de programas, programas de intenções (também chamados de supervisiona ou dados marcados) (PI) e programas de FAQ (dados não supervisionados ou não marcados) (PF) . Executar um enunciado contra todos os programas do modelo implicará na existência de PNL híbrida se houver pelo menos um programa de cada tipo.
Etapa 3;
[0027] A terceira etapa do método escolhe a intenção ou pergunta mais adequada, selecionando a melhor resposta usando um critério de PNL híbrido.
A primeira etapa verificará as seguintes situações:
[0028] Se a intenção e a pergunta selecionadas forem 0, então será retornado um substituto:
^candidato tVfc $ >Qi 0} 0 (Eq.7)
[0029] Se a intenção selecionada não for 0 e a pergunta selecionada for 0, então a intenção é a candidata final:
^candidato = CV/c 0 > Qí = 0 } = Vk (Eq.8)
[0030] Se a intenção selecionada for 0 e a pergunta selecionada não for 0, a pergunta é a candidata final.
^candidato íy/c 0 > Qi 0 } — Qi (Eq.9)
[0031] Se a intenção selecionada não for 0 e a pergunta não for 0, então é necessário aplicar critérios híbridos de PNL para descobrir o candidato final.
^candidato {yk & >Qi 0 } — ?
(Eq.10)
[0032] Nesta segunda etapa, é verificado o número de contextos correspondentes (201) da intenção realizada anteriormente na etapa 2 e mais peso é atribuído à intenção dependendo desse número.
[0033] Na terceira etapa, é verificado o número de entidades correspondentes (202) da intenção realizada anteriormente na etapa 2 e mais peso é atribuído à intenção dependendo desse número.
[0034] Na última etapa, é verificado o valor de confiança (203) da intenção e da pergunta, tendo em vista que elas possuem diferentes medidas de confiança que podem implicar numa calibração do modelo. Após todas essas etapas, a resposta adequada é retornada conforme apresentado na Figura 2.
Descrição dos modelos de realização:
[0035] Num modelo de realização do método para processamento de linguagem natural com base em segmentos de múltiplos modelos usando NLP híbrido da presente invenção, são implementadas as seguintes ações:
i. definição de intenções ou questões para cada conjunto de dados ou programa (100). Nos modelos de tipo de dados supervisionados ou marcados, o método fornece a definição de intenções e respetivas frases de treino para cada modelo. O mesmo aplicase aos modelos do tipo dados não supervisionados ou não marcados, onde é fornecida a definição dos dados de perguntas e respostas.
ii. seleção e ativação e desativação dos modelos a serem usados de acordo com a intenção do utilizador ou necessidades de identificação da pergunta. Os utilizadores podem definir vários conjuntos de dados ou programas e podem especificar ou selecionar um número desses programas que desejam usar (um subconjunto definido pelo utilizador ou a sua totalidade) . Cada programa pode ser de dois tipos diferentes: 1) a ser composto de um conjunto de dados de enunciados, ou frases de treino, que definem intenções, que são autocontidas por natureza, mas compartilham semelhanças de propósito e podem ser logicamente vinculadas, ou 2) a ser composto por um conjunto de dados de perguntas e respostas, aqui denominado programa FAQ.
iii. extração de conhecimento, ou seja: identificação da intenção ou pergunta e reconhecimento da entidade, a partir do processamento da linguagem natural, sobre todos os modelos selecionados. Para esse propósito, é estabelecido uma bateria heurística: Na primeira etapa, é realizado um processo de reconhecimento de intenção ou pergunta a partir de um enunciado (200), com base num limite de confiança pré-estabelecido previamente definido pelo utilizador. Por exemplo, um limite mais alto deve ser definido quando a intenção ou pergunta que se espera que seja identificada seja muito específica e seja necessário realmente ter certeza do assunto que está a ser falado. Na segunda etapa, o contexto de conversação (201) é utilizado para refinar os resultados obtidos. Por fim, a terceira etapa realiza a extração de entidades (202) - como o nome de uma pessoa, uma cidade, um tempo ou um objeto - de cada enunciado da intenção e conta o número de entidades correspondentes do enunciado, para aumentar a probabilidade de escolher a intenção ou pergunta correta. A heurística é com base numa sucessão de testes (apresentados a seguir) que irão auxiliar, a partir de conjuntos de dados menores e estruturados, os chamados programas.
iv. o algoritmo que deve ser aplicado à totalidade do conhecimento extraído, de todos os modelos, para identificar a intenção do utilizador e fornecer a melhor resposta;
v. abordagem de PNL híbrida deve ser realizada se na lista de programas sinalizados existir pelo menos um programa de intenções e um de FAQ, de modo a ser encontrada a melhor resposta para retornar (204).
[0036] De acordo com o método desenvolvido, cada modelo poderia ser instanciado num mecanismo de compreensão de linguagem natural (NLU) separadamente e usado isoladamente. Além disso, todos os modelos podem ser usados em conjunto, sem abrir mão da capacidade de identificar a proveniência da intenção de um Programa específico.
[0037] De acordo com o método desenvolvido, a seleção do melhor modelo de conhecimento para a entrada fornecida é executada pelo processamento dos resultados de um mecanismo NLU, ao longo de uma bateria de testes com base em heurísticas que eliminam intenções ou perguntas incorretas, embora possuindo resultados de alta confiança, reduzindo assim a ambiguidade na identificação da intenção ou da pergunta. Outro conjunto de componentes na bateria pode ser aplicado no mecanismo Híbrido da PNL para escolher a resposta adequada, que pode ser de uma intenção ou pergunta.

Claims (10)

  1. REIVINDICAÇÕES
    1. 0 método para processamento de linguagem natural com base em segmentos de múltiplos modelos usando processamento de linguagem natural híbrido, caracterizado por compreender as seguintes etapas:
    I. Segmentação de conjunto de dados de um enunciado para gerar vários subconjuntos de programas de intenções e/ou programas de perguntas;
    II. Extração de conhecimento do conjunto de programas de intenção e pergunta compreendendo as etapas de:
    i. Reconhecimento de intenção ou pergunta atribuindo um limite de confiança ak para cada programa, para gerar um conjunto de candidatos de intenção, ycandidatos, e candidatos de pergunta, qcandidatos, cujo valor de confiança está acima de ii. determinar um conjunto de y'candidatos*, com base num vetor de contexto de conversação;
    iii. Extração de entidades de cada candidato a intenção resultante yk', do conjunto y' candidatos', de modo a selecionar um yk com mais entidades reconhecidas;
    III. Seleção a partir de um conjunto de candidatos hcandidatos={yk,qi}, onde yk é a intenção selecionada e qi representa o candidato à pergunta de maior confiança, o candidato final, de acordo com a seguinte regra:
    - Se {yk — 0 ,qi — 0}, então ^-candidatos 0 i
    - Se {yk Φ 0 ,qi = 0}, então hcandidatos = yk;
    ~ Se {yk= 0 ,qi Ψ0}, então hcandidatos = qt ;
    - Se {yk Ψ 0 ,qt Ψ 0}, então hcandidatos é aquele com maior valor de confiança de cada um.
  2. 2. 0 método de acordo com a reivindicação 1, em que se mais de um candidato de intenção, yk, tiver o mesmo número de entidades reconhecidas, é selecionado o yk com o valor de confiança mais alto.
  3. 3. 0 método, de acordo com qualquer uma das reivindicações anteriores, em que para realizar a seleção do candidato final na etapa III, o valor de confiança da intenção yk é atualizado por:
    - verificar o número de contextos correspondentes de yk realizados na etapa II.ii e atribuído um valor de confiança mais alto a yk dependendo desse número; e
    - verificar o número de entidades correspondentes realizadas na etapa Il.iii e atribuído um valor de confiança mais alto para yk dependendo desse número.
  4. 4. 0 método, de acordo com a reivindicação 1, em que um programa de intenção é um modelo do tipo supervisionado definido por:
    Ph = yk = {yí.....yn}, Onde k denota cada programa de intenção e y denota cada intenção.
  5. 5. 0 método de acordo com qualquer uma das reivindicações anteriores, em que um programa de perguntas é um modelo do tipo não supervisionado definido por:
    PPk = qk = {qk...,qk}>
    Onde k denota cada programa de perguntas e q denota cada pergunta.
  6. 6. 0 método, de acordo com qualquer uma das reivindicações anteriores, em que a determinação de candidatos a intenção, ycandidatos, é realizada de acordo com:
    _ (yt, yconfiançat > ak : c PIk ycandidatos
    Onde ak é o limite para um programa específico Plk onde é definida a intenção yi.
    Ί. 0 método, de acordo com qualquer uma das reivindicações anteriores, em que a determinação de candidatos a pergunta, qcandidatos, é realizada de acordo com: _ (qi, qconfiançai > ak '· qt PFk tf candidatos | 0
    Onde ak é o limite para um programa específico PFk onde é definida a intenção qi.
  7. 8. 0 método, de acordo com qualquer uma das reivindicações anteriores, em que o vetor de contexto de conversão para gerar y' candidatos', é representado por um vetor Hy = Ht = {ho, . . . , ht-i} incluindo todas as intenções previamente identificadas até à interação t.
  8. 9. 0 método, de acordo com a reivindicação 6, em que a determinação de y'candidatos' com base no vetor de contexto de conversão Hy, é a seguinte:
    (yi> Vi EPlk.3ykG Plk,yk e Hy ycandidatos j em que Hy é a parte das intenções históricas do subconjunto Plk.
  9. 10. O método de acordo com qualquer uma das reivindicações anteriores, em que cada programa é instanciado num Mecanismo de Linguagem Natural separadamente e usado isoladamente.
  10. 11. O método de acordo com qualquer uma das reivindicações anteriores, em que o limite de confiança é definido por um utilizador com base na intenção ou pergunta a ser identificada; o referido valor limite sendo dependente de um nível de certeza na identificação de um sujeito que está a ser falado.
PT116967A 2020-12-23 2020-12-23 Método para processamento de língua natural com base em segmentos de múltiplos modelos usando um híbrido pln PT116967B (pt)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PT116967A PT116967B (pt) 2020-12-23 2020-12-23 Método para processamento de língua natural com base em segmentos de múltiplos modelos usando um híbrido pln
EP21000357.0A EP4020304A1 (en) 2020-12-23 2021-12-16 Methdo for natural language processing based on multi-model segments using an hybrid nlp

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PT116967A PT116967B (pt) 2020-12-23 2020-12-23 Método para processamento de língua natural com base em segmentos de múltiplos modelos usando um híbrido pln

Publications (2)

Publication Number Publication Date
PT116967A PT116967A (pt) 2022-06-23
PT116967B true PT116967B (pt) 2023-01-30

Family

ID=81732614

Family Applications (1)

Application Number Title Priority Date Filing Date
PT116967A PT116967B (pt) 2020-12-23 2020-12-23 Método para processamento de língua natural com base em segmentos de múltiplos modelos usando um híbrido pln

Country Status (2)

Country Link
EP (1) EP4020304A1 (pt)
PT (1) PT116967B (pt)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT117702A (pt) 2021-12-28 2023-06-28 Altice Labs S A Método para configuração de faq de assistente virtual
PT117717A (pt) 2021-12-30 2023-06-30 Altice Labs S A Método para processar linguagem natural usando múltiplos modelos com base no domínio de nível de contexto

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170242886A1 (en) * 2016-02-19 2017-08-24 Jack Mobile Inc. User intent and context based search results
US20180293221A1 (en) * 2017-02-14 2018-10-11 Microsoft Technology Licensing, Llc Speech parsing with intelligent assistant
US11520992B2 (en) * 2018-03-23 2022-12-06 Servicenow, Inc. Hybrid learning system for natural language understanding

Also Published As

Publication number Publication date
PT116967A (pt) 2022-06-23
EP4020304A1 (en) 2022-06-29

Similar Documents

Publication Publication Date Title
PT116967B (pt) Método para processamento de língua natural com base em segmentos de múltiplos modelos usando um híbrido pln
BR112023021621A2 (pt) Modelos de linguagem aprendidos por máquina que geram análise textual intermediária a serviço de geração de texto contextual
Kristeller Studies on Renaissance Humanism during the last Twenty Years1
Goodman Some notes on Languages of Art
BR112023020491A2 (pt) Aprimoramento de conteúdo de linguagem de sinais baseada em emoção
PT117717A (pt) Método para processar linguagem natural usando múltiplos modelos com base no domínio de nível de contexto
Beavis The Kingdom of God,'Utopia'and Theocracy
Stough et al. The Rusalov Structure of Temperament Questionnaire (STQ): results from an Australian sample
Ettinger Architecture as Order in the California Missions
Guowen et al. Indeterminacy in the Classification of Ecological Discourse types
Parker I. A Comparison of Calvin and Luther on Galatians
Slaughter John James Audubon: The Nature of the American Woodsman
Howard Science and philosophy in the shadow of war
Ruxshona et al. HOMONYMS
White et al. Harmonic Function in Popular Music
BELYKH GL ACHKASOVA
Cao A Quantitative Study on Tao Te Ching Based on a Comparable Corpus
Mojbel Journal of Tikrit University for Humanities
Stenning Edgecombe Sources for the Characterization of Norman Chandler in A Dance to the Music of Time.
Hussein The effectiveness of a selective counseling program in reducing the level of false self of university students
Baratova et al. Rise the American short fiction and its development
Baker Balancing the Perspective, a Look at Early Black American Literary Artistry
Sawa Abū l-Faraj al-Iṣfahānī and His Book of Songs
Frantz A New Prose Translation of Goethe's Faust
Birgegård Sven Gustavsson 1 June 1938–12 February 2013

Legal Events

Date Code Title Description
BB1A Laying open of patent application

Effective date: 20220324

FG3A Patent granted, date of granting

Effective date: 20230123