KR20220124120A

KR20220124120A - 정보 추출 방법, 장치, 전자 기기 및 저장 매체

Info

Publication number: KR20220124120A
Application number: KR1020220105258A
Authority: KR
Inventors: 찡뤼 깐; 하이웨이 왕; 진창 뤄; 쿤빈 천; 웨이 허; 슈후이 왕
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2021-08-30
Filing date: 2022-08-23
Publication date: 2022-09-13
Also published as: CN113806552B; CN113806552A; JP2022169743A; EP4131024A1; US20220406034A1; JP7417679B2

Abstract

본 개시는 정보 추출 방법, 장치, 전자 기기 및 저장 매체를 제공하며, 인공지능 기술 분야, 특히 지식 그래프, 이미지 처리, 자연어 처리, 딥러닝 분야에 관한 것이다. 구체적인 구현 수단은 정보 스트림을 획득하고, 정보 스트림은 텍스트 및 이미지를 포함하며; 텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성하고; 이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성하고; 그리고 텍스트 개체 지칭의 임베딩 표현, 이미지 개체 지칭의 임베딩 표현, 텍스트 유사도 행렬 및 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정한다. 이미지 및 텍스트 개체에 대해 동시 링킹할 수 있다.

Description

정보 추출 방법, 장치, 전자 기기 및 저장 매체{INFORMATION EXTRACTION METHOD, DEVICE, ELECTRONIC EQUIPMENT AND STORAGE MEDIUM}

본 개시는 인공지능 기술 분야 중의 지식 그래프, 이미지 처리, 자연어 처리, 딥러닝 분야에 관한 것으로, 특히 정보 추출 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.

개체 링킹은 지식 그래프의 기본 작업이며, 다중 모드 혼합된 정보 스트림은 오늘날 미디어에서 매우 흔하며, 상이한 모드의 정보로 개체 링킹을 구현하는 것이 새로운 도전이 되었다.

관련 기술에서, 멀티 모드 개체 링킹 방법은 주로 텍스트 개체 링킹을 기반으로 하고, 멀티 모드 정보를 보조 특징으로 사용하되, 이미지 및 텍스트 개체에 대해 동시 링킹할 수 없다.

본 개시는 정보 추출 방법, 장치, 전자 기기 및 저장 매체를 제공한다.

본 개시의 일 측면에 따르면, 정보 추출 방법을 제공하며, 당해 정보 추출 방법은 정보 스트림을 획득하는 단계 - 상기 정보 스트림은 텍스트 및 이미지를 포함함 -; 상기 텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 상기 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성하는 단계; 상기 이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 상기 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성하는 단계; 및 상기 텍스트 개체 지칭의 임베딩 표현, 상기 이미지 개체 지칭의 임베딩 표현, 상기 텍스트 유사도 행렬 및 상기 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 상기 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 상기 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정하는 단계;를 포함한다.

본 개시의 다른 측면에 따르면, 정보 추출 장치를 제공하며, 당해 정보 추출 장치는 정보 스트림을 획득하는 획득 모듈 - 상기 정보 스트림은 텍스트 및 이미지를 포함함 -; 상기 텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 상기 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성하는 제1 생성 모듈; 상기 이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 상기 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성하는 제2 생성 모듈; 및 상기 텍스트 개체 지칭의 임베딩 표현, 상기 이미지 개체 지칭의 임베딩 표현, 상기 텍스트 유사도 행렬 및 상기 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 상기 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 상기 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정하는 결정 모듈;을 포함한다.

본 개시의 다른 측면에 따르면, 전자 기기를 제공하며, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리;를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행될 경우, 상기 적어도 하나의 프로세서가 본 개시의 일 측면에 따른 정보 추출 방법을 수행한다.

본 개시의 다른 측면에 따르면, 컴퓨터 프로그램이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 컴퓨터 프로그램 중의 명령이 수행될 경우, 본 개시의 일 측면에 따른 정보 추출 방법이 구현된다.

본 개시의 다른 측면에 따르면, 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 프로그램 중의 명령이 프로세서에 의해 수행될 경우, 본 개시의 일 측면에 따른 정보 추출 방법이 구현된다.

이해 가능한 바로는, 본 부분에서 설명된 내용은 본 개시의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 개시의 범위를 한정하지도 않는다. 본 개시의 기타 특징들은 하기의 명세서에 의해 쉽게 이해될 것이다.

첨부된 도면은 본 개시의 수단을 더 잘 이해하기 위한 것으로, 본 개시에 대한 한정이 구성되지 않는다.
도1은 본 개시의 제1 실시예에 따른 정보 추출 방법의 개략적인 흐름도이다.
도2는 본 개시의 제2 실시예에 따른 정보 추출 방법의 개략적인 흐름도이다.
도3은 본 개시의 제3 실시예에 따른 정보 추출 방법의 개략적인 흐름도이다.
도4는 본 개시의 제4 실시예에 따른 정보 추출 방법의 개략적인 흐름도이다.
도5는 본 개시의 제5 실시예에 따른 정보 추출 방법의 개략적인 흐름도이다.
도6은 본 개시의 제5 실시예에 따른 정보 추출 방법의GWD 거리 손실 함수의 개략도이다.
도7은 본 개시의 제6 실시예에 따른 정보 추출 방법의 전체적인 흐름도이다.
도8은 본 개시의 제1 실시예에 따른 정보 추출 장치의 블록도이다.
도9는 본 개시의 제2 실시예에 따른 정보 추출 장치의 블록도이다.
도10은 본 개시의 실시예의 정보 추출 방법을 구현하기 위한 전자 기기의 블록도이다.

이하, 첨부된 도면을 결합하여 본 개시의 예시적인 실시예에 대해 설명하며, 여기에는 이해를 돕기 위해 본 개시의 실시예의 다양한 세부 사항을 포함하므로, 이는 단지 예시적인 것으로 이해해야 한다. 따라서, 당업자는 본 개시의 범위 및 사상을 벗어나지 않는 한 여기에 설명된 실시예에 대해 다양한 변경 및 수정이 이루어질 수 있음을 인식해야 한다. 마찬가지로, 명확성과 간결성을 위해, 하기의 설명에서는 공지된 기능 및 구조에 대한 설명을 생략한다.

인공지능(Artificial Intelligence, AI라고 약칭함)은 인간의 지능을 시뮬레이션, 연장 및 확장하기 위한 이론, 방법, 기술 및 응용 시스템을 연구하고 개발하는 기술 과학이다. 현재, AI 기술은 고도의 자동화, 고정밀도, 저비용의 장점을 가지고 있으며, 널리 사용되고 있다.

지식 그래프(Knowledge Graph, KG라고 약칭함)는 도서관 및 정보 분야에서 지식 영역 시각화 또는 지식 영역 매핑 지도로 알려진 지식 발전 프로세스와 구조 관계를 나타내는 일련의 다양한 그래프이며, 시각화 기술로 지식 자원과 해당 매개체를 설명하고, 지식과 그들 사이의 상호 연결을 마이닝, 분석, 구성, 매핑 및 표시한다. 지식 그래프는 응용 수학, 그래픽스, 정보 시각화 기술, 정보 과학 등 학과의 이론과 방법을 계량학 인용 분석, 동시출현 분석 등 방법과 결합하여, 시각화된 그래프를 사용하여 학과의 핵심 구조, 발전 역사, 첨단 영역 및 전체적인 지식 아키텍처를 생생하게 전시하여 학제간 융합 목적을 달성하기 위한 현대 이론이며, 학과 연구를 위한 실용적이고 가치 있는 참고를 제공할 수 있다.

이미지 처리(Image Processing)는 컴퓨터를 사용하여 이미지를 분석하여 원하는 결과를 얻는 기술이다. 이미지 처리는 사람들의 시각 심리 또는 응용 요구를 충족시키기 위해 컴퓨터를 사용하여 이미지 정보를 처리하는 행위이며, 적용 범위가 넓으며, 측량 및 매핑 학과, 대기 과학, 천문학, 이미지 미화 및 이미지 인식 향상에 주로 적용된다.

자연어 처리(Natural Language Processing, NLP)는 자연어 통신을 효과적으로 구현할 수 있는 컴퓨터 시스템, 특히 소프트웨어 시스템을 연구하는 학과이며, 컴퓨터 과학 분야와 인공지능 분야의 중요한 방향이다.

딥러닝(Deep Learning, DL라고 약칭함)은 기계 러닝(Machine Learning, ML라고 약칭함) 분야의 새로운 연구 방향으로서, 샘플 데이터의 내재적 법칙 및 표현 계층을 러닝하는 것이며, 이러한 러닝 과정에서 획득한 정보는 문자, 이미지 및 소리 등과 같은 데이터의 해석에 대해 큰 도움이 된다. 딥러닝의 최종 목적은 기계로 하여금 인간과 같은 분석 러닝 능력을 구비할 수 있고, 문자, 이미지 및 소리 등과 같은 데이터를 인식할 수 있도록 한다. 구체적인 연구 내용은 주로 컨볼루션 연산을 기반으로 하는 신경망 시스템, 즉 컨볼루션 신경망; 다층 신경원을 기반으로 하는 자체 코딩 신경망; 다층 자체 코딩 신경망의 방식으로 사전 훈련한 다음, 판별 정보와 결합하여 신경망 가중치를 더욱 최적화하는 심층 믿음 네트워크를 포함한다. 딥러닝은 검색 기술, 데이터 마이닝, 기계 러닝, 기계 번역, 자연어 처리, 멀티미디어 러닝, 음성, 추천 및 개인화 기술 및 기타 관련 분야에서 많은 성과를 획득하였다.

정보 추출(Information Extraction) 작업은 비구조화 데이터로부터 구조화 정보를 자동으로 추출하는 작업을 의미하며, 해당 하위 작업은 개체명 인식, 개체 링킹 및 다운스트림 관계 추출 및 이벤트 추출 등을 포함한다. 개체명 인식(Named Entity Recognition) 알고리즘은 자연어 텍스트에 존재하는 개체 이름을 추출할 수 있으며, 당해 개체 이름은 지칭(Mention)으로 불리운다. 그러나 개체 링킹(Entity Linking) 작업은 텍스트에 있는 개체 지칭을 지식 라이브러리에 있는 대응되는 개체(Entity)와 연결하여, 연결된 텍스트를 다른 다운스트림 작업에 사용한다.

개체 링킹(EL) 작업은 비구조화 텍스트로부터 특정 개체를 표현하는 지칭을 찾아, 당해 지칭을 구조화된 지식 라이브러리의 개체에 연결하는 작업을 의미한다. 개체 링킹 작업은 개체명 인식 및 관계 추출과 함께 자연어 정보 추출 작업을 구성하며, 오랫 동안 연구의 초점이 되어 왔다. 동시에 개체 링킹은 지식 라이브러리 기반 질문 답변, 콘텐츠 기반 분석 및 추천, 어의 개체 기반 검색 엔진 및 지식 라이브러리의 반복적인 업데이트 등과 같은 다양한 다운스트림 작업의 기반이기도 한다.

이하, 첨부된 도면을 참조하여 본 개시의 실시예에 따른 정보 추출 방법, 장치, 전자 기기 및 저장 매체를 설명한다.

도1은 본 개시의 제1 실시예에 따른 정보 추출 방법의 개략적인 흐름도이다.

도1에 도시된 바와 같이, 본 개시의 실시예의 정보 추출 방법은 구체적으로 다음과 같은 단계를 포함할 수 있다.

S101, 정보 스트림을 획득하며, 정보 스트림은 텍스트 및 이미지를 포함한다.

구체적으로, 본 개시의 실시예의 정보 추출 방법의 수행 주체는 본 개시의 실시예에서 제공되는 정보 추출 장치일 수 있으며, 당해 정보 추출 장치는 데이터 정보 처리 능력을 구비한 하드웨어 기기 및/또는 당해 하드웨어 기기를 구동하는데 필요한 소프트웨어일 수 있다. 선택적으로, 수행 주체는 워크스테이션, 서버, 컴퓨터, 사용자 단말 및 기타 기기를 포함할 수 있다. 사용자 단말은 휴대폰, 컴퓨터, 스마트 음성 인터랙션 기기, 스마트 가전 제품, 차량 탑재 단말 등을 포함하지만, 이에 제한되지 않는다.

개체 링킹을 수행할 멀티 모드 정보 스트림을 획득하며, 당해 멀티 모드 정보 스트림은 적어도 텍스트 및 이미지를 포함한다.

S102, 텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성한다.

구체적으로, 단계 S101에서 획득한 정보 스트림의 텍스트에 따라 텍스트 개체 지칭 m _t 의 임베딩 표현을 생성하고, 텍스트 개체 지칭 m _t 및 후보 텍스트 개체 e _t 의 텍스트 유사도 행렬을 생성한다. 후보 텍스트 개체 e _t 는 텍스트 개체 지칭 m _t 에 대응되는 링킹 개체이다. 본 개시의 실시예에서, m는 개체 지칭을 나타내고, e는 개체를 나타내고, 아래에 적은 문자 t, v는 각각 텍스트 및 이미지를 나타낸다.

S103, 이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성한다.

구체적으로, 단계 S101에서 획득한 정보 스트림의 이미지에 따라 이미지 개체 지칭 m _v 의 임베딩 표현을 생성하고, 이미지 개체 지칭 m _v 및 후보 이미지 개체 e _v 의 이미지 유사도 행렬을 생성한다. 후보 이미지 개체 e _v 는 이미지 개체 지칭 m _v 에 대응되는 링킹 개체이다.

S104, 텍스트 개체 지칭의 임베딩 표현, 이미지 개체 지칭의 임베딩 표현, 텍스트 유사도 행렬 및 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정한다.

구체적으로, 당해 단계에서 단계 S102 및 S103에서 획득한 다중 모드의 개체 지칭(즉, 텍스트 개체 지칭 m _t 및 이미지 개체 지칭 m _v )에 대해 공동으로 중의성 제거를 수행한다. 최적 전송 방법을 사용하여 상이한 모드의 개체 지칭 및 후보 개체 간의 암시적 연관을 발견한다. 동일한 모드의 개체 지칭은 일반적으로 동일한 주제에 속하므로 특정 연관이 있고, 상이한 모드의 개체 지칭은 동일한 개체에 지향할 수 있으므로, 당해 공동 중의성 제거 과정을 다대다 연결된 이분 그래프 매칭 문제로 모델링할 수 있으며, 즉 텍스트 특징(즉, 텍스트 개체 지칭의 임베딩 표현) 및 이미지 특징(즉, 이미지 개체 지칭의 임베딩 표현)의 연관을 하나의 확률 분포에서 다른 하나의 확률 분포로 이동하는 것으로 간주할 수 있으며, 최적 전송 알고리즘을 사용하여 당해 문제를 해결할 수 있다.

최적 전송(optimal transport)은 바세르슈타인(Wasserstein) 거리로 불리우며, 이산적인 경우 지구 이동 거리(Earth Mover's Distance, EMD라고 약칭함)로 불리우며, 확률 분포 사이 거리의 도량이다. 예를 들면, 최적 전송의 과제 목적은 N개의 창고의 물품을 M개의 목적지로 운송하는 최적의 할당 방식을 찾는 것이다. 멀티 모드 개체 링킹 과제에 적용될 경우, 최적 전송의 과제 목적은 최종의 최적 전송 매핑을 찾는 것이 아니고, 최적 전송 대가를 통계 발산(divergence)으로 사용하여 2개의 확률 분포 밀도 사이의 이산 정도를 반영한다.

로 소스 분포, 즉 텍스트 특징 분포를 나타내고;

로 타겟 분포, 즉 이미지 특징 분포를 나타낸다. 전송 전이 행렬

를 정의하고,

로 파일에 있는 모든 텍스트 지칭 특징을 이미지 지칭 특징으로 변환하는 과정을 나타내며, 해당 거리

가

에서

로 전이하는데 필요한 최저 전송 비용을 나타낸다. 최저 전송 비용에 대응되는 전송 전이 행렬

및 S102와 S103에서 획득한 텍스트 유사도 행렬 및 이미지 유사도 행렬에 따라, 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 추론하는데 보조한다.

요약하면, 본 개시의 실시예의 정보 추출 방법은, 먼저 정보 스트림을 획득하고, 정보 스트림은 텍스트 및 이미지를 포함하며, 다음 텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성하고, 이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성하며, 텍스트 개체 지칭의 임베딩 표현, 이미지 개체 지칭의 임베딩 표현, 텍스트 유사도 행렬 및 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정한다. 본 개시의 실시예의 정보 추출 방법은 텍스트 및 이미지 두 가지 모드의 개체 지칭을 동시 모델링하여, 텍스트 유사도 행렬 및 이미지 유사도 행렬을 생성하고, 최적 전송 알고리즘을 기반으로 두 가지 모드의 지칭에 대해 타겟 개체의 링킹을 수행하므로, 이미지 및 텍스트 개체에 대해 동시 링킹할 수 있고, 멀티 모드 데이터의 개체 지칭과 지식 라이브러리의 대응 개체를 링킹하는 정확성을 향상시킨다.

도2는 본 개시의 제2 실시예에 따른 정보 추출 방법의 개략적인 흐름도이다. 도2에 도시된 바와 같이, 상기 도1에 도시된 실시예를 기반으로 본 개시의 실시예의 정보 추출 방법은 구체적으로 다음과 같은 단계를 포함할 수 있다.

S201, 정보 스트림을 획득하며, 정보 스트림은 텍스트 및 이미지를 포함한다.

구체적으로, 본 개시의 실시예에서 단계 S201은 상기 실시예의 단계 S101과 같으며, 여기서 반복적으로 설명하지 않는다.

상기 실시예에서 "텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성하는" 단계 S102는 구체적으로 단계 S202 내지 단계 S205를 포함할 수 있다.

S202, 텍스트에 따라 텍스트 개체 지칭 및 후보 텍스트 개체를 결정한다.

구체적으로, 단계 S201에서 획득한 정보 스트림의 텍스트에 따라 텍스트 중의 텍스트 개체 지칭 및 텍스트 개체 지칭에 대응되는 후보 텍스트 개체를 결정한다.

S203, 텍스트 개체 지칭에 따라 텍스트 개체 지칭의 임베딩 표현을 생성한다.

구체적으로, 단계 S202에서 결정된 텍스트 개체 지칭에 따라, GloVe 단어 벡터 및 위키피디아 개체, 단어 동시 발생 빈도의 Ganea 임베딩 코딩 표현을 기반으로, 텍스트 개체 지칭의 임베딩 표현을 생성한다.

S204, 후보 텍스트 개체에 따라 후보 텍스트 개체의 임베딩 표현을 생성한다.

구체적으로, 본 개시의 실시예에서 단계 S204는 상기 단계 S203과 유사하며, 여기서 반복적으로 설명하지 않는다.

S205, 텍스트 개체 지칭의 임베딩 표현 및 후보 텍스트 개체의 임베딩 표현에 따라 텍스트 유사도 행렬을 계산한다.

구체적으로, 단계 S203에서 생성한 텍스트 개체 지칭의 임베딩 표현 및 단계 S204에서 생성한 후보 텍스트 개체의 임베딩 표현에 따라 텍스트 개체 지칭 및 후보 텍스트 개체 사이의 유사도를 계산하여, 텍스트 유사도 행렬을 획득한다.

상기 실시예에서 "이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성하는" 단계 S103은 구체적으로 단계 S206 내지 단계S208을 포함할 수 있다.

S206, 이미지를 이미지 코딩 모델에 입력하여, 이미지 개체 지칭의 임베딩 표현을 획득한다.

구체적으로, 단계 S201에서 획득한 정보 스트림의 이미지를 이미지 코딩 모델에 입력하여, 이미지 개체 지칭의 임베딩 표현을 획득한다.

S207, 후보 이미지 개체를 이미지 코딩 모델에 입력하여, 후보 이미지 개체의 임베딩 표현을 획득한다.

구체적으로, 이미지 개체 지칭에 대응되는 후보 이미지 개체를 이미지 코딩 모델에 입력하여, 후보 이미지 개체의 임베딩 표현을 획득한다. 후보 이미지 개체는 텍스트의 모든 텍스트 개체 지칭에 링킹된 표제어 중 첫번째 이미지이다.

이미지 또는 후보 이미지 개체를 분할하여 이미지 특징 서열로 전개하여 이미지 코딩 모델에 입력함으로써, 코딩 및 압축된 이미지 개체 지칭의 임베딩 표현 또는 후보 이미지 개체의 임베딩 표현을 획득하며, 이미지 또는 후보 이미지 개체는 구체적으로 처리되지 않은 RGB 이미지일 수 있고, 이미지 코딩 모델은 구체적으로 6 레이어의 transformer 모델의 인코더 모듈을 포함할 수 있지만 이에 제한되지 않는다. transformer 모델의 인코더 모듈의 각 레이어는 2개의 서브레이어 즉 셀프 어텐션 서브레이어(self-attention layer) 및 피드포워드 신경망 서브레이어(feed forward layer)로 구성된다.

셀프 어텐션 서브레이어는 멀티헤드 어텐션 메커니즘(multi-head attention)을 사용하는 바, 모델을 다수의 헤드로 분할하여, 각 헤드에 서브공간이 형성되어, 모델로 하여금 상이한 레이어의 정보에 주의할 수 있다. 멀티헤드 어텐션 메커니즘의 계산 방법은, 먼저 같은 입력 정보로 상이한 가중치

매핑을 통해 조회 벡터

(Query), 어텐션 벡터

(Key) 및 값 벡터

(Value)를 획득한다. 내적

를 통해 상관도를 계산하고,

함수를 통해 어텐션 분포 행렬

를 계산한다.

피드포워드 신경망 서브레이어는 완전 연결 레이어와 비선형 활성화 함수

함수로 구성되며, 파라미터는 모두 트레이닝을 통해 획득되었다.

본 개시의 실시예에서, 입력된 이미지 또는 후보 이미지 개체를 먼저 64개의 블록으로 균일하게 분할하여 하나의 서열로 전개하며, 각 블록의 임베딩 벡터 및 위치 코딩 벡터를 더한 후 인코더의 입력으로 사용한다. 인코더의 각 레이어에서, 입력된 데이터는 먼저 멀티헤드 셀프 어텐션 서브레이어를 통과하여, 전역적 특징을 주의하는데 사용되고, 다음 피드포워드 신경망 서브레이어를 통과하고, 최후 평균 풀링 연산을 통과하여, 64개의 블록 이미지의 특징 서열 매핑을 최종 임베딩 표현으로 압축하며, 하기의 공식을 만족한다.

는 입력 서열을 나타내고,

는 멀티헤드 셀프 어텐션 서브레이어의 출력을 나타내고,

는 피드포워드 신경망 서브레이어의 출력을 나타내고,

는 각각 정규화된 후보 이미지 개체 및 이미지 개체 지칭의 모델 출력을 나타낸다.

설명해야 하는 바로는, 본 개시의 실시예에서, Transformer 인코더는 쌍별 손실을 줄이는 것을 통해 트레이닝하며, 이미지 개체 지칭과 후보 이미지 개체의 triplet 손실을 정의하며, 하기의 공식을 만족한다.

이미지 개체 지칭

에 대하여，

는 정확한 링킹 개체이고，

는 음성 샘플 개체이다.

S208, 이미지 개체 지칭의 임베딩 표현 및 후보 이미지 개체의 임베딩 표현에 따라, 이미지 개체 지칭과 후보 이미지 개체의 코사인 유사도를 계산하여, 이미지 유사도 행렬을 획득한다.

구체적으로, 단계 S206에서 획득한 이미지 개체 지칭의 임베딩 표현 및 단계 S207에서 획득한 후보 이미지 개체의 임베딩 표현에 따라, 이미지 개체 지칭과 후보 이미지 개체의 코사인 유사도를 계산하여, 이미지 유사도 행렬을 획득한다.

상기 실시예에서, "텍스트 개체 지칭의 임베딩 표현, 이미지 개체 지칭의 임베딩 표현, 텍스트 유사도 행렬 및 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정하는" 단계 S104는 구체적으로 단계 S209 내지 단계S211을 포함할 수 있다.

S209, 텍스트 개체 지칭의 임베딩 표현 및 이미지 개체 지칭의 임베딩 표현에 따라 최적 전송을 기반으로, 최저 전송 비용의 텍스트 개체 지칭 및 최저 전송 비용의 이미지 개체 지칭을 결정한다.

구체적으로, 단계 S104에 관한 설명을 참조하여, 최저 전송 비용에 대응되는 전송 전이 행렬 T에 따라 최저 전송 비용의 텍스트 개체 지칭 및 최저 전송 비용의 이미지 개체 지칭을 결정한다.

S210, 최저 전송 비용의 텍스트 개체 지칭 및 이미지 유사도 행렬에 따라 타겟 텍스트 개체를 결정한다.

구체적으로, 단계 S209에서 결정된 최저 전송 비용의 텍스트 개체 지표의 비용에 대해 가중한 후, 단계 S208의 이미지 유사도 행렬과 더하여, 각 텍스트 개체 지칭에 대해 점수가 가장 높은 후보 텍스트 개체를 타겟 텍스트 개체로 선택한다.

S211, 최저 전송 비용의 이미지 개체 지칭 및 텍스트 유사도 행렬에 따라 타겟 이미지 개체를 결정한다.

구체적으로, 본 개시의 실시예에서 단계 S211은 상기 단계 S210과 유사하므로, 여기서 반복적으로 설명하지 않는다.

나아가, 도3에 도시된 바와 같이, 상기 도2에 도시된 실시예를 기반으로, "텍스트에 따라 텍스트 개체 지칭 및 후보 텍스트 개체를 결정하는" 단계 S202는 구체적으로 다음과 같은 단계를 포함할 수 있다.

S301, 텍스트에 따라 텍스트 개체 지칭을 결정한다.

S302, 텍스트 개체 지칭 및 위키피디아 리디렉션 링킹 수량의 통계에 따라, 리디렉션 링킹 수량이 가장 많은 n개의 텍스트 개체를 예비 후보 텍스트 개체로 결정한다.

구체적으로, 각 텍스트 개체 지칭에 대하여, 단계 S301에서 결정된 텍스트 개체 지표 및 위키피디아 리디렉션 링킹 수량의 통계에 따라 리디렉션 링킹 수량이 가장 많은 n개(예컨대 30개)의 텍스트 개체를 예비 후보 텍스트 개체로 결정한다. 위키피디아 리디렉션 링킹 수량의 통계는 구체적으로 모든 웹페이지에서 텍스트 개체 지칭을 텍스트 개체에 리디렉션한 수량의 통계이다.

S303, 예비 후보 텍스트 개체 중 리디렉션 링킹 수량이 가장 많은 m개의 텍스트 개체를 후보 텍스트 개체로 결정한다.

구체적으로, 단계 S302에서 결정된 n개(예컨대 30개)의 예비 후보 텍스트 개체 중 리디렉션 링킹 수량이 가장 많은 m개(예컨대 4개)의 텍스트 개체를 후보 텍스트 개체로 결정한다.

S304, 텍스트 개체 지칭과 예비 후보 텍스트 개체의 유사도를 계산하여, 유사도가 가장 높은 p개의 텍스트 개체를 후보 텍스트 개체로 결정한다.

구체적으로, 단계 S301에서 결정된 텍스트 개체 지칭 및 단계 S302에서 결정된 n개(예컨대 30개)의 예비 후보 텍스트 개체를 GloVe(Global Vectors for Word Representation) 단어 벡터 모델을 통해 벡터 형태로 나타내고, 다음 벡터 간 내적을 통해 유사도를 계산하여, 유사도가 가장 높은 p개(예컨대 3개)의 텍스트 개체를 후보 텍스트 개체로 결정한다.

본 개시의 실시예에서, 단계 S303에서 결정된 m개의 후보 텍스트 개체와 S304에서 결정된 p개의 후보 텍스트 개체가 함께 최종 후보 텍스트 개체 집합을 구성하며, 즉 각 텍스트 개체 지칭은 m+p개(예컨대 7개)의 후보 텍스트 개체에 대응된다.

나아가, 도4에 도시된 바와 같이, 상기 도2에 도시된 실시예를 기반으로, "텍스트 개체 지칭의 임베딩 표현 및 후보 텍스트 개체의 임베딩 표현에 따라 텍스트 유사도 행렬을 계산하는" 단계 S205는 구체적으로 다음과 같은 단계를 포함할 수 있다.

S401, 텍스트 개체 지칭의 임베딩 표현 및 후보 텍스트 개체의 임베딩 표현을 텍스트 유사도 모델에 입력하여, 텍스트 유사도 행렬을 획득하며, 텍스트 개체 지칭의 임베딩 표현 및 후보 텍스트 개체의 임베딩 표현은 텍스트 유사도 모델의 싱글 레이어 신경망을 경과한 후 암묵적 관계 벡터에 곱하여 텍스트 개체 지칭과 후보 텍스트 개체 사이의 연관 점수를 획득하고, 동일한 유형의 암묵적 관계의 연관 점수를 정규화시켜, 텍스트 유사도 행렬을 획득한다.

구체적으로, 텍스트 개체 지칭의 임베딩 표현은

이고, 후보 텍스트 개체의 임베딩 표현은

인 것을 가정하고, 다음, 임의의 2개의 텍스트 개체 지칭

사이에 가중치가 상이한 K개의 유형의 암묵적 관계가 존재하는 것을 가정하며, 각 관계를 암묵적 관계 벡터

로 나타내고, 다음 텍스트 개체 지칭의 임베딩 표현 및 후보 텍스트 개체의 임베딩 표현을 텍스트 유사도 모델의 싱글 레이어 신경망

를 통과시킨 후, 암묵적 관계 벡터

를 곱하여, 텍스트 개체 지칭과 후보 텍스트 개체 사이의 연관 점수를 획득하고, 동일한 유형의 암묵적 관계의 연관 점수를 정규화시켜(즉, 모든 텍스트 개체 지칭-후보 텍스트 개체 쌍의 동일한 유형의 암묵적 관계의 연관 점수 합계를 1로 조정됨), 텍스트 유사도 행렬을 획득한다. 본 개시의 실시예에서, 텍스트 모드 랭킹 손실

을 업데이트하여 트레이닝한다. 모델 테스트에서, K개의 유형의 암묵적 관계의 연관 점수를 더하여 당해 쌍의 텍스트 개체 지칭-후보 텍스트 개체의 전역 점수를 계산하여 점수가 가장 높은 후보 텍스트 개체를 최종 링킹 결과로 한다.

나아가, 도5에 도시된 바와 같이, 상기 도2에 도시된 실시예를 기반으로, "텍스트 개체 지칭의 임베딩 표현 및 이미지 개체 지칭의 임베딩 표현에 따라 최적 전송을 기반으로, 최저 전송 비용의 텍스트 개체 지칭 및 최저 전송 비용의 이미지 개체 지칭을 결정하는" 단계 S209는 구체적으로 다음과 같은 단계를 포함할 수 있다.

S501, 임의의 2개의 텍스트 개체 지칭의 임베딩 표현에 따라 임의의 2개의 텍스트 개체 지칭 사이의 텍스트 통계 발산을 계산한다.

구체적으로,

는 임의의 2개의 텍스트 개체 지칭을 나타내고, 임의의 2개의 텍스트 개체 지칭의 임베딩 표현은

인 것을 가정하면, 임의의 2개의 텍스트 개체 지칭 사이의 텍스트 통계 발산

를 계산한다. 텍스트 통계 발산은 구체적으로 그로모프-바세르슈타인 거리(Gromov-Wasserstein Distance, GWD)일 수 있다.

S502, 임의의 2개의 이미지 개체 지칭의 임베딩 표현에 따라 임의의 2개의 이미지 개체 지칭 사이의 이미지 통계 발산을 계산한다.

구체적으로,

는 임의의 2개의 이미지 개체 지칭을 나타내고, 임의의 2개의 이미지 개체 지칭의 임베딩 표현은

인 것을 가정하면, 임의의 2개의 이미지 개체 지칭 사이의 이미지 통계 발산

를 계산한다. 이미지 통계 발산은 구체적으로 그로모프-바세르슈타인 거리일 수 있다.

S503, 텍스트 통계 발산 및 이미지 통계 발산에 따라 전송 비용이 최저일 때의 전송 전이 행렬을 결정한다.

구체적으로, 단계 S501에서 계산된 텍스트 통계 발산 및 단계 S502에서 계산된 이미지 통계 발산에 따라, 전송 전이 행렬

를 정의하고,

가

에서

로 전이하는데 필요한 최저 전송 비용을 나타내며, 하기의 공식을 만족한다.

여기서,

는 임베딩 표현을 나타내고, 계산에서

를

에 대입하여 2개의 텍스트 개체 지칭 사이의 Wasserstein Distance를 획득한다. 유사하게,

를

에 대입하여 2개의 이미지 개체 지칭 사이의 Wasserstein Distance를 획득한다.

여기서,

는 텍스트 특징 분포를 나타내고,

는 이미지 특징 분포를 나타낸다. Sinkhorn 알고리즘을 통해 엔트로피 정규화된 그로모프-바세르슈타인 거리를 결정하며, 즉 엔트로피 정규화(entropic regularization)를 통해 과제를 강력한 볼록 근사 문제로 전환하여, Sinkhorn 알고리즘을 사용하여 해결하며, 하기의 공식을 만족한다.

, 하이퍼파라미터

는 엔트로피의 가중치를 제어하는데 사용된다.

S504, 전송 비용이 최저일 때의 전송 전이 행렬에 따라 최저 전송 비용의 텍스트 개체 지칭 및 최저 전송 비용의 이미지 개체 지칭을 결정한다.

구체적으로, 전송 비용이 최저일 때의 전송 전이 행렬 T에 대응되는 텍스트 개체 지칭을 최저 전송 비용의 텍스트 개체 지칭으로 결정하고, 전송 비용이 최저일 때의 전송 전이 행렬 T에 대응되는 이미지 개체 지칭을 최저 전송 비용의 이미지 개체 지칭으로 결정한다.

설명해야 하는 바로는, 본 개시의 실시예에서 GWD 거리 손실 함수를 통해 한 쌍의 텍스트 개체 지칭의 GWD 거리 및 한 쌍의 이미지 개체 지칭의 GWD 거리의 코사인 유사도를 계산하여, 같은 개체에 지향하는 한 쌍의 텍스트 개체 지칭과 한 쌍의 이미지 개체 지칭의 거리는 유사하며, 예를 들어, 도6에 도시된 GWD 거리 손실 함수의 개략도에서, 개체 "Bruce Wayne"에 지향하는 2개의 텍스트 개체 지칭("Batman", "Bruce Wayne") 사이의 거리 및 두 장의 배트맨 이미지 사이의 거리는 응당 유사해야 한다.

본 개시의 실시예에서, 공동 손실 함수를 정의하여 트레이닝 과정을 제약하며, 공동 손실 함수는 단계 S504에서 계산된 GWD 거리 손실 함수, 텍스트 모드 랭킹 손실 및 이미지 모드의 triplet 손실로부터 하기의 공식을 통해 계산된다.

요약하면, 본 개시의 실시예의 정보 추출 방법은, 먼저 정보 스트림을 획득하고, 정보 스트림은 텍스트 및 이미지를 포함하며, 다음 텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성하고, 이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성하여, 텍스트 개체 지칭의 임베딩 표현, 이미지 개체 지칭의 임베딩 표현, 텍스트 유사도 행렬 및 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정한다. 본 개시의 실시예의 정보 추출 방법은 텍스트 및 이미지 두 가지 모드의 개체 지칭을 동시 모델링하여, 위키피디아 리디렉션 링킹 수량의 통계에 따라 후보 텍스트 개체를 획득하고, GloVe 단어 벡터 및 위키피디아 개체, 단어 동시 발생 빈도의 Ganea 임베딩 코딩 표현을 기반으로 후보 텍스트 개체 및 텍스트 개체 지칭의 임베딩 표현을 생성하고, 이미지를 Transformer 모델에 입력하여 후보 이미지 개체 및 이미지 개체 지칭의 임베딩 표현을 생성하고, 최적 전송 알고리즘을 기반으로 두 가지 모드의 지칭에 대해 타겟 개체의 링킹을 수행하므로, 이미지 및 텍스트 개체에 대해 동시 링킹할 수 있고, 멀티 모드 데이터의 개체 지칭과 지식 라이브러리의 대응 개체를 링킹하는 정확성을 향상시킨다.

도7은 본 개시의 제5 측면 실시예에 따른 정보 추출 방법의 전체적인 흐름도이다. 도7에 도시된 바와 같이, 본 개시의 실시예의 정보 추출 방법은 구체적으로 다음과 같은 단계를 포함한다.

S701, 정보 스트림을 획득하며, 정보 스트림은 텍스트 및 이미지를 포함한다.

S702, 텍스트에 따라 텍스트 개체 지칭을 결정한다.

S703, 텍스트 개체 지칭 및 위키피디아 리디렉션 링킹 수량의 통계에 따라, 리디렉션 링킹 수량이 가장 많은 n개의 텍스트 개체를 예비 후보 텍스트 개체로 결정한다.

S704, 예비 후보 텍스트 개체 중 리디렉션 링킹 수량이 가장 많은 m개의 텍스트 개체를 후보 텍스트 개체로 결정한다. 단계 S707을 계속 수행한다.

S705, 텍스트 개체 지칭과 예비 후보 텍스트 개체의 유사도를 계산하여, 유사도가 가장 높은 p개의 텍스트 개체를 후보 텍스트 개체로 결정한다. 단계 S707을 계속 수행한다.

S706, 텍스트 개체 지칭에 따라 텍스트 개체 지칭의 임베딩 표현을 생성한다.

S707, 후보 텍스트 개체에 따라 후보 텍스트 개체의 임베딩 표현을 생성한다.

S708, 텍스트 개체 지칭의 임베딩 표현 및 후보 텍스트 개체의 임베딩 표현을 텍스트 유사도 모델에 입력하여, 텍스트 유사도 행렬을 획득하며, 텍스트 개체 지칭의 임베딩 표현 및 후보 텍스트 개체의 임베딩 표현은 텍스트 유사도 모델의 싱글 레이어 신경망을 경과한 후 암묵적 관계 벡터에 곱하여 텍스트 개체 지칭과 후보 텍스트 개체 사이의 연관 점수를 획득하고, 동일한 유형의 암묵적 관계의 연관 점수를 정규화시켜, 텍스트 유사도 행렬을 획득한다. 단계 S717을 계속 수행한다.

S709, 상기 이미지를 이미지 코딩 모델에 입력하여, 상기 이미지 개체 지칭의 임베딩 표현을 획득한다.

S710, 상기 후보 이미지 개체를 상기 이미지 코딩 모델에 입력하여, 상기 후보 이미지 개체의 임베딩 표현을 획득한다.

S711, 상기 이미지 개체 지칭의 임베딩 표현 및 상기 후보 이미지 개체의 임베딩 표현에 따라, 상기 이미지 개체 지칭 및 상기 후보 이미지 개체의 코사인 유사도를 계산하여, 상기 이미지 유사도 행렬을 획득한다. 단계 S716을 계속 수행한다.

S712, 임의의 2개의 텍스트 개체 지칭의 임베딩 표현에 따라 임의의 2개의 텍스트 개체 지칭 사이의 텍스트 통계 발산을 계산한다. 단계 S714를 계속 수행한다.

S713, 임의의 2개의 이미지 개체 지칭의 임베딩 표현에 따라 임의의 2개의 이미지 개체 지칭 사이의 이미지 통계 발산을 계산한다.

S714, 텍스트 통계 발산 및 이미지 통계 발산에 따라 전송 비용이 최저일 때의 전송 전이 행렬을 결정한다.

S715, 전송 비용이 최저일 때의 전송 전이 행렬에 따라 최저 전송 비용의 텍스트 개체 지칭 및 최저 전송 비용의 이미지 개체 지칭을 결정한다.

S716, 최저 전송 비용의 텍스트 개체 지칭 및 이미지 유사도 행렬에 따라 타겟 텍스트 개체를 결정한다.

S717, 최저 전송 비용의 이미지 개체 지칭 및 텍스트 유사도 행렬에 따라 타겟 이미지 개체를 결정한다.

도8은 본 개시의 제1 실시예에 따른 정보 추출 장치의 블록도이다.

도8에 도시된 바와 같이, 본 개시의 실시예의 정보 추출 장치(800)는 획득 모듈(801), 제1 생성 모듈(802), 제2 생성 모듈(803) 및 결정 모듈(804)을 포함한다.

획득 모듈(801)은 정보 스트림을 획득하는데 사용되며, 정보 스트림은 텍스트 및 이미지를 포함한다.

제1 생성 모듈(802)은 텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성하는데 사용된다.

제2 생성 모듈(803)은 이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성하는데 사용된다.

결정 모듈(804)은 텍스트 개체 지칭의 임베딩 표현, 이미지 개체 지칭의 임베딩 표현, 텍스트 유사도 행렬 및 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정하는데 사용된다.

설명해야 하는 바로는, 전술한 정보 추출 방법의 실시예에 대한 해석과 설명은 당해 실시예의 정보 추출 장치에도 적용되며, 여기서 반복적으로 설명하지 않는다.

요약하면, 본 개시의 실시예의 정보 추출 장치는 먼저 정보 스트림을 획득하고, 정보 스트림은 텍스트 및 이미지를 포함하며, 다음 텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성하고, 이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성하여, 텍스트 개체 지칭의 임베딩 표현, 이미지 개체 지칭의 임베딩 표현, 텍스트 유사도 행렬 및 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정한다. 본 개시의 실시예의 정보 추출 장치는 텍스트 및 이미지 두 가지 모드의 개체 지칭을 동시 모델링하여, 텍스트 유사도 행렬 및 이미지 유사도 행렬을 생성하고, 최적 전송 알고리즘을 기반으로 두 가지 모드의 지칭에 대해 타겟 개체의 링킹을 수행하므로, 이미지 및 텍스트 개체에 대해 동시 링킹할 수 있고, 멀티 모드 데이터의 개체 지칭과 지식 라이브러리의 대응 개체를 링킹하는 정확성을 향상시킨다.

도9는 본 개시의 제2 실시예에 따른 정보 추출 장치의 블록도이다.

도9에 도시된 바와 같이, 본 개시의 실시예의 정보 추출 장치(900)는 획득 모듈(901), 제1 생성 모듈(902), 제2 생성 모듈(903) 및 결정 모듈(904)을 포함한다.

획득 모듈(901)은 상기 실시예의 획득 모듈(801)과 같은 구조 및 기능을 구비하고, 제1 생성 모듈(902)은 상기 실시예의 제1 생성 모듈(802)과 같은 구조 및 기능을 구비하고, 제2 생성 모듈(903)은 상기 실시예의 제2 생성 모듈(803)과 같은 구조 및 기능을 구비하고, 결정 모듈(904)은 상기 실시예의 결정 모듈(804)과 같은 구조 및 기능을 구비한다.

나아가, 제1 생성 모듈(902)은 구체적으로, 텍스트에 따라 텍스트 개체 지칭 및 후보 텍스트 개체를 결정하는 제1 결정 유닛(9021); 텍스트 개체 지칭에 따라 텍스트 개체 지칭의 임베딩 표현을 생성하는 제1 생성 유닛(9022); 후보 텍스트 개체에 따라 후보 텍스트 개체의 임베딩 표현을 생성하는 제2 생성 유닛(9023); 및 텍스트 개체 지칭의 임베딩 표현 및 후보 텍스트 개체의 임베딩 표현에 따라 텍스트 유사도 행렬을 계산하는 제1 계산 유닛(9024)을 포함할 수 있다.

나아가, 제1 결정 유닛(9021)은 구체적으로, 텍스트에 따라 텍스트 개체 지칭을 결정하는 제1 결정 서브유닛(90211); 텍스트 개체 지칭 및 위키피디아 리디렉션 링킹 수량의 통계에 따라, 리디렉션 링킹 수량이 가장 많은 n개의 텍스트 개체를 예비 후보 텍스트 개체로 결정하는 제2 결정 서브유닛(90212); 예비 후보 텍스트 개체 중 리디렉션 링킹 수량이 가장 많은 m개의 텍스트 개체를 후보 텍스트 개체로 결정하는 제3 결정 서브유닛(90213); 및 텍스트 개체 지칭과 예비 후보 텍스트 개체의 유사도를 계산하여, 유사도가 가장 높은 p개의 텍스트 개체를 후보 텍스트 개체로 결정하는 제4 결정 서브유닛(90214)을 포함할 수 있다.

나아가, 제1 계산 유닛(9024)은 구체적으로, 텍스트 개체 지칭의 임베딩 표현 및 후보 텍스트 개체의 임베딩 표현을 텍스트 유사도 모델에 입력하여, 텍스트 유사도 행렬을 획득하며, 텍스트 개체 지칭의 임베딩 표현 및 후보 텍스트 개체의 임베딩 표현은 텍스트 유사도 모델의 싱글 레이어 신경망을 경과한 후 암묵적 관계 벡터에 곱하여 텍스트 개체 지칭과 후보 텍스트 개체 사이의 연관 점수를 획득하고, 동일한 유형의 암묵적 관계의 연관 점수를 정규화시켜, 텍스트 유사도 행렬을 획득하는 입력 서브유닛(90241)을 포함할 수 있다.

나아가, 제2 생성 모듈(903)은 구체적으로, 이미지를 이미지 코딩 모델에 입력하여, 이미지 개체 지칭의 임베딩 표현을 획득하는 제1 입력 유닛(9031); 후보 이미지 개체를 이미지 코딩 모델에 입력하여, 후보 이미지 개체의 임베딩 표현을 획득하는 제2 입력 유닛(9032); 및 이미지 개체 지칭의 임베딩 표현 및 후보 이미지 개체의 임베딩 표현에 따라, 이미지 개체 지칭과 후보 이미지 개체의 코사인 유사도를 계산하여, 이미지 유사도 행렬을 획득하는 제2 계산 유닛(9033)을 포함할 수 있다.

나아가, 이미지 코딩 모델은 transformer 모델의 인코더 모듈이다.

나아가, 결정 모듈(904)은 구체적으로, 텍스트 개체 지칭의 임베딩 표현 및 이미지 개체 지칭의 임베딩 표현에 따라 최적 전송을 기반으로, 최저 전송 비용의 텍스트 개체 지칭 및 최저 전송 비용의 이미지 개체 지칭을 결정하는 제2 결정 유닛(9041); 최저 전송 비용의 텍스트 개체 지칭 및 이미지 유사도 행렬에 따라 타겟 텍스트 개체를 결정하는 제3 결정 유닛(9042); 및 최저 전송 비용의 이미지 개체 지칭 및 텍스트 유사도 행렬에 따라 타겟 이미지 개체를 결정하는 제4 결정 유닛(9043)을 포함할 수 있다.

나아가, 제2 결정 유닛(9041)은 구체적으로, 임의의 2개의 텍스트 개체 지칭의 임베딩 표현에 따라 임의의 2개의 텍스트 개체 지칭 사이의 텍스트 통계 발산을 계산하는 제1 계산 서브유닛(90411); 임의의 2개의 이미지 개체 지칭의 임베딩 표현에 따라 임의의 2개의 이미지 개체 지칭 사이의 이미지 통계 발산을 계산하는 제2 계산 서브유닛(90412); 텍스트 통계 발산 및 이미지 통계 발산에 따라 전송 비용이 최저일 때의 전송 전이 행렬을 결정하는 제5 결정 서브유닛(90413); 및 전송 비용이 최저일 때의 전송 전이 행렬에 따라 최저 전송 비용의 텍스트 개체 지칭 및 최저 전송 비용의 이미지 개체 지칭을 결정하는 제6 결정 서브유닛(90414)을 포함할 수 있다.

나아가, 텍스트 통계 발산 및 이미지 통계 발산 중 적어도 하나는 그로모프 - 바세르슈타인 거리이다.

요약하면, 본 개시의 실시예의 정보 추출 장치는 먼저 정보 스트림을 획득하고, 정보 스트림은 텍스트 및 이미지를 포함하며, 다음 텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성하고, 이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성하여, 텍스트 개체 지칭의 임베딩 표현, 이미지 개체 지칭의 임베딩 표현, 텍스트 유사도 행렬 및 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정한다. 본 개시의 실시예의 정보 추출 장치는 텍스트 및 이미지 두 가지 모드의 개체 지칭을 동시 모델링하여, 위키피디아 리디렉션 링킹 수량의 통계에 따라 후보 텍스트 개체를 획득하고, GloVe 단어 벡터 및 위키피디아 개체, 단어 동시 발생 빈도의 Ganea 임베딩 코딩 표현을 기반으로 후보 텍스트 개체 및 텍스트 개체 지칭의 임베딩 표현을 생성하고, 이미지를 Transformer 모델에 입력하여 후보 이미지 개체 및 이미지 개체 지칭의 임베딩 표현을 생성하고, 최적 전송 알고리즘을 기반으로 두 가지 모드의 지칭에 대해 타겟 개체의 링킹을 수행하므로, 이미지 및 텍스트 개체에 대해 동시 링킹할 수 있고, 멀티 모드 데이터의 개체 지칭과 지식 라이브러리의 대응 개체를 링킹하는 정확성을 향상시킨다.

본 개시의 기술적 수단에서 관련된 사용자 개인정보의 수집, 저장, 이용, 처리, 전송, 제공 및 공개 등 행위는 모두 관계법령을 준수하고, 공공질서와 양호한 퐁습에 반하지 않는다.

본 개시의 실시예에 따르면, 본 개시는 또한 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램을 제공한다.

도10은 본 개시의 실시예를 실시하기 위한 예시적인 전자 기기(1000)의 개략적인 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 디지털 비서, 서버, 블레이드 서버, 메인 프레임워크 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 또한 개인용 디지털 처리, 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본 명세서에서 제시된 구성 요소, 이들의 연결 및 관계, 또한 이들의 기능은 단지 예일 뿐이며 본문에서 설명되거나 및/또는 요구되는 본 개시의 구현을 제한하려는 의도가 아니다.

도10에 도시된 바와 같이, 전자 기기(1000)는 컴퓨팅 유닛(1001)을 포함하며, 읽기 전용 메모리(ROM)(1002)에 저장된 컴퓨터 프로그램에 의해 또는 저장 유닛(1008)으로부터 랜덤 액세스 메모리(RAM)(1003)에 로딩된 컴퓨터 프로그램에 의해 수행되어 각종 적절한 동작 및 처리를 수행할 수 있다. RAM(1003)에, 또한 기기(1000)의 조작에 필요한 각종 프로그램 및 데이터가 저장되어 있다. 컴퓨팅 유닛(1001), ROM(1002) 및 RAM(1003)은 버스(1004)를 통해 서로 연결되어 있다. 입력/출력(I/O) 인터페이스(1005)도 버스(1004)에 연결되어 있다.

키보드, 마우스 등과 같은 입력 유닛(1006); 각종 유형의 모니터, 스피커 등과 같은 출력 유닛(1007); 자기 디스크, 광 디스크 등과 같은 저장 유닛(1008); 및 네트워크 카드, 모뎀, 무선 통신 트랜시버 등과 같은 통신 유닛(1009)을 포함하는 기기(1000) 중의 복수의 부품은 I/O 인터페이스(1005)에 연결된다. 통신 유닛(1009)은 장치(1000)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 통신 네트워크를 통해 다른 기기와 정보/데이터를 교환하는 것을 허락한다.

컴퓨팅 유닛(1001)은 프로세싱 및 컴퓨팅 능력을 구비한 다양한 범용 및/또는 전용 프로세싱 컴포넌트일 수 있다. 컴퓨팅 유닛(1001)의 일부 예시는 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 다양한 전용 인공 지능(AI) 컴퓨팅 칩, 기계 러닝 모델 알고리즘을 수행하는 다양한 컴퓨팅 유닛, 디지털 신호 처리기(DSP), 및 임의의 적절한 프로세서, 컨트롤러, 마이크로 컨트롤러 등을 포함하지만, 이에 제한되지 않는다. 컴퓨팅 유닛(1001)은 예를 들어 도1 내지 도7에 나타낸 정보 추출 방법과 같은 윗글에서 설명된 각각의 방법 및 처리를 수행한다. 예를 들어, 일부 실시예에서, 정보 추출 방법은 저장 유닛(1008)과 같은 기계 판독 가능 매체에 유형적으로 포함되어 있는 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(1002) 및/또는 통신 유닛(1009)을 통해 기기(1000)에 로드 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(1003)에 로딩되고 컴퓨팅 유닛(1001)에 의해 수행되는 경우, 전술한 정보 추출 방법의 하나 또는 하나 이상의 단계를 수행할 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(1001)은 임의의 다른 적절한 방식을 통해(예를 들어, 펌웨어에 의해) 구성되어 정보 추출 방법을 수행하도록 한다.

여기서 설명되는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 필드 프로그래머블 게이트 어레이(FPGA), 주문형 집적 회로(ASIC), 특정 용도 표준 제품(ASSP), 시스템온칩(SOC), 복합 프로그래머블 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및 이들의 조합 중의 적어도 하나로 구현될 수 있다. 이러한 다양한 실시 방식은 하나 또는 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있으며, 당해 하나 또는 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 수행 및/또는 해석될 수 있고, 당해 프로그램 가능 프로세서는 전용 또는 일반용일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하고 또한 데이터 및 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.

본 개시의 방법을 구현하기 위해 사용되는 프로그램 코드는 하나 또는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성될 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공될 수 있으므로, 프로그램 코드가 프로세서 또는 컨트롤러에 의해 수행되는 경우, 흐름도 및/또는 블록도에서 규정한 기능/조작을 구현하도록 한다. 프로그램 코드는 전체적으로 기계에서 수행되거나, 부분적으로 기계에서 수행되거나, 독립 소프트웨어 패키지로서 부분적으로 기계에서 수행되고 부분적으로 원격 기계에서 수행되거나 또는 전체적으로 원격 기계 또는 서버에서 수행될 수 있다.

본 개시의 문맥에서, 기계 판독 가능 매체는 자연어 수행 시스템, 장치 또는 기기에 의해 사용되거나 자연어 수행 시스템, 장치 또는 기기와 결합하여 사용되는 프로그램을 포함하거나 저장할 수 있는 유형의 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 상기 내용의 임의의 적절한 조합을 포함할 수 있지만 이에 제한되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는 하나 또는 하나 이상의 전선을 기반하는 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 지울 수 있는 프로그래머블 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기 또는 상기 내용의 임의의 적절한 조합을 포함할 수 있지만 이에 제한되지 않는다.

사용자와의 인터랙션을 제공하기 위해 여기에 설명된 시스템 및 기술은 컴퓨터에서 실시될 수 있다. 당해 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터); 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 구비하며, 사용자는 당해 키보드 및 당해 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 다른 유형의 장치를 사용하여 사용자와의 인터랙션을 제공할 수도 있으며, 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력 또는 촉각 입력을 포함)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술은 백엔드 부품을 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프런트 엔드 부품을 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 당해 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시 방식과 인터랙션할 수 있음), 또는 이러한 백엔드 부품, 미들웨어 부품 또는 프런트 엔드 부품의 임의의 조합을 포한하는 컴퓨팅 시스템에서 실시될 수 있다. 시스템의 부품은 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크의 예시는 근거리 통신망(LAN), 광역 통신망(WAN), 인터넷 및 블록체인 네트워크를 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 통신 네트워크를 통해 인터랙션한다. 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 대응되는 컴퓨터에서 수행하여 클라이언트와 서버 간의 관계를 생성한다. 서버는 클라우드 서버일 수 있고, 또한 분산 시스템의 서버, 또는 블록체인을 결합한 서버일 수도 있다.

본 개시의 실시예에 따르면, 본 개시는 또한 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공하며, 컴퓨터 프로그램 중의 명령이 프로세서에 의해 수행될 경우, 본 개시의 상기 실시예에 나타낸 정보 추출 방법의 단계를 수행한다.

이해 가능한 바로는, 전술한 다양한 형식의 프로세스에 있어서 단계 재정렬, 추가 또는 삭제를 할 수 있다. 예를 들어, 본 개시에 개시된 기술 솔루션이 이루고자 하는 결과를 구현할 수 있는 한, 본 개시에 기재된 각 단계는 병렬로, 순차적으로 또는 다른 순서로 수행될 수 있으나, 본 명세서에서 이에 대해 한정하지 않는다.

전술한 구체적인 실시 방식들은 본 개시의 보호 범위에 대한 한정을 구성하지 않는다. 당업자라면 본 개시의 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서비스 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 개시의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 본 개시의 보호 범위에 포함된다.

Claims

정보 추출 방법에 있어서,
정보 스트림을 획득하는 단계 - 상기 정보 스트림은 텍스트 및 이미지를 포함함 -;
상기 텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 상기 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성하는 단계;
상기 이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 상기 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성하는 단계; 및
상기 텍스트 개체 지칭의 임베딩 표현, 상기 이미지 개체 지칭의 임베딩 표현, 상기 텍스트 유사도 행렬 및 상기 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 상기 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 상기 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정하는 단계;를 포함하는,
것을 특징으로 하는 정보 추출 방법.
제1항에 있어서,
상기 텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 상기 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성하는 단계는,
상기 텍스트에 따라 상기 텍스트 개체 지칭 및 상기 후보 텍스트 개체를 결정하는 단계;
상기 텍스트 개체 지칭에 따라 상기 텍스트 개체 지칭의 임베딩 표현을 생성하는 단계;
상기 후보 텍스트 개체에 따라 상기 후보 텍스트 개체의 임베딩 표현을 생성하는 단계; 및
상기 텍스트 개체 지칭의 임베딩 표현 및 상기 후보 텍스트 개체의 임베딩 표현에 따라 상기 텍스트 유사도 행렬을 계산하는 단계;를 포함하는,
것을 특징으로 하는 정보 추출 방법.
제2항에 있어서,
상기 텍스트에 따라 상기 텍스트 개체 지칭 및 상기 후보 텍스트 개체를 결정하는 단계는,
상기 텍스트에 따라 상기 텍스트 개체 지칭을 결정하는 단계;
상기 텍스트 개체 지칭 및 위키피디아 리디렉션 링킹 수량의 통계에 따라, 리디렉션 링킹 수량이 가장 많은 n개의 텍스트 개체를 예비 후보 텍스트 개체로 결정하는 단계;
상기 예비 후보 텍스트 개체 중 리디렉션 링킹 수량이 가장 많은 m개의 텍스트 개체를 상기 후보 텍스트 개체로 결정하는 단계; 및
상기 텍스트 개체 지칭과 상기 예비 후보 텍스트 개체의 유사도를 계산하여, 유사도가 가장 높은 p개의 텍스트 개체를 상기 후보 텍스트 개체로 결정하는 단계;를 포함하는,
것을 특징으로 하는 정보 추출 방법.
제2항에 있어서,
상기 텍스트 개체 지칭의 임베딩 표현 및 상기 후보 텍스트 개체의 임베딩 표현에 따라 상기 텍스트 유사도 행렬을 계산하는 단계는,
상기 텍스트 개체 지칭의 임베딩 표현 및 상기 후보 텍스트 개체의 임베딩 표현을 텍스트 유사도 모델에 입력하여, 상기 텍스트 유사도 행렬을 획득하는 단계를 포함하고,
상기 텍스트 개체 지칭의 임베딩 표현 및 상기 후보 텍스트 개체의 임베딩 표현은 상기 텍스트 유사도 모델의 싱글 레이어 신경망을 경과한 후 암묵적 관계 벡터에 곱하여 상기 텍스트 개체 지칭과 상기 후보 텍스트 개체 사이의 연관 점수를 획득하고, 동일한 유형의 암묵적 관계의 상기 연관 점수를 정규화시켜, 상기 텍스트 유사도 행렬을 획득하는,
것을 특징으로 하는 정보 추출 방법.
제1항에 있어서,
상기 이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 상기 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성하는 단계는,
상기 이미지를 이미지 코딩 모델에 입력하여, 상기 이미지 개체 지칭의 임베딩 표현을 획득하는 단계;
상기 후보 이미지 개체를 상기 이미지 코딩 모델에 입력하여, 상기 후보 이미지 개체의 임베딩 표현을 획득하는 단계; 및
상기 이미지 개체 지칭의 임베딩 표현 및 상기 후보 이미지 개체의 임베딩 표현에 따라, 상기 이미지 개체 지칭 및 상기 후보 이미지 개체의 코사인 유사도를 계산하여, 상기 이미지 유사도 행렬을 획득하는 단계;를 포함하는,
것을 특징으로 하는 정보 추출 방법.
제5항에 있어서,
상기 이미지 코딩 모델은 transformer 모델의 인코더 모듈인,
것을 특징으로 하는 정보 추출 방법.
제1항에 있어서,
상기 텍스트 개체 지칭의 임베딩 표현, 상기 이미지 개체 지칭의 임베딩 표현, 상기 텍스트 유사도 행렬 및 상기 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 상기 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 상기 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정하는 단계는,
상기 텍스트 개체 지칭의 임베딩 표현 및 상기 이미지 개체 지칭의 임베딩 표현에 따라 상기 최적 전송을 기반으로 최저 전송 비용의 상기 텍스트 개체 지칭 및 최저 전송 비용의 상기 이미지 개체 지칭을 결정하는 단계;
상기 최저 전송 비용의 상기 텍스트 개체 지칭 및 상기 이미지 유사도 행렬에 따라 상기 타겟 텍스트 개체를 결정하는 단계; 및
상기 최저 전송 비용의 상기 이미지 개체 지칭 및 상기 텍스트 유사도 행렬에 따라 상기 타겟 이미지 개체를 결정하는 단계;를 포함하는,
것을 특징으로 하는 정보 추출 방법.
제7항에 있어서,
상기 텍스트 개체 지칭의 임베딩 표현 및 상기 이미지 개체 지칭의 임베딩 표현에 따라 상기 최적 전송을 기반으로 최저 전송 비용의 상기 텍스트 개체 지칭 및 최저 전송 비용의 상기 이미지 개체 지칭을 결정하는 단계는,
임의의 2개의 상기 텍스트 개체 지칭의 임베딩 표현에 따라 임의의 2개의 상기 텍스트 개체 지칭 사이의 텍스트 통계 발산을 계산하는 단계;
임의의 2개의 상기 이미지 개체 지칭의 임베딩 표현에 따라 임의의 2개의 상기 이미지 개체 지칭 사이의 이미지 통계 발산을 계산하는 단계;
상기 텍스트 통계 발산 및 상기 이미지 통계 발산에 따라 전송 비용이 최저일 때의 전송 전이 행렬을 결정하는 단계; 및
상기 전송 비용이 최저일 때의 전송 전이 행렬에 따라 상기 최저 전송 비용의 상기 텍스트 개체 지칭 및 상기 최저 전송 비용의 상기 이미지 개체 지칭을 결정하는 단계;를 포함하는,
것을 특징으로 하는 정보 추출 방법.
제8항에 있어서,
상기 텍스트 통계 발산 및 상기 이미지 통계 발산 중 적어도 하나는 그로모프 - 바세르슈타인 거리인,
것을 특징으로 하는 정보 추출 방법.
정보 추출 장치에 있어서,
정보 스트림을 획득하는 획득 모듈 - 상기 정보 스트림은 텍스트 및 이미지를 포함함 -;
상기 텍스트에 따라 텍스트 개체 지칭의 임베딩 표현, 및 상기 텍스트 개체 지칭과 후보 텍스트 개체의 텍스트 유사도 행렬을 생성하는 제1 생성 모듈;
상기 이미지에 따라 이미지 개체 지칭의 임베딩 표현, 및 상기 이미지 개체 지칭과 후보 이미지 개체의 이미지 유사도 행렬을 생성하는 제2 생성 모듈; 및
상기 텍스트 개체 지칭의 임베딩 표현, 상기 이미지 개체 지칭의 임베딩 표현, 상기 텍스트 유사도 행렬 및 상기 이미지 유사도 행렬에 따라, 최적 전송을 기반으로 상기 텍스트 개체 지칭에 대응되는 타겟 텍스트 개체, 및 상기 이미지 개체 지칭에 대응되는 타겟 이미지 개체를 결정하는 결정 모듈;을 포함하는,
것을 특징으로 하는 정보 추출 장치.
제10항에 있어서,
상기 제1 생성 모듈은,
상기 텍스트에 따라 상기 텍스트 개체 지칭 및 상기 후보 텍스트 개체를 결정하는 제1 결정 유닛;
상기 텍스트 개체 지칭에 따라 상기 텍스트 개체 지칭의 임베딩 표현을 생성하는 제1 생성 유닛;
상기 후보 텍스트 개체에 따라 상기 후보 텍스트 개체의 임베딩 표현을 생성하는 제2 생성 유닛; 및
상기 텍스트 개체 지칭의 임베딩 표현 및 상기 후보 텍스트 개체의 임베딩 표현에 따라 상기 텍스트 유사도 행렬을 계산하는 제1 계산 유닛;을 포함하는,
것을 특징으로 하는 정보 추출 장치.
제11항에 있어서,
상기 제1 결정 유닛은,
상기 텍스트에 따라 상기 텍스트 개체 지칭을 결정하는 제1 결정 서브유닛;
상기 텍스트 개체 지칭 및 위키피디아 리디렉션 링킹 수량의 통계에 따라, 리디렉션 링킹 수량이 가장 많은 n개의 텍스트 개체를 예비 후보 텍스트 개체로 결정하는 제2 결정 서브유닛;
상기 예비 후보 텍스트 개체 중 리디렉션 링킹 수량이 가장 많은 m개의 텍스트 개체를 상기 후보 텍스트 개체로 결정하는 제3 결정 서브유닛; 및
상기 텍스트 개체 지칭과 상기 예비 후보 텍스트 개체의 유사도를 계산하여, 유사도가 가장 높은 p개의 텍스트 개체를 상기 후보 텍스트 개체로 결정하는 제4 결정 서브유닛;을 포함하는,
것을 특징으로 하는 정보 추출 장치.
제11항에 있어서,
상기 제1 계산 유닛은,
상기 텍스트 개체 지칭의 임베딩 표현 및 상기 후보 텍스트 개체의 임베딩 표현을 텍스트 유사도 모델에 입력하여, 상기 텍스트 유사도 행렬을 획득하는 입력 서브유닛을 포함하고,
상기 텍스트 개체 지칭의 임베딩 표현 및 상기 후보 텍스트 개체의 임베딩 표현은 상기 텍스트 유사도 모델의 싱글 레이어 신경망을 경과한 후 암묵적 관계 벡터에 곱하여 상기 텍스트 개체 지칭과 상기 후보 텍스트 개체 사이의 연관 점수를 획득하고, 동일한 유형의 암묵적 관계의 상기 연관 점수를 정규화시켜, 상기 텍스트 유사도 행렬을 획득하는,
것을 특징으로 하는 정보 추출 장치.
제10항에 있어서,
상기 제2 생성 모듈은,
상기 이미지를 이미지 코딩 모델에 입력하여, 상기 이미지 개체 지칭의 임베딩 표현을 획득하는 제1 입력 유닛;
상기 후보 이미지 개체를 상기 이미지 코딩 모델에 입력하여, 상기 후보 이미지 개체의 임베딩 표현을 획득하는 제2 입력 유닛; 및
상기 이미지 개체 지칭의 임베딩 표현 및 상기 후보 이미지 개체의 임베딩 표현에 따라, 상기 이미지 개체 지칭 및 상기 후보 이미지 개체의 코사인 유사도를 계산하여, 상기 이미지 유사도 행렬을 획득하는 제2 계산 유닛;을 포함하는,
것을 특징으로 하는 정보 추출 장치.
제14항에 있어서,
상기 이미지 코딩 모델은 transformer 모델의 인코더 모듈인,
것을 특징으로 하는 정보 추출 장치.
제10항에 있어서,
상기 결정 모듈은,
상기 텍스트 개체 지칭의 임베딩 표현 및 상기 이미지 개체 지칭의 임베딩 표현에 따라 상기 최적 전송을 기반으로 최저 전송 비용의 상기 텍스트 개체 지칭 및 최저 전송 비용의 상기 이미지 개체 지칭을 결정하는 제2 결정 유닛;
상기 최저 전송 비용의 상기 텍스트 개체 지칭 및 상기 이미지 유사도 행렬에 따라 상기 타겟 텍스트 개체를 결정하는 제3 결정 유닛; 및
상기 최저 전송 비용의 상기 이미지 개체 지칭 및 상기 텍스트 유사도 행렬에 따라 상기 타겟 이미지 개체를 결정하는 제4 결정 유닛;을 포함하는,
것을 특징으로 하는 정보 추출 장치.
제16항에 있어서,
상기 제2 결정 유닛은,
임의의 2개의 상기 텍스트 개체 지칭의 임베딩 표현에 따라 임의의 2개의 상기 텍스트 개체 지칭 사이의 텍스트 통계 발산을 계산하는 제1 계산 서브유닛;
임의의 2개의 상기 이미지 개체 지칭의 임베딩 표현에 따라 임의의 2개의 상기 이미지 개체 지칭 사이의 이미지 통계 발산을 계산하는 제2 계산 서브유닛;
상기 텍스트 통계 발산 및 상기 이미지 통계 발산에 따라 전송 비용이 최저일 때의 전송 전이 행렬을 결정하는 제5 결정 서브유닛; 및
상기 전송 비용이 최저일 때의 전송 전이 행렬에 따라 상기 최저 전송 비용의 상기 텍스트 개체 지칭 및 상기 최저 전송 비용의 상기 이미지 개체 지칭을 결정하는 제6 결정 서브유닛;을 포함하는,
것을 특징으로 하는 정보 추출 장치.
제17항에 있어서, 상기 텍스트 통계 발산 및 상기 이미지 통계 발산 중 적어도 하나는 그로모프 - 바세르슈타인 거리인,
것을 특징으로 하는 정보 추출 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리;를 포함하고,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행될 경우, 상기 적어도 하나의 프로세서가 제1항 내지 제9항 중 어느 한 항에 따른 정보 추출 방법을 수행하는,
것을 특징으로 하는 전자 기기.
컴퓨터 프로그램이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 프로그램 중의 명령이 수행될 경우, 제1항 내지 제9항 중 어느 한 항에 따른 정보 추출 방법이 구현되는,
것을 특징으로 하는 컴퓨터 프로그램이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램 중의 명령이 실행될 경우, 제1항 내지 제9항 중 어느 한 항에 따른 정보 추출 방법이 구현되는,
것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.