KR102663523B1

KR102663523B1 - 정보 추출 방법, 정보 추출 장치 및 전자 기기

Info

Publication number: KR102663523B1
Application number: KR1020210033430A
Authority: KR
Inventors: 신 왕; 밍밍 순; 핑 리
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-03-16
Filing date: 2021-03-15
Publication date: 2024-05-03
Also published as: JP2021108140A; EP3869353A3; CN111400451B; EP3869353A2; KR20210036316A; JP7146986B2; CN111400451A

Abstract

본 개시는 데이터 마이닝 분야에 관한 정보 추출 방법, 정보 추출 장치 및 전자 기기를 공개한다. 구체적인 실시형태는, 텍스트 정보를 획득하고; 텍스트 정보 중의 제1 메인 관계 튜플을 획득하며; N개의 메인 관계 튜플을 획득하고, N개의 메인 관계 튜플은 제1 메인 관계 튜플의 파라미터에 따라 획득된 적어도 하나의 제2 메인 관계 튜플을 포함하며, N은 양의 정수이고; 제1 메인 관계 튜플 및 N개의 메인 관계 튜플에 따라, 텍스트 정보의 정보 추출 결과를 결정하는 것이다. 텍스트 정보에 대해 정보 추출을 수행할 경우, 먼저 텍스트 정보의 제1 메인 관계 튜플을 추출한 다음, 제1 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하는데, 이러한 큰 범위로부터 작은 범위로의 단계적 추출 방법은 추출 범위를 더욱 세밀화할 수 있음으로써, 보다 전면적이고 보다 정확한 추출 결과를 획득한다.

Description

정보 추출 방법, 정보 추출 장치 및 전자 기기{Method and apparatus for extracting information, electronic device}

본 개시는 컴퓨터 기술 분야에서의 데이터 마이닝 기술에 관한 것으로, 특히 정보 추출 방법, 정보 추출 장치 및 전자 기기에 관한 것이다.

정보 추출은 인공 지능 애플리케이션에서 아주 중요한 역할을 하고 있고, 점점 더 많은 상위 레벨 애플리케이션이 정보 추출의 결과에 의존하고 있다. 예를 들어, 지식 베이스 구축, 이벤트 로직 그래프 구축은 모두 엔티티 관계 추출, 이벤트 추출, 인과 관계 추출의 기술에 의존하고 있다. 법률, 의료 등 분야의 조회, 전략 지원 시스템의 구축도 정보 추출에 의해 리턴된 결과에 의존하고 있다.

정보 추출의 결과는 흔히 관계 튜플의 형태로 존재한다. 하지만, 튜플의 누락, 튜플 내 파라미터의 누락 및 오류는 모두 정보 추출의 결과에 상이한 정도로 영향을 미치고 있다. 다시 말하면, 기존의 정보 추출 방법은 정보 추출의 정확도가 비교적 낮고 전면적이지 못하다.

본 개시의 실시예는 기존의 정보 추출, 정확도가 낮고 전면적이지 못한 문제를 해결하는 정보 추출 방법, 정보 추출 장치 및 전자 기기를 제공한다.

상기 기술적 과제를 해결하기 위하여 본 개시는 하기와 같이 구현된다.

본 개시의 제1 측면은,

텍스트 정보를 획득하는 단계;

상기 텍스트 정보 중의 제1 메인 관계 튜플을 획득하는 단계;

N개의 메인 관계 튜플을 획득하는 단계 - 상기 N개의 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터에 따라 획득된 적어도 하나의 제2 메인 관계 튜플을 포함하고, N은 양의 정수임 - ; 및

상기 제1 메인 관계 튜플 및 상기 N개의 메인 관계 튜플에 따라, 상기 텍스트 정보의 정보 추출 결과를 결정하는 단계를 포함하고,

여기서, 상기 제1 메인 관계 튜플은 상기 텍스트 정보 중 다른 관계 튜플에 포함되지 않은 관계 튜플이며, 상기 제2 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플인, 정보 추출 방법을 제공한다.

또한, 상기 N개의 메인 관계 튜플은,

상기 제2 메인 관계 튜플의 파라미터로부터 획득된 적어도 하나의 제3 메인 관계 튜플을 더 포함하고, 여기서, 상기 제3 메인 관계 튜플은 상기 제2 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플이다.

또한, 상기 N개의 메인 관계 튜플을 획득하는 단계는,

상기 제1 메인 관계 튜플의 파라미터로부터 상기 적어도 하나의 제2 메인 관계 튜플을 획득하는 단계; 및

상기 N개의 메인 관계 튜플 중 제i 회 획득된 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하여, 제i+1 회 획득된 메인 관계 튜플을 획득하는 단계를 포함하고, 여기서, 상기 제2 메인 관계 튜플은 상기 N개의 메인 관계 튜플중 제1 회 획득된 메인 관계 튜플이며, 상기 N개의 메인 관계 튜플 중 마지막 1회 획득된 메인 관계 튜플 중의 파라미터는 메인 관계 튜플을 포함하지 않고, i는 상기 N보다 작거나 같은 양의 정수이다.

또한, 상기 텍스트 정보 중의 제1 메인 관계 튜플을 획득하는 단계는,

상기 텍스트 정보를 뉴럴 네트워크 모델에 입력하여 상기 텍스트 정보의 제1 메인 관계 튜플을 획득하는 단계를 포함하고, 여기서, 상기 뉴럴 네트워크 모델은 인코더 및 디코더를 포함하며, 상기 인코더는 상기 텍스트 정보에 따라 코딩 특징을 획득하기 위한 것이고, 상기 디코더는 상기 코딩 특징에 따라 상기 텍스트 정보의 제1 메인 관계 튜플을 획득하기 위한 것이다.

또한, 상기 인코더는 비라벨링된 트레이닝 말뭉치에 대해 콘텍스트 예측을 수행하여 결정된다.

본 개시의 제2 측면은,

텍스트 정보를 획득하는 제1 획득 모듈;

상기 텍스트 정보 중의 제1 메인 관계 튜플을 획득하는 제2 획득 모듈;

N개의 메인 관계 튜플을 획득하는 제3 획득 모듈 - 상기 N개의 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터에 따라 획득된 적어도 하나의 제2 메인 관계 튜플을 포함하고, N은 양의 정수임 - ; 및

상기 제1 메인 관계 튜플 및 상기 N개의 메인 관계 튜플에 따라, 상기 텍스트 정보의 정보 추출 결과를 결정하는 결정 모듈을 포함하고,

여기서, 상기 제1 메인 관계 튜플은 상기 텍스트 정보 중 다른 관계 튜플에 포함되지 않은 관계 튜플이며, 상기 제2 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플인, 정보 추출 장치를 제공한다.

또한, 상기 N개의 메인 관계 튜플은,

또한, 상기 제3 획득 모듈은,

상기 제1 메인 관계 튜플의 파라미터로부터 상기 적어도 하나의 제2 메인 관계 튜플을 획득하는 제1 획득 서브 모듈; 및

상기 N개의 메인 관계 튜플 중 제i 회 획득된 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하여, 제i+1 회 획득된 메인 관계 튜플을 획득하는 제2 획득 서브 모듈을 포함하고, 여기서, 상기 제2 메인 관계 튜플은 상기 N개의 메인 관계 튜플중 제1 회 획득된 메인 관계 튜플이며, 상기 N개의 메인 관계 튜플 중 마지막 1회 획득된 메인 관계 튜플 중의 파라미터는 메인 관계 튜플을 포함하지 않고, i는 상기 N보다 작거나 같은 양의 정수이다.

또한, 상기 제2 획득 모듈은,

상기 텍스트 정보를 뉴럴 네트워크 모델에 입력하여 상기 텍스트 정보의 제1 메인 관계 튜플을 획득하고, 여기서, 상기 뉴럴 네트워크 모델은 인코더 및 디코더를 포함하며, 상기 인코더는 상기 텍스트 정보에 따라 코딩 특징을 획득하기 위한 것이고, 상기 디코더는 상기 코딩 특징에 따라 상기 텍스트 정보의 제1 메인 관계 튜플을 획득하기 위한 것이다.

본 개시의 제3 측면은,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고,

여기서, 상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 제1 측면에 따른 방법을 수행할 수 있도록 하는, 전자 기기를 제공한다.

본 개시의 제4 측면은 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터가 제1 측면에 따른 방법을 수행하도록 한다.

상기 개시의 일 실시예는 하기와 같은 장점 및 유리한 효과를 구비한다.

텍스트 정보를 획득하고; 상기 텍스트 정보 중의 제1 메인 관계 튜플을 획득하며; N개의 메인 관계 튜플을 획득하고, 상기 N개의 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터에 따라 획득된 적어도 하나의 제2 메인 관계 튜플을 포함하며, N은 양의 정수이고; 상기 제1 메인 관계 튜플 및 상기 N개의 메인 관계 튜플에 따라, 상기 텍스트 정보의 정보 추출 결과를 결정하며; 여기서, 상기 제1 메인 관계 튜플은 상기 텍스트 정보 중 다른 관계 튜플에 포함되지 않은 관계 튜플이고, 상기 제2 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플이다. 이로써, 텍스트 정보에 대해 정보 추출을 수행할 경우, 먼저 텍스트 정보의 제1 메인 관계 튜플을 추출한 다음, 제1 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하는데, 이러한 큰 범위로부터 작은 범위로의(메인 관계 튜플 추출이 수행되는 객체에 포함된 텍스트 길이가 점차적으로 짧아짐) 단계적 추출 방법은 추출 범위를 더욱 세밀화할 수 있음으로써, 보다 전면적이고 보다 정확한 추출 결과를 획득한다.

제2 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하여 더욱 많은 메인 관계 튜플을 획득하는데, 획득된 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하는 이러한 방식은 상기 추출 범위를 더욱 세밀화할 수 있음으로써, 보다 전면적이고 보다 정확한 추출 결과를 획득한다.

텍스트 정보에 대해 메인 관계 튜플을 추출한 다음, 획득된 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행함으로써, 텍스트 정보 중 모든 요소(각각의 글자, 단어)가 모두 포함되도록 보장하는 동시에, 다른 관계 튜플에 포함된 관계 튜플도 마찬가지로 인식 및 처리될 기회가 있도록 보장할 수 있다. 이 밖에, 단계적 추출 과정에서, 추출될 객체(즉, 파라미터)가 점차적으로 짧아지므로, 문법, 구법의 긴 거리로 인한 캐스케이딩 오류를 효과적으로 방지하고, 정보 추출의 정확도를 향상시킨다.

뉴럴 네트워크 모델은 인코더 및 디코더를 포함하고, 뉴럴 네트워크 모델을 통해 텍스트 정보에 대해 메인 관계 튜플 추출을 수행함으로써, 추출 정확도를 향상시킬 수 있다.

인코더는 비라벨링된 트레이닝 말뭉치에 대해 콘텍스트 예측을 수행하여 결정될 수 있는데, 이러한 인코더의 결정 방식은 뉴럴 네트워크 모델을 구축하는 데이터 구축 원가를 절감시킬 수 있다.

아래에서 구체적인 실시예와 결부시켜 상기 선택 가능한 방식이 구비하는 다른 효과를 더 설명한다.

도면은 본 해결수단을 더 잘 이해하도록 제공되는 것으로, 본 개시를 한정하지 않는다. 여기서,
도 1은 본 개시의 실시예에 의해 제공되는 정보 추출 방법의 흐름도이고;
도 2는 본 개시의 실시예에 의해 제공되는 반복 분해 장치의 모식도이며;
도 3은 본 개시의 실시예에 의해 제공되는 정보 추출 장치의 구성도이고;
도 4는 본 개시의 실시예의 정보 추출 방법을 구현하기 위한 전자 기기의 블록도이다.

아래 도면과 결부시켜 본 개시의 예시적 실시예를 설명하되, 여기에 이해를 돕기 위한 본 개시의 실시예의 다양한 세부사항들이 포함되지만, 이들은 단지 예시적인 것으로 이해해야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 개시의 범위 및 사상을 벗어나지 않는 전제 하에 여기서 설명된 실시예에 대해 다양한 변형 및 수정을 진행할 수 있음을 이해해야 한다. 마찬가지로, 명확 및 간소화를 위해, 아래의 설명에서 공지 기능 및 구조에 대한 설명을 생략한다.

도 1을 참조하면, 도 1은 본 개시의 실시예에 의해 제공되는 정보 추출 방법의 흐름도이고, 도 1에 도시된 바와 같이, 본 실시예는 하기와 같은 단계를 포함하는 전자 기기에 응용되는 정보 추출 방법을 제공한다.

단계 101: 텍스트 정보를 획득한다.

텍스트 정보는 사용자에 의해 입력된 정보일 수 있고, 검색 엔진이 사용자에 의해 입력된 조회 정보에 따라 조회 후 획득한 검색 결과 정보일 수도 있으나, 여기서 한정하지 않는다. 텍스트 정보는 한 단락의 문자일 수 있다.

단계 102: 상기 텍스트 정보 중의 제1 메인 관계 튜플을 획득하고, 상기 제1 메인 관계 튜플은 상기 텍스트 정보 중 다른 관계 튜플에 포함되지 않은 관계 튜플이다.

제1 메인 관계 튜플은 텍스트 정보 중 다른 관계 튜플에 포함되지 않은 관계 튜플인데, 예를 들어, 텍스트 정보가 복수 개의 관계 튜플을 포함하면, 상기 복수 개의 관계 튜플에 메인 관계 튜플이 존재하되 하나만 존재한다. 여기서, 제1 메인 관계 튜플은 상기 복수 개의 관계 튜플 중 다른 관계 튜플에 포함되지 않은 관계 튜플인데, 예를 들어, 텍스트 정보가 A, B 및 C인 3개의 관계 튜플을 포함하되, 여기서, A가 B 및 C를 포함하면, A는 제1 메인 관계 튜플이다. 텍스트 정보는 최대 하나의 제1 메인 관계 튜플을 포함한다.

제1 메인 관계 튜플은 관계 튜플이기도 하므로, 관계 튜플의 특징을 구비하는데, 즉 제1 메인 관계 튜플은 키워드 및 적어도 하나의 파라미터를 포함한다. 예를 들어, 텍스트 정보가 "군인이었던 그의 형님의 말에 따르면, 당신은 장교인거 같지 않다고 합니다"이면, 상기 텍스트 정보의 제1 메인 관계 튜플의 키워드는 "{0}말에 따르면, {1}"이고, 제1 메인 관계 튜플의 파라미터는 "군인이었던 그의 형님", "당신은 장교인거 같지 않다고 합니다"이며, 여기서, "{0}"은 첫 번째 파라미터 "군인이었던 그의 형님"을 나타내고, {1}은 두 번째 파라미터 "당신은 장교인거 같지 않다고 합니다"를 나타낸다.

단계 103: N개의 메인 관계 튜플을 획득하고, 상기 N개의 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터에 따라 획득된 적어도 하나의 제2 메인 관계 튜플을 포함하며, N은 양의 정수이고, 상기 제2 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플이다.

제1 메인 관계 튜플의 파라미터에 따라 제2 메인 관계 튜플을 획득하고, 제2 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플이다. 제1 메인 관계 튜플은 하나 또는 복수 개의 파라미터를 포함할 수 있고, 각각의 파라미터에 대해 메인 관계 튜플 추출을 수행하여 제2 메인 관계 튜플을 획득한다. 각각의 파라미터로부터 최대 하나의 제2 메인 관계 튜플을 획득하되, 하나의 파라미터가 복수 개의 관계 튜플을 포함하면, 상기 복수 개의 관계 튜플에 메인 관계 튜플이 존재하되 하나만 존재한다. 여기서, 제2 메인 관계 튜플은 이 복수 개의 관계 튜플 중 다른 관계 튜플에 포함되지 않은 관계 튜플이다.

단계 102에서의 예시에 이어서, 제1 메인 관계 튜플의 파라미터 "군인이었던 그의 형님"에 대해 메인 관계 튜플 추출을 수행하여 획득한 제2 메인 관계 튜플의 키워드는 "{0}이었던{1}"이고, 파라미터는 "그의 형님", "군인"이며, 여기서, "{0}"은 첫 번째 파라미터 "그의 형님"을 나타내고, {1}은 두 번째 파라미터 "군인"을 나타낸다.

제1 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하여 제2 메인 관계 튜플을 획득한다. 마찬가지로, 제2 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하여 더욱 많은 메인 관계 튜플을 획득할 수 있다. N개의 메인 관계 튜플은 제2 메인 관계 튜플을 포함하고, 제2 메인 관계 튜플의 파라미터에 대해 추출을 수행하여 획득한 메인 관계 튜플을 더 포함할 수 있다.

단계 104: 상기 제1 메인 관계 튜플 및 상기 N개의 메인 관계 튜플에 따라, 상기 텍스트 정보의 정보 추출 결과를 결정한다.

획득된 제1 메인 관계 튜플 및 N개의 메인 관계 튜플을 텍스트 정보의 정보 추출 결과로 사용한다. 텍스트 정보에 대해 정보 추출을 수행할 경우, 먼저 텍스트 정보의 제1 메인 관계 튜플을 추출한 다음, 제1 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하는데, 이러한 큰 범위로부터 작은 범위로의 단계적 추출 방법은 추출 범위를 더욱 세밀화할 수 있음으로써, 보다 전면적이고 보다 정확한 추출 결과를 획득한다.

본 실시예에서, 텍스트 정보를 획득하고; 상기 텍스트 정보 중의 제1 메인 관계 튜플을 획득하며; N개의 메인 관계 튜플을 획득하고, 상기 N개의 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터에 따라 획득된 적어도 하나의 제2 메인 관계 튜플을 포함하며, N은 양의 정수이고; 상기 제1 메인 관계 튜플 및 상기 N개의 메인 관계 튜플에 따라, 상기 텍스트 정보의 정보 추출 결과를 결정하며; 여기서, 상기 제1 메인 관계 튜플은 상기 텍스트 정보 중 다른 관계 튜플에 포함되지 않은 관계 튜플이고, 상기 제2 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플이다. 이로써, 텍스트 정보에 대해 정보 추출을 수행할 경우, 먼저 텍스트 정보의 제1 메인 관계 튜플을 추출한 다음, 제1 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하는데, 이러한 큰 범위로부터 작은 범위로의(메인 관계 튜플 추출이 수행되는 객체에 포함된 텍스트 길이가 점차적으로 짧아짐) 단계적 추출 방법은 추출 범위를 더욱 세밀화할 수 있음으로써, 보다 전면적이고 보다 정확한 추출 결과를 획득한다.

본 개시의 일 실시예에서, 상기 N개의 메인 관계 튜플은, 상기 제2 메인 관계 튜플의 파라미터로부터 획득된 적어도 하나의 제3 메인 관계 튜플을 더 포함하고, 여기서, 상기 제3 메인 관계 튜플은 상기 제2 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플이다.

본 실시예에서, 제2 메인 관계 튜플을 획득한 후, 계속하여 제2 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하여 더욱 많은 메인 관계 튜플을 획득할 수 있다. N개의 메인 관계 튜플은 제2 메인 관계 튜플을 포함하고, 제2 메인 관계 튜플의 파라미터에 대해 추출을 수행하여 획득한 메인 관계 튜플, 즉 제3 메인 관계 튜플을 더 포함한다.

본 실시예에서, 제2 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하여 더욱 많은 메인 관계 튜플을 획득하는데, 획득된 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하는 이러한 방식은 상기 추출 범위를 더욱 세밀화할 수 있음으로써, 보다 전면적이고 보다 정확한 추출 결과를 획득한다.

본 개시의 일 실시예에서, 상기 N개의 메인 관계 튜플을 획득하는 단계는,

본 실시예에서, N개의 메인 관계 튜플은 제1 메인 관계 튜플의 파라미터로부터 획득된 제2 메인 관계 튜플을 포함하고, 제2 메인 관계 튜플의 파라미터로부터 획득된 제3 메인 관계 튜플을 더 포함하며, 새로 획득된 메인 관계 튜플의 파라미터가 메인 관계 튜플을 포함하지 않을 때까지 계속하여 획득된 제3 메인 관계 튜플의 파라미터에 대해 그 메인 관계 튜플을 추출한다. 다시 말하면, 상기 제2 메인 관계 튜플은 상기 N개의 메인 관계 튜플중 제1 회 획득된 메인 관계 튜플이며, 상기 N개의 메인 관계 튜플 중 마지막 1회 획득된 메인 관계 튜플 중의 파라미터는 메인 관계 튜플을 포함하지 않고, i는 상기 N보다 작거나 같은 양의 정수이다.

아래, "군인이었던 그의 형님의 말에 따르면, 당신은 장교인거 같지 않다고 합니다"인 텍스트 정보에 대해 메인 관계 튜플을 단계적으로 추출하는 것을 예로 들어 설명하되, 표 1에 열거된 바와 같이, 텍스트 정보 "군인이었던 그의 형님의 말에 따르면, 당신은 장교인거 같지 않다고 합니다"에 대해 추출을 수행하여 획득한 제1 메인 관계 튜플의 파라미터는 "군인이었던 그의 형님" 및 "당신은 장교인거 같지 않다고 합니다"를 포함하고; 제1 메인 관계 튜플의 파라미터 "군인이었던 그의 형님" 및 "당신은 장교인거 같지 않다고 합니다"에 대해 각각 추출을 수행하여 첫 번째 제2 메인 관계 튜플의 파라미터 "그의 형님" 및 "군인", 및 두 번째 제2 메인 관계 튜플의 파라미터 "당신" 및 "장교"를 획득하며; 다음, 계속하여 제2 메인 관계 튜플의 파라미터 "그의 형님", "군인", "당신" 및 "장교"에 대해 각각 추출을 수행하되, 이번 추출에서 메인 관계 튜플을 추출하지 못했으며, 추출 과정은 종료된다.

텍스트 정보(또는 파라미터)	키워드	파라미터
군인이었던 그의 형님의 말에 따르면, 당신은 장교인거 같지 않다고 합니다	{0}말에 따르면, {1}	군인이었던 그의 형님 당신은 장교인거 같지 않다고 합니다
군인이었던 그의 형님	{0}이었던{1}	그의 형님 군인
당신은 장교인거 같지 않다고 합니다	{0}같지 않다{1}	당신 장교
그의 형님
군인
당신
장교

상기 추출 과정은 하나의 반복 과정으로, 반복 분해 장치를 사용하여 추출할 수 있다. 도 2에 도시된 바와 같이, 반복 분해 장치는 메인 관계 분해기 및 메모리를 포함한다. 반복 분해 장치는, 텍스트 정보 및 이의 파생 파라미터(즉, 메인 관계 튜플로부터 획득된 파라미터)에 대해 순차적으로 메인 관계 분해(즉, 메인 관계 튜플을 추출)를 수행하여 키워드 및 파라미터로 구성된 메인 관계 튜플을 획득하기 위한 하나의 이터레이터로 이해할 수 있다. 분해 결과를 출력하는 동시에, 분해 결과 중의 파라미터를 메모리에 저장한다. 메모리가 비워질 때까지, 이터레이터는 메모리 중의 모든 파생 파라미터를 추출하여 다시 메인 관계 분해기에 입력하여 처리한다.본 개시의 추출 과정을 더 설명하기 위해, 표 2는 보다 상세한 추출 과정을 열거하였는데, 여기서, 추출 횟수는 추출 순서와 완전히 일치하지 않는다. 추출 과정에서, 먼저, 텍스트 정보에 대해 메인 관계 튜플 추출을 수행하여(즉, 제1 층의 텍스트 정보에 대해 추출을 수행함), 적어도 하나의 파라미터를 획득하고, 다음, 적어도 하나의 파라미터 중의 각 파라미터에 대해 메인 관계 튜플 추출을 수행하여(즉, 제2 층의 파라미터에 대해 추출을 수행함), 적어도 하나의 제2 메인 관계 튜플을 획득한 다음, 적어도 하나의 제2 메인 관계 튜플의 각 파라미터에 대해 메인 관계 튜플 추출을 수행하여(즉, 제3 층의 파라미터에 대해 추출을 수행함), 적어도 하나의 제3 메인 관계 튜플을 획득하는데, 이렇게 새로 획득된 메인 관계 튜플의 파라미터가 메인 관계 튜플을 포함하지 않을 때까지 획득된 메인 관계 튜플의 파라미터에 대해 순차적으로 메인 관계 튜플 추출을 수행한다.

추출 횟수 및 추출 층수	텍스트 정보(또는 파라미터)	키워드	파라미터
1(제1 층)	그녀의 군인이었던 오빠가 당신이 엄준한 품위가 없다고 말했기 때문에, 그녀는 당신이 장교가 아님을 알고 있습니다.	{0}, 때문에{1}.	1. 그녀는 당신이 장교가 아님을 알고 있습니다 2. 그녀의 군인이었던 오빠가 당신이 엄준한 품위가 없다고 말했기
2(제2 층)	그녀는 당신이 장교가 아님을 알고 있습니다	{0}알고 있습니다{1}	1. 그녀 2. 당신이 장교가 아님
3(제3 층)	그녀
4(제3 층)	당신이 장교가 아님	{0}아님{1}	1. 당신 2. 장교
5(제4 층)	당신
6(제4 층)	장교
7(제2 층)	그녀의 군인이었던 오빠가 당신이 엄준한 품위가 없다고 말했기	{0}의{1}	1. 그녀 2. 군인이었던 오빠가 당신이 엄준한 품위가 없다고 말했기
8(제3 층)	그녀
9(제3 층)	군인이었던 오빠가 당신이 엄준한 품위가 없다고 말했기	{0}말했기{1}	1. 군인이었던 오빠 2. 당신이 엄준한 품위가 없다고
10(제4 층)	군인이었던 오빠	{0}이었던{1}	1. 오빠 2. 군인
11(제5 층)	오빠
12(제5 층)	군인
13(제4 층)	당신이 엄준한 품위가 없다고	{0}없다고{1}	1. 당신 2. 엄준한 품위
14(제5 층)	당신
15(제5 층)	엄준한 품위	{0}엄준한	1. 품위
16(제6 층)	품위

표 1 및 표 2는 텍스트 정보에 대해 반복 분해를 수행하여 정보 추출을 구현하는 예시이다. 텍스트 정보를 분해하여 키워드 및 파라미터를 획득한 다음, 파라미터가 새로운 파라미터를 더 이상 파생하지 않을 때까지(즉, 메모리가 비워질 때까지), 메모리에 저장된 파라미터에 대해 계속하여 메인 관계 튜플 추출을 수행한다.본 실시예에서, 텍스트 정보에 대해 메인 관계 튜플을 추출한 다음, 획득된 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행함으로써, 텍스트 정보 중 모든 요소(각각의 글자, 단어)가 모두 포함되도록 보장하는 동시에, 다른 관계 튜플에 포함된 관계 튜플도 마찬가지로 인식 및 처리될 기회가 있도록 보장할 수 있다. 이 밖에, 단계적 추출 과정에서, 추출될 객체(즉, 파라미터)가 점차적으로 짧아지므로, 문법, 구법의 긴 거리로 인한 캐스케이딩 오류를 효과적으로 방지하고, 정보 추출의 정확도를 향상시킨다.

본 개시의 일 실시예에서, 상기 텍스트 정보 중의 제1 메인 관계 튜플을 획득하는 단계는,

본 실시예에서, 텍스트 정보의 제1 메인 관계 튜플의 획득은, 뉴럴 네트워크 모델(메인 관계 분해기라고도 할 수 있음)을 통해 구현될 수 있다. 텍스트 정보에 관계 튜플이 포함되지 않을 수 있고, 하나 또는 복수 개의 관계 튜플이 포함될 수도 있다. 텍스트 정보가 복수 개의 관계 튜플을 포함하면, 메인 관계 튜플이 존재하되 하나만 존재한다. 메인 관계 분해기는 텍스트 정보에 관계 튜플이 존재하는지 여부를 인식하고 메인 관계 튜플을 인식하여 추출하기 위한 것이다.

본 실시예에서, 상기 뉴럴 네트워크 모델은 인코더 및 디코더를 포함하며, 상기 인코더는 상기 텍스트 정보에 따라 코딩 특징을 획득하기 위한 것이고, 상기 디코더는 상기 코딩 특징에 따라 상기 텍스트 정보의 제1 메인 관계 튜플을 획득하기 위한 것이다. 여기서, 상기 인코더는 비라벨링된 트레이닝 말뭉치에 대해 콘텍스트 예측을 수행하여 결정될 수 있다. 인코더의 트레이닝 과정은, 비라벨링된 트레이닝 말뭉치에 대해 콘텍스트 예측을 수행하여 트레이닝 말뭉치의 코딩 특징을 결정하는 것이다. 트레이닝 과정은 인코더 파라미터를 조정하는 과정이다.

인코더는 비지도 방식을 통해 대량의 트레이닝 말뭉치에서 학습하여 획득되되, 여기서, 인코더는 학습 과정에서 자연 언어에서의 단어의 콘텍스트 정보를 코딩하고, 변환기로부터의 양방향 인코더 표징량(Bidirectional Encoder Representations from Transformers, BERT), 언어 모델로부터의 임베딩(Embeddings from Language Models, ELMo), 지식 통합으로부터의 강화 표징(Enhanced Representation from kNowledge IntEgration, ERNIE) 등 뉴럴 네트워크 구조를 트레이닝하여 인코더로 사용할 수 있음으로써, 뉴럴 네트워크 모델을 트레이닝할 시 소규모 데이터만 라베링하고 소규모 데이터를 미세조정하여 고정밀도 결과를 획득할 수 있다. 상기 인코더의 결정 방식은 뉴럴 네트워크 모델을 구축하는 데이터 구축 원가를 절감시킬 수 있다. 디코더는 복제 메커니즘을 구비하는 단대단(end-to-end)의 뉴럴 네트워크의 디코더를 사용할 수 있다.

상기 뉴럴 네트워크 모델의 트레이닝 과정은, 라벨링 말뭉치를 기초 모델에 입력하여 라벨링 말뭉치의 메인 관계 튜플을 획득하는 단계; 라벨링 말뭉치의 메인 관계 튜플과 상기 라벨링 말뭉치의 메인 관계 라벨링 결과에 따라, 상기 기초 모델의 파라미터를 조정하여 뉴럴 네트워크 모델을 획득하는 단계를 포함한다. 라벨링 말뭉치의 메인 관계 라벨링 결과는 사전에 라벨링된 메인 관계 튜플이고, 상기 메인 관계 튜플과 기초 모델을 통해 획득된 메인 관계 튜플에 따라, 기초 모델의 파라미터를 조정하여 뉴럴 네트워크 모델을 획득한다.

또한, N개의 메인 관계 튜플을 획득할 경우, 상기 제1 메인 관계 튜플의 파라미터를 뉴럴 네트워크 모델에 입력하여 제2 메인 관계 튜플을 획득할 수도 있다. 획득된 메인 관계 튜플의 파라미터에 대해 추출을 수행할 경우, 메인 관계 튜플의 파라미터를 뉴럴 네트워크 모델에 입력하여 새로운 메인 관계 튜플을 획득한다.

본 실시예에서, 뉴럴 네트워크 모델은 모든 관계 튜플에 관심을 가지는 것이 아니라, 메인 관계 튜플만 추출하고 다른 관계 튜플은 무시한다. 뉴럴 네트워크 모델의 입력은 문장에 한정되지 않고, 명사구(noun phrase) 또는 형태의 텍스트 조각도 포함한다. 분해기가 관심을 가지는 관계는 동사 묘사의 관계에 한정되지 않고, 접속사, 부사, 심지어 구두점에 의해 묘사 또는 구현된 인과, 반전, 조건, 병렬 등 논리 관계도 포함하며; 분해기는 은연중 내포 관계에 대한 추출을 자동으로 구현할 수 있는데, 예를 들어, 명사구 "군인이었던 그의 형님"으로부터 "그의 형님이 군인이었다"는 것을 추정할 수 있다.

도 3을 참조하면, 도 3은 본 개시의 실시예에 의해 제공되는 정보 추출 장치의 구성도이고, 도 3에 도시된 바와 같이, 본 실시예는 정보 추출 장치(300)를 제공하되, 상기 장치는,

텍스트 정보를 획득하는 제1 획득 모듈;

N개의 메인 관계 튜플을 획득하는 제3 획득 모듈, 상기 N개의 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터에 따라 획득된 적어도 하나의 제2 메인 관계 튜플을 포함하고, N은 양의 정수임 - ; 및

여기서, 상기 제1 메인 관계 튜플은 상기 텍스트 정보 중 다른 관계 튜플에 포함되지 않은 관계 튜플이며, 상기 제2 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플이다.

본 개시의 일 실시예에서, 상기 N개의 메인 관계 튜플은,

본 개시의 일 실시예에서, 상기 제3 획득 모듈은,

본 개시의 일 실시예에서, 상기 제2 획득 모듈은,

상기 텍스트 정보를 뉴럴 네트워크 모델에 입력하여 상기 텍스트 정보의 제1 메인 관계 튜플을 획득하고; 여기서, 상기 뉴럴 네트워크 모델은 인코더 및 디코더를 포함하며, 상기 인코더는 상기 텍스트 정보에 따라 코딩 특징을 획득하기 위한 것이고, 상기 디코더는 상기 코딩 특징에 따라 상기 텍스트 정보의 제1 메인 관계 튜플을 획득하기 위한 것이다.

본 개시의 일 실시예에서, 상기 인코더는 비라벨링된 트레이닝 말뭉치에 대해 콘텍스트 예측을 수행하여 결정된다.

정보 추출 장치(300)는 도 1에 도시된 방법 실시예 중 전자 기기에 의해 구현되는 각 과정을 구현할 수 있으므로, 중복을 피하기 위해 여기서 더 이상 설명하지 않는다.

본 개시의 실시예의 정보 추출 장치(300)는, 텍스트 정보를 획득하고; 상기 텍스트 정보 중의 제1 메인 관계 튜플을 획득하며; N개의 메인 관계 튜플을 획득하고, 상기 N개의 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터에 따라 획득된 적어도 하나의 제2 메인 관계 튜플을 포함하며, N은 양의 정수이고; 상기 제1 메인 관계 튜플 및 상기 N개의 메인 관계 튜플에 따라, 상기 텍스트 정보의 정보 추출 결과를 결정하며; 여기서, 상기 제1 메인 관계 튜플은 상기 텍스트 정보 중 다른 관계 튜플에 포함되지 않은 관계 튜플이고, 상기 제2 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플이다. 텍스트 정보에 대해 정보 추출을 수행할 경우, 먼저 텍스트 정보의 제1 메인 관계 튜플을 추출한 다음, 제1 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하는데, 이러한 큰 범위로부터 작은 범위로의(메인 관계 튜플 추출이 수행되는 객체에 포함된 텍스트 길이가 점차적으로 짧아짐) 단계적 추출 방법은 추출 범위를 더욱 세밀화할 수 있음으로써, 보다 전면적이고 보다 정확한 추출 결과를 획득한다.

본 개시의 실시예에 따르면, 본 개시는 전자 기기 및 판독 가능한 저장 매체를 더 제공한다.

도 4에 도시된 바와 같이, 본 개시의 실시예에 따른 정보 추출 방법의 전자 기기의 블록도이다. 전자 기기는 예컨대 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크벤치, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 예컨대 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 개시의 구현을 한정하지 않는다.

도 4에 도시된 바와 같이, 상기 전자 기기는 하나 또는 복수 개의 프로세서(401), 메모리(402), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각 부재는 상이한 버스를 이용하여 서로 연결되고, 공통 메인보드에 장착될 수 있거나 필요에 따라 다른 방식으로 장착될 수 있다. 프로세서는, 메모리에 저장되거나 메모리에서 외부 입력/출력 장치(예를 들어, 인터페이스에 커플링된 표시 기기)에 GUI의 그래픽 정보를 표시하는 명령을 포함하는 전자 기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시형태에서, 필요에 따라 복수 개의 프로세서 및/또는 복수 개의 버스를 복수 개의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수 개의 전자 기기를 연결할 수 있고, 각 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중 프로세서 시스템)을 제공한다. 도 4에서 하나의 프로세서(401)를 예로 든다.

메모리(402)는 본 개시에 의해 제공되는 비일시적 컴퓨터 판독 가능한 저장 매체이다. 여기서, 상기 메모리에 적어도 하나의 프로세서가 본 개시에 의해 제공되는 정보 추출 방법을 수행하도록 하는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장된다. 본 개시의 비일시적 컴퓨터 판독 가능한 저장 매체는 본 개시에 의해 제공되는 정보 추출 방법을 수행하도록 하는 컴퓨터 명령을 저장한다.

메모리(402)는 비일시적 컴퓨터 판독 가능한 저장 매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능한 프로그램, 및 본 개시의 실시예의 정보 추출 방법에 대응되는 프로그램 명령/모듈(예를 들어, 도 3에 도시된 제1 획득 모듈(301), 제2 획득 모듈(302), 제3 획득 모듈(303) 및 결정 모듈(304))과 같은 모듈을 저장할 수 있다. 프로세서(401)는 메모리(402)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하는데, 즉 상기 방법 실시예의 정보 추출 방법을 구현한다.

메모리(402)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있고, 여기서, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있으며; 데이터 저장 영역은 정보 추출 방법의 전자 기기의 사용에 따라 구축한 다양한 데이터 등을 저장할 수 있다. 이 밖에, 메모리(402)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 메모리, 플래시 메모리, 또는 다른 비일시적 솔리드 스테이트 메모리와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(402)는 프로세서(401)에 대해 원격으로 설치된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 정보 추출 방법의 전자 기기 연결될 수 있다. 상기 네트워크의 구현예로 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지 않는다.

정보 추출 방법의 전자 기기는 입력 장치(403) 및 출력 장치(404)를 더 포함할 수 있다. 프로세서(401), 메모리(402), 입력 장치(403) 및 출력 장치(404)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 4에서 버스를 통해 연결되는 것을 예로 든다.

입력 장치(403)는 입력된 디지털 또는 문자 정보를 수신할 수 있고, 정보 추출 방법의 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 발생할 수 있으며, 예를 들어 터치스크린, 키패드, 마우스, 트랙 패널, 터치 패널, 포인팅 스틱, 하나 또는 복수 개의 마우스 버튼, 트랙 볼, 조이스틱 등 입력 장치이다. 출력 장치(404)는 표시 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 표시 기기는 액정 표시 장치(LCD), 발광 다이오드(LED) 표시 장치 및 플라스마 표시 장치를 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 표시 기기는 터치스크린일 수 있다.

여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수 개의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 복수 개의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 함)은 프로그램 가능 프로세서의 기계 명령을 포함하고, 하이레벨 프로세스 및/또는 객체에 대한 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 이용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에서 사용된 바와 같이, 용어 "기계 판독 가능한 매체" 및 "컴퓨터 판독 가능한 매체"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 로직 장치(PLD))를 의미하고, 기계 판독 가능한 신호인 기계 명령을 저장하는 기계 판독 가능한 매체를 포함한다. 용어 "기계 판독 가능한 신호"는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술을 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터이고, 사용자는 상기 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백그라운드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다.

본 개시의 실시예의 기술적 해결수단은 하기와 같은 유리한 효과를 얻을 수 있다.

위에서 설명한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 개시에 기재된 각 단계는 동시에 수행될 수 있거나 순차적으로 수행될 수 있거나 상이한 순서로 수행될 수 있고, 본 개시에서 공개된 기술적 해결수단이 이루고자 하는 결과를 구현할 수만 있으면, 본문은 여기서 한정하지 않는다.

상기 구체적인 실시형태는 본 개시의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 하위 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 개시의 사상 및 원칙 내에서 진행한 임의의 수정, 등가적 대체 및 개선 등은 모두 본 개시의 보호 범위 내에 속해야 한다.

Claims

정보 추출 방법으로서,
텍스트 정보를 획득하는 단계;
상기 텍스트 정보 중의 제1 메인 관계 튜플을 획득하는 단계;
N개의 메인 관계 튜플을 획득하는 단계 - 상기 N개의 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터에 따라 획득된 적어도 하나의 제2 메인 관계 튜플을 포함하고, N은 양의 정수임 - ; 및
상기 제1 메인 관계 튜플 및 상기 N개의 메인 관계 튜플에 따라, 상기 텍스트 정보의 정보 추출 결과를 결정하는 단계를 포함하고,
상기 제1 메인 관계 튜플은 상기 텍스트 정보 중 다른 관계 튜플에 포함되지 않은 관계 튜플이며, 상기 제2 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플인 것을 특징으로 하는 정보 추출 방법.
제1항에 있어서,
상기 N개의 메인 관계 튜플은,
상기 제2 메인 관계 튜플의 파라미터로부터 획득된 적어도 하나의 제3 메인 관계 튜플을 더 포함하고,
상기 제3 메인 관계 튜플은 상기 제2 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플인 것을 특징으로 하는 정보 추출 방법.
제1항에 있어서,
상기 N개의 메인 관계 튜플을 획득하는 단계는,
상기 제1 메인 관계 튜플의 파라미터로부터 상기 적어도 하나의 제2 메인 관계 튜플을 획득하는 단계; 및
상기 N개의 메인 관계 튜플 중 제i 회 획득된 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하여, 제i+1 회 획득된 메인 관계 튜플을 획득하는 단계를 포함하고,
상기 제2 메인 관계 튜플은 상기 N개의 메인 관계 튜플중 제1 회 획득된 메인 관계 튜플이며, 상기 N개의 메인 관계 튜플 중 마지막 1회 획득된 메인 관계 튜플 중의 파라미터는 메인 관계 튜플을 포함하지 않고, i는 상기 N보다 작거나 같은 양의 정수인 것을 특징으로 하는 정보 추출 방법.
제1항에 있어서,
상기 텍스트 정보 중의 제1 메인 관계 튜플을 획득하는 단계는,
상기 텍스트 정보를 뉴럴 네트워크 모델에 입력하여 상기 텍스트 정보의 제1 메인 관계 튜플을 획득하는 단계를 포함하고,
상기 뉴럴 네트워크 모델은 인코더 및 디코더를 포함하며, 상기 인코더의 기능은 상기 텍스트 정보에 따라 코딩 특징을 획득하는 것이고, 상기 디코더의 기능은 상기 코딩 특징에 따라 상기 텍스트 정보의 제1 메인 관계 튜플을 획득하는 것인 것을 특징으로 하는 정보 추출 방법.
제4항에 있어서,
비라벨링된 트레이닝 말뭉치에 대해 콘텍스트 예측을 수행하는 것을 통해 상기 인코더를 결정하는 것을 특징으로 하는 정보 추출 방법.
정보 추출 장치로서,
텍스트 정보를 획득하는 제1 획득 모듈;
상기 텍스트 정보 중의 제1 메인 관계 튜플을 획득하는 제2 획득 모듈;
N개의 메인 관계 튜플을 획득하는 제3 획득 모듈 - 상기 N개의 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터에 따라 획득된 적어도 하나의 제2 메인 관계 튜플을 포함하고, N은 양의 정수임 - ; 및
상기 제1 메인 관계 튜플 및 상기 N개의 메인 관계 튜플에 따라, 상기 텍스트 정보의 정보 추출 결과를 결정하는 결정 모듈을 포함하고,
상기 제1 메인 관계 튜플은 상기 텍스트 정보 중 다른 관계 튜플에 포함되지 않은 관계 튜플이며, 상기 제2 메인 관계 튜플은 상기 제1 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플인 것을 특징으로 하는 정보 추출 장치.
제6항에 있어서,
상기 N개의 메인 관계 튜플은,
상기 제2 메인 관계 튜플의 파라미터로부터 획득된 적어도 하나의 제3 메인 관계 튜플을 더 포함하고,
상기 제3 메인 관계 튜플은 상기 제2 메인 관계 튜플의 파라미터 중 다른 관계 튜플에 포함되지 않은 관계 튜플인 것을 특징으로 하는 정보 추출 장치.
제6항에 있어서,
상기 제3 획득 모듈은,
상기 제1 메인 관계 튜플의 파라미터로부터 상기 적어도 하나의 제2 메인 관계 튜플을 획득하는 제1 획득 서브 모듈; 및
상기 N개의 메인 관계 튜플 중 제i 회 획득된 메인 관계 튜플의 파라미터에 대해 메인 관계 튜플 추출을 수행하여, 제i+1 회 획득된 메인 관계 튜플을 획득하는 제2 획득 서브 모듈을 포함하고,
상기 제2 메인 관계 튜플은 상기 N개의 메인 관계 튜플중 제1 회 획득된 메인 관계 튜플이며, 상기 N개의 메인 관계 튜플 중 마지막 1회 획득된 메인 관계 튜플 중의 파라미터는 메인 관계 튜플을 포함하지 않고, i는 상기 N보다 작거나 같은 양의 정수인 것을 특징으로 하는 정보 추출 장치.
제6항에 있어서,
상기 제2 획득 모듈은,
상기 텍스트 정보를 뉴럴 네트워크 모델에 입력하여 상기 텍스트 정보의 제1 메인 관계 튜플을 획득하고,
상기 뉴럴 네트워크 모델은 인코더 및 디코더를 포함하며, 상기 인코더의 기능은 상기 텍스트 정보에 따라 코딩 특징을 획득하는 것이고, 상기 디코더의 기능은 상기 코딩 특징에 따라 상기 텍스트 정보의 제1 메인 관계 튜플을 획득하는 것인 것을 특징으로 하는 정보 추출 장치.
제9항에 있어서,
비라벨링된 트레이닝 말뭉치에 대해 콘텍스트 예측을 수행하는 것을 통해 상기 인코더를 결정하는 것을 특징으로 하는 정보 추출 장치.
전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고,
상기 메모리에 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서가 청구항 제1항 내지 제5항 중 어느 한 항에 따른 방법을 수행할 수 있도록 하는 것을 특징으로 하는 전자 기기.
컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능한 저장 매체로서,
상기 컴퓨터 명령은 상기 컴퓨터가 청구항 제1항 내지 제5항 중 어느 한 항에 따른 방법을 수행하도록 하는 것을 특징으로 하는 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능한 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 적어도 하나의 프로세서에 의해 실행될 경우, 청구항 제1항 내지 제5항 중 어느 한 항에 따른 상기 방법을 구현하는 것인,
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.