KR20230078933A

KR20230078933A - 패러렐 디코딩 기반의 정보세트 추출방법 및 이를 수행하는 컴퓨팅 시스템

Info

Publication number: KR20230078933A
Application number: KR1020220156698A
Authority: KR
Inventors: 하영광; 심충섭; 이종열
Original assignee: 주식회사 딥하이
Priority date: 2021-11-26
Filing date: 2022-11-21
Publication date: 2023-06-05
Also published as: US20230169304A1

Abstract

패러렐 디코딩 기반의 정보세트 추출방법 및 이를 수행하는 컴퓨팅 시스템이 개시된다. 본 발명의 일 측면에 따르면, 다큐먼트로부터 n(여기서, n은 1이상의 임의의 정수)개의 속성을 포함하는 정보 세트를 m(여기서, m은 1이상의 임의의 정수)개 추출하는 방법은 시퀀스투시퀀스(seq2seq) 구조의 뉴럴 네트워크 모델을 포함하는 시스템이 다큐먼트를 입력받는 단계, 상기 시스템이 복수 회차의 디코딩을 거쳐서 m개의 정보세트를 결정하는 단계를 포함하며, 상기 시스템이 복수 회차의 디코딩을 거쳐서 m개의 정보세트를 결정하는 단계는, 상기 시스템이 디코딩을 통해 m개의 첫 번째 속성을 갖는 첫 번째 컬럼 정보를 결정하는 단계, 상기 시스템이 디코딩을 통해, (i-1)번째(여기서, i는 2<=i<=n 인 임의의 정수) 번째까지의 컬럼 정보 중 적어도 하나에 기초하여 m개의 i 번째 속성을 갖는 i 번째 컬럼 정보를 결정하는 단계를 포함한다.

Description

패러렐 디코딩 기반의 정보세트 추출방법 및 이를 수행하는 컴퓨팅 시스템{Method and system for information set based on parallel decoding}

본 발명은 텍스트 데이터로부터 유의미한 정보를 추출하기 위한 방법 및 시스템에 관한 것이다. 보다 상세하게는 딥러닝 기반으로 텍스트 정보 즉 다큐먼트에서 미리 정의된 복수의 속성들 각각에 해당하는 정보를 효과적으로 추출할 수 있는 방법 및 시스템에 관한 것이다.

자연어 처리를 위한 딥러닝 모델에 대한 연구가 활발히 펼쳐지고 있다.

특히 텍스트는 다양한 비정형 데이터로써 많은 정보들을 가지고 있고, 이러한 정보들을 적절히 분석하여 사람들의 생각이나 반응, 심리, 또는 현재의 상황을 파악하여 다양한 분야에서 활용될 가능성이 크다.

이러한 텍스트 분석은 상품이나 정책의 기획/개발, 소비자 반응에 따른 대처, 투자방향 등 상업분야, 금융분야, 연구분야, 국방분야 등 다양한 영역에서 활용될 수 있다.

통상 특정한 형식을 가지지 않은 비정형 데이터로부터 추출하고자 하는 유의미한 정보를 추출하기 위해 다양한 딥러닝 모델이 활용되고 있다.

대표적으로는 NER(Named Entity Recognition), 단어 또는 문장의 분류모델, MRC(Machine Reading Comprehehsion)등을 활용하는 방식이 있다.

도 1은 비정형 데이터인 다큐먼트로부터 정보들을 추출하는 개념을 예시적으로 도시하고 있다.

도 1에 도시된 바와 같이 다큐먼트에는 사용자가 알고자 하는 정보들이 다수 포함될 수 있다. 그리고 사용자는 추출하고자 하는 정보의 종류(이하 속성이라 함)를 복수 개(예컨대, 속성 a, 속성 b, 속성 c) 추출하고자 할 수 있다. 각각의 속성들의 추출결과는 도 1에 도시된 바와 같이 a1, b1, c1일 수 있다.

본 명세서에서는 이러한 속성들의 세트를 정보세트로 정의하기로 한다.

이러한 경우 종래의 방식은 각각의 속성별로 이를 분류/추출하거나 질문을 통해 획득하기 위한 개별적인 모델들이 여러 개 필요하다는 단점이 있다.

예컨대, 본 출원인이 출원한 한국특허출원(출원번호 10-2021-0143120)은 유저 프로파일에 포함된 각각의 속성들(세부 프로파일) 예컨대 사용자의 성별, 기혼, 자녀존재여부, 구매여부 등의 유의미한 정보들 즉, 복수의 속성들을 비정형 데이터로부터 추출하기 위해 각각의 속성을 추출하기 위한 개별적인 분류모델 또는 MRC 모델을 구축하여야 한다.

이러한 경우에는 각각의 모델을 구축한는 것이 많은 시간과 비용을 요구할 뿐만 아니라, 정보 추출시에 걸리는 시간도 상대적으로 길고, 다양한 단점들이 존재할 수 있다.

본 발명이 이루고자 하는 기술적인 과제는 시퀀스투시퀀스(Seq2Seq)구조 즉, 인코더와 디코더 구조를 가지는 뉴럴 네트워크를 통해 비정형 데이터로부터 복수의 속성을 갖는 정보세트를 적어도 하나 추출함에 있어서, 매우 효과적인 방법 및 그 시스템을 제공하는 것이다.

특히 시퀀스투시퀀스 구조의 단점인 디코딩 회수가 많다는 점을 상대적으로 보완할 수 있는 패러렐 디코딩이 가능한 방법 및 그 시스템을 제공하는 것이다.

본 발명의 일 측면에 따르면, 패러렐 디코딩 기반의 정보세트 추출방법은, 다큐먼트로부터 n(여기서, n은 1이상의 임의의 정수)개의 속성을 포함하는 정보 세트를 m(여기서, m은 1이상의 임의의 정수) 적어도 하나 추출하기 위해, 시퀀스투시퀀스(seq2seq) 구조의 뉴럴 네트워크 모델을 포함하는 시스템이 다큐먼트를 입력받는 단계, 상기 시스템이 복수 회차의 디코딩을 거쳐서 m개의 정보세트를 결정하는 단계를 포함하며, 상기 시스템이 복수 회차의 디코딩을 거쳐서 m개의 정보세트를 결정하는 단계는, 상기 시스템이 디코딩을 통해 m개의 첫 번째 속성을 갖는 첫 번째 컬럼 정보를 결정하는 단계, 상기 시스템이 디코딩을 통해, (i-1)번째(여기서, i는 2<=i<=n 인 임의의 정수) 번째까지의 컬럼 정보 중 적어도 하나에 기초하여 m개의 i 번째 속성을 갖는 i 번째 컬럼 정보를 결정하는 단계를 포함한다.

본 발명의 기술적 사상에 의하면, 비정형 데이터를 통해 서로 다른 속성을 가지는 정보들을 같이 추출할 수 있으므로 개별적인 속성마다 이를 추출하기 위한 모델을 구축하지 않아도 되는 효과가 있다.

또한 시퀀스투시퀀스 구조의 단점을 개선하여 패러렐 디코딩을 사용할 수 있으므로 디코딩 횟수를 상대적으로 줄일 수 있는 효과가 있다.

본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 비정형 데이터인 다큐먼트로부터 정보들을 추출하는 개념을 예시적으로 도시하고 있다.
도 2는 본 발명의 일 실시예에 따른 패러렐 디코딩 기반의 정보 세트 추출시스템의 논리적인 구성을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 패러렐 디코딩 기반의 정보 세트 추출시스템의 물리적인 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예에 따라 시퀀스투시퀀스 구조의 뉴럴 네트워크를 통해 복수의 정보세트를 추출하는 개념을 설명하기 위한 도면이다.
도 5 내지 도 6은 본 발명의 일 실시 예에 따라 정보세트를 추출하는 방식을 설명하기 위한 도면이다.
도 7 내지 도 8은 본 발명의 다른 일 실시 예에 따라 정보세트를 추출하는 방식을 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시 예에 따른 디코딩 마스크를 설명하기 위한 도면이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 제1, 제2 등의 용어는 특별한 순서를 나타내는 것이 아니며, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에 있어서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예들을 중심으로 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.

도 2는 본 발명의 일 실시예에 따른 패러렐 디코딩 기반의 정보 세트 추출시스템의 논리적인 구성을 설명하기 위한 도면이다.

도 2를 참조하면, 본 발명의 기술적 사상에 따른 패러렐 디코딩 기반의 정보세트 추출방법은 패러렐 디코딩 기반의 정보세트 추출시스템(이하 '시스템', 100)에 의해 수행될 수 있다.

상기 시스템(100)은 논리적으로는 본 발명의 기술적 사상을 구현하기 위한 시퀀스투시퀀스 구조의 뉴럴 네트워크(120)을 포함한다. 상기 뉴럴 네트워크(120)를 학습시키기 위한 학습 시스템(110) 및 학습된 뉴럴 네트워크(120)를 통해 상기 뉴럴 네트워크(120)의 판단 즉, 정보세트를 추출하기 위한 판단 제공 시스템(130)을 포함할 수 있다.

구현 예에 따라 상기 학습시스템(110)과 상기 판단 제공시스템(130)은 별도로 구분되지 않을 수도 있으며 통합되어 구현될 수도 있다.

상기 학습 시스템(110) 및/또는 상기 판단 제공 시스템(130)은 본 발명의 기술적 사상을 구현하기 위한 연산능력을 가진 데이터 처리장치인 컴퓨팅 시스템일 수 있으며, 일반적으로 네트워크를 통해 클라이언트가 접속 가능한 데이터 처리 장치인 서버뿐만 아니라 개인용 컴퓨터나 휴대 단말 등과 같은 컴퓨팅 장치를 포함할 수 있다.

상기 학습 시스템(110) 및/또는 상기 판단 제공 시스템(130)은 어느 하나의 물리적 장치로 구현될 수도 있으나, 필요에 따라 복수의 물리적 장치가 유기적으로 결합되어 본 발명의 기술적 사상에 따른 상기 학습 시스템(110) 및/또는 상기 판단 제공 시스템(130)을 구현할 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

도 1에 도시된 바와 같이, 상기 학습 시스템(110) 및/또는 상기 판단 제공 시스템(130)은 소정의 모(母) 시스템의 서브 시스템의 형태로 구현될 수도 있다. 예컨대, 상기 모 시스템은 서버일 수 있다. 상기 서버는 본 발명의 기술적 사상을 구현하기 위한 연산능력을 가진 데이터 처리장치를 의미하며, 일반적으로 네트워크를 통해 클라이언트가 접속 가능한 데이터 처리장치뿐만 아니라 개인용 컴퓨터, 휴대 단말 등과 같이 특정 서비스를 수행할 수 있는 어떠한 장치도 서버로 정의될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다. 그러면 상기 학습 시스템(110) 및/또는 상기 판단 제공시스템(130)은 상기 서버의 하드웨어 및 본 발명의 기술적 사상을 구현하기 위한 소프트웨어가 유기적으로 결합되어 구현되는 시스템을 의미할 수 있다.

도 3은 본 발명의 일 실시예에 따른 패러렐 디코딩 기반의 정보 세트 추출시스템의 물리적인 구성을 설명하기 위한 도면이다.

한편, 상기 시스템(100)은 물리적으로는 도 3에 도시된 바와 같은 구성을 가질 수 있다. 상기 시스템(100-1)은 본 발명의 기술적 사상을 구현하기 위한 프로그램이 저장되는 메모리(저장장치)(120-1), 및 상기 메모리(120-1)에 저장된 프로그램, 및 뉴럴 네트워크를 제어하거나 실행하기 위한 프로세서(110-1)가 구비될 수 있다.

상기 프로세서(110-1)는 상기 시스템(100-1)의 구현 예에 따라, CPU, 모바일 프로세서 등 다양한 명칭으로 명명될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다. 또한, 도 2에서 설명한 바와 같이 상기 시스템(100-1)은 복수의 물리적 장치들이 유기적으로 결합되어 구현될 수도 있으며, 이러한 경우 상기 프로세서(110-1)는 물리적 장치별로 적어도 한 개 구비되어 본 발명의 시스템(100-1)을 구현할 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

상기 메모리(120-1)는 상기 프로그램 및 상기 뉴럴 네트워크(120)가 저장되며, 상기 프로그램을 구동시켜서 뉴럴 네트워크(120)를 학습시키거나 뉴럴 네트워크(120)의 출력결과를 획득하기 위해 상기 프로세서가 접근할 수 있는 어떠한 형태의 저장장치로 구현되어도 무방하다. 또한 하드웨어적 구현 예에 따라 상기 메모리(120-1)는 어느 하나의 저장장치가 아니라 복수의 저장장치로 구현될 수도 있다. 또한 상기 메모리(120-1)는 주기억장치 뿐만 아니라, 임시기억장치를 포함할 수도 있다. 또한 휘발성 메모리 또는 비휘발성 메모리로 구현될 수도 있으며, 상기 프로그램이 저장되고 상기 프로세서에 의해 구동될 수 있도록 구현되는 모든 형태의 정보저장 수단을 포함하는 의미로 정의될 수 있다.

또한 상기 시스템(100)의 실시 예에 따라 다양한 주변장치들(주변장치 1 내지 주변장치 N, 130-1, 131-1)이 더 구비될 수 있다. 예컨대, 키보드, 모니터, 그래픽 카드, 통신장치 등이 주변장치로써 상기 시스템(100)에 더 포함될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

이하, 본 명세서에서 상기 시스템(100)이 어떤 기능을 수행한다고 함은 상기 프로세서(110-1)가 상기 메모리(120-1)에 구비된 프로그램을 구동하여, 상기 뉴럴 네트워크(120)를 제어하여 상기 기능을 수행하는 것을 의미함을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

한편, 본 명세서에서 뉴럴 네트워크(120)는 인간의 뉴런의 동작 원리에 기초하여 인공적으로 구축한 신경망로서, 다층 퍼셉트론 모델을 포함하며, 인공 신경망을 정의하는 일련의 설계사항들을 표현하는 정보의 집합을 의미할 수 있다.

이러한 뉴럴 네트워크(120)는 잘 알려진 시퀀스투시퀀스 구조를 가지는 모델일 수 있다. 시퀀스투시퀀스 구조는 인코더와 디코더를 연결하여 사용하는 모델로써 시계열적인 정보들을 이용해 텍스트가 입력되면 텍스트를 출력하도록 학습되는 모델에 적합하다.

이러한 시퀀스투시퀀스 구조의 모델은 RNN(Recurrent Neural Network)을 이용하는 seq2seq 모델, 이러한 seq2seq 모델의 단점을 개선하고 어텐션(attention)을 이용하는 트랜스포머(Transformer) 모델 등이 널리 알려져 있다.

이러한 시퀀스투시퀀스 구조에 해당하는 seq2seq 모델, 트랜스포머 모델에 대해서는 널리 알려져 있으므로 본 명세서에서는 상세한 설명은 생략하도록 하며, 본 명세서에서는 주로 트랜스포머 모델에서 사용하는 디코딩 방식을 사용하여 설명하지만 본 발명의 권리범위가 이에 국한되지는 않을 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

통상 시퀀스투시퀀스 구조의 모델은 챗봇이나 번역엔진 등 연속적인 텍스트를 생성하는데 널리 이용된다.

하지만 본 발명의 기술적 사상에 의하면, 시퀀스투시퀀스 구조의 모델을 이용하여 적어도 하나의 정보세트를 추출함으로써 종래의 방식에 비해 매우 효과적인 정보 추출이 가능할 수 있다.

도 4는 본 발명의 실시 예에 따라 시퀀스투시퀀스 구조의 뉴럴 네트워크를 통해 복수의 정보세트를 추출하는 개념을 설명하기 위한 도면이다.

도 4를 참조하면, 본 발명의 기술적 사상에 따라 학습된 뉴럴 네트워크(120)는 비정형 텍스트 데이터인 다큐먼트(D)가 입력되면 n(여기서, n은 1이상의 임의의 정수)개의 속성을 포함하는 정보 세트를 m(여기서, m은 1이상의 임의의 정수)개 추출할 수 있다.

이하 본 명세서에서는 n은 3이고 m은 2인 경우를 예시적으로 설명하고 있지만 본 발명의 권리범위가 이에 국한되지는 않는다.

시퀀스투시퀀스 구조를 갖는 뉴럴 네트워크 모델의 일 예인 트랜스포머와 같은 뉴럴 네트워크(120)는 도시된 바와 같이 인코더들(121)과 디코더들(123)을 포함할 수 있다.

상기 뉴럴 네트워크(120)는 비정형 데이터인 다큐먼트 D가 입력되면 도 4에 도시된 바와 같이 서로 다른 속성(예컨대, a, b, c)을 갖는 정보세트를 복수 개 출력할 수 있다.

이러한 복수의 정보세트를 본 명세서에서는 테이블 정보로 명명하기로 하면, 도 4의 일 예에서는 3개의 속성을 가지는 정보세트가 2개 출력되는 경우를 도시하고 있다. 따라서 2행 3열의 테이블정보가 추출되는 경우라고 정의할 수 있다.

상기 뉴럴 네트워크(120)에 포함된 디코더들(123)은 복수 회차의 디코딩을 거쳐 이러한 테이블 정보를 추출할 수 있다.

이때 상기 디코더들(123)은 상기 테이블 정보에 포함된 각 성분(element)(예컨대, a1, b1, c1, a2, b2, c2)를 1개씩 순차적으로 디코딩하도록 구현될 수도 있다.

상기 뉴럴 네트워크 모델(120)은 디코더(123)로부터 출력되는 출력 벡터들 각각에서, 그리디 서치(greedy search) 또는 빔 서치(beam search)를 통해, 미리 정의된 임계값(threshold) 이상의 확률 값을 갖는 성분을 선택함으로써 출력결과를 결정할 수 있음은 물론이다 .

이러한 기능을 갖는 본 발명의 기술적 사상에 따른 뉴럴 네트워크(120)를 학습시키기 위해서는 도 5에 도시된 바와 같은 학습 데이터를 통해 상기 뉴럴 네트워크(120)를 학습시킬 수 있다. 그리고 학습된 것에 상응하도록 디코딩 결과를 출력할 수 있음은 물론이다.

상기 뉴럴 네트워크 모델은 디코더로부터 출력되는 출력 벡터들 각각에서, 그리디 서치(greedy search) 또는 빔 서치(beam search)를 통해, 미리 정의된 임계값(threshold) 이상의 값을 갖는 엘리먼트를 선택해서 상기 첫 번째 컬럼정보 또는 상기 i번째 컬럼정보의 성분으로 결정하는 패러렐 디코딩 기반의 정보세트 추출시스템.

예컨대, 상기 디코더들(123)은 우선 다큐먼트(D)(즉, 다큐먼트가 인코더들(121)에 의해 인코딩된 정보)를(필요시 시작 인스턴스(start of sentence, SOS)를 추가로) 입력으로 받으면 a1을 출력하도록 학습된다.

그리고 상기 다큐먼트( 및 시작 인스턴스)와 이전에서 디코딩된 정보인 a1을 입력으로 받으면 b1을 출력하도록 학습된다. 그리고 상기 다큐먼트( 및 시작 인스턴스)와 이전에서 디코딩된 정보인 a1, b1을 입력으로 받으면 c1을 출력하도록 학습된다. 그리고 상기 다큐먼트( 및 시작 인스턴스)와 이전에서 디코딩된 정보인 a1, b1, c1을 입력으로 받으면 다음 인스턴스인 a2를 출력하도록 학습될 수도 있고, 실시 예에 따라 예컨대, 줄바꿈 인스턴스(end of line)을 출력하도록 학습될 수도 있다.

이와 같은 방식으로 상기 다큐먼트( 및 시작 인스턴스)와 이전에서 디코딩된 a1, b1, c1,(필요시 줄바꿈 인스턴스)를 입력으로 받으면 a2를 출력하도록 학습되고, 상기 다큐먼트( 및 시작 인스턴스)와 이전에서 디코딩된 a1, b1, c1,(필요시 줄바꿈 인스턴스), 및 a2를 입력으로 받으면 b2를 출력하도록 학습되고, 상기 다큐먼트( 및 시작 인스턴스)와 이전에서 디코딩된 a1, b1, c1,(필요시 줄바꿈 인스턴스), a2, 및 b2를 입력으로 받으면 c2를 출력하도록 학습될 수 있다 .그리고 마지막으로 상기 다큐먼트( 및 시작 인스턴스)와 이전에서 디코딩된 a1, b1, c1,(필요시 줄바꿈 인스턴스), a2, b2, c2를 입력으로 받으면 <eol>를 출력하도록 학습될 수 있다.

그러면 상기 뉴럴 네트워크(120)는 도 6에 도시된 바와 같은 순서로 테이블 정보에 포함될 성분들을 순차적으로 1개씩 디코딩 결과로 출력할 수 있고, 최종적으로 테이블 정보가 결정될 수 있다.

이처럼 본 발명의 기술적 사상에 의하면 특정 다큐먼트로부터 소정의 성분들을 출력하는 경우 시퀀스투시퀀스 모델을 통해 각 성분들을 출력하도록 학습될 수 있고, 이러한 경우 각 성분들별로 분류모델, MRC 엔진을 따로 구축하지 않아도 되는 효과가 있다.

하지만 이러한 방식은 다수의 디코딩이 진행되어야 하고(예컨대, 적어도 출력하고자 하는 성분들의 개수 이상), 디코딩이 진행될수록 디코더에 입력되는 입력 데이터가 많아지는 단점이 있다. 이러한 문제들을 해결하기 위해 본 발명의 기술적 사상에 의하면 시퀀스투시퀀스 모델의 디코더들(123)은 패러렐 디코딩을 수행할 수도 있다.

예컨대, 상기 디코더들(123)은 상기 테이블 정보에 포함된 성분들 중 동일한 속성 즉, 컬럼별로 디코딩을 수행할 수도 있다. 이러한 경우 한 번의 디코딩을 통해 하나의 컬럼정보(예컨대, 제1컬럼정보 a1, a2)가 결정될 수 있다.

이러한 기능을 갖는 본 발명의 기술적 사상에 따른 뉴럴 네트워크(120)를 학습시키기 위해서는 도 7에 도시된 바와 같은 학습 데이터를 통해 상기 뉴럴 네트워크(120)를 학습시킬 수 있다.

그러면 상기 뉴럴 네트워크(120)는 도 8에 도시된 바와 같은 순서로 테이블 정보에 포함될 성분들을 컬럼단위로 디코딩 결과로 출력할 수 있고, 최종적으로 테이블 정보가 결정될 수 있다.

도 7 또는 도 8에 도시된 바와 같은 방식으로 수행하는 경우, 종래의 시퀀스투시퀀스 모델은 한개씩 순차적으로 디코딩을 하는 방식이지만, 실질적으로는 복수의 정보들(동일한 컬럼에 포함된 성분들)이 한번에 디코딩되는 결과가 되며, 이에 따라 본 명세서에서는 패러렐 디코딩이라고 하기로 한다.

컬럼정보가 결정된다고 함은, 잘 알려진 바와 같이 컬럼정보에 포함된 각각의 성분을 결정할 수 있는 디코더들(123)의 출력벡터가 결정됨을 의미할 수 있다.

본 명세서에서 정의되는 객체(예컨대, 컬럼정보, 성분, 다큐먼트 등)는 그에 해당하는 벡터를 포함하는 의미로 해석될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.

상기 디코더들은 다큐먼트(D)( 및 시작 인스턴스)를 입력받으면, 제1컬럼정보((예컨대, a1 a2))를 출력하도록 학습될 수 있다.

그리고 제1컬럼정보(예컨대, a1 a2)가 결정되면, 상기 디코더들(123)은 다큐먼트(D)와 디코딩된 제1컬럼정보를 입력으로 받으면, 제2컬럼정보(b1 b2)를 디코딩 결과로 출력하도록 학습될 수 있다.

그리고 제2컬럼정보(예컨대, a1 a2)가 결정되면, 상기 디코더들(123)은 다큐먼트(D)와 제1컬럼정보 및 제2컬럼정보를 입력으로 받고, 제3컬럼정보(b1 b2)를 디코딩 결과로 출력하도록 학습될 수 있다.

그리고 필요시 상기 디코더들(123)은 다큐먼트(D)와 제1컬럼정보 및 제2컬럼정보, 제3컬럼정보를 입력으로 받고, 줄바꿈 인스턴스를 디코딩 결과로 출력하도록 학습될 수 있다.

그러면 도 8에 도시된 바와 같이 1번의 디코딩으로 제1컬럼정보(a1 a2)가 출력되고, 다음 디코딩으로 제2컬럼정보(b1, b2)가 출력되며, 다음 디코딩으로 제3컬럼정보(c1, c2)가 출력되는 방식으로 디코딩이 수행될 수 있다.

이러한 방식으로 디코더들(123)을 학습하고 학습된 모델을 이용하는 경우, 한번의 디코딩으로 한 개의 컬럼정보들이 출력될 수 있으며, 그 결과 시퀀스투시퀀스 모델의 단점인 연속적인 디코딩들 및 이로 인한 디코딩회수의 기하급수적 증가로 인한 오랜 연산시간이라는 단점을 극복할 수 있는 효과가 있다. 상술한 도 5 및 도7의 예에서도 디코딩 횟수가 훨씬 줄어드는 것을 알 수 있으며, 도 5 및 도 7에서 2 by 3 행렬인 경우가 아니라 출력하고자 하는 성분이 많을수록(즉, 테이블이 커질수록) 그 효과는 현저하게 커질 수 있음을 알 수 있다.

이러한 뉴럴 네트워크(120)를 구현하기 위해서는 복수의 학습용 다큐먼트들 및 각 학습용 다큐먼트들의 라벨링 데이터 즉, 라벨링 테이블 정보가 필요할 수 있다.

그리고 이러한 라벨링 테이블 정보로부터 도 7 내지 도 8에서 설명한 바와 같은 뉴럴 네트워크(120)를 학습시키기 위해서는 라벨링 테이블 정보에 적용될 디코딩 마스크가 필요할 수 있고, 이러한 경우는 도 9b와 같을 수 있다. 물론 도 5 내지 도 6에서 설명한 바와 같은 뉴럴 네트워크(120)를 학습시키기 위해서는 라벨링 테이블 정보에 적용될 디코딩 마스크가 필요할 수 있고, 이러한 경우는 도 9a와 같을 수 있다.

예컨대, 도 5 및 도 7의 실시 예를 이용하여 설명하면, 어떤 다큐먼트(D)가 존재하고 이 다큐먼트(D)가 입력되면 <SOS>, <a1>, <b1>, <c1>, <EOL>, <a2>, <b2>, <c2>가 각각의 성분으로 출력되는 뉴럴 네트워크가 학습될 수 있다.

이러한 경우 도 5의 실시 예에서는 순차적으로 1개씩의 성분이 디코더의 입력되면, 다음 성분이 디코더의 출력이 된다. 따라서 도 9a에 도시된 바와 같이 예컨대 마스크(M)의 첫 번째 행(1, 0, 0, 0, 0, 0, 0, 0)이 적용되면 <SOS>, <a1>, <b1>, <c1>, <EOL>, <a2>, <b2>, <c2> 중 첫 번째 성분인 <SOS>가 디코더의 입력으로 선택됨(물론 인코딩된 D는 입력으로 항상 포함될 수 있음)을 의미하며, 그 다음 디코딩에서는 마스크(M)의 두 번 째 행(1, 1, 0, 0, 0, 0, 0, 0)이 적용되며 이때에는 <SOS>, <a1>, <b1>, <c1>, <EOL>, <a2>, <b2>, <c2> 중 첫 번째 성분과 두 번째 성분인 <SOS> 및 <a1>이 디코더의 입력으로 선택됨을 의미할 수 있다. 이와 같은 방식으로 순차적으로 디코더의 입력을 선택하고 그 결과 출력되는 디코더의 출력이 다음 디코딩의 입력이 되는 방식으로 디코딩이 수행될 수 있다.

한편 도 7의 실시 예에서는 전술한 바와 같이 패러렐 디코딩이 수행될 수 있고, 이러한 경우 마스크(M)의 첫 번째 행(1, 0, 0, 0, 0, 0, 0, 0) 및 4번째 행(0, 0, 0, 0, 1, 0, 0, 0)이 적용되면 <SOS>, <a1>, <b1>, <c1>, <EOL>, <a2>, <b2>, <c2> 중 첫 번째 성분인 <SOS> 및 <EOL>가 디코더의 입력으로 선택됨(필요시 특수 성분으로 동일하게 취급할 수도 있음)을 의미하며, 그 다음 디코딩에서는 마스크(M)의 두 번 째 행(1, 1, 0, 0, 0, 0, 0, 0) 및 5번째 행(0, 0, 0, 0, 1, 1, 0, 0)이 적용되며 이때에는 <SOS>, <a1>, <b1>, <c1>, <EOL>, <a2>, <b2>, <c2> 중 첫 번째 성분과 두 번째 성분인 <SOS>, <a1> 및 <EOL>, <a2>이 디코더의 입력으로 선택됨을 의미할 수 있다. 이러한 방식으로 디코더의 입력 성분을 선택하는 디코더 마스크를 정의함으로써 패러렐 디코딩을 수행하는 디코더를 구현할 수 있다.

예컨대, 도 9b의 마스크(M)는 다음과 같은 조건을 만족할 수 있다.

M={aij}

aij= 1, (if (n+1)*k< i <=(n+1)*(k+1)이고,

(n+1)*k< j <=(n+1)*(k+1)인 경우, 여기서 k= max(i,j)를 (n+1)로 나눈 몫)

= 0 else

한편, 구현 예에 따라서, 상기 시스템(100)은 프로세서 및 상기 프로세서에 의해 실행되는 프로그램을 저장하는 메모리를 포함할 수 있다. 상기 프로세서는 싱글 코어 CPU혹은 멀티 코어 CPU를 포함할 수 있다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 기타 비휘발성 고체상태 메모리 장치와 같은 비휘발성 메모리를 포함할 수도 있다. 프로세서 및 기타 구성 요소에 의한 메모리로의 액세스는 메모리 컨트롤러에 의해 제어될 수 있다.

한편, 본 발명의 실시예에 따른 방법은 컴퓨터가 읽을 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명의 실시예에 따른 제어 프로그램 및 대상 프로그램도 컴퓨터로 판독 가능한 기록 매체에 저장될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터로 읽을 수 있는 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타나며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

다큐먼트로부터 n(여기서, n은 1이상의 임의의 정수)개의 속성을 포함하는 정보 세트를 m(여기서, m은 1이상의 임의의 정수)개 추출하는 방법에 있어서,
시퀀스투시퀀스(seq2seq) 구조의 뉴럴 네트워크 모델을 포함하는 시스템이 다큐먼트를 입력받는 단계;
상기 시스템이 복수 회차의 디코딩을 거쳐서 m개의 정보세트를 결정하는 단계를 포함하며,
상기 시스템이 복수 회차의 디코딩을 거쳐서 m개의 정보세트를 결정하는 단계는,
상기 시스템이 디코딩을 통해 m개의 첫 번째 속성을 갖는 첫 번째 컬럼 정보를 결정하는 단계;
상기 시스템이 디코딩을 통해, (i-1)번째(여기서, i는 2<=i<=n 인 임의의 정수) 번째까지의 컬럼 정보 중 적어도 하나에 기초하여 m개의 i 번째 속성을 갖는 i 번째 컬럼 정보를 결정하는 단계를 포함하는 패러렐 디코딩 기반의 정보세트 추출방법.
제1항에 있어서, 상기 시스템이 복수 회차의 디코딩을 거쳐서 m개의 정보세트를 결정하는 단계는,
상기 시스템이, 디코더로부터 출력되는 출력 벡터들 각각에서, 그리디 서치(greedy search) 또는 빔 서치(beam search)를 통해, 미리 정의된 임계값(threshold) 이상의 값을 갖는 엘리먼트를 선택해서 상기 첫 번째 컬럼정보 또는 상기 i번째 컬럼정보의 성분으로 결정하는 단계를 포함하는 패러렐 디코딩 기반의 정보세트 추출방법.
제1항에 있어서, 상기 패러렐 디코딩 기반의 정보세트 추출방법은,
상기 시스템이 복수의 학습용 다큐먼트들 및 상기 복수의 학습용 다큐먼트들 각각별로 n(여기서, n은 1이상의 임의의 정수)개의 속성을 포함하는 정보 세트가 적어도 하나 라벨링된 라벨링 데이터를 포함하는 복수의 학습 데이터를 이용하여 상기 뉴럴 네트워크를 학습시키는 단계를 더 포함하는 패러렐 디코딩 기반의 정보세트 추출방법.
제3항에 있어서, 상기 뉴럴 네트워크를 학습시키는 단계는,
특정 학습 데이터의 라벨링 데이터에 p개(여기서, p는 1이상의 임의의 정수)의 정보세트가 라벨링된 경우,
상기 시스템이, 상기 뉴럴 네트워크가 첫 번째 컬럼정보에 포함되는 p개의 라벨링된 엘리먼트 각각에 대해서는 상기 다큐먼트와 시작인스턴스를 입력으로 받으면 첫 번째 컬럼정보에 포함되는 p개의 상기 라벨링된 엘리먼트 각각이 출력되도록 학습을 시키는 단계; 및
상기 시스템이, 상기 뉴럴 네트워크가 p개의 k 번째(여기서, k는 2<=i<=n 인 임의의 정수) 컬럼정보에 포함되는 라벨링된 엘리먼트 각각에 대해서는 상기 다큐먼트와 (k-1)번째까지의 라벨링된 엘리먼트를 입력으로 받으면 k 번째 컬럼정보에 포함되는 p개의 라벨링된 엘리먼트 각각이 출력되도록 학습을 시키는 단계를 포함하는 패러렐 디코딩 기반의 정보세트 추출방법.
제4항에 있어서, 상기 뉴럴 네트워크를 학습시키는 단계는,
상기 시스템은 상기 복수의 학습 데이터에 포함된 각각의 라벨링 데이터에 소정의 디코더 마스크를 적용하는 단계를 포함하며,
상기 디코더 마스크 M은 다음의 조건을 만족하는 것을 특징으로 하는 패러렐 디코딩 기반의 정보세트 추출방법,
M={aij}
aij= 1, (if (n+1)*k< i <=(n+1)*(k+1)이고,
(n+1)*k< j <=(n+1)*(k+1)인 경우, 여기서 k= max(i,j)를 (n+1)로 나눈 몫)
= 0 else
데이터 처리장치에 설치되며 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 수행하기 위한 매체에 기록된 컴퓨터 프로그램.
프로세서; 및
상기 프로세서에 의해 실행되는 프로그램 및 시퀀스투시퀀스(seq2seq) 구조의 뉴럴 네트워크 모델을 저장하는 메모리를 포함하고,
다큐먼트로부터 n(여기서, n은 1이상의 임의의 정수)개의 속성을 포함하는 정보 세트를 m(여기서, m은 1이상의 임의의 정수) 적어도 하나 추출하기 위해, 상기 프로세서는 상기 프로그램을 실행하여,
다큐먼트를 입력받고, 상기 뉴럴 네트워크 모델을 통해 복수 회차의 디코딩을 거쳐서 m개의 정보세트를 결정하되,
디코딩을 통해 m개의 첫 번째 속성을 갖는 첫 번째 컬럼 정보를 결정하고, 디코딩을 통해, (i-1)번째(여기서, i는 2<=i<=n 인 임의의 정수) 번째까지의 컬럼 정보 중 적어도 하나에 기초하여 m개의 i 번째 속성을 갖는 i 번째 컬럼 정보를 결정하는 패러렐 디코딩 기반의 정보세트 추출시스템.
제7항에 있어서, 상기 프로세서는 상기 프로그램을 실행하여,
상기 뉴럴 네트워크 모델 디코더로부터 출력되는 출력 벡터들 각각에서, 그리디 서치(greedy search) 또는 빔 서치(beam search)를 통해, 미리 정의된 임계값(threshold) 이상의 값을 갖는 엘리먼트를 선택해서 상기 첫 번째 컬럼정보 또는 상기 i번째 컬럼정보의 성분으로 결정하는 패러렐 디코딩 기반의 정보세트 추출시스템.
제7항에 있어서, 상기 프로세서는 상기 프로그램을 실행하여,
복수의 학습용 다큐먼트들 및 상기 복수의 학습용 다큐먼트들 각각별로 n(여기서, n은 1이상의 임의의 정수)개의 속성을 포함하는 정보 세트가 적어도 하나 라벨링된 라벨링 데이터를 포함하는 복수의 학습 데이터를 이용하여 상기 뉴럴 네트워크를 학습시키는 패러렐 디코딩 기반의 정보세트 추출시스템.
제9항에 있어서, 상기 프로세서는 상기 프로그램을 실행하여,
특정 학습 데이터의 라벨링 데이터에 p개(여기서, p는 1이상의 임의의 정수)의 정보세트가 라벨링된 경우,
상기 뉴럴 네트워크 모델이 첫 번째 컬럼정보에 포함되는 p개의 라벨링된 엘리먼트 각각에 대해서는 상기 다큐먼트와 시작인스턴스를 입력으로 받으면 첫 번째 컬럼정보에 포함되는 p개의 상기 라벨링된 엘리먼트 각각이 출력되도록 학습을 시키고,
상기 뉴럴 네트워크가 p개의 k 번째(여기서, k는 2<=i<=n 인 임의의 정수) 컬럼정보에 포함되는 라벨링된 엘리먼트 각각에 대해서는 상기 다큐먼트와 (k-1)번째까지의 라벨링된 엘리먼트를 입력으로 받으면 k 번째 컬럼정보에 포함되는 p개의 라벨링된 엘리먼트 각각이 출력되도록 학습을 시키는 패러렐 디코딩 기반의 정보세트 추출시스템.