KR102547402B1 - 인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 그 방법 - Google Patents

인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 그 방법 Download PDF

Info

Publication number
KR102547402B1
KR102547402B1 KR1020230035296A KR20230035296A KR102547402B1 KR 102547402 B1 KR102547402 B1 KR 102547402B1 KR 1020230035296 A KR1020230035296 A KR 1020230035296A KR 20230035296 A KR20230035296 A KR 20230035296A KR 102547402 B1 KR102547402 B1 KR 102547402B1
Authority
KR
South Korea
Prior art keywords
citation
cited
document
information
bibliographic information
Prior art date
Application number
KR1020230035296A
Other languages
English (en)
Inventor
박혜린
홍정호
Original Assignee
주식회사 무하유
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 무하유 filed Critical 주식회사 무하유
Priority to KR1020230035296A priority Critical patent/KR102547402B1/ko
Application granted granted Critical
Publication of KR102547402B1 publication Critical patent/KR102547402B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

다양한 실시예에 따른 검증 장치에 의해 수행되는 인용 문헌의 타당성 및 유효성을 검증하는 방법에 있어서, 상기 방법은 인용 문헌 표기 양식의 패턴 사전을 생성하는 단계, 상기 입력부로부터 획득한 대상 문서에서 참고 문헌 영역을 추출하는 단계, 상기 대상 문서의 본문 내에서 피인용 문헌의 일부를 인용한 부분인 인용 문구와 상기 피인용 문헌과 관련된 정보인 인용 정보를 포함하는 인용 영역을 추출하는 단계, 상기 인용 영역 및 상기 참고 문헌 영역의 서지 정보를 추출하는 단계, 상기 인용 영역의 서지 정보와 상기 참고 문헌 영역의 서지 정보가 일치하는지 여부와 관련된 인용 타당성을 검증하는 단계 및 상기 인용 문구가 상기 피인용 문헌에 기재되었는지 여부와 관련된 인용 유효성을 검증하는 단계를 포함할 수 있다.

Description

인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 그 방법{APPARATUS AND METHOD FOR VERIFYING VALIDITY AND RELIABILITY OF CITED DOCUMENTS}
본 개시는 인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 방법에 관한 것이다. 보다 상세하게는, 본 개시는 대상 문헌의 본문 내 인용 영역에 기재된 피인용 문헌의 정보와 참고 문헌 영역에 기재된 피인용 문헌의 정보가 일치하는지 여부 및 인용 영역 및 참고 문헌 영역에 기재된 피인용 문헌의 정보가 서버에 저장된 피인용 문헌의 정보와 일치하는지 여부를 검증하는 장치, 시스템 및 그 방법에 관한 것이다.
연구부정행위의 대표적인 유형으로 위조, 표절등이 있다. 표절의 경우, 표절예방 검색 서비스와 같은 시스템을 통해 표절률을 확인함으로써 표절을 예방하는 것이 가능하다.
표절예방 검색 서비스를 통해 유명인의 학위논문이 표절인 것으로 밝혀짐에 따라 사회적으로 표절 문제의 심각성이 다시 제기되었고, 이에 따라 초, 중, 고등학교, 대학교에서 학생들이 작성하는 과제물, 소논문, 학위논문뿐 아니라 연구기관에서 작성되는 연구보고서 등 각종 문서의 작성자는 최종제출 전 표절검사를 통해 본인의 문서를 점검하고, 표절검사결과 확인서 제출 시 특정 수치 이내의 문서를 제출하는 것을 의무화했다.
그러나, 표절예방 검색 서비스는 연구자가 본인이 작성한 연구결과물과 다른 문서와의 유사도를 따져보는 보조수단임에도 불구하고 표절률 수치만 맞으면 연구윤리가 충족되는 것으로 보는 분위기가 일반화 되고 있다.
표절률 수치를 낮추기 위해 불필요하게 많은 문장을 인용하거나, 실제 인용하지 않은 문장에 인용표기를 하는 등 표절예방 검색 시스템을 악의적으로 활용하는 경우가 발생하였다. 또한 저명한 연구자의 논문을 참고한 것처럼 보이기 위해 허위로 참고문헌을 표기하는 사례가 증가하였다.
종래 기술의 경우에는 APA 양식으로 작성된 문헌을 본문과 참고문헌 파트로 나누고, 본문 파트에 포함된 인용 영역과 참고문헌이 교차하는지 여부를 확인함으로써 타당성 검증을 시행하나, 유효성 검증은 시행하지 않는다. 공개특허 10-2010-006623의 경우, 입력 문헌을 파싱하여 참고문헌 영역을 결정하고, 각 참고문헌을 추출하여 서지 정보, 요약, 원문 등에서 주제어를 추출 및 비교하여 임계값을 기준으로 연관성 및 적합성 판단하는 내용을 개시하나, 기재한 인용 문헌이 실제 피인용 문헌에 기재된 것인지 확인하는 내용은 개시하지 않는다. 이 경우 허위로 참고문헌을 표기하는 사례를 탐지하지 못하며, 인용된 문장이 실제 참고문헌에 작성되었는지 여부를 확인할 수 없다.
또한 각 기관, 학회 마다 주로 작성되는 출처 표기 양식이 다르기 때문에, APA 양식으로 작성된 문헌만을 대상으로 하기 때문에, Chicago, Vancouver, MLA 양식 등으로 작성된 다양한 문서의 타당성을 판단하는 것에 대해 한계가 있을 수 있다.
본 개시에 개시된 실시예는 인용 표기 및 참고 문헌의 표기 패턴 사전을 구축하고, 패턴 사전에 기반하여 문서 내의 인용 영역 및 참고 문헌의 서지 정보를 추출하고, 추출한 서지 정보에 기반하여 인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 방법을 제공하는데 그 목적이 있다.
본 개시가 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 기술적 과제를 달성하기 위한 본 개시에 따른 인용 문헌의 인용 타당성 및 인용 유효성을 검증하는 장치는, 패턴 사전을 저장하는 저장부; 제어부; 입력부; 통신부; 및 상기 제어부의 동작을 제어하는 프로세서를 포함하고, 상기 프로세서는, 인용 문헌 표기 양식의 패턴 사전을 생성하고, 사전 정의 규칙에 기반하여, 상기 입력부로부터 획득한 대상 문서에서 참고 문헌 영역을 추출하고, 상기 패턴 사전에 기반하여, 상기 대상 문서의 본문 내에서 피인용 문헌의 일부를 인용한 인용 문구와 상기 피인용 문헌과 관련된 정보인 인용 정보를 포함하는 인용 영역을 추출하고, 지정된 규칙 기반 알고리즘에 기반하여, 상기 인용 영역 및 상기 참고 문헌 영역의 서지 정보를 추출하고, 딥러닝으로 학습된 서지 정보 추출 인공지능 모델을 이용하여 추출한 서지 정보와 상기 지정된 규칙 기반 알고리즘에 기반하여 추출한 서지 정보를 비교하여 상기 서지 정보를 검증하고, 상기 인용 영역의 서지 정보와 상기 참고 문헌 영역의 서지 정보가 일치하는지 여부와 관련된 상기 인용 타당성을 검증하고, 상기 인용 문구가 상기 피인용 문헌에 기재되었는지 여부와 관련된 상기 인용 유효성을 검증할 수 있다.
또한, 상술한 기술적 과제를 달성하기 위한 본 개시에 따른 인용 문헌의 타당성 및 유효성을 검증하는 시스템은, 적어도 하나의 피인용 문헌을 저장하는 서버; 대상 문서; 및 검증 장치;를 포함하고, 상기 검증 장치는 인용 문헌 표기 양식의 패턴 사전을 생성하고, 상기 대상 문서에서 참고 문헌 영역을 추출하고, 상기 대상 문서의 본문 내에 상기 피인용 문헌의 일부를 인용한 부분인 인용 문구와 상기 피인용 문헌과 관련된 정보인 인용 정보를 포함하는 인용 영역을 추출하고, 상기 인용 영역 및 상기 참고 문헌 영역의 서지 정보를 추출하고, 상기 인용 영역의 서지 정보와 상기 참고 문헌 영역의 서지 정보가 일치하는지 여부와 관련된 인용 타당성을 검증하고, 상기 서버를 이용하여 상기 인용 문구가 상기 피인용 문헌에 기재되었는지 여부와 관련된 인용 유효성을 검증할 수 있다.
또한, 상술한 기술적 과제를 달성하기 위한 본 개시에 따른 검증 장치에 의해 수행되는 인용 문헌의 인용 타당성 및 인용 유효성을 검증하는 방법은, 인용 문헌 표기 양식의 패턴 사전을 생성하는 단계; 대상 문서에서 참고 문헌 영역을 추출하는 단계; 상기 대상 문서의 본문 내에서 피인용 문헌의 일부를 인용한 부분인 인용 문구와 상기 피인용 문헌과 관련된 정보인 인용 정보를 포함하는 인용 영역을 추출하는 단계; 상기 인용 영역 및 상기 참고 문헌 영역의 서지 정보를 추출하는 단계; 딥러닝으로 학습된 서지 정보 추출 인공지능 모델을 이용하여 추출한 서지 정보와 상기 지정된 규칙 기반 알고리즘에 기반하여 추출한 서지 정보를 비교하여 상기 서지 정보를 검증하는 단계; 상기 인용 영역의 서지 정보와 상기 참고 문헌 영역의 서지 정보가 일치하는지 여부와 관련된 상기 인용 타당성을 검증하는 단계; 및 상기 인용 문구가 상기 피인용 문헌에 기재되었는지 여부와 관련된 상기 인용 유효성을 검증하는 단계를 포함할 수 있다.
이 외에도, 본 개시를 구현하기 위한 실행하기 위한 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램이 더 제공될 수 있다.
이 외에도, 본 개시를 구현하기 위한 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.
본 개시의 전술한 과제 해결 수단에 의하면, 검증 장치는 패턴 사전을 생성하여, 지정된 인용 표기하는 양식 외에도 다양한 형태의 인용 표기 양식에 대하여 대상 문서의 인용 타당성과 인용 유효성을 검증하는 효과를 제공한다.
본 개시의 전술한 과제 해결 수단에 의하면, 검증 장치는 대상 문서에 기재된 인용 문구가 피인용 문헌에 실재하는지 여부를 확인할 수 있다.
본 개시의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 인용 문헌의 진위 여부를 검증하는 시스템과 관련한 도면이다.
도 2는 본 개시의 검증 장치의 블록도이다.
도 3 은 본 발명의 검증 장치가 인용 문헌의 진위 여부를 검증하는 동작의 흐름도이다.
도 4는 본 발명의 검증 장치가 동작 1040에서, 서지 정보를 추출하는 방법의 예시를 도시한 도면이다.
도 5는 본 발명의 검증 장치가 동작 1060에서, 인용 타당성을 검증하는 방법의 예시를 도시한 도면이다.
도 6은 본 발명의 검증 장치가 동작 1070에서, 인용 유효성을 검증하는 방법의 구체적인 동작의 흐름도를 도시한 도면이다.
본 개시 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다. 본 개시가 실시예들의 모든 요소들을 설명하는 것은 아니며, 본 개시가 속하는 기술분야에서 일반적인 내용 또는 실시예들 간에 중복되는 내용은 생략한다. 명세서에서 사용되는 '부, 모듈, 부재, 블록'이라는 용어는 소프트웨어 또는 하드웨어로 구현될 수 있으며, 실시예들에 따라 복수의 '부, 모듈, 부재, 블록'이 하나의 구성요소로 구현되거나, 하나의 '부, 모듈, 부재, 블록'이 복수의 구성요소들을 포함하는 것도 가능하다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 간접적으로 연결되어 있는 경우를 포함하고, 간접적인 연결은 무선 통신망을 통해 연결되는 것을 포함한다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
명세서 전체에서, 어떤 부재가 다른 부재 "상에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
제 1, 제 2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위해 사용되는 것으로, 구성요소가 전술된 용어들에 의해 제한되는 것은 아니다.
단수의 표현은 문맥상 명백하게 예외가 있지 않는 한, 복수의 표현을 포함한다.
각 단계들에 있어 식별부호는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 실시될 수 있다.
이하 첨부된 도면들을 참고하여 본 개시의 작용 원리 및 실시예들에 대해 설명한다.
본 명세서에서 '본 개시에 따른 장치'는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 본 개시에 따른 장치는, 컴퓨터, 서버 장치 및 휴대용 단말기를 모두 포함하거나, 또는 어느 하나의 형태가 될 수 있다.
여기에서, 상기 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 태블릿 PC, 슬레이트 PC 등을 포함할 수 있다.
상기 서버 장치는 외부 장치와 통신을 수행하여 정보를 처리하는 서버로써, 애플리케이션 서버, 컴퓨팅 서버, 데이터베이스 서버, 파일 서버, 게임 서버, 메일 서버, 프록시 서버 및 웹 서버 등을 포함할 수 있다.
상기 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말, 스마트 폰(Smart Phone) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치와 시계, 반지, 팔찌, 발찌, 목걸이, 안경, 콘택트 렌즈, 또는 머리 착용형 장치(head-mounted-device(HMD) 등과 같은 웨어러블 장치를 포함할 수 있다.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도 형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들 (weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경 망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
본 개시의 예시적인 실시예에 따르면, 프로세서는 인공지능을 구현할 수 있다. 인공지능이란 사람의 신경세포(biological neuron)를 모사하여 기계가 학습하도록 하는 인공신경망(Artificial Neural Network) 기반의 기계 학습법을 의미한다. 인공지능의 방법론에는 학습 방식에 따라 훈련데이터로서 입력데이터와 출력데이터가 같이 제공됨으로써 문제(입력데이터)의 해답(출력데이터)이 정해져 있는 지도학습(supervised learning), 및 출력데이터 없이 입력데이터만 제공되어 문제(입력데이터)의 해답(출력데이터)이 정해지지 않는 비지도학습(unsupervised learning), 및 현재의 상태(State)에서 어떤 행동(Action)을 취할 때마다 외부 환경에서 보상(Reward)이 주어지는데, 이러한 보상을 최대화하는 방향으로 학습을 진행하는 강화학습(reinforcement learning)으로 구분될 수 있다. 또한, 인공지능의 방법론은 학습 모델의 구조인 아키텍처에 따라 구분될 수도 있는데, 널리 이용되는 딥러닝 기술의 아키텍처는, 합성곱신경망(CNN; Convolutional Neural Network), 순환신경망(RNN; Recurrent Neural Network), 트랜스포머(Transformer), 생성적 대립 신경망(GAN; generative adversarial networks) 등으로 구분될 수 있다.
본 장치와 시스템은 인공지능 모델을 포함할 수 있다. 인공지능 모델은 하나의 인공지능 모델일 수 있고, 복수의 인공지능 모델로 구현될 수도 있다. 인공지능 모델은 뉴럴 네트워크(또는 인공 신경망)로 구성될 수 있으며, 기계학습과 인지과학에서 생물학의 신경을 모방한 통계학적 학습 알고리즘을 포함할 수 있다. 뉴럴 네트워크는 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 의미할 수 있다. 뉴럴 네트워크의 뉴런은 가중치 또는 바이어스의 조합을 포함할 수 있다. 뉴럴 네트워크는 하나 이상의 뉴런 또는 노드로 구성된 하나 이상의 레이어(layer)를 포함할 수 있다. 예시적으로, 장치는 input layer, hidden layer, output layer를 포함할 수 있다. 장치를 구성하는 뉴럴 네트워크는 뉴런의 가중치를 학습을 통해 변화시킴으로써 임의의 입력(input)으로부터 예측하고자 하는 결과(output)를 추론할 수 있다.
프로세서는 뉴럴 네트워크를 생성하거나, 뉴럴 네트워크를 훈련(train, 또는 학습(learn)하거나, 수신되는 입력 데이터를 기초로 연산을 수행하고, 수행 결과를 기초로 정보 신호(information signal)를 생성하거나, 뉴럴 네트워크를 재훈련(retrain)할 수 있다. 뉴럴 네트워크의 모델들은 GoogleNet, AlexNet, VGG Network 등과 같은 CNN(Convolution Neural Network), R-CNN(Region with Convolution Neural Network), RPN(Region Proposal Network), RNN(Recurrent Neural Network), S-DNN(Stacking-based deep Neural Network), S-SDNN(State-Space Dynamic Neural Network), Deconvolution Network, DBN(Deep Belief Network), RBM(Restrcted Boltzman Machine), Fully Convolutional Network, LSTM(Long Short-Term Memory) Network, Classification Network 등 다양한 종류의 모델들을 포함할 수 있으나 이에 제한되지는 않는다. 프로세서는 뉴럴 네트워크의 모델들에 따른 연산을 수행하기 위한 하나 이상의 프로세서를 포함할 수 있다. 예를 들어 뉴럴 네트워크는 심층 뉴럴 네트워크 (Deep Neural Network)를 포함할 수 있다.
뉴럴 네트워크는 CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), 퍼셉트론(perceptron), 다층 퍼셉트론(multilayer perceptron), FF(Feed Forward), RBF(Radial Basis Network), DFF(Deep Feed Forward), LSTM(Long Short Term Memory), GRU(Gated Recurrent Unit), AE(Auto Encoder), VAE(Variational Auto Encoder), DAE(Denoising Auto Encoder), SAE(Sparse Auto Encoder), MC(Markov Chain), HN(Hopfield Network), BM(Boltzmann Machine), RBM(Restricted Boltzmann Machine), DBN(Depp Belief Network), DCN(Deep Convolutional Network), DN(Deconvolutional Network), DCIGN(Deep Convolutional Inverse Graphics Network), GAN(Generative Adversarial Network), LSM(Liquid State Machine), ELM(Extreme Learning Machine), ESN(Echo State Network), DRN(Deep Residual Network), DNC(Differentiable Neural Computer), NTM(Neural Turning Machine), CN(Capsule Network), KN(Kohonen Network) 및 AN(Attention Network)를 포함할 수 있으나 이에 한정되는 것이 아닌 임의의 뉴럴 네트워크를 포함할 수 있음은 통상의 기술자가 이해할 것이다.
본 개시의 예시적인 실시예에 따르면, 프로세서는 GoogleNet, AlexNet, VGG Network 등과 같은 CNN(Convolution Neural Network), R-CNN(Region with Convolution Neural Network), RPN(Region Proposal Network), RNN(Recurrent Neural Network), S-DNN(Stacking-based deep Neural Network), S-SDNN(State-Space Dynamic Neural Network), Deconvolution Network, DBN(Deep Belief Network), RBM(Restrcted Boltzman Machine), Fully Convolutional Network, LSTM(Long Short-Term Memory) Network, Classification Network, Generative Modeling, eXplainable AI, Continual AI, Representation Learning, AI for Material Design, 자연어 처리를 위한 BERT, SP-BERT, MRC/QA, Text Analysis, Dialog System, GPT-3, GPT-4, 비전 처리를 위한 Visual Analytics, Visual Understanding, Video Synthesis, ResNet 데이터 지능을 위한 Anomaly Detection, Prediction, Time-Series Forecasting, Optimization, Recommendation, Data Creation 등 다양한 인공지능 구조 및 알고리즘을 이용할 수 있으며, 이에 제한되지 않는다. 이하, 첨부된 도면을 참조하여 본 개시의 실시예를 상세하게 설명한다.
대상 문서는 검증 장치가 인용 타당성 및 인용 유효성을 검증하는 대상이되는 문헌일 수 있다. 대상 문서는 어떤 주제에 대한 정보, 내용, 데이터 또는 기록을 담은 서면 또는 전자적인 형태의 파일로, 단행본, 학위 논문, 저널 논문, 잡지 기사, 신문 기사, 보고서, 기타 온라인 자료와 같이 다양한 형식이 있을 수 있다.
피인용 문헌은 대상 문서에서 인용한 문구의 원 출처가 되는 문헌일 수 있다.
인용 영역은 다른 문서에서 인용한 내용과 해당 내용이 인용되었음을 표시하는 영역이고, 참고 문헌 영역은 인용한 문서(피인용 문서)의 정보를 기재하는 영역일 수 있다. 인용 영역은 대상 문서의 본문 내에서 피인용 문헌의 일부를 인용한 부분인 인용 문구와 피인용 문헌과 관련된 정보인 인용 정보를 포함할 수 있다.
도 1은 인용 문헌의 진위 여부를 검증하는 시스템과 관련한 도면이다.
도 1을 참고하면, 인용 문헌의 진위 여부를 검증하는 시스템은 검증 대상 문서(10), 대상 문서(10)에서 인용한 피인용 문헌(20)의 진위 여부를 검증하는 검증 장치(100) 및 피인용 문헌(20)의 정보를 저장하는 서버(200)를 포함할 수 있다.
대상 문서(10)는 어떤 주제에 대한 정보, 내용, 데이터 또는 기록을 담은 서면 또는 전자적인 형태의 파일로, 단행본, 학위 논문, 저널 논문, 잡지 기사, 신문 기사, 보고서, 기타 온라인 자료와 같이 다양한 형식이 있을 수 있다. 대상 문서(10)는 본문 내에 다른 문서(피인용 문서)의 일부 내용을 인용할 수 있고, 다양한 인용 문헌 표기 양식에 따라 인용한 문헌의 출처를 표시할 수 있다. 다양한 인용 문헌 표기 양식에 따라, 대상 문서(10)는 인용 영역(11)과 참고 문헌 영역(12)을 포함할 수 있다. 예를 들어, 인용 영역(11)은 피인용 문헌(20)에서 인용한 내용과 해당 내용이 인용되었음을 표시하는 영역이고, 참고 문헌 영역(12)은 피인용 문헌(20)의 정보를 기재하는 영역일 수 있다.
예를 들어, 인용 문헌 표기 양식은 APA 양식, Chicago 양식, MLA 양식, Vancouver 양식, AMA 양식 등 다양한 형태를 포함할 수 있다.
APA 양식은 미국 심리학회(American Psychological Associagion: APA)가 출판한 인용 가이드로, 본문에서 인용한 부분을 내주로 간략하게 표시하고, 완전한 인용정보는 참고문헌에서 찾는 내주 - 참고 문헌 방식이다. APA 양식은 내주에서는 “(저자명, 출판년도)” 또는 “(저자명, 출판년도, 인용 페이지)”를 기재하고, 참고 문헌 영역(12)에는 “저자명. (출판년도). 제목(판). 발행처.”를 기재하는 양식이다.
Chicago 양식은 시카고 대학 출판부가 출판한 인용 가이드로, 각주에 인용한 출처를 작성하고, 그에 대응하는 참고문헌을 작성하는 각주 - 참고 문헌 방식 또는 자료 본문에 인용한 출처를 작성하는 내주 - 참고문헌 방식이다. Chicago양식의 각주 - 참고문헌 방식은 인용하는 절 또는 문장 끝에 위첨자로 아라비아 숫자를 표시하고, 각주에 “저자명, 제목(출판지 : 출판사, 출판연도), 인용면수”를 기재하고, 참고 문헌 영역(12)에는 “저자명, 제목, 출판지 : 출판사, 출판연도”를 기재하는 양식이다. Chicago양식의 내주 - 참고문헌 방식은 내주에 “저자명 출판연도, 인용 면수”를 기재하고, 참고 문헌 영역(12)에는 “저자명. 출판연도. 제목. 출판지: 출판사.”를 기재하는 양식이다.
MLA 양식은 Modern Language Association에서 출판한 인용 가이드로, 본문에서 인용한 부분을 간략하게 표시하고, 완전한 인용정보는 참고 문헌에서 찾는 방식인 내주 - 참고문헌 방식이다. MLA 양식은 내주에는 “저자 페이지”를 기재하고, 참고 문헌 영역(12)에는 “저자명. 표제, 발행연도”를 기재하는 양식이다.
Vancouver 양식은 벤쿠버 그룹에서 출판한 인용 가이드로, 본문에서 숫자로 인용하고, 숫자에 대응되는 인용정보를 참고 문헌에서 기재하는 방식이다. Vancouver 양식은 본문에는 ()괄호, []괄호 및/또는 윗첨자로 숫자를 표기하고, 참고 문헌 영역(12)에는 “저자명. 도서명. 판사항. 출판사주소지: 출판사명; 발행년도, 책 언어”를 기재하는 방식이다.
AMA 양식은 미국의학협회(American Medical Association)에서 발행한 인용 가이드로, 본문에서 숫자로 인용하고, 숫자에 대응되는 인용정보를 참고 문헌에서 기재하는 방식이다. AMA 양식은 본문에는 윗첨자로 숫자를 표기하고, 참고 문헌 영역(12)에는 “저자명. 도서명. 판사항. 출판사주소지: 출판사명; 발행년도.”를 기재하는 방식이다.
본 명세서에서 지시하는 인용 문헌 표기 양식은 상기 예시 또는 기타 정의된 양식에 한정되지 않고, 정의된 양식 외에도 외부 문서의 내용이 인용되었음을 지시하는 다양한 형태의 표기를 포함할 수 있다.
다양한 실시예에 따른 검증 장치(100)는 대상 문서(10)에서 인용한 피인용 문헌(20)의 진위 여부를 검증할 수 있다. 구체적으로, 검증 장치(100)는 대상 문서(10)에서 인용된 피인용 문헌(20)과 관련하여, 인용 타당성 및 인용 유효성을 검증할 수 있다. 예를 들어, 인용 타당성은 본문 내에 인용 영역(11)에 기재된 피인용 문헌(20)의 정보와 참고 문헌 영역(12)에 기재된 피인용 문헌(20)의 정보가 일치하는지 여부와 관련된 지표일 수 있다. 예를 들어, 인용 유효성은 인용 영역(11) 및 참고 문헌 영역(12)에 기재된 피인용 문헌(20)의 정보가 서버(200)에 저장된 피인용 문헌(20)의 정보와 일치하는지 여부와 관련된 지표일 수 있다.
검증 장치(100)의 구체적인 구성 및 동작은 도 2 및 도 3과 관련한 설명에서 후술한다.
도 2는 본 개시의 검증 장치(100)의 블록도이다.
도 2를 참고하면, 본 개시에 따른 검증 장치(100)는 저장부(110), 제어부(120), 입력부(130) 및/또는 통신부(140) 등을 포함할 수 있다. 도 2에 도시된 구성요소들은 본 개시에 따른 검증 장치(100)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서 상에서 설명되는 검증 장치(100)는 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.
저장부(110)는 메모리일 수 있다. 메모리는 본 장치의 다양한 기능을 지원하는 데이터와, 제어부(120)의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들(예를 들어, 음악 파일, 정지영상, 동영상 등)을 저장할 있고, 본 장치에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 본 장치의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버(200)로부터 다운로드 될 수 있다.
이러한, 메모리는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 또한, 메모리는 본 장치와는 분리되어 있으나, 유선 또는 무선으로 연결된 데이터베이스가 될 수도 있다.
다양한 실시예에 따른 저장부(110)는 패턴 사전(111)을 저장할 수 있다.
일 실시예에 따른 패턴 사전(111)은 n개의 형식과 기호로 구성되어, 인용 문헌 표기 양식에 따라 인용 정보 및/또는 참고 문헌 정보를 표시하는 형식을 저장할 수 있다. 예를 들어, 패턴 사전(111)은 인용 영역(11) 및/또는 참고 문헌 영역(12)에 포함된 피인용 문헌(20)의 정보의 구성(예 : 저자명, 인용 페이지, 출판사명), 정보를 구분하는 기호(예 : 쉼표, 마침표, 큰따옴표), 정보의 종류를 지시하는 지정된 문자열(예 : pp, et al), 지정된 규칙(예 : 저자명 : Author, 페이지 : p.32, 년도 : 2022년)순서 및 표시 방법(예 : 내주 : “(저자명, 출판년도)”, 참고 문헌 영역(12) : “저자명. (출판년도). 제목(판). 발행처.”/ 내주 : ()괄호, []괄호 및/또는 윗첨자로 숫자 표기, 참고 문헌 영역(12) : “저자명. 도서명. 판사항. 출판사주소지: 출판사명; 발행년도, 책 언어”)과 같이 인용 정보 및/또는 참고 문헌 정보를 표시하는 형식과 관련된 정보를 저장할 수 있다.
제어부(120)는 본 장치 내의 구성요소들의 동작을 제어하기 위한 알고리즘 또는 알고리즘을 재현한 프로그램에 대한 데이터를 저장하는 메모리, 및 메모리에 저장된 데이터를 이용하여 전술한 동작을 수행하는 적어도 하나의 프로세서(미도시)로 구현될 수 있다. 이때, 메모리와 프로세서는 각각 별개의 칩으로 구현될 수 있다. 또는, 메모리와 프로세서는 단일 칩으로 구현될 수도 있다.
또한, 제어부(120)는 이하의 도 2 내지 도 6에서 설명되는 본 개시에 따른 다양한 실시 예들을 본 장치 상에서 구현하기 위하여, 위에서 살펴본 구성요소들을 중 어느 하나 또는 복수를 조합하여 제어할 수 있다.
다양한 실시예에 따른 제어부(120)는 패턴 구축부(121), 추출부(122), 타당성 검증부(123), 검색부(124) 및/또는 유효성 검증부(125)를 포함할 수 있다.
다양한 실시예에 따른 패턴 구축부(121) 는 인용 문헌 표기 양식을 패턴화 하여, 인용 정보 및/또는 참고 문헌 정보의 표기와 관련된 패턴 사전(111)을 생성할 수 있다. 예를 들어, 인용 문헌 표기 양식은 APA 양식, Chicago 양식, MLA 양식, Vancouver 양식, AMA 양식을 포함하는 다양한 정의된 양식을 포함할 수 있고, 인용 문헌 표기 양식은 이에 한정되지 않고, 정의된 양식 외에도 외부 문서의 내용이 인용되었음을 지시하는 다양한 형태의 표기를 포함할 수 있다.
다양한 실시예에 따른 추출부(122)는 참고 문헌 영역(12) 및/또는 인용 영역(11)을 추출하고, 참고 문헌 영역(12) 및 인용 영역(11)에 기재된 서지 정보를 추출할 수 있다.
일 실시예에 따르면, 추출부(122)는, 입력부(130)로부터 진위 여부를 검증할 대상 문서(10)를 획득하고, 입력부(130)로부터 획득한 대상 문서(10)에서 참고 문헌 영역(12)을 추출할 수 있다.
일 실시예에 따르면, 추출부(122)는 문서에서 참고 문헌 영역(12)의 시작점과 마지막 지점을 찾아, 참고 문헌의 시작점부터 마지막 지점까지를 참고 문헌 영역(12)으로 결정할 수 있다. 예를 들어, 추출부(122)는 사전 정의 규칙에 기반하여, 참고 문헌 영역(12)의 시작점의 키워드를 확인할 수 있다. 예를 들어, 추출부(122)는 사전 정의 규칙 및/또는 서버(200)에 저장된 다양한 데이터를 학습한 인공지능 모델에 기반하여, 참고 문헌의 마지막 지점을 확인할 수 있다.
일 실시예에 따른 추출부(122)는, 인용 영역(11)을 추출할 수 있다.
일 실시예에 따르면, 추출부(122)는 입력부(130)로부터 획득한 문서에서, 본문 내 피인용 문헌의 일부를 인용한 부분인 인용 문구와 인용한 피인용 문헌과 관련된 정보인 인용 정보를 포함하는 인용 영역(11)을 추출할 수 있다. 예를 들어, 추출부(122)는 패턴 구축부(121)가 생성한 패턴 사전(111)에 기반하여, 문서의 본문 내 인용 영역(11)을 추출할 수 있다.
일 실시예에 따른 추출부(122)는, 서지 정보를 추출할 수 있다. 예를 들어, 추출부(122)는, 참고 문헌 영역(12) 및/또는 인용 영역(11)에서, 지정된 규칙에 기반하여 서지 정보를 추출할 수 있다. 예를 들어, 서지 정보는 저자, 연도, 제목, 페이지, 출판사, URL 등과 같이 인용 정보 및/또는 참고 문헌 정보의 구성일 수 있다.
일 실시예에 따른 추출부(122)는, 추출한 서지 정보와 딥러닝으로 학습된 서지 정보 추출 모델을 비교하여, 추출한 서지 정보를 검증할 수 있다.
다양한 실시예에 따른 타당성 검증부(123)는, 인용 타당성을 검증할 수 있다.
예를 들어, 인용 타당성은 본문 내에 인용 영역(11)에 기재된 피인용 문헌(20)의 정보와 참고 문헌 영역(12)에 기재된 피인용 문헌(20)의 정보가 일치하는지 여부와 관련된 지표일 수 있다.
일 실시예에 따르면, 타당성 검증부(123)는 검증한 최종 서지 정보에 기반하여, 인용 영역(11)에서 추출한 서지 정보와 참고 문헌 영역(12)에서 추출한 서지 정보를 비교하여 인용 타당성을 검증할 수 있다.
예를 들어, 타당성 검증부(123) 인용 영역(11)에서 추출한 서지 정보와 참고 문헌 영역(12)에서 추출한 서지 정보의 일치율을 확인하고, 가장 높은 값의 일치율을 가진 출처에 대해 일치하는 형식의 개수를 구하고, 개수가 2개 이상인 경우 참고 문헌에 기재한 문서에 대한 정보가 본문 내에 인용표기 되어 있음, 즉 인용 타당하다고 판단할 수 있다.
다양한 실시예에 따른 검색부(124)는, 타당성 검증한 서지 정보에 기반하여, 통신부(140)를 이용하여 서버(200)에서 서지 정보에 대응하는 피인용 문헌(20)을 검색할 수 있다.
예를 들어, 검색부(124)는 통신부(140)를 통하여 서버(200)로부터 피인용 문헌(20)과 관련된 정보를 획득할 수 있다. 서버(200)에는 학술논문, 보고서와 같은 다양한 문서를 포함하는 메타데이터 DB가 포함될 수 있다.
예를 들어, 검색부(124)는 검색된 피인용 문헌(20)을 통신부(140)를 통하여 서버(200)로부터 획득할 수 있다.
다양한 실시예에 따른 유효성 검증부(125)는, 인용 유효성을 검증할 수 있다.
예를 들어, 인용 유효성은 본문 내 인용 문구가 피인용 문헌(20)에 기재되었는지 여부와 관련된 지표일 수 있다. 인용 유효성은 문장 레벨에서 인용 문구와 피인용 문헌(20)에 포함된 문구와의 표면적 일치성 및/또는 의미적 유사성과 관련된 지표일 수 있다.
예를 들어, 유효성 검증부(125)는, 피인용 문헌(20)을 문자 단위로 구분하고, 문장 레벨에서 인용 문구와 표면적 일치성을 확인할 수 있다. 예를 들어, 표면적 일치성은 단순히 문장의 구성 요소나 단어들이 일치하는 정도를 지시하는 지표일 수 있다.
예를 들어, 유효성 검증부(125)는 인용 문구와 피인용 문헌(20)에 포함된 문구와의 의미적 유사성을 확인할 수 있다. 예를 들어, 의미적 유사성은 두 문장이 단어나 구조가 다르더라도 의미적으로 비슷하거나 동일한 의미를 전달하는지와 관련된 지표일 수 있다.
예를 들어, 유효성 검증부(125)는 표면적 일치성 및/또는 의미적 유사성 지표가 지정된 값(예 : 80%) 이상임에 대응하여, 인용 문구가 유효하다고 판단할 수 있다.
통신부(140)는 외부 장치와 통신을 가능하게 하는 하나 이상의 구성 요소를 포함할 수 있으며, 예를 들어, 유선통신 모듈 및/또는 무선통신 모듈 을 포함할 수 있다.
유선 통신 모듈은, 지역 통신(Local Area Network; LAN) 모듈, 광역 통신(Wide Area Network; WAN) 모듈 또는 부가가치 통신(Value Added Network; VAN) 모듈 등 다양한 유선 통신 모듈뿐만 아니라, USB(Universal Serial Bus), HDMI(High Definition Multimedia Interface), DVI(Digital Visual Interface), RS-232(recommended standard232), 전력선 통신, 또는 POTS(plain old telephone service) 등 다양한 케이블 통신 모듈을 포함할 수 있다.
무선 통신 모듈은 와이파이(Wifi) 모듈, 와이브로(Wireless broadband) 모듈 외에도, GSM(global System for Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(universal mobile telecommunications system), TDMA(Time Division Multiple Access), LTE(Long Term Evolution), 4G, 5G, 6G 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 포함할 수 있다.
무선 통신 모듈은 이동통신 신호를 송신하는 안테나 및 송신기(Transmitter)를 포함하는 무선 통신 인터페이스를 포함할 수 있다. 또한, 무선 통신 모듈은 제어부(120)의 제어에 따라 무선 통신 인터페이스를 통해 제어부(120)로부터 출력된 디지털 제어 신호를 아날로그 형태의 무선 신호로 변조하는 신호 변환 모듈을 더 포함할 수 있다.
무선 통신 모듈은 이동통신 신호를 수신하는 안테나 및 수신기(Receiver)를 포함하는 무선 통신 인터페이스를 포함할 수 있다. 또한, 무선 통신 모듈은 무선 통신 인터페이스를 통하여 수신한 아날로그 형태의 무선 신호를 디지털 제어 신호로 복조하기 위한 신호 변환 모듈을 더 포함할 수 있다.
입력부(130)는 데이터 또는 사용자로부터 입력되는 정보의 입력을 위한 것으로서, 적어도 하나의 카메라, 적어도 하나의 마이크로폰 및 사용자 입력부(130) 중 적어도 하나를 포함할 수 있다. 입력부(130)에서 수집한 음성 데이터나 이미지 데이터는 분석되어 사용자의 제어명령으로 처리될 수 있다.
사용자 입력부(130)는 사용자로부터 정보를 입력받기 위한 것으로서, 사용자 입력부(130)를 통해 정보가 입력되면, 제어부(120)는 입력된 정보에 대응되도록 본 장치의 동작을 제어할 수 있다. 이러한, 사용자 입력부(130)는 하드웨어식 물리 키(예를 들어, 본 장치의 전면, 후면 및 측면 중 적어도 하나에 위치하는 버튼, 돔 스위치 (dome switch), 조그 휠, 조그 스위치 등) 및 소프트웨어식 터치 키를 포함할 수 있다. 일 예로서, 터치 키는, 소프트웨어적인 처리를 통해 터치스크린 타입의 디스플레이부 상에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 상기 터치스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다. 한편, 상기 가상키 또는 비주얼 키는, 다양한 형태를 가지면서 터치스크린 상에 표시되는 것이 가능하며, 예를 들어, 그래픽(graphic), 텍스트(text), 아이콘(icon), 비디오(video) 또는 이들의 조합으로 이루어질 수 있다.
일 실시예에 따르면, 입력부(130)는 인용 문헌의 진위 여부를 검증할 문서를 획득할 수 있다. 예를 들어, 대상 문서(10)는 어떤 주제에 대한 정보, 내용, 데이터 또는 기록을 담은 서면 또는 전자적인 형태의 파일로, 단행본, 학위 논문, 저널 논문, 잡지 기사, 신문 기사, 보고서, 기타 온라인 자료와 같이 다양한 형식이 있을 수 있다. 대상 문서(10)는 본문 내에 다른 문서(피인용 문서)의 일부 내용을 인용할 수 있고, 다양한 인용 문헌 표기 양식에 따라 인용한 문헌의 출처를 표시할 수 있다.
본 개시에 따른 검증 장치는, 인용 문헌 표기 양식의 패턴 사전을 생성하고, 상기 입력부로부터 획득한 대상 문서에서 참고 문헌 영역을 추출하고, 상기 대상 문서의 본문 내에서 피인용 문헌의 일부를 인용한 부분인 인용 문구와 상기 피인용 문헌과 관련된 정보인 인용 정보를 포함하는 인용 영역을 추출하고, 상기 인용 영역 및 상기 참고 문헌 영역의 서지 정보를 추출하고, 상기 인용 영역의 서지 정보와 상기 참고 문헌 영역의 서지 정보가 일치하는지 여부와 관련된 인용 타당성을 검증하고, 상기 인용 문구가 상기 피인용 문헌에 기재되었는지 여부와 관련된 인용 유효성을 검증할 수 있다.
또한, 본 개시에 따른 검증 장치는 사전 정의 규칙에 기반하여, 상기 대상 문서에서 참고 문헌 영역의 시작점과 마지막 지점을 찾아 상기 시작점부터 상기 마지막 지점까지를 상기 참고 문헌 영역으로 추출하고, 자연어 처리 기술에 기반하여, 상기 대산 문서의 본문 내의 텍스트를 어절 및/또는 기호 단위로 분리하고, 상기 패턴 사전에 포함된 인용 패턴과 일치하는 영역을 인용 영역으로 추출하고, 지정된 규칙 기반 알고리즘에 기반하여 상기 참고 문헌 영역 및 상기인용 영역의 서지 정보를 추출할 수 있다.
또한, 본 개시에 따른 검증 장치는 상기 추출한 서지 정보에 기반하여 상기 통신부를 이용하여 서버에 상기 서지 정보에 대응하는 피인용 문헌을 검색하고, 상기 검색한 피인용 문헌을 상기 통신부를 통하여 획득하고, 상기 인용 문구와 상기 피인용 문헌의 표면적 일치성을 확인하고, 상기 인용 문구와 상기 피인용 문헌의 의미적 유사성을 확인하여 상기 인용 문구가 상기 피인용 문헌에 기재되었는지 여부와 관련된 인용 유효성을 검증할 수 있다.
도 2에 도시된 구성 요소들의 성능에 대응하여 적어도 하나의 구성요소가 추가되거나 삭제될 수 있다. 또한, 구성 요소들의 상호 위치는 시스템의 성능 또는 구조에 대응하여 변경될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.
한편, 도 2에서 도시된 각각의 구성요소는 소프트웨어 및/또는 Field Programmable Gate Array(FPGA) 및 주문형 반도체(ASIC, Application Specific Integrated Circuit)와 같은 하드웨어 구성요소를 의미한다.
도 3은 본 발명의 검증 장치(100)가 인용 문헌의 진위 여부를 검증하는 동작의 흐름도이다.
다양한 실시예에 따른 제어부(120)는, 동작 1010에서, 인용 정보 및/또는 참고 문헌의 표기 패턴 사전(111)을 생성할 수 있다.
일 실시예에 따르면, 제어부(120)는 인용 문헌 표기 양식을 패턴화 하여, 인용 정보 및/또는 참고 문헌 정보의 표기와 관련된 패턴 사전(111)을 생성할 수 있다. 예를 들어, 인용 문헌 표기 양식은 APA 양식, Chicago 양식, MLA 양식, Vancouver 양식, AMA 양식을 포함하는 다양한 정의된 양식을 포함할 수 있고, 인용 문헌 표기 양식은 이에 한정되지 않고, 정의된 양식 외에도 외부 문서의 내용이 인용되었음을 지시하는 다양한 형태의 표기를 포함할 수 있다.
패턴 사전(111)은 n개의 형식과 기호로 구성되어, 인용 문헌 표기 양식에 따라 인용 정보 및/또는 참고 문헌 정보를 표시하는 형식으로 구성될 수 있다. 예를 들어, 패턴 사전(111)에 포함되는 인용 문헌의 표기 양식의 패턴은 인용 영역(11) 및/또는 참고 문헌 영역(12)에 포함된 피인용 문헌(20)의 정보의 구성(예 : 저자명, 인용 페이지, 출판사명), 정보를 구분하는 기호(예 : 쉼표, 마침표, 큰따옴표), 정보의 종류를 지시하는 지정된 문자열(예 : pp, et al), 지정된 표기 규칙(예 : 저자명 : Author, 페이지 : p.32, 년도 : 2022년)순서 및 표시 방법(예 : 내주 : “(저자명, 출판년도)”, 참고 문헌 영역(12) : “저자명. (출판년도). 제목(판). 발행처.”/ 내주 : ()괄호, []괄호 및/또는 윗첨자로 숫자 표기, 참고 문헌 영역(12) : “저자명. 도서명. 판사항. 출판사주소지: 출판사명; 발행년도, 책 언어”)과 같이 인용 정보 및/또는 참고 문헌 정보를 표시하는 형식과 관련된 정보를 저장할 수 있다.
인용 영역(11)은 피인용 문헌의 일부를 인용한 부분인 인용 문구와 인용한 피인용 문헌과 관련된 정보인 인용 정보를 포함할 수 있다.
일 실시예에 따르면, 제어부(120)는 인공지능 모델을 서버(200)에 저장된 다양한 데이터를 학습시켜 패턴 사전(111)을 생성할 수 있다.
다양한 실시예에 따른 제어부(120)는, 동작 1020에서, 참고 문헌 영역(12)을 추출할 수 있다.
일 실시예에 따르면, 입력부(130)는 인용 문헌의 진위 여부를 검증할 문서를 획득할 수 있다. 예를 들어, 대상 문서(10)는 어떤 주제에 대한 정보, 내용, 데이터 또는 기록을 담은 서면 또는 전자적인 형태의 파일로, 단행본, 학위 논문, 저널 논문, 잡지 기사, 신문 기사, 보고서, 기타 온라인 자료와 같이 다양한 형식이 있을 수 있다. 대상 문서(10)는 본문 내에 다른 문서(피인용 문서)의 일부 내용을 인용할 수 있고, 다양한 인용 문헌 표기 양식에 따라 인용한 문헌의 출처를 표시할 수 있다.
일 실시예에 따르면, 제어부(120)는, 입력부(130)로부터 진위 여부를 검증할 문서를 획득하고, 입력부(130)로부터 획득한 문서에서 참고 문헌 영역(12)을 추출할 수 있다.
일 실시예에 따르면, 제어부(120)는 문서에서 참고 문헌 영역(12)의 시작점과 마지막 지점을 찾아, 참고 문헌의 시작점부터 마지막 지점까지를 참고 문헌 영역(12)으로 결정할 수 있다. 예를 들어, 제어부(120)는 사전 정의 규칙에 기반하여, 참고 문헌 영역(12)의 시작점의 키워드를 확인할 수 있다. 예를 들어, 참고 문헌 영역(12)의 시작점의 키워드는 '참고 문헌', 'reference'과 같이 참고 문헌 영역(12)의 시작을 지시하는 단어 및/또는 문장일 수 있다. 예를 들어, 제어부(120)는 사정 정의 규칙 및/또는 서버(200)에 저장된 다양한 데이터를 학습한 인공지능 모델에 기반하여, 참고 문헌의 마지막 지점을 확인할 수 있다.
다양한 실시예에 따른 제어부(120)는, 동작1030에서, 인용 영역(11)을 추출할 수 있다.
일 실시예에 따르면, 제어부(120)는 입력부(130)로부터 획득한 문서에서, 본문 내 피인용 문헌의 일부를 인용한 부분인 인용 문구와 인용한 피인용 문헌과 관련된 정보인 인용 정보를 포함하는 인용 영역(11)을 추출할 수 있다.
예를 들어, 제어부(120)는 동작 1010에서 생성한 패턴 사전(111)에 기반하여, 문서의 본문 내 인용 영역(11)을 추출할 수 있다. 제어부(120)는 자연어 처리 기술에 기반하여, 문서의 본문 내의 텍스트를 어절 및/또는 기호 단위로 분리하고, 패턴 사전(111)에 포함된 인용 패턴과 일치하는 영역을 인용 영역(11)으로 추출할 수 있다.
예를 들어, 제어부(120)는 서버(200)에 저장된 다양한 데이터를 학습한 인공지능 모델을 이용하여, 문서의 본문 내 인용 영역(11)을 추출할 수 있다.
다양한 실시예에 따른 제어부(120)는, 동작1040에서, 서지 정보를 추출할 수 있다.
일 실시예에 따르면, 제어부(120)는, 동작 1020에서 추출한 참고 문헌 영역(12) 및/또는 동작 1030에서 추출한 인용 영역(11)에서, 지정된 규칙기반 알고리즘에 기반하여, 서지 정보를 추출할 수 있다. 예를 들어, 서지 정보는 저자, 연도, 제목, 페이지, 출판사, URL 등과 같이 인용 정보 및/또는 참고 문헌 정보의 구성일 수 있다.
일 실시예에 따르면, 제어부(120)는 인용 영역(11) 및/또는 참고 문헌 정보를 기호 기준으로 분리하고, 지정된 문자열을 인식할 수 있다.
기호는 쉼표(,), 마침표(.), 큰따옴표(“), 하이픈(-) 등과 같이 정보를 구분하는 방식에 따른 기호일 수 있다.
지정된 문자열은 ‘pp’, ‘p’ 등 페이지임을 알 수 있는 문자열, ‘et al’, ‘외’ 등 저자 영역임을 알 수 있는 문자열, ‘https’, ‘www’ 등 url 임을 알 수 있는 문자열 등과 같이 정보의 종류를 지시하는 문자열을 포함할 수 있다.
일 실시예에 따르면, 제어부(120)는 지정된 규칙에 기반하여 서지 정보를 추출할 수 있다.
지정된 규칙은 ‘Author, A. A.’ 또는 ‘Author AA’ 와 같은 저자 표기 패턴, ‘p. 32’ 또는 ‘pp.63-64’ 와 같은 페이지 표기 패턴, ‘(2022)’ 또는 ‘2022년’ 와 같은 발행연도 표기 패턴을 포함할 수 있다.
다양한 실시예에 따른 제어부(120)는, 동작1050에서, 서지 정보를 검증할 수 있다.
일 실시예에 따르면, 제어부(120)는 동작 1040에서 지정된 규칙에 기반하여 추출한 서지 정보와 딥러닝으로 학습된 서지 정보 추출 모델을 비교하여 동작 1040에서 추출한 서지 정보를 검증할 수 있다.
일 실시예에 따르면, 제어부(120)는, 딥러닝으로 학습된 서지 정보 추출 인공지능 모델을 이용하여 인용 영역(11)에서 서지 정보를 추출할 수 있다. 예를 들어, 서지 정보 추출 모델은 기법은 비정형 텍스트에서 개체명을 인명, 장소, 시간 표현 등 미리 정의된 항목으로 분류하고 추출하는 NER(Named Entity Recognition) 서지 정보 추출 모델일 수 있다. 예를 들어, 제어부(120)는 서지 정보 추출 모델에 인용 영역(11)과 관련된 정보를 입력하고, 연도, 제목, 출판사, 페이지 등 항목으로 분류되고, 각 형식의 텍스트 값 및 위치 정보를 포함하는 정보를 출력받을 수 있다.
일 실시예 따르면, 제어부(120)는, 동작 1040에서 지정된 규칙에 기반하여 추출한 서지 정보와 딥러닝으로 학습된 서지 정보 추출 모델을 이용하여 추출한 서지 정보가 일치함에 대응하여, 최종 서지 정보로 결정할 수 있다.
일 실시예 따르면, 제어부(120)는, 동작 1040에서 지정된 규칙에 기반하여 추출한 서지 정보와 딥러닝으로 학습된 서지 정보 추출 모델을 이용하여 추출한 서지 정보가 일치하지 않음에 대응하여, 딥러닝으로 학습된 서지 정보 추출 모델을 이용하여 추출한 서지 정보를 최종 서지 정보로 결정할 수 있다.
다양한 실시예에 따른 제어부(120)는, 동작1060에서, 인용 타당성을 검증할 수 있다.
예를 들어, 인용 타당성은 본문 내에 인용 영역(11)에 기재된 피인용 문헌(20)의 정보와 참고 문헌 영역(12)에 기재된 피인용 문헌(20)의 정보가 일치하는지 여부와 관련된 지표일 수 있다.
일 실시예에 따르면, 제어부(120)는, 동작 1050에서 검증한 최종 서지 정보에 기반하여, 인용 영역(11)에서 추출한 서지 정보와 참고 문헌 영역(12)에서 추출한 서지 정보를 비교하여 인용 타당성을 검증할 수 있다.
예를 들어, 제어부(120)는 인용 영역(11)에서 추출한 서지 정보와 참고 문헌 영역(12)에서 추출한 서지 정보의 일치율을 확인할 수 있다.
예를 들어, 제어부(120)는 가장 높은 값의 일치율을 가진 출처에 대해 일치하는 형식의 개수를 구하고, 개수가 2개 이상인 경우 참고 문헌에 기재한 문서에 대한 정보가 본문 내에 인용표기 되어 있음, 즉 인용 타당하다고 판단할 수 있다.
다양한 실시예에 따른 제어부(120)는, 동작1070에서, 인용 유효성을 검증할 수 있다.
예를 들어, 인용 유효성은 본문 내 인용 문구가 피인용 문헌(20)에 기재되었는지 여부와 관련된 지표일 수 있다. 인용 유효성은 문장 레벨에서 인용 문구와 피인용 문헌(20)에 포함된 문구와의 표면적 일치성 및/또는 의미적 유사성과 관련된 지표일 수 있다.
제어부(120)는 통신부(140)를 통하여 서버(200)로부터 피인용 문헌(20)과 관련된 정보를 획득할 수 있다. 서버(200)에는 학술논문, 보고서와 같은 다양한 문서를 포함하는 메타데이터 DB가 포함될 수 있다.
일 실시예에 따르면, 제어부(120)는 동작 1060에서 타당성 검증한 서지 정보에 기반하여, 통신부(140)를 이용하여 서버(200)에서 서지 정보에 대응하는 피인용 문헌(20)을 검색할 수 있다.
일 실시예에 따르면, 제어부(120)는 검색된 피인용 문헌(20)을 통신부(140)를 통하여 서버(200)로부터 획득할 수 있다.
일 실시예에 따르면, 제어부(120)는 피인용 문헌(20)을 문자 단위로 구분하고, 문장 레벨에서 인용 문구와 표면적 일치성을 확인할 수 있다. 예를 들어, 표면적 일치성은 단순히 문장의 구성 요소나 단어들이 일치하는 정도를 지시하는 지표일 수 있다.
일 실시예에 따르면, 제어부(120)는 인용 문구와 피인용 문헌(20)에 포함된 문구와의 의미적 유사성을 확인할 수 있다. 예를 들어, 의미적 유사성은 두 문장이 단어나 구조가 다르더라도 의미적으로 비슷하거나 동일한 의미를 전달하는지와 관련된 지표일 수 있다.
일 실시예에 따르면, 제어부(120)는 표면적 일치성 및/또는 의미적 유사성 지표가 지정된 값(예 : 80%) 이상임에 대응하여, 인용 문구가 유효하다고 판단할 수 있다.
다양한 실시예에 따른 제어부(120)는, 동작1080에서, 진위 여부를 검증할 수 있다.
일 실시예에 따르면, 제어부(120)는 문서가 인용 타당성 및 인용 유효성이 검증됨에 대응하여, 피인용 문헌(20)이 실재함을 확인할 수 있다.
도 4는 본 발명의 검증 장치(100)가 동작 1040에서, 서지 정보를 추출하는 방법의 예시를 도시한 도면이다.
도 4를 참조하면, 제어부(120)는 동작 1020에서 추출한 참고 문헌 영역(12) 및/또는 동작 1030에서 추출한 인용 영역(11)에서, 지정된 규칙 및 패턴에 기반하여 서지 정보를 추출할 수 있다. 예를 들어, 서지 정보는 저자, 연도, 제목, 페이지, 출판사, URL 등과 같이 인용 정보 및/또는 참고 문헌 정보의 구성일 수 있다.
도 4의 경우, “Hemingway, E. M. (1952). The Old Mand and the Sea. Charles Scribner's sons.”가 인용 영역(11)에 기재된 텍스트인 경우, 제어부(120)는 인용 영역(11)을 기호 기준으로 분리할 수 있다.
예를 들어, 제어부(120)는 마침표(.)를 기준으로 정보를 구분하고, 각 구분된 정보를 규칙 기반 알고리즘에 기반하여, 서지 정보를 추출 할 수 있다.
예를 들어, 제어부(120)는 규칙 기반 알고리즘에 기반하여, 저자 표기 규칙에 대응되는 ‘Hemingway, E. M.’, 발행연도 표기 규칙에 대응되는 (1952), 제목 표기 규칙에 대응되는 '「The Old Man and the Sea.」', 출판사 표기 규칙에 대응되는 'NY: Charles Scribner's sons'을 인식하여, 각 서지 정보를 추출할 수 있다. 이 외 규칙에 대응하지 않는 개체명은 NER 모델을 통해 추가로 추출할 수 있다.
도 5는 본 발명의 검증 장치(100)가 동작 1060에서, 인용 타당성을 검증하는 방법의 예시를 도시한 도면이다.
일 실시예에 따르면, 제어부(120)는, 동작 1050에서 검증한 최종 서지 정보에 기반하여, 인용 영역(11)에서 추출한 서지 정보와 참고 문헌 영역(12)에서 추출한 서지 정보를 비교하여 인용 타당성을 검증할 수 있다.
도 5의 경우, 본문 내 “(Hemingway, 1952)”가 인용 영역(11)에 기재된 텍스트인 경우, 제어부(120)는 동작 1040 및 동작 1050에서 저자 정보인 “Hemingway”와 발행 연도인 “1952”를 각각 서지 정보로 추출할 수 있다.
또한, 참고 문헌 영역(12)에 “Hemingway, E. M. (1952). The Old Mand and the Sea. Charles Scribner's sons.”가 기재된 텍스트인 경우, 제어부(120)는 동작 1040 및 동작 1050에서 저자 정보인 ‘Hemingway, E. M.’, 발행 연도인 “1952”, 제목인 “The Old Man and the Sea.”, 출판사인 “Charles Scribner's sons”를 각각 서지 정보로 추출할 수 있다.
제어부(120)는 인용 영역(11)에서 추출한 서지 정보와 참고 문헌 영역(12)에서 추출한 서지 정보의 일치율을 확인할 수 있다. 제어부(120)는 서지 정보에 선택적 가중치를 부여하여 일치율 산정에 반영할 수 있다. 예를 들어, 문자열 길이가 짧거나 다른 참고문헌의 형식과 일치할 가능성이 높은 서지 정보(예 : 연도, 페이지 등)은 가중치를 낮게, 문자열 길이가 길거나 다른 참고문헌의 형식과 일치할 가능성이 낮은 서지 정보(예 : 제목)은 가중치를 높게 부여할 수 있다. 이 때, 가중치는 1~100 사이의 값일 수 있다.
일 실시예에 따르면, 일치율은 수학식 1과 같이 정의될 수 있다.
Figure 112023030781211-pat00001
예를 들어, 제어부(120)는 가장 높은 값의 일치율을 가진 출처에 대해 일치하는 서지 정보의 개수를 구하고, 개수가 2개 이상인 경우 참고 문헌에 기재한 문서에 대한 정보가 본문 내에 인용표기 되어 있음, 즉 인용 타당하다고 판단할 수 있다.
도 5의 경우, 저자 정보인 “Hemingway”와 발행 연도인 “1952”가 인용 영역(11) 및 참고 문헌 영역(12)에서 각각 일치하는 바, 제어부(120)는 일치하는 서지 정보가 2개이므로 인용 타당하다고 판단할 수 있다.
도 6은 본 발명의 검증 장치(100)가 동작 1070에서, 인용 유효성을 검증하는 방법의 구체적인 동작의 흐름도를 도시한 도면이다.
다양한 실시예에 따르면, 제어부(120)는, 동작 1071에서, 동작 1060에서 타당성 검증한 서지 정보에 기반하여 통신부(140)를 이용하여 서버(200)에서 서지 정보에 대응하는 피인용 문헌(20)을 검색할 수 있다. 서버(200)에는 학술논문, 보고서와 같은 다양한 문서를 포함하는 메타데이터 DB가 포함될 수 있다.
예를 들어, 제어부(120)는 서지 정보와 메타 데이터의 일치율에 기반하여 피인용 문헌(20)을 검색할 수 있다. 예를 들어, 제어부(120)는 수학식 1에 따라 서지 정보와 피인용 문헌(20)의 정보의 일치율을 계산하고, 가장 높은 값의 일치율을 가지는 피인용 문헌(20)을 검색할 수 있다.
다양한 실시예에 따르면, 제어부(120)는, 동작 1072에서, 제어부(120)는 검색된 피인용 문헌(20)과 관련된 정보를 통신부(140)를 통하여 서버(200)로부터 획득할 수 있다.
다양한 실시예에 따르면, 제어부(120)는, 동작 1073에서, 인용 문구와 피인용 문헌(20)의 표면적 일치성을 확인할 수 있다.
일 실시예에 따르면, 제어부(120)는 인용 문구 및 피인용 문헌(20)을 문자 단위로 구분하고, 문장 레벨에서 인용 문구 및 피인용 문헌(20)의 표면적 일치성을 확인할 수 있다. 예를 들어, 제어부(120)는 피인용 문헌(20)의 텍스트를 자연어 처리 방식(예 : N 개의 연속적인 단어나 문자열을 추출하는 N-gram 방식)로 추출하고, 추출된 각 토큰(예 : N 개의 연속적인 단어)이 서로 일치하는지 확인하여 표면적 일치성을 확인할 수 있다. 예를 들어, 표면적 일치성은 두 집합의 유사성을 측정하는 지표인 자카드 지수(Jaccard index)를 활용하여 측정할 수 있다. 자카드 지수는 두 집합에서 공통으로 가지고 있는 원소의 개수를 두 집합의 전체 원소의 개수로 나눈 값을 나타내는 지표일 수 있다.
다양한 실시예에 따르면, 제어부(120)는, 동작 1074에서, 인용 문구와 피인용 문헌(20)에 포함된 문구와의 의미적 유사성을 확인할 수 있다.
일 실시예에 따르면, 제어부(120)는 키프레이즈(Keyphrase) 추출 기술과 패러프레이즈(Paraphrase) 탐지 기술을 활용하여 의미적 유사성을 확인할 수 있다.
제어부(120)는 키프레이즈를 추출 기술을 사용하여 문장에서 중요한 단어를 추출하고, 추출된 키프레이즈에 대해 패러프레이즈 탐지 기술을 이용하여 의미적 유사성을 확인할 수 있다.
키프레이즈 추출 기술은 문서에서 중요한 의미를 담고 있는 키워드를 추출하는 기술일 수 있다. 예를 들어, 키프레이 추출 기술은 문서 집합에서 추출된 키워드들에 대해 단어 표현을 계산할 수 있도록 Word2Vec, 대용량 언어처리 모델(BERT)을 사용하여 중요한 단어를 추출하는 기술일 수 있다.
패러프레이즈 탐지 기술은 문장 간의 의미적 유사성을 측정하는 기술일 수 있다. 예를 들어, 패러프레이즈 탐지 기술은 단어를 벡터로 변환하는 기술(예 : Word2Vec 기술)을 활용하여 유사도를 반영할 수 있도록 단어 벡터 공간을 생성하고, 본문의 인용 문구에서 추출된 키프레이즈와 피인용 문헌(20)에서 추출된 키프레이즈의 벡터 공간 내 거리를 측정하여 유사도를 검사하고, 유사도가 높게 나온 키프레이즈를 포함한 문장에 대해서, 해당 문장의 의미적 유사도를 구하기 위해 대용량 자연어 처리 모델(예 : BERT, Bidirectional Encoder Representations from Transformers)을 활용하여 내용을 분석하는 기술일 수 있다. 의미적 유사도 산출 방식은 코사인 유사도를 사용할 수 있다.
일 실시예에 따르면, 제어부(120)는 표면적 일치성 및/또는 의미적 유사성 지표가 지정된 값(예 : 80%) 이상임에 대응하여, 인용 문구가 유효하다고 판단할 수 있다.
한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.
컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.
이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 개시가 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.

Claims (10)

  1. 인용 문헌의 인용 타당성 및 인용 유효성을 검증하는 장치에 있어서,
    패턴 사전을 저장하는 저장부;
    제어부;
    입력부;
    통신부; 및
    상기 제어부의 동작을 제어하는 프로세서를 포함하고,
    상기 프로세서는,
    인용 문헌 표기 양식의 상기 패턴 사전을 생성하고,
    사전 정의 규칙에 기반하여, 상기 입력부로부터 획득한 대상 문서에서 적어도 하나의 피인용 문헌의 정보가 포함된 참고 문헌 영역을 추출하고,
    상기 패턴 사전에 기반하여, 상기 대상 문서의 본문 내에서 피인용 문헌의 일부를 인용한 인용 문구와 상기 피인용 문헌과 관련된 정보인 인용 정보를 포함하는 인용 영역을 추출하고,
    지정된 규칙 기반 알고리즘에 기반하여, 상기 인용 영역의 제1 서지 정보를 추출하고, 상기 참고 문헌 영역에 포함된 상기 적어도 하나의 피인용 문헌 각각의 제2 서지 정보를 추출하고,
    상기 제1 서지 정보와 추출된 적어도 하나의 제2 서지 정보가 일치하는지 여부와 관련된 상기 인용 타당성을 검증하되, 상기 제1 서지 정보와 상기 적어도 하나의 제2 서지 정보 각각의 일치율을 산출하고, 상기 산출된 일치율이 가장 높은 제2 서지 정보에 포함된 형식과 상기 제1 서지 정보에 포함된 형식 간 일치하는 형식의 개수를 추출하고, 상기 개수가 기 설정된 개수 이상이면 상기 인용 문헌의 인용이 타당한 것으로 판단하고,
    상기 인용 문구가 서버에 저장된 피인용 문헌에 기재되었는지 여부와 관련된 상기 인용 유효성을 검증하고,
    상기 일치율은 아래 수학식을 기반으로, 상기 일치하는 형식의 문자열의 길이가 짧거나 상기 일치하는 형식이 다른 피인용 문헌의 형식과 일치할 가능성이 높은 경우 낮은 가중치를 부여하고, 상기 일치하는 형식의 문자열의 길이가 길거나 상기 일치하는 형식이 다른 피인용 문헌의 형식과 일치할 가능성이 낮은 경우 높은 가중치를 부여하여 산출되는
    [수학식]
    Figure 112023055987946-pat00008

    장치.
  2. 제1항에 있어서,
    상기 패턴 사전은
    외부 문헌의 내용이 인용되었음을 표시하는 적어도 하나의 인용 문헌 표기 양식 패턴으로 구성되고,
    상기 인용 문헌 표기 양식의 패턴은 인용 정보 및 참고 문헌 정보의 구성, 상기 구성의 구분 기호, 정보의 종류를 지시하는 지정된 문자열, 지정된 표기 규칙 중 적어도 하나를 포함하는
    장치.
  3. 제2항에 있어서,
    상기 프로세서는
    상기 사전 정의 규칙에 기반하여, 상기 대상 문서에서 상기 참고 문헌 영역의 시작점과 마지막 지점을 찾아 상기 시작점부터 상기 마지막 지점까지를 상기 참고 문헌 영역으로 추출하고,
    자연어 처리 기술에 기반하여, 상기 대상 문서의 본문 내의 텍스트를 어절 또는 기호 단위로 분리하고, 상기 패턴 사전에 포함된 인용 패턴과 일치하는 영역을 상기 인용 영역으로 추출하는
    장치.
  4. 제3항에 있어서,
    상기 프로세서는
    상기 통신부를 이용하여 상기 서버에 저장된 피인용 문헌 중에서 상기 제1 서지 정보에 대응하는 피인용 문헌을 검색하고,
    상기 검색한 피인용 문헌을 상기 통신부를 통하여 획득하고,
    상기 인용 문구와 상기 검색한 피인용 문헌의 표면적 일치성을 확인하고,
    상기 인용 문구와 상기 검색한 피인용 문헌의 의미적 유사성을 확인하는
    장치.
  5. 인용 문헌의 인용 타당성 및 인용 유효성을 검증하는 시스템에 있어서,
    서버;
    대상 문서; 및
    검증 장치;를 포함하고,
    상기 검증 장치는
    인용 문헌 표기 양식의 패턴 사전을 생성하고,
    상기 대상 문서에서 적어도 하나의 피인용 문헌의 정보가 포함된 참고 문헌 영역을 추출하고,
    상기 대상 문서의 본문 내에서 피인용 문헌의 일부를 인용한 인용 문구와 상기 피인용 문헌과 관련된 정보인 인용 정보를 포함하는 인용 영역을 추출하고,
    상기 인용 영역의 제1 서지 정보를 추출하고, 상기 참고 문헌 영역에 포함된 상기 적어도 하나의 피인용 문헌 각각의 제2 서지 정보를 추출하고,
    상기 제1 서지 정보와 추출된 적어도 하나의 제2 서지 정보가 일치하는지 여부와 관련된 상기 인용 타당성을 검증하되, 상기 제1 서지 정보와 상기 적어도 하나의 제2 서지 정보 각각의 일치율을 산출하고, 상기 산출된 일치율이 가장 높은 제2 서지 정보에 포함된 항목과 상기 제1 서지 정보에 포함된 항목 간 일치하는 항목의 개수를 추출하고, 상기 개수가 기 설정된 개수 이상이면 상기 인용 문헌의 인용이 타당한 것으로 판단하고,
    상기 인용 문구가 상기 서버에 저장된 피인용 문헌에 기재되었는지 여부와 관련된 상기 인용 유효성을 검증하고,
    상기 일치율은 아래 수학식을 기반으로, 상기 일치하는 형식의 문자열의 길이가 짧거나 상기 일치하는 형식이 다른 피인용 문헌의 형식과 일치할 가능성이 높은 경우 낮은 가중치를 부여하고, 상기 일치하는 형식의 문자열의 길이가 길거나 상기 일치하는 형식이 다른 피인용 문헌의 형식과 일치할 가능성이 낮은 경우 높은 가중치를 부여하여 산출되는
    [수학식]
    Figure 112023055987946-pat00009

    시스템.
  6. 검증 장치에 의해 수행되는 인용 문헌의 인용 타당성 및 인용 유효성을 검증하는 방법에 있어서,
    인용 문헌 표기 양식의 패턴 사전을 생성하는 단계;
    사전 정의 규칙에 기반하여, 대상 문서에서 적어도 하나의 피인용 문헌의 정보가 포함된 참고 문헌 영역을 추출하는 단계;
    상기 패턴 사전에 기반하여, 상기 대상 문서의 본문 내에서 피인용 문헌의 일부를 인용한 인용 문구와 상기 피인용 문헌과 관련된 정보인 인용 정보를 포함하는 인용 영역을 추출하는 단계;
    지정된 규칙 기반 알고리즘에 기반하여, 상기 인용 영역의 제1 서지 정보를 추출하고, 상기 참고 문헌 영역에 포함된 상기 적어도 하나의 피인용 문헌 각각의 제2 서지 정보를 추출하는 단계;
    상기 제1 서지 정보와 추출된 적어도 하나의 제2 서지 정보가 일치하는지 여부와 관련된 상기 인용 타당성을 검증하는 단계; 및
    상기 인용 문구가 서버에 저장된 피인용 문헌에 기재되었는지 여부와 관련된 상기 인용 유효성을 검증하는 단계를 포함하고,
    상기 인용 타당성을 검증하는 단계는,
    상기 제1 서지 정보와 상기 적어도 하나의 제2 서지 정보 각각의 일치율을 산출하고, 상기 산출된 일치율이 가장 높은 제2 서지 정보에 포함된 항목과 상기 제1 서지 정보에 포함된 항목 간 일치하는 항목의 개수를 추출하고, 상기 개수가 기 설정된 개수 이상이면 상기 인용 문헌의 인용이 타당한 것으로 판단하고,
    상기 일치율은 아래 수학식을 기반으로, 상기 일치하는 형식의 문자열의 길이가 짧거나 상기 일치하는 형식이 다른 피인용 문헌의 형식과 일치할 가능성이 높은 경우 낮은 가중치를 부여하고, 상기 일치하는 형식의 문자열의 길이가 길거나 상기 일치하는 형식이 다른 피인용 문헌의 형식과 일치할 가능성이 낮은 경우 높은 가중치를 부여하여 산출되는
    [수학식]
    Figure 112023055987946-pat00010

    방법.
  7. 제6항에 있어서,
    상기 패턴 사전은
    외부 문서의 내용이 인용되었음을 지시하는 적어도 하나의 인용 문헌 표기 양식 패턴으로 구성되고,
    상기 인용 문헌 표기 양식의 패턴은 인용 정보 및 참고 문헌 정보의 구성, 상기 구성의 구분 기호, 정보의 종류를 지시하는 지정된 문자열, 지정된 표기 규칙 중 적어도 하나를 포함하는
    방법.
  8. 제7항에 있어서,
    상기 참고 문헌 영역을 추출하는 단계는 상기 사전 정의 규칙에 기반하여, 상기 대상 문서에서 상기 참고 문헌 영역의 시작점과 마지막 지점을 찾아 상기 시작점부터 상기 마지막 지점까지를 상기 참고 문헌 영역으로 추출하는 단계를 포함하고,
    상기 인용 영역을 추출하는 단계는 자연어 처리 기술에 기반하여, 상기 대상 문서의 본문 내의 텍스트를 어절 또는 기호 단위로 분리하고, 상기 패턴 사전에 포함된 인용 패턴과 일치하는 영역을 상기 인용 영역으로 추출하는 단계를 포함하는
    방법.
  9. 제8항에 있어서,
    상기 인용 유효성을 검증하는 단계는
    상기 서버에 저장된 피인용 문헌 중에서 상기 제1 서지 정보에 대응하는 피인용 문헌을 검색하는 단계;
    상기 검색한 피인용 문헌을 획득하는 단계;
    상기 인용 문구와 상기 검색한 피인용 문헌의 표면적 일치성을 확인하는 단계;
    상기 인용 문구와 상기 검색한 피인용 문헌의 의미적 유사성을 확인하는 단계를 포함하는
    방법.
  10. 컴퓨터와 결합되어, 제6항 내지 제9항 중 어느 한 항의 인용 문헌의 인용 타당성 및 인용 유효성을 검증하는 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 프로그램.
KR1020230035296A 2023-03-17 2023-03-17 인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 그 방법 KR102547402B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230035296A KR102547402B1 (ko) 2023-03-17 2023-03-17 인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230035296A KR102547402B1 (ko) 2023-03-17 2023-03-17 인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR102547402B1 true KR102547402B1 (ko) 2023-06-23

Family

ID=86993373

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230035296A KR102547402B1 (ko) 2023-03-17 2023-03-17 인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR102547402B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100037325A (ko) * 2008-10-01 2010-04-09 한국과학기술정보연구원 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체
KR101033611B1 (ko) * 2010-07-09 2011-05-11 한국과학기술정보연구원 참고 문헌 적합성 판정 시스템 및 방법
KR102102468B1 (ko) * 2019-07-05 2020-04-21 (주)아이티쓰리 교차검증, 사이트 검색 및 포맷 재구성을 이용한 논문 내 참고문헌 적합성 검증 서비스 제공 시스템
KR20200082551A (ko) * 2018-12-30 2020-07-08 김산 가중치를 이용한 논문 인용 관계의 분석 방법 및 장치
KR102298397B1 (ko) * 2021-01-21 2021-09-07 한국과학기술정보연구원 인용 유형 기반의 인용 관계 분석 방법 및 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100037325A (ko) * 2008-10-01 2010-04-09 한국과학기술정보연구원 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체
KR101033611B1 (ko) * 2010-07-09 2011-05-11 한국과학기술정보연구원 참고 문헌 적합성 판정 시스템 및 방법
KR20200082551A (ko) * 2018-12-30 2020-07-08 김산 가중치를 이용한 논문 인용 관계의 분석 방법 및 장치
KR102102468B1 (ko) * 2019-07-05 2020-04-21 (주)아이티쓰리 교차검증, 사이트 검색 및 포맷 재구성을 이용한 논문 내 참고문헌 적합성 검증 서비스 제공 시스템
KR102298397B1 (ko) * 2021-01-21 2021-09-07 한국과학기술정보연구원 인용 유형 기반의 인용 관계 분석 방법 및 시스템

Similar Documents

Publication Publication Date Title
WO2021027533A1 (zh) 文本语义识别方法、装置、计算机设备和存储介质
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
CN112711953B (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
Zhang A hybrid structured deep neural network with Word2Vec for construction accident causes classification
Liu et al. Cross-domain sentiment aware word embeddings for review sentiment analysis
Akuma et al. Comparing Bag of Words and TF-IDF with different models for hate speech detection from live tweets
US11501080B2 (en) Sentence phrase generation
Wang et al. Duplicate question detection with deep learning in stack overflow
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
KR102379660B1 (ko) 딥러닝 기반 의미역 분석을 활용하는 방법
Chen et al. Neural article pair modeling for wikipedia sub-article matching
Wang et al. Application of an emotional classification model in e-commerce text based on an improved transformer model
Touati-Hamad et al. Arabic quran verses authentication using deep learning and word embeddings
Kadagadkai et al. Summarization tool for multimedia data
KR102547402B1 (ko) 인용 문헌의 타당성 및 유효성을 검증하는 장치, 시스템 및 그 방법
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
Gao et al. Topic-BERT: Detecting harmful information from social media
Kwon et al. Detecting textual adversarial examples through text modification on text classification systems
Kulshrestha et al. A deep learning model for online doctor rating prediction
CN115714002B (zh) 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备
KR102671436B1 (ko) 인공지능 기반의 보안 리포트 평가 장치, 방법 및 프로그램
CN115935195B (zh) 文本匹配方法及装置、计算机可读存储介质、终端
US11922515B1 (en) Methods and apparatuses for AI digital assistants
Brachemi-Meftah et al. Impact of dimensionality reduction on sentiment analysis of algerian dialect

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant