KR102315068B1 - 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 - Google Patents
문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 Download PDFInfo
- Publication number
- KR102315068B1 KR102315068B1 KR1020190081951A KR20190081951A KR102315068B1 KR 102315068 B1 KR102315068 B1 KR 102315068B1 KR 1020190081951 A KR1020190081951 A KR 1020190081951A KR 20190081951 A KR20190081951 A KR 20190081951A KR 102315068 B1 KR102315068 B1 KR 102315068B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- answer data
- consistency
- correct answer
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000010801 machine learning Methods 0.000 claims abstract description 11
- 230000015654 memory Effects 0.000 claims description 23
- 238000013441 quality evaluation Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 235000021152 breakfast Nutrition 0.000 description 1
- 238000002316 cosmetic surgery Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2는 본 발명의 일 실시예에 있어서, 전자 기기 및 서버의 내부 구성을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 서버의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 서버가 수행할 수 있는 방법의 예를 도시한 흐름도이다.
도 5 내지 도 6은 정상 텍스트와 어뷰징 텍스트를 구분하는 기본 기술을 설명하기 위한 예시 도면이다.
도 7 내지 도 8은 본 발명의 일실시예에 있어서 정답 데이터를 생성하는 방법의 일례를 설명하기 위한 예시 도면이다.
도 9 내지 도 10은 본 발명의 일실시예에 있어서 오답 데이터를 생성하는 방법의 일례를 설명하기 위한 예시 도면이다.
도 11 내지 도 12는 본 발명의 일실시예에 있어서 오답 데이터를 생성하는 방법의 다른 예를 설명하기 위한 예시 도면이다.
도 13은 본 발명의 일실시예에 있어서 문서의 일관성 판단을 위한 학습 모델의 예시를 도시한 것이다.
도 14 내지 도 15는 본 발명의 일실시예에 있어서 정답 데이터와 오답 데이터에 대한 일관성 판단 과정을 설명하기 위한 예시 도면이다.
Claims (15)
- 컴퓨터 시스템에서 실행되는 문서 일관성 판단 방법에 있어서,
상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 문서 일관성 판단 방법은,
상기 적어도 하나의 프로세서에 의해, 정답 문서의 제목과 적어도 하나의 본문 청크를 포함하는 정답 데이터를 생성하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 정답 문서와 상기 정답 문서와 다른 문서를 조합하여 제목과 적어도 하나의 본문 청크를 포함하는 오답 데이터를 생성하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 정답 데이터와 상기 오답 데이터를 학습한 기계학습 모델을 통해 주어진 문서의 제목과 본문 간의 일관성을 판단하는 단계
를 포함하고,
상기 오답 데이터를 생성하는 단계는,
내부 프레임 태그(i-frame tag) 또는 히든 태그(hidden tag)에 다른 컨텐츠가 포함된 문서를 상기 오답 데이터를 생성하기 위한 문서로 선정하는 단계
를 포함하는 문서 일관성 판단 방법. - 제1항에 있어서,
상기 정답 데이터를 생성하는 단계는,
문서 품질 평가 데이터가 사전에 정해진 정답 문서 기준에 부합되는 문서를 상기 정답 데이터를 생성하기 위한 문서로 선정하는 단계
를 포함하는 문서 일관성 판단 방법. - 제1항에 있어서,
상기 정답 데이터를 생성하는 단계는,
상기 정답 문서의 본문을 임의 길이 혹은 사전에 정해진 단위 길이로 잘라 본문 청크를 생성하는 단계
를 포함하는 문서 일관성 판단 방법. - 제1항에 있어서,
상기 오답 데이터를 생성하는 단계는,
어뷰징(abusing) 문서로 분류된 문서를 상기 오답 데이터를 생성하기 위한 문서로 선정하는 단계
를 포함하는 문서 일관성 판단 방법. - 컴퓨터 시스템에서 실행되는 문서 일관성 판단 방법에 있어서,
상기 컴퓨터 시스템은 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 문서 일관성 판단 방법은,
상기 적어도 하나의 프로세서에 의해, 정답 문서의 제목과 적어도 하나의 본문 청크를 포함하는 정답 데이터를 생성하는 단계;
상기 적어도 하나의 프로세서에 의해, 상기 정답 문서와 상기 정답 문서와 다른 문서를 조합하여 제목과 적어도 하나의 본문 청크를 포함하는 오답 데이터를 생성하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 정답 데이터와 상기 오답 데이터를 학습한 기계학습 모델을 통해 주어진 문서의 제목과 본문 간의 일관성을 판단하는 단계
를 포함하고,
상기 오답 데이터를 생성하는 단계는,
문서 품질 평가 데이터가 사전에 정해진 오답 문서 기준에 부합되는 문서를 상기 오답 데이터를 생성하기 위한 문서로 선정하는 단계
를 포함하는 문서 일관성 판단 방법. - 제1항에 있어서,
상기 오답 데이터를 생성하는 단계는,
상기 정답 데이터의 생성 시 이용된 상기 정답 문서와 다른 정답 문서를 상기 오답 데이터를 생성하기 위한 문서로 선정하는 단계
를 포함하는 문서 일관성 판단 방법. - 제1항에 있어서,
상기 오답 데이터를 생성하는 단계는,
상기 정답 데이터의 임의 위치나 사전에 정해진 위치에 상기 다른 문서의 적어도 하나의 본문 청크를 삽입하여 상기 오답 데이터를 생성하는 것
을 특징으로 하는 문서 일관성 판단 방법. - 제1항에 있어서,
상기 오답 데이터를 생성하는 단계는,
상기 정답 데이터에 포함된 제목을 상기 다른 문서의 제목으로 변경하여 상기 오답 데이터를 생성하는 것
을 특징으로 하는 문서 일관성 판단 방법. - 제1항에 있어서,
상기 오답 데이터를 생성하는 단계는,
상기 정답 데이터의 임의 위치나 사전에 정해진 위치에 상기 다른 문서의 적어도 하나의 본문 청크를 삽입하고 상기 정답 데이터에 포함된 제목을 상기 다른 문서의 제목으로 변경함으로써 상기 오답 데이터를 생성하는 것
을 특징으로 하는 문서 일관성 판단 방법. - 제1항에 있어서,
상기 일관성을 판단하는 단계는,
상기 주어진 문서에 대해 각 본문 청크 별로 해당 문서의 제목과의 일관성 점수를 산출하는 단계
를 포함하는 문서 일관성 판단 방법. - 제1항에 있어서,
상기 기계학습 모델은 제목과 본문 청크 간 유사 매트릭스(similarity matrix)가 포함된 DNN(deep neural network) 모델로 구성되는 것
을 특징으로 하는 문서 일관성 판단 방법. - 제11항에 있어서,
상기 기계학습 모델은 단어 간의 의미 유사도를 기초로 제목과 본문 청크 간의 일관성 여부를 판단하기 위한 워드 임베딩(word embedding) 모델이 포함되는 것
을 특징으로 하는 문서 일관성 판단 방법. - 제1항에 있어서,
상기 문서 일관성 판단 방법은,
상기 적어도 하나의 프로세서에 의해, 상기 주어진 문서의 일관성을 이용하여 해당 문서의 검색 랭킹을 결정하는 단계
를 더 포함하는 문서 일관성 판단 방법. - 제1항 내지 제13항 중 어느 한 항의 문서 일관성 판단 방법을 상기 컴퓨터 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.
- 컴퓨터 시스템에 있어서,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
정답 문서의 제목과 적어도 하나의 본문 청크를 포함하는 정답 데이터를 생성하는 정답 데이터 생성부;
상기 정답 문서와 상기 정답 문서와 다른 문서를 조합하여 제목과 적어도 하나의 본문 청크를 포함하는 오답 데이터를 생성하는 오답 데이터 생성부; 및
상기 정답 데이터와 상기 오답 데이터를 학습한 기계학습 모델을 통해 주어진 문서의 제목과 본문 간의 일관성을 판단하는 일관성 판단부
를 포함하고,
상기 오답 데이터 생성부는,
내부 프레임 태그(i-frame tag) 또는 히든 태그(hidden tag)에 다른 컨텐츠가 포함된 문서 또는 문서 품질 평가 데이터가 사전에 정해진 오답 문서 기준에 부합되는 문서를 상기 오답 데이터를 생성하기 위한 문서로 선정하는 것
을 특징으로 하는 컴퓨터 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190081951A KR102315068B1 (ko) | 2019-07-08 | 2019-07-08 | 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190081951A KR102315068B1 (ko) | 2019-07-08 | 2019-07-08 | 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210006098A KR20210006098A (ko) | 2021-01-18 |
KR102315068B1 true KR102315068B1 (ko) | 2021-10-20 |
Family
ID=74236714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190081951A Active KR102315068B1 (ko) | 2019-07-08 | 2019-07-08 | 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102315068B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102487820B1 (ko) * | 2022-03-23 | 2023-01-13 | 최미선 | 유사한 비교콘텐츠들과의 차별점을 제공하는 콘텐츠 기획과 제작을 위한 통합 플랫폼 서비스 제공 장치, 방법 및 프로그램 |
KR102621014B1 (ko) * | 2023-04-18 | 2024-01-05 | 주식회사 이앤아이월드 | 인공 지능 기반의 도서 제작 서비스 제공 방법 및 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165598A (ja) | 2006-12-28 | 2008-07-17 | National Institute Of Information & Communication Technology | 風評情報抽出装置及び風評情報抽出方法 |
JP2017117311A (ja) * | 2015-12-25 | 2017-06-29 | 富士通株式会社 | 文書検索方法、文書検索プログラムおよび文書検索装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140051606A (ko) * | 2012-10-23 | 2014-05-02 | 에스케이텔레콤 주식회사 | Rdf 기반의 문장 온톨로지를 이용한 일관성 평가 방법 및 장치 |
EP3739477A4 (en) * | 2018-01-11 | 2021-10-27 | Neosapience, Inc. | PROCESS AND SYSTEM FOR SPEECH TRANSLATION USING A MULTILINGUAL TEXT-SPEECH SYNTHESIS MODEL |
-
2019
- 2019-07-08 KR KR1020190081951A patent/KR102315068B1/ko active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008165598A (ja) | 2006-12-28 | 2008-07-17 | National Institute Of Information & Communication Technology | 風評情報抽出装置及び風評情報抽出方法 |
JP2017117311A (ja) * | 2015-12-25 | 2017-06-29 | 富士通株式会社 | 文書検索方法、文書検索プログラムおよび文書検索装置 |
Non-Patent Citations (4)
Title |
---|
S. Chopra et al., Towards Automatic Identification of Fake News: Headline-Article Stance Detection with LSTM Attention Models, Stanford CS224d Deep Learning for NLP final project (2017) |
김도우, Doc2Vec을 활용한 CNN 기반 한국어 신문 기사 분류에 관한 연구, 서강대학교 석사학위 논문 (2017.01) |
배경만, 커뮤니티 기반 질문-응답 서비스를 위한 워드 임베딩 기반의 질문 분류 및 검색 기법, 동아대학교 박사학위 논문 (2016.06) |
임근영 외, 딥러닝과 Char2Vec을 이용한 문장 유사도 판별, 한국정보통신학회논문지 Vol.22 No.10, pp.1300-1306 (2018.10) |
Also Published As
Publication number | Publication date |
---|---|
KR20210006098A (ko) | 2021-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102075505B1 (ko) | 핵심 키워드 추출 방법 및 시스템 | |
CN101630333B (zh) | 用于查询扩展的音译 | |
CN102272754B (zh) | 定制语言模型 | |
KR20170004154A (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
KR102277240B1 (ko) | 키워드 관계 구조를 이용한 동의어 추출 방법 및 시스템 | |
KR20190029264A (ko) | 문서의 카테고리 분류를 위한 딥러닝 학습 방법 및 그 시스템 | |
KR102315068B1 (ko) | 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 | |
JP2023108590A (ja) | 関心トピックに基づいた個人化推薦のための方法、システム、およびコンピュータプログラム | |
CN105550217B (zh) | 场景音乐搜索方法及场景音乐搜索装置 | |
KR102415366B1 (ko) | 서로 다른 모달의 피처를 이용한 복합 랭킹 모델을 통해 연관 이미지를 검색하는 방법 및 시스템 | |
KR102337536B1 (ko) | 장기간 관련 있는 이슈 단위의 클러스터를 이용한 문서 타임라인을 제공하는 방법 및 시스템 | |
KR102195191B1 (ko) | 키워드 관계 구조를 이용한 신규 키워드 추출 방법 및 시스템 | |
KR20210016593A (ko) | 인공지능 기반 상품 추천 방법 및 그 시스템 | |
KR20220107737A (ko) | 재구성된 질의를 생성하기 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 | |
KR102209100B1 (ko) | 활동 데이터 분석을 통해 비정상 사용자 그룹을 탐지하는 방법 및 시스템 | |
KR20200097949A (ko) | 키워드 관계 구조를 이용한 동의어 추출 방법 및 시스템 | |
KR102433903B1 (ko) | 사용자 맞춤형 미디어 콘텐츠 표시 방법 | |
KR102426056B1 (ko) | 문서 선별을 위해 멀티모달 어뷰징 패턴을 감지하는 방법, 시스템, 및 컴퓨터 프로그램 | |
KR102264481B1 (ko) | 복수의 소셜 네트워크 서비스 내 채널을 그룹핑 하는 방법, 시스템, 및 비-일시적인 컴퓨터 판독가능한 기록 매체 | |
KR20230169681A (ko) | 인공지능과의 관계를 반영하여 사용자에 특화된 응답을 출력하는 방법 및 장치 | |
KR20190000061A (ko) | 키워드 속성을 기준으로 관련 있는 키워드를 제공하는 방법 및 시스템 | |
KR20230120759A (ko) | 내용 분석을 이용한 실시간 영상 검색 방법 | |
KR102227741B1 (ko) | 타이틀 매칭 점수를 기반으로 한 장소 검색 방법 및 시스템 | |
KR102192376B1 (ko) | 음역 모델을 이용하여 외래 동의어를 자동 추출하는 방법 및 시스템 | |
KR102796133B1 (ko) | 검색 질의에 따라 검색 결과에 포함된 아이템 별 하위 아이템 추천 목록을 동적으로 제공할 수 있는 방법, 시스템, 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190708 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210225 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20210826 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20211014 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20211015 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |