KR20230075052A - 언어 모델을 이용하여 도메인에 특화된 대화를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 - Google Patents

언어 모델을 이용하여 도메인에 특화된 대화를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20230075052A
KR20230075052A KR1020210161268A KR20210161268A KR20230075052A KR 20230075052 A KR20230075052 A KR 20230075052A KR 1020210161268 A KR1020210161268 A KR 1020210161268A KR 20210161268 A KR20210161268 A KR 20210161268A KR 20230075052 A KR20230075052 A KR 20230075052A
Authority
KR
South Korea
Prior art keywords
document
query
processor
prompt
generating
Prior art date
Application number
KR1020210161268A
Other languages
English (en)
Inventor
곽동현
배상환
함동훈
박우명
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to KR1020210161268A priority Critical patent/KR20230075052A/ko
Priority to JP2022185689A priority patent/JP2023076413A/ja
Publication of KR20230075052A publication Critical patent/KR20230075052A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

언어 모델을 이용하여 도메인에 특화된 대화를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램이 개시된다. 주어진 문서에 대해 언어 모델(language model)을 이용하여 상기 문서로 답변 가능한 적어도 하나의 쿼리를 생성하고, 상기 문서와 상기 쿼리를 이용하여 대화 봇을 위한 검색 모델(retrieval model)을 학습할 수 있다.

Description

언어 모델을 이용하여 도메인에 특화된 대화를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램{METHOD, COMPUTER DEVICE, AND COMPUTER PROGRAM FOR PROVIDING DOMAIN-SPECIFIC CONVERSATION USING LANGUAGE MODEL}
아래의 설명은 사용자 질문에 대해 적절한 문서를 참조하여 답변을 제공하는 기술에 관한 것이다.
QA(question and answer) 시스템이란, 사용자가 질문을 입력하면 적절한 문서를 참조하여 답변을 제공하는 대화 시스템이다.
최근 언어 모델(language model)이 발전함에 따라 대화 시스템 성능이 빠르게 향상되고 있으며, 자연어뿐만 아니라 이미지나 음성과 같은 멀티모달(multi-modal) 영역까지 확장되고 있는 추세이다.
일례로, 한국 공개특허공보 제10-2002-0030545호(공개일 2002년 04월 25일)에는 인공지능 기술과 자연어처리 기술을 이용하여 질문에 대한 답변을 제공하는 기술이 개시되어 있다.
주어진 도메인의 문서들을 기반으로 대규모 언어 모델을 이용하여 해당 도메인에 특화된 대화 봇을 생성할 수 있는 기술을 제공한다.
컴퓨터 장치에서 실행되는 방법에 있어서, 상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 방법은, 상기 적어도 하나의 프로세서에 의해, 주어진 문서에 대해 언어 모델(language model)을 이용하여 상기 문서로 답변 가능한 적어도 하나의 쿼리를 생성하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 문서와 상기 쿼리를 이용하여 대화 봇을 위한 검색 모델(retrieval model)을 학습하는 단계를 포함하는 방법을 제공한다.
일 측면에 따르면, 상기 생성하는 단계는, 도메인(domain)에 특화된 검색 모델을 위해 상기 도메인에 속하는 타겟 문서를 대상으로 상기 쿼리를 생성할 수 있다.
다른 측면에 따르면, 상기 생성하는 단계는, 예시 문서와 예시 쿼리로 이루어진 예시 데이터를 이용하여 타겟 문서에 대한 프롬프트(prompt)를 구성하는 단계; 및 상기 프롬프트를 상기 언어 모델의 입력으로 하여 상기 예시 데이터의 패턴에 따라 상기 타겟 문서에 대한 쿼리를 생성하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 생성하는 단계는, 제1 예시 문서와 제1 예시 키워드로 이루어진 제1 예시 데이터를 이용하여 타겟 문서에 대한 제1 프롬프트를 구성하는 단계; 상기 제1 프롬프트를 상기 언어 모델의 입력으로 하여 상기 제1 예시 데이터의 패턴에 따라 상기 타겟 문서에 대한 키워드를 생성하는 단계; 제2 예시 문서와 제2 예시 키워드 및 예시 쿼리로 이루어진 제2 예시 데이터를 이용하여 상기 타겟 문서의 키워드에 대한 제2 프롬프트를 구성하는 단계; 및 상기 제2 프롬프트를 상기 언어 모델의 입력으로 하여 상기 타겟 문서의 키워드에 대해 상기 제2 예시 데이터의 패턴에 따라 상기 타겟 문서에 대한 쿼리를 생성하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 방법은, 상기 적어도 하나의 프로세서에 의해, 사용자로부터 입력된 질문에 대해 상기 검색 모델을 통해 선정된 문서를 참조하여 상기 질문에 대한 답변을 제공하는 단계를 더 포함할 수 있다.
또 다른 측면에 따르면, 상기 제공하는 단계는, 상기 질문에 대해 상기 검색 모델을 통해 계산된 각 문서의 스코어를 확률 분포의 형태로 변환하는 단계; 및 상기 확률 분포의 엔트로피(entropy)에 따라 상기 질문에 대한 답변 유형을 결정하는 단계를 포함할 수 있다.
상기한 방법을 상기 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램을 제공한다.
컴퓨터 장치에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 주어진 문서에 대해 언어 모델을 이용하여 상기 문서로 답변 가능한 적어도 하나의 쿼리를 생성하는 과정; 및 상기 적어도 하나의 프로세서에 의해, 상기 문서와 상기 쿼리를 이용하여 대화 봇을 위한 검색 모델을 학습하는 과정을 처리하는 컴퓨터 장치를 제공한다.
본 발명의 실시예들에 따르면, 주어진 도메인의 문서들을 기반으로 언어 모델을 이용하여 해당 도메인에 특화된 대규모 데이터를 생성함으로써 빠르고 효율적으로 대화 시스템을 만들 수 있다.
본 발명의 실시예들에 따르면, 대규모 언어 모델을 통해 생성된 데이터로 검색 모델(retrieval model)을 학습하여 검색 모델을 중심으로 한 대화 시스템을 구축함으로써 추론(inference) 속도가 빠르고 고도화된 대화 봇을 만들 수 있다.
도 1은 본 발명의 일실시예에 따른 네트워크 환경의 예를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다.
도 3은 본 발명의 일실시예에 있어서 대규모 언어 모델을 이용한 대화 시스템의 생성 체계를 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 컴퓨터 장치가 수행할 수 있는 대화 데이터 생성 방법의 예를 도시한 흐름도이다.
도 5는 본 발명의 일실시예에 있어서 프롬프트를 이용한 쿼리 데이터 생성 과정의 일례를 설명하기 위한 순서도이다.
도 6 내지 도 7은 본 발명의 일실시예에 있어서 쿼리 생성 방법의 일례를 설명하기 위한 예시 도면이다.
도 8 내지 도 9는 본 발명의 일실시예에 있어서 쿼리 생성 방법의 다른 예를 설명하기 위한 예시 도면이다.
도 10은 본 발명의 일실시예에 있어서 사용자 질문에 대한 답변을 제공하는 과정의 일례를 설명하기 위한 순서도이다.
도 11 내지 도 12는 본 발명의 일실시예에 있어서 답변 유형을 분류하는 과정의 일례를 설명하기 위한 예시 도면이다.
도 13은 본 발명의 일실시예에 있어서 사용자 질문과 관련된 문장을 구별하는 표시하는 과정의 일례를 설명하기 위한 예시 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명의 실시예들은 사용자 질문에 대해 적절한 문서를 참조하여 답변을 제공하는 기술에 관한 것이다.
본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 도메인에 특화된 대화 시스템을 만들기 위해 필요한 대화 데이터의 수집 과정을 대규모 언어 모델을 이용한 자동화 과정으로 대체함으로써 빠르고 효율적으로 대화 시스템을 만들 수 있다.
본 발명의 실시예들에 따른 대화 데이터 생성 시스템은 적어도 하나의 컴퓨터 장치에 의해 구현될 수 있으며, 본 발명의 실시예들에 따른 대화 데이터 생성 방법은 대화 데이터 생성 시스템에 포함되는 적어도 하나의 컴퓨터 장치를 통해 수행될 수 있다. 이때, 컴퓨터 장치에는 본 발명의 일실시예에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 컴퓨터 장치는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 대화 데이터 생성 방법을 수행할 수 있다. 상술한 컴퓨터 프로그램은 컴퓨터 장치와 결합되어 대화 데이터 생성 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장될 수 있다.
도 1은 본 발명의 일실시예에 따른 네트워크 환경의 예를 도시한 도면이다. 도 1의 네트워크 환경은 복수의 전자 기기들(110, 120, 130, 140), 복수의 서버들(150, 160) 및 네트워크(170)를 포함하는 예를 나타내고 있다. 이러한 도 1은 발명의 설명을 위한 일례로 전자 기기의 수나 서버의 수가 도 1과 같이 한정되는 것은 아니다. 또한, 도 1의 네트워크 환경은 본 실시예들에 적용 가능한 환경들 중 하나의 예를 설명하는 것일 뿐, 본 실시예들에 적용 가능한 환경이 도 1의 네트워크 환경으로 한정되는 것은 아니다.
복수의 전자 기기들(110, 120, 130, 140)은 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 복수의 전자 기기들(110, 120, 130, 140)의 예를 들면, 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 태블릿 PC 등이 있다. 일례로 도 1에서는 전자 기기(110)의 예로 스마트폰의 형상을 나타내고 있으나, 본 발명의 실시예들에서 전자 기기(110)는 실질적으로 무선 또는 유선 통신 방식을 이용하여 네트워크(170)를 통해 다른 전자 기기들(120, 130, 140) 및/또는 서버(150, 160)와 통신할 수 있는 다양한 물리적인 컴퓨터 장치들 중 하나를 의미할 수 있다.
통신 방식은 제한되지 않으며, 네트워크(170)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(170)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(170)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
서버(150, 160) 각각은 복수의 전자 기기들(110, 120, 130, 140)과 네트워크(170)를 통해 통신하여 명령, 코드, 파일, 콘텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 예를 들어, 서버(150)는 네트워크(170)를 통해 접속한 복수의 전자 기기들(110, 120, 130, 140)로 서비스(일례로, 대화 봇 서비스)를 제공하는 시스템일 수 있다.
도 2는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 앞서 설명한 복수의 전자 기기들(110, 120, 130, 140) 각각이나 서버들(150, 160) 각각은 도 2를 통해 도시된 컴퓨터 장치(200)에 의해 구현될 수 있다. 예를 들어, 본 발명의 실시예들에 따른 대화 데이터 생성 시스템은 도 1을 통해 도시된 컴퓨터 장치(100)에 의해 구현될 수 있다.
이러한 컴퓨터 장치(200)는 도 2에 도시된 바와 같이, 메모리(210), 프로세서(220), 통신 인터페이스(230) 그리고 입출력 인터페이스(240)를 포함할 수 있다. 메모리(210)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(210)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(200)에 포함될 수도 있다. 또한, 메모리(210)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(210)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(210)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(230)를 통해 메모리(210)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(170)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(200)의 메모리(210)에 로딩될 수 있다.
프로세서(220)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(210) 또는 통신 인터페이스(230)에 의해 프로세서(220)로 제공될 수 있다. 예를 들어 프로세서(220)는 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.
통신 인터페이스(230)는 네트워크(170)를 통해 컴퓨터 장치(200)가 다른 장치(일례로, 앞서 설명한 저장 장치들)와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(200)의 프로세서(220)가 메모리(210)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(230)의 제어에 따라 네트워크(170)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(170)를 거쳐 컴퓨터 장치(200)의 통신 인터페이스(230)를 통해 컴퓨터 장치(200)로 수신될 수 있다. 통신 인터페이스(230)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(220)나 메모리(210)로 전달될 수 있고, 파일 등은 컴퓨터 장치(200)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.
입출력 인터페이스(240)는 입출력 장치(250)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(240)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(250)는 컴퓨터 장치(200)와 하나의 장치로 구성될 수도 있다.
또한, 다른 실시예들에서 컴퓨터 장치(200)는 도 2의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(200)는 상술한 입출력 장치(250) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.
본 실시예들은 도메인에 특화된 대화 봇을 만들기 위해 해당 도메인에서의 방대한 데이터 수집 문제를 대규모 언어 모델을 활용하여 해결할 수 있다.
본 발명에서 사용되는 대규모 언어 모델은 방대한 데이터로 학습된 언어 모델로서 퓨샷 샘플(few-shot sample)만 주어지면 해당 태스크를 적절히 수행할 수 있는 자연어 생성 모델을 의미한다.
다시 말해, 대규모 언어 모델은 오토리그레시브(autoregressive) 모델로서 퓨샷 학습 등과 같은 방식을 이용하여 파인 튜닝(fine-tuning) 없이 추론이 가능한 언어 모델을 지칭할 수 있으며, 기존의 일반 언어 모델에 비해 10배 이상 많은 매개 변수(예를 들어, 1000억 개 이상의 매개 변수 등)를 가질 수 있다. 예를 들어, GPT-3(Generative Pre-trained Transformer 3)이나 HyperClova와 같은 대규모 언어 모델은 자연스러운 프롬프트(prompt)를 통해 제어할 수 있는 우수한 퓨샷 학습기로서 프롬프트를 통해 소량의 데이터만으로 패턴을 이해하여 NLP 문제를 해결할 수 있는 능력의 인컨텍스트 학습(in-context learning)이 가능하다.
본 실시예들은 도메인에 특화된 대화 봇을 대규모 언어 모델과 아울러 검색 모델을 중심으로 설계할 수 있다. 언어 모델 기반 생성기(generator)와 검색 모델을 통해 문서 기반 대화 시스템으로서 추론 속도가 빠르고 고도화된 대화 봇을 만들 수 있다.
도 3은 본 발명의 일실시예에 있어서 대규모 언어 모델을 이용한 대화 시스템의 생성 체계를 설명하기 위한 도면이다.
도 3을 참조하면, 본 실시예에서 대규모 언어 모델(310)은 도메인에 특화된 대화 봇을 만들기 위해 필요한 데이터로서 해당 도메인에 맞는 쿼리 데이터(query data)(302)를 생성하기 위한 백본으로 사용된다.
프로세서(120)는 특정 도메인의 문서들(301), 예를 들어 홈페이지 내 웹페이지들이 주어진 경우 해당 문서 내의 내용들에 대한 질의 응답(QA)이 가능한 챗봇을 만들기 위해 대규모 언어 모델(310)을 사용하여 주어진 문서(301)로부터 예상되는 질문을 나타내는 쿼리 데이터(302)를 생성할 수 있다.
프로세서(120)는 언어 모델(310)을 통해 생성된 쿼리 데이터(302)를 학습 데이터로 이용하여 대화 봇을 위한 검색 모델(320)을 학습할 수 있다. 검색 모델(320)은 도메인에 맞는 쿼리 데이터(302)로 학습됨에 따라 도메인에 특화된 모델로 구성될 수 있다.
프로세서(120)는 사용자로부터 질문이 입력되면 검색 모델(320)을 통해 사용자 질문에 대응되는 문서를 참조하여 답변을 제공할 수 있다.
도 4는 본 발명의 일실시예에 따른 컴퓨터 장치가 수행할 수 있는 대화 데이터 생성 방법의 예를 도시한 흐름도이다.
본 실시예에 따른 대화 데이터 생성 방법은 앞서 설명한 컴퓨터 장치(100)에 의해 수행될 수 있다. 이 경우, 컴퓨터 장치(100)의 프로세서(120)는 메모리(110)가 포함하는 운영체제의 코드나 적어도 하나의 프로그램의 코드에 따른 제어 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서(120)는 컴퓨터 장치(100)에 저장된 코드가 제공하는 제어 명령에 따라 컴퓨터 장치(100)가 도 3의 화 데이터 생성 방법이 포함하는 단계들(S410 내지 S430)을 수행하도록 컴퓨터 장치(100)를 제어할 수 있다.
도 4를 참조하면, 단계(S410)에서 프로세서(120)는 대규모 언어 모델을 이용하여 주어진 도메인의 타겟 문서로부터 쿼리 데이터를 생성할 수 있다. 프로세서(120)는 언어 모델의 입력문이 되는 프롬프트를 이용하여 타겟 문서에 대해 예상되는 질문들을 생성할 수 있다. 프로세서(120)는 언어 모델의 강력한 데이터 생성 능력과 인컨텍스트 학습 능력을 이용하여 모델 학습을 위한 데이터를 생성할 수 있다. 이렇게 생성된 질문과, 해당 질문을 생성한 타겟 문서(내지는 타겟 문서 내에 포함된 정답 문구) 쌍이 QA 모델에 대한 학습데이터로써 이용될 수 있다.
단계(S420)에서 프로세서(120)는 타겟 문서와 쿼리 데이터를 학습 데이터로 하여 QA를 위한 검색 모델을 학습할 수 있다. 프로세서(120)는 도메인의 타겟 문서와 해당 타겟 문서를 대상으로 언어 모델을 통해 생성된 쿼리 데이터로 검색 모델(320)을 학습함으로써 해당 도메인에 대한 대화 모델을 구축할 수 있다.
단계(S430)에서 프로세서(120)는 사용자로부터 질문이 입력되면 검색 모델(320)을 통해 사용자 질문에 대응되는 문서를 참조하여 답변을 제공할 수 있다. 프로세서(120)는 사용자 질문에 대응되는 문서에 따라 답변 포맷팅(formatting) 또는 답변 생성(generation)을 수행할 수 있다. 다시 말해, 프로세서(120)는 사용자 질문으로 검색된 문서를 포맷팅하여 답변으로 제공하거나 해당 문서를 이용하여 답변을 직접 생성하여 제공할 수 있다.
도 5는 본 발명의 일실시예에 있어서 프롬프트를 이용한 쿼리 데이터 생성 과정의 일례를 설명하기 위한 순서도이다.
도 5를 참조하면, 단계(S501)에서 프로세서(120)는 프롬프트에 사용할 원본 데이터를 선정할 수 있다.
프로세서(120)는 사전에 정해진 적어도 하나 이상의 문서(Document)와 해당 문서에서 답변 가능한 질문(Query)의 쌍을 원본 데이터로 이용할 수 있다. 미리 정해진 원본 예시 쌍 이외에 별도의 데이터 셋이 존재할 수 있으며, 실시예에 따라서는 데이터 셋 내에서 문서와 질문으로 이루어진 원본 예시 쌍을 선정할 수 있다.
이때, 프롬프트는 적어도 하나 이상의 문서와 해당 문서에서 답변 가능한 질문의 원본 예시 쌍과, 타겟 문서로 구성될 수 있다. 프롬프트 구성의 상세한 방법은 이하에서 도6을 참조하여 설명한다.
단계(S502)에서 프로세서(120)는 언어 모델의 입력에 해당하는 프롬프트를 구성할 수 있다. 프로세서(120)는 단계(S501)에서 선택된 원본 데이터들을 이용하여 언어 모델의 입력 프롬프트를 구성할 수 있다. 프로세서(120)는 주어진 NLP 문제의 특성이 잘 반영된 전용 프롬프트 템플릿을 제작할 수 있으며, 이때 프롬프트 템플릿에는 태스크의 정의나 메타 정보가 포함될 수 있다. 다시 말해, 프로세서(120)는 데이터 셋에서 선택된 원본 데이터들을 이용하여 자연어 형태의 프롬프트를 구성할 수 있으며, 이때 프롬프트는 언어 모델이 이해할 수 있는 형식으로 제작되어 언어 모델의 입력으로 주어진다. 프로세서(120)는 원본 데이터가 레이블이 있는 데이터일 경우 레이블 정보와 함께 입력문이 만들어질 수 있도록 프롬프트를 설계할 수 있다. 프롬프트의 형식 자체는 다양하게 구성될 수 있으며, 일례로 프롬프트는 문서(예를 들어, 웹페이지 등)와 해당 문서로 답변할 수 있는 쿼리가 예시로 구성될 수 있다.
프로세서(120)는 주어진 태스크 T에 대해 데이터 셋에서 샘플링된 원본 데이터인 문서 예시, 그리고 주어진 태스크 T의 특성을 고려한 프롬프트 템플릿을 조합하여 언어 모델의 입력 프롬프트를 구성할 수 있다.
단계(S503)에서 프로세서(120)는 단계(S502)에서 구성된 프롬프트를 언어 모델에 입력하여 언어 모델로부터 자연어 형태의 쿼리 데이터를 생성할 수 있다. 다시 말해, 프로세서(120)는 프롬프트 입력문을 언어 모델에 입력한 후 언어 모델의 생성 내지는 완성 기능을 통한 언어 생성 결과로서 쿼리 데이터를 얻을 수 있다. 프로세서(120)는 프롬프트를 언어 모델로 입력하여 언어 모델을 통해 프롬프트에 포함된 예시의 자연어 패턴을 분석하여 해당 패턴을 가지는 새로운 결과를 얻을 수 있다.
도 6 내지 도 7은 본 발명의 일실시예에 있어서 쿼리 생성 방법의 일례를 설명하기 위한 예시 도면이다.
도 6를 참조하면, 프로세서(120)는 원본 데이터로 선정된 문서와 해당 문서의 내용으로 답변 가능한 적어도 하나의 쿼리로 이루어진 예시 데이터 쌍을 이용하여 프롬프트 입력문(610)을 구성할 수 있다.
프로세서(120)는 적어도 하나의 예시 데이터 쌍과 타겟 문서로 구성된 프롬프트 입력문(610)을 언어 모델의 입력으로 하여, 언어 모델이 타겟 문서에 대한 질문을 생성하도록 할 수 있다. 즉, 언어 모델의 완성 기능을 통해 타겟 문서로 답변 가능한 적어도 하나의 쿼리를 생성할 수 있다.
일례로, 프로세서(120)는 예시 데이터 쌍으로 구성된 프롬프트 입력문(610)을 이용한 쿼리 생성을 반복함으로써 타겟 문서에 대해 사전에 정해진 일정 개수의 쿼리를 생성할 수 있다. 실시예에 따라서는 더 이상 새로운 쿼리가 생성되지 않는 포화 상태에 이를 때까지 타겟 문서에 대한 쿼리를 생성할 수 있다.
프로세서(120)는 [예시 문서+쿼리] 형태의 예시 데이터 쌍과 [타겟 문서]로 구성된 프롬프트(610)를 이용하여 프롬프트에 포함된 예시 데이터의 패턴을 따라 타겟 문서에 대한 쿼리를 생성할 수 있다.
예를 들어, 도 7에 도시한 바와 같이 프로세서(120)는 타겟 문서(701)가 주어지는 경우 프롬프트 입력문(610)을 통해 예시 데이터와 타겟 문서(701)를 언어 모델에 입력하여 예시 데이터의 패턴에 따라 타겟 문서(701)로부터 예상되는 쿼리 데이터(702)를 생성할 수 있다.
다시 말해, 프로세서(120)는 문서와 문서로부터 나올 수 있는 쿼리를 예시로 제공하여 예시의 패턴에 따라 타겟 문서에 대한 쿼리를 생성할 수 있다.
도 8 내지 도 9는 본 발명의 일실시예에 있어서 쿼리 생성 방법의 다른 예를 설명하기 위한 예시 도면이다.
프로세서(120)는 언어 모델로 생성한 쿼리 품질을 향상시키기 위해 키워드를 기반으로 쿼리를 생성하는 방법을 적용할 수 있다.
일례로, 프로세서(120)는 두 가지 프롬프트를 단계적으로 이용하는 것으로, 첫 번째 단계에서 문서로부터 해당 문서와 관련된 키워드를 추출한 후 두 번째 단계에서는 추출된 키워드에 대한 쿼리를 생성할 수 있도록 할 수 있다. 키워드를 추가로 이용할 경우, 문서로부터 보다 다양한 쿼리를 생성할 수 있고 질문의 범위(coverage)가 넓어지게 된다.
도 8을 참조하면, 프로세서(120)는 원본 데이터로 선정된 문서와 해당 문서에 대한 키워드로 이루어진 제1 예시 데이터 쌍을 이용하여 제1 프롬프트 입력문(810)을 구성할 수 있다.
프로세서(120)는 키워드 기반의 적어도 하나의 제1 예시 데이터 쌍과 타겟 문서로 구성된 제1 프롬프트 입력문(810)을 언어 모델에 입력하여 언어 모델의 생성 기능을 통해 타겟 문서에 대한 적어도 하나의 키워드를 생성할 수 있다.
다음으로, 프로세서(120)는 원본 데이터로 선정된 문서와 해당 문서에서 추출된 키워드, 그리고 해당 문서의 내용으로 답변 가능한 쿼리로 이루어진 제2 예시 데이터 쌍을 이용하여 제2 프롬프트 입력문(820)을 구성할 수 있다.
이때, 제2 프롬프트 입력문(820)에는 제1 프롬프트 입력문(810)을 이용한 언어 모델로 생성된, 타겟 문서에 대한 키워드가 포함될 수 있다.
프로세서(120)는 키워드 기반의 적어도 하나의 제2 예시 데이터 쌍과 타겟 문서, 그리고 타겟 문서에 대한 키워드로 구성된 제2 프롬프트 입력문(820)을 언어 모델에 입력하여 언어 모델의 완성 기능을 통해 타겟 문서로 답변 가능한 적어도 하나의 쿼리를 생성할 수 있다.
프로세서(120)는 [예시 문서+키워드]로 이루어진 제1예시 데이터 쌍과 [타겟 문서]로 구성된 일차 프롬프트를 이용하여 일차 프롬프트의 패턴을 따라 타겟 문서에 대한 키워드를 생성한 후, 각 키워드에 대하여 [예시 문서+키워드+쿼리]로 이루어진 제2예시 데이터 쌍과 [타겟 문서+키워드]로 구성된 이차 프롬프트를 이용하여 이차 프롬프트의 패턴을 따라 타겟 문서에 대한 쿼리를 생성할 수 있다.
예를 들어, 도 9에 도시한 바와 같이 프로세서(120)는 타겟 문서(901)가 주어지는 경우 우선 제1 프롬프트 입력문(810)을 언어 모델에 입력하여 예시 데이터의 패턴에 따라 타겟 문서(901)에서 쿼리로 등장할 수 있는 키워드(90)를 생성할 수 있다.
이후, 프로세서(120)는 키워드(90)가 포함된 제2 프롬프트 입력문(820)을 언어 모델에 입력하여 예시 데이터의 패턴에 따라 키워드(90)를 기반으로 타겟 문서(901)에 대해 예상되는 쿼리 데이터(902)를 생성할 수 있다.
프로세서(120)는 타겟 문서(901)에 대해 적어도 하나의 키워드(90)를 추출할 수 있고 키워드(90) 각각에 해당하는 쿼리 데이터(902)를 생성할 수 있다. 이처럼 키워드를 이용하면 각 키워드와 관련된, 또는 키워드에 해당하는 의도를 가진 쿼리 데이터들이 골고루 생성될 수 있다. 이처럼 다양한 데이터로 학습을 하게 될 경우 학습된 검색 모델의 성능이 좋아질 수 있을 것이다.
따라서, 프로세서(120)는 문서와 문서에서 추출된 키워드, 및 키워드가 포함된 쿼리를 예시로 제공하여 예시의 패턴에 따라 타겟 문서에서 추출된 키워드를 기반으로 타겟 문서에 대한 쿼리를 생성할 수 있다.
프로세서(120)는 타겟 문서와 타겟 문서에 대해 생성된 쿼리로 이루어진 데이터를 이용하여 대화 봇을 위한 모델을 학습할 수 있다.
검색 모델(320)의 경우 일례로 폴리 인코더(poly encoder) 구조를 적용할 수 있으며, 쿼리로부터 문서를 찾아 답변을 제공할 수 있다. 검색 모델(320)은 크로스 인코더(cross encoder) 구조의 리랭커(reranker)를 포함할 수 있으며, 이를 통해 쿼리에 대응되는 문서를 리랭킹하여 답변을 제공할 수 있다.
검색 모델(320)은 해당 도메인에 대한 각 문서와, 해당 문서에 대하여 생성된 쿼리들의 쌍들(Document, Query)을 이용하여 학습될 수 있다. 검색모델(320)은 라벨링된 데이터 셋을 이용한 사전학습(pre-training)이 적용된 모델 또는 라벨링이 되어 있지 않은 다양한 언어 특성의 말뭉치(corpus)로부터 비지도로(unsupervised) 검색 모델(320)로 사전학습 된 모델을, 본 발명의 실시예를 이용하여 생성된 데이터들을 이용하여 파인튜닝(find-tuning) 함으로써 생성할 수 있다.
검색 모델(320)을 파인튜닝하는 과정에서 타겟 문서가 속한 도메인에 특화된 유의어 및 동의어 정보를 이용한 데이터 증강(data augmentation) 기법이 사용될 수 있다. 학습 배치의 질문에 대해 일정 확률로 각 단어들을 유의어나 동의어로 치환하여 학습함으로써 일정의 데이터 증강 효과를 기대할 수 있다. 예를 들어, '박사 후 연구원'을 포닥, Post-doc, 포스트닥터 등으로 치환하거나 'OCR'을 광학 문자 인식, 오씨알 등으로 치환하여 학습할 수 있다.
검색 모델(320)의 학습 성능을 개선하기 위해 데이터 증강 기법 이외에도 추론 입력에서 단어를 룰(rule) 기반으로 치환하는 방법을 이용하는 것 또한 가능하다.
도 10은 본 발명의 일실시예에 있어서 사용자 질문에 대한 답변을 제공하는 과정의 일례를 설명하기 위한 순서도이다.
도 10을 참조하면, 단계(S1001)에서 프로세서(120)는 검색 모델(320)을 통해 사용자 질문에 대한 각 문서의 스코어를 계산할 수 있다. 프로세서(120)는 검색 모델(320)을 이용하여 사용자 질문에 대해 답변 내용이 포함될 수 있는 문서를 찾아 랭킹을 수행할 수 있다. 프로세서(120)는 사용자 질문에 해당되는 문장과 문서 간의 유사도를 측정함으로써 각 문서의 스코어를 계산할 수 있다.
단계(S1002)에서 프로세서(120)는 검색 모델(320)을 통해 계산된 문서의 스코어를 확률 분포의 형태로 변환할 수 있다. 일례로, 프로세서(120)는 소프트맥스(softmax) 함수를 이용하여 검색 모델(320)의 문서 스코어를 확률 분포 형태로 변환할 수 있다.
단계(S1003)에서 프로세서(120)는 문서 스코어의 확률 분포에 따라 사용자 질문에 대한 답변 유형을 결정할 수 있다. 프로세서(120)는 사용자 질문에 대해 검색 모델(320)에 의한 랭킹을 바탕으로 선정된 적어도 하나의 문서를 포맷팅하여 답변으로 제공할 수 있다.
질문에 따라 답변으로 제공되는 문서의 개수가 달라질 수 있으며, 답변 유형 별로 문서의 개수가 정의될 수 있다. 문서 스코어를 확률 분포 형태로 변환했을 때, 질문에 대한 연관 문서 중 1위가 확실한 케이스는 스코어 확률 분포의 엔트로피(entropy)가 0에 가깝고 연관 문서가 많을수록 엔트로피가 증가한다. 그리고, 연관 문서가 발견되지 않는 질문의 경우 유니폼한 분포를 띄게 되는 경향성을 가진다.
이러한 경향성에 따라 스코어 확률 분포의 엔트로피를 기반으로 임계값(thresholding)을 설정하여 답변 유형을 분류할 수 있다.
예를 들어, 도 11에 도시한 바와 같이 스코어 확률 분포의 엔트로피가 0에 가까운 특정 임계값 이하(예를 들어, 0.3이하)인 경우 1위(top1)가 확실한 케이스 1로, 엔트로피가 임계값보다 크고 1보다 작은 경우(예를 들면 0.4에서 1 사이인 경우) 1위에서 3위의 문서가 모두 유용한 케이스 2로, 엔트로피가 2이상인 경우 연관 문서가 하나도 없는 케이스 3으로 구분하여 답변 유형을 3가지 케이스로 분류할 수 있다. 다른 예로, 답변 유형 분류를 위한 임계값이 0.1과 1.75를 기준으로 설정될 수 있다. 스코어 확률 분포의 엔트로피(E)가 0≤E<0.1인 경우 케이스 1로, 0.1≤E<1.75인 경우 케이스 2로, E≥1.75인 경우 케이스 3으로 구분할 수 있다.
도 12에 도시한 바와 같이, 프로세서(120)는 '램프 불빛'에 관한 질문에 대해 문서 스코어 확률 분포의 엔트로피가 케이스 2로 나타나는 경우 문서 스코어를 기준으로 상위 3개 문서를 선정하여 답변을 제공할 수 있다. 램프 불빛 내용이 포함된 문서로서 빨간색 불빛, 노랑색 불빛, 초록색 불빛에 대한 세부 문서들이 비슷한 스코어로 발견되는 경우 임계값을 통해 해당 세 개의 문서가 모두 답변으로 활용될 수 있다. 이때, 사용자 질문에 대한 답변으로 세 개의 문서에 대한 타이틀을 먼저 보여준 후 사용자에 의해 특정 문서가 선택되면 선택된 문서의 자세한 내용이 표시될 수 있다. 한편, 프로세서(120)는 '인턴 우대조건'에 관한 질문에 대해 문서 스코어 확률 분포의 엔트로피가 케이스 1로 나타나는 경우 문서 스코어를 기준으로 상위 1개 문서를 선정하여 답변을 제공할 수 있다. 인턴 우대조건의 내용이 포함된 가장 높은 스코어의 문서 하나를 해당 질문에 대한 답변으로 보여줄 수 있다.
프로세서(120)는 답변으로 제공된 문서 내에서 사용자 질문과 관련된 문장을 다른 문장과 구별하여 보여줄 수 있다. 예를 들어, 도 13에 도시한 바와 같이 답변 결과로 제공된 문서(1310)의 내용 중 어떤 부분이 사용자 질문에 대한 답변 내용에 해당하는지 하이라이팅(highlighting)(1301)으로 보여줄 수 있다.
문서 내에서 사용자 질문에 해당하는 문장을 하이라이팅하기 위해서는 문서에 포함된 각 문장에 대해 해당 문장을 답변으로 하는 질문을 생성하여 이를 검색 모델을 학습하기 위한 데이터로 활용할 수 있다. 다시 말해, 프로세서(120)는 타겟 문서 내 각 문장에 대해 [예시 문장+쿼리]와 [타겟 문장]으로 구성된 프롬프트를 이용하여 프롬프트의 패턴을 따라 타겟 문장에 대한 쿼리를 생성할 수 있고, [타겟 문장+쿼리]로 이루어진 데이터 쌍으로 검색 모델을 학습하여 문서 내에서 사용자 질문에 대한 답변 문장을 찾아 하이라이팅하여 보여줄 수 있다.
프로세서(120)는 문서 내 답변 문장 하이라이팅을 위해 문장과 해당 문장을 답변으로 하는 쿼리를 예시로 하여 타겟 문장에 대한 쿼리를 생성함에 있어 쿼리 생성의 품질을 높이기 위하여 쿼리 생성에 앞서 타겟 문장이 답변이 가능한 문장인지를 필터링하는 로직을 적용할 수 있다. 예를 들어, 타겟 문서의 주제나 해당 문서 내 다른 문장 등을 고려하여 타겟 문장을 필터링할 수 있다. 다시 말해, 문서의 주제에서 벗어난 문장, 문서 내 다른 문장과 형식이 다른 문장 등을 쿼리 생성 대상에서 제외시킬 수 있다.
본 실시예에서는 문서 기반 대화 봇을 TOD(Task Oriented Dialog)와 결합하여 되묻기나 필요한 정보 질의 등 능동적인 회화는 물론이고 API 콜을 통한 실제 유저의 요청을 처리하는 등 보다 고도화된 서비스를 제공할 수 있다. 상기한 대화 시스템을 TOD와 결합하게 되면 사용자에게 적절한 답변을 제공하는 동시에 사용자의 암묵적인 요구사항을 파악하여 이를 선제적으로 물어보고 해결해주는 능동적인 대화 시스템을 구축할 수 있다.
이처럼 본 발명의 실시예들에 따르면, 주어진 도메인의 문서들을 기반으로 언어 모델을 이용하여 해당 도메인에 특화된 대규모 데이터를 생성함으로써 빠르고 효율적으로 대화 시스템을 만들 수 있다. 본 발명의 실시예들에 따르면, 대규모 언어 모델을 통해 생성된 데이터로 검색 모델(retrieval model)을 학습하여 검색 모델을 중심으로 한 대화 시스템을 구축함으로써 추론(inference) 속도가 빠르고 고도화된 대화 봇을 만들 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (13)

  1. 컴퓨터 장치에서 실행되는 방법에 있어서,
    상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
    상기 방법은,
    상기 적어도 하나의 프로세서에 의해, 주어진 문서에 대해 언어 모델(language model)을 이용하여 상기 문서로 답변 가능한 적어도 하나의 쿼리를 생성하는 단계; 및
    상기 적어도 하나의 프로세서에 의해, 상기 문서와 상기 쿼리를 이용하여 대화 봇을 위한 검색 모델(retrieval model)을 학습하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 생성하는 단계는,
    도메인(domain)에 특화된 검색 모델을 위해 상기 도메인에 속하는 타겟 문서를 대상으로 상기 쿼리를 생성하는 것
    을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 생성하는 단계는,
    예시 문서와 예시 쿼리로 이루어진 예시 데이터를 이용하여 타겟 문서에 대한 프롬프트(prompt)를 구성하는 단계; 및
    상기 프롬프트를 상기 언어 모델의 입력으로 하여 상기 예시 데이터의 패턴에 따라 상기 타겟 문서에 대한 쿼리를 생성하는 단계
    를 포함하는 방법.
  4. 제1항에 있어서,
    상기 생성하는 단계는,
    제1 예시 문서와 제1 예시 키워드로 이루어진 제1 예시 데이터를 이용하여 타겟 문서에 대한 제1 프롬프트를 구성하는 단계;
    상기 제1 프롬프트를 상기 언어 모델의 입력으로 하여 상기 제1 예시 데이터의 패턴에 따라 상기 타겟 문서에 대한 키워드를 생성하는 단계;
    제2 예시 문서와 제2 예시 키워드 및 예시 쿼리로 이루어진 제2 예시 데이터를 이용하여 상기 타겟 문서의 키워드에 대한 제2 프롬프트를 구성하는 단계; 및
    상기 제2 프롬프트를 상기 언어 모델의 입력으로 하여 상기 타겟 문서의 키워드에 대해 상기 제2 예시 데이터의 패턴에 따라 상기 타겟 문서에 대한 쿼리를 생성하는 단계
    를 포함하는 방법.
  5. 제1항에 있어서,
    상기 방법은,
    상기 적어도 하나의 프로세서에 의해, 사용자로부터 입력된 질문에 대해 상기 검색 모델을 통해 선정된 문서를 참조하여 상기 질문에 대한 답변을 제공하는 단계
    를 더 포함하는 방법.
  6. 제5항에 있어서,
    상기 제공하는 단계는,
    상기 질문에 대해 상기 검색 모델을 통해 계산된 각 문서의 스코어를 확률 분포의 형태로 변환하는 단계; 및
    상기 확률 분포의 엔트로피(entropy)에 따라 상기 질문에 대한 답변 유형을 결정하는 단계
    를 포함하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항의 방법을 상기 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.
  8. 컴퓨터 장치에 있어서,
    메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
    를 포함하고,
    상기 적어도 하나의 프로세서는,
    주어진 문서에 대해 언어 모델을 이용하여 상기 문서로 답변 가능한 적어도 하나의 쿼리를 생성하는 과정; 및
    상기 적어도 하나의 프로세서에 의해, 상기 문서와 상기 쿼리를 이용하여 대화 봇을 위한 검색 모델을 학습하는 과정
    을 처리하는 컴퓨터 장치.
  9. 제8항에 있어서,
    상기 적어도 하나의 프로세서는,
    도메인에 특화된 검색 모델을 위해 상기 도메인에 속하는 타겟 문서를 대상으로 상기 쿼리를 생성하는 것
    을 특징으로 하는 컴퓨터 장치.
  10. 제8항에 있어서,
    상기 적어도 하나의 프로세서는,
    예시 문서와 예시 쿼리로 이루어진 예시 데이터를 이용하여 타겟 문서에 대한 프롬프트를 구성하고,
    상기 프롬프트를 상기 언어 모델의 입력으로 하여 상기 예시 데이터의 패턴에 따라 상기 타겟 문서에 대한 쿼리를 생성하는 것
    을 특징으로 하는 컴퓨터 장치.
  11. 제8항에 있어서,
    상기 적어도 하나의 프로세서는,
    제1 예시 문서와 제1 예시 키워드로 이루어진 제1 예시 데이터를 이용하여 타겟 문서에 대한 제1 프롬프트를 구성하고,
    상기 제1 프롬프트를 상기 언어 모델의 입력으로 하여 상기 제1 예시 데이터의 패턴에 따라 상기 타겟 문서에 대한 키워드를 생성하고,
    제2 예시 문서와 제2 예시 키워드 및 예시 쿼리로 이루어진 제2 예시 데이터를 이용하여 상기 타겟 문서의 키워드에 대한 제2 프롬프트를 구성하고,
    상기 제2 프롬프트를 상기 언어 모델의 입력으로 하여 상기 타겟 문서의 키워드에 대해 상기 제2 예시 데이터의 패턴에 따라 상기 타겟 문서에 대한 쿼리를 생성하는 것
    을 특징으로 하는 컴퓨터 장치.
  12. 제8항에 있어서,
    상기 적어도 하나의 프로세서는,
    사용자로부터 입력된 질문에 대해 상기 검색 모델을 통해 선정된 문서를 참조하여 상기 질문에 대한 답변을 제공하는 것
    을 특징으로 하는 컴퓨터 장치.
  13. 제12항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 질문에 대해 상기 검색 모델을 통해 계산된 각 문서의 스코어를 확률 분포의 형태로 변환하고,
    상기 확률 분포의 엔트로피에 따라 상기 질문에 대한 답변 유형을 결정하는 것
    을 특징으로 하는 컴퓨터 장치.
KR1020210161268A 2021-11-22 2021-11-22 언어 모델을 이용하여 도메인에 특화된 대화를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 KR20230075052A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210161268A KR20230075052A (ko) 2021-11-22 2021-11-22 언어 모델을 이용하여 도메인에 특화된 대화를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
JP2022185689A JP2023076413A (ja) 2021-11-22 2022-11-21 言語モデルを利用してドメインに特化した対話を提供する方法、コンピュータ装置、およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210161268A KR20230075052A (ko) 2021-11-22 2021-11-22 언어 모델을 이용하여 도메인에 특화된 대화를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
KR20230075052A true KR20230075052A (ko) 2023-05-31

Family

ID=86543938

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210161268A KR20230075052A (ko) 2021-11-22 2021-11-22 언어 모델을 이용하여 도메인에 특화된 대화를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Country Status (2)

Country Link
JP (1) JP2023076413A (ko)
KR (1) KR20230075052A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102637029B1 (ko) 2023-10-11 2024-02-15 주식회사 마인즈앤컴퍼니 거대언어모델을 활용하여 멀티턴 챗봇 데이터 생성을 위한 장치 및 그 장치의 구동방법
KR102653266B1 (ko) * 2023-07-07 2024-04-02 주식회사 비씨티원 인공지능 기반의 챗봇 대화 상담 시스템 및 그 방법
KR102658967B1 (ko) * 2023-07-03 2024-04-19 주식회사 렛서 인공지능 기반 솔루션을 제공하기 위한 방법, 전자 장치, 및 시스템

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402164B (zh) * 2023-06-06 2023-09-05 之江实验室 基于预训练语言模型的机器人任务生成方法、装置及介质
CN117194410B (zh) * 2023-07-13 2024-05-14 广州白码科技有限公司 一种人工智能语言模型生成业务报表的方法及系统
JP7441366B1 (ja) 2023-09-19 2024-02-29 株式会社東芝 情報処理装置、情報処理方法及びコンピュータプロググラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102658967B1 (ko) * 2023-07-03 2024-04-19 주식회사 렛서 인공지능 기반 솔루션을 제공하기 위한 방법, 전자 장치, 및 시스템
KR102653266B1 (ko) * 2023-07-07 2024-04-02 주식회사 비씨티원 인공지능 기반의 챗봇 대화 상담 시스템 및 그 방법
KR102637029B1 (ko) 2023-10-11 2024-02-15 주식회사 마인즈앤컴퍼니 거대언어모델을 활용하여 멀티턴 챗봇 데이터 생성을 위한 장치 및 그 장치의 구동방법

Also Published As

Publication number Publication date
JP2023076413A (ja) 2023-06-01

Similar Documents

Publication Publication Date Title
KR20230075052A (ko) 언어 모델을 이용하여 도메인에 특화된 대화를 제공하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
JP7079309B2 (ja) 質問応答処理方法、装置、電子機器及び記憶媒体
CN110301117B (zh) 用于在会话中提供响应的方法和装置
JP2022153441A (ja) モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US10929613B2 (en) Automated document cluster merging for topic-based digital assistant interpretation
US10963495B2 (en) Automated discourse phrase discovery for generating an improved language model of a digital assistant
US11556573B2 (en) Semantic cluster formation in deep learning intelligent assistants
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
CN113127624B (zh) 问答模型的训练方法及装置
US20220343082A1 (en) System and method for ensemble question answering
KR102090237B1 (ko) 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램
CN110795913A (zh) 一种文本编码方法、装置、存储介质及终端
US11379527B2 (en) Sibling search queries
EP3404553A1 (en) Open information extraction method and system for extracting reified ternary relationship
KR102260396B1 (ko) 범용 신경망 기계번역기를 활용한 하이브리드 번역 시스템
KR102663908B1 (ko) 시맨틱 분석을 통한 의미 검색 서비스 제공 방법
Suneera et al. A bert-based question representation for improved question retrieval in community question answering systems
CN114942981A (zh) 问答查询方法、装置、电子设备及计算机可读存储介质
Hattimare et al. Maruna Bot: An extensible retrieval-focused framework for task-oriented dialogues
CN116992111B (zh) 数据处理方法、装置、电子设备及计算机存储介质
US11934794B1 (en) Systems and methods for algorithmically orchestrating conversational dialogue transitions within an automated conversational system
Lin et al. Introduction to the Special Issue of Recent Advances in Computational Linguistics for Asian Languages
KR20230030502A (ko) 예시 기반 생성 모델을 이용한 대화 정보 생성 방법 및 그 장치