KR102356996B1 - 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법 - Google Patents

인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법 Download PDF

Info

Publication number
KR102356996B1
KR102356996B1 KR1020190167901A KR20190167901A KR102356996B1 KR 102356996 B1 KR102356996 B1 KR 102356996B1 KR 1020190167901 A KR1020190167901 A KR 1020190167901A KR 20190167901 A KR20190167901 A KR 20190167901A KR 102356996 B1 KR102356996 B1 KR 102356996B1
Authority
KR
South Korea
Prior art keywords
learning
phrase
phrases
similarity
artificial intelligence
Prior art date
Application number
KR1020190167901A
Other languages
English (en)
Other versions
KR20210076558A (ko
Inventor
신광수
김선희
Original Assignee
주식회사 엘지유플러스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘지유플러스 filed Critical 주식회사 엘지유플러스
Priority to KR1020190167901A priority Critical patent/KR102356996B1/ko
Publication of KR20210076558A publication Critical patent/KR20210076558A/ko
Application granted granted Critical
Publication of KR102356996B1 publication Critical patent/KR102356996B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 예시적인 실시예는 인공지능 서비스 대화모델의 학습 문구 중 대화 의도는 다르지만 문장이 유사하여 혼동을 줄 수 있는 유사 발화 문구들을 사전에 자동으로 인지하고 해당 문구들의 수정을 통해 의도분류 정확도 개선 및 편의성을 개선 할 수 있는 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법에 관한 것으로, 본 발명의 일 측면에 따른 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치는, 입력된 대화 의도 별 하나 이상의 학습 문구를 임베딩하기 위한 임베딩부; 대화 의도가 다른 임베딩된 두 학습 문구 간의 유사도를 계산하기 위한 유사도계산부; 동일 대화 의도 내 임베딩된 모든 학습 문구의 응집도를 계산하기 위한 응집도계산부; 및 상기 계산된 유사도 및 응집도를 기초로 대화 의도 내 특정 학습 문구를 유사 발화 문구로 선택하여 추출하기 위한 유사문구추출부를 포함할 수 있다.

Description

인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법{Apparatus and Method for verifying the learning phrase quality of the AI service dialogue model}
본 발명은 인공지능 서비스 대화모델의 학습 문구 품질을 검증하기 위한 기술에 관한 것이다.
일반적으로, 대화모델은 모델 개발자 또는 서비스 운영 담당자가 기존 대화 시나리오나 상담 이력 등의 데이터를 대화의도 기준으로 레이블링하여 학습을 하고 있다. 이때 다량의 학습문구를 사용하기 때문에 대화의도 간 구분하기 힘든 유사 발화 문구들이 존재할 수 있는데, 이 경우 해당 유사 발화 문구들은 대화의도 분류 성공률을 저하시킬 수 있다.
따라서, 룰기반/딥러닝기반 방식에 상관없이 학습 전 데이터 전처리 단계에서 대화의도(Intent) 별 학습문구들 간 유사 발화 문구들을 수작업으로 확인, 제거 또는 수정하는 과정이 필요한데, 이러한 수작업은 많은 시간이 소요되며 휴먼에러 또한 발생하기 때문에 자동화를 통해 의도분류의 정확도/편의성 등을 개선할 필요가 있다.
공개특허공보 제10-2011-0099434호(2011.09.08.)
본 발명은 전술한 종래의 문제점을 해결하기 위한 것으로, 그 목적은 인공지능 서비스 대화모델의 학습 문구 중 대화 의도는 다르지만 문장이 유사하여 혼동을 줄 수 있는 유사 발화 문구들을 사전에 자동으로 인지하고 해당 문구들의 수정을 통해 의도분류 정확도 개선 및 편의성을 개선 할 수 있는, 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법을 제공하는 것이다.
전술한 목적을 달성하기 위하여 본 발명의 일 측면에 따른 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치는, 입력된 대화 의도 별 하나 이상의 학습 문구를 임베딩하기 위한 임베딩부; 대화 의도가 다른 임베딩된 두 학습 문구 간의 유사도를 계산하기 위한 유사도계산부; 동일 대화 의도 내 임베딩된 모든 학습 문구의 응집도를 계산하기 위한 응집도계산부; 및 상기 계산된 유사도 및 응집도를 기초로 대화 의도 내 특정 학습 문구를 유사 발화 문구로 선택하여 추출하기 위한 유사문구추출부를 포함할 수 있다.
상기 임베딩부는 .CVS(Comma-Separated Value) 포맷의 학습 문구를 입력할 수하는 있고, 상기 유사도계산부는 코사인(Cosine) 유사도 계산 방식으로 유사도를 계산할 수 있으며, 상기 코사인(Cosine) 유사도 계산 방식은 사이킷-런(Scikit-learn)의 코사인 유사도(Cosine Similarity) 방식을 포함할 수 있다.
상기 응집도계산부는 동일 대화 의도 내 임베딩된 모든 학습 문구의 평균 유사도를 응집도로 산출할 수 있고, 상기 유사문구추출부는 응집도가 해당 기준보다 낮고 유사도가 해당 기준보다 높은 학습 문구를 유사 발화 문구로 선택하여 추출할 수 있다.
전술한 목적을 달성하기 위하여 본 발명의 다른 측면에 따른 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법은, (a) 입력된 대화 의도 별 하나 이상의 학습 문구를 임베딩하기 위한 단계; (b) 대화 의도가 다른 임베딩된 두 학습 문구 간의 유사도를 계산하기 위한 단계; (c) 동일 대화 의도 내 임베딩된 모든 학습 문구의 응집도를 계산하기 위한 단계; 및 (d) 상기 계산된 유사도 및 응집도를 기초로 대화 의도 내 특정 학습 문구를 유사 발화 문구로 선택하여 추출하기 위한 단계를 포함할 수 있다.
상기 단계 (a)는 .CVS(Comma-Separated Value) 포맷의 학습 문구를 입력할 수 있고, 상기 단계 (b)는 코사인(Cosine) 유사도 계산 방식으로 유사도를 계산할 수 있으며, 상기 코사인(Cosine) 유사도 계산 방식은 사이킷-런(Scikit-learn)의 코사인 유사도(Cosine Similarity) 방식을 포함할 수 있다.
상기 단계 (c)는 동일 대화 의도 내 임베딩된 모든 학습 문구의 평균 유사도를 응집도로 산출할 수 있고, 상기 단계 (d)는 응집도가 해당 기준보다 낮고 유사도가 해당 기준보다 높은 학습 문구를 유사 발화 문구로 선택하여 추출할 수 있으며, 상기 단계 (a)는 입력된 학습 문구를 텐서플로우 허브(TensorFlow hub) 방식을 통해 임베딩하여 벡터화 할 수 있다.
전술한 목적을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 상기 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공될 수 있다.
전술한 목적을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 상기 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법을 하드웨어와 결합하여 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 애플리케이션이 제공될 수 있다.
전술한 목적을 달성하기 위하여 본 발명의 또 다른 측면에 따르면, 상기 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램이 제공될 수 있다.
이상에서 설명한 바와 같이 본 발명의 다양한 측면에 따르면, 인공지능 서비스 대화모델의 학습 문구 중 대화 의도는 다르지만 문장이 유사하여 혼동을 줄 수 있는 유사 발화 문구들을 사전에 자동으로 인지하고 해당 문구들의 수정을 통해 의도분류 정확도 개선 및 편의성을 개선 할 수 있다.
즉, 기존에는 서비스/챗봇 대화 모델 생성 후 검증단계에서 의도분류 성공률이 낮은 경우, 학습 문구 등을 수작업을 통해 전수 조사하고 문제가 되는 문장에 대해서 리뷰, 수정 반영하는 절차대로 진행된 반면, 본 발명에 따르면 대화모델 생성 전 자동으로 학습문장의 품질 평가가 수행이 되므로 의도분류 저하를 사전에 방지할 수 있는 효과가 있다.
도 1은 본 발명의 예시적인 실시예에 따른 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치의 구성도,
도 2는 대와 의도 별 학습 문구의 예시도,
도 3은 유사도 계산 예시도,
도 4는 응집도 계산 예시도,
도 5는 본 발명의 예시적인 실시예에 따른 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법의 흐름도이다.
이하, 첨부도면을 참조하여 본 발명의 실시예에 대해 구체적으로 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 한다. 또한, 본 발명의 실시예에 대한 설명 시 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
도 1은 본 발명의 예시적인 실시예에 따른 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치의 구성도로, 동 도면에 도시된 바와 같이, 입력부(11), 전처리부(12), 임베딩부(13), 유사도계산부(14), 응집도계산부(15), 및 유사문구추출부(16)를 포함할 수 있다.
입력부(11)는 대화 모델의 학습 문구를 입력하기 위한 것으로, 예를 들어, 대화 모델 담당자가 도 2와 같이 정리된 대화의도(Intent) 별 학습 문구를 .CSV(Comma-Separated Value) 포맷의 파일 형태로 만들어 시스템으로 업로드 하면 입력부(11)는 이를 입력 처리할 수 있다.
전처리부(12)는입력부를 통해 입력된 학습 문구 데이터에서 공백제거, 불용어 제거 등의 전처리를 수행하기 위한 것이다.
임베딩부(13)는 입력된 .CSV(Comma-Separated Value) 포맷의 대화 의도 별 하나 이상의 학습 문구를 임베딩(Embedding)하기 위한 것으로, 입력된 학습 문구를 텐서플로우 허브(TensorFlow hub) 방식을 통해 임베딩하여 벡터화 할 수 있다.
예를 들어, 임베딩부(13)는 아래의 표 1과 같이 학습 문구를 대응하는 특정 벡터 값으로 임베딩할 수 있다.
학습문구 임베딩 벡터 값
파이브지 약정 할인 해지 [-0.03649221 0.02498418 -0.03456857 0.02827227 0.00471277]
5G 약정할인이 뭔가요 [-0.02732556 -0.00821852 -0.00794602 0.06356855 -0.03726532]
폰케어플러스 보상 문의 [-0.01732556 -0.00821852 -0.00494602 0.06357855 -0.01726532]
유사도계산부(14)는 임베딩부(13)를 통해 임베딩된 학습 문구에서 대화 의도가 다른 두 학습 문구 간의 유사도를 도 3에 예시된 바와 같이 계산하기 위한 것으로, 예를 들어, 유사도는 코사인(Cosine) 유사도 계산 방식을 통해 계산할 수 있고, 코사인(Cosine) 유사도 계산 방식은 사이킷-런(Scikit-learn)의 코사인 유사도(Cosine Similarity) 방식을 포함할 수 있으며, 코사인 값이 클수록 유사도가 높으며 유사도 값은 0~1 사이의 값으로 정의될 수 있다.
유사도계산부(14)에서 계산된 유사도 값의 일 예를 설명하면, 도 3에 예시된 바와 같이, 대화의도 1 '5G_Clear'에 속한 학습 문구 '5G 약정 해지'와 대화의도 2 '5G_outlineReq'에 속한 학습 문구 '5G 약정 할인이 뭔가요'간의 유사도 값은 0.764919이고, 대화의도 1 '5G_Clear'에 속한 학습 문구 '5G 약정 할인 해지'와 대화의도 2 '5G_outlineReq'에 속한 학습 문구 '5G 약정 할인'간의 유사도 값은 0.847193 등으로 산출될 수 있으며, 이와 같이 대화의도 1의 학습 문구와 대화의도 2의 학습 문구를 각각 매칭하고 매칭된 두 학습문구 간의 유사도를 코사인(Cosine) 유사도 계산 방식을 통해 계산하도록 한다.
응집도계산부(15)는 동일 대화 의도 내 임베딩된 모든 학습 문구의 응집도를 계산하기 위한 것으로, 예를 들어, 동일 대화 의도 내 임베딩된 모든 학습 문구의 평균 유사도를 응집도로 산출할 수 있다.
응집도계산부(15)에서 계산된 응집도 값의 일 예를 설명하면, 도 4에 예시된 바와 같이, 대화의도 1 '5G_Clear'에 속한 학습 문구의 응집도는 0.217600이고, 대화의도 2 '5G_outlineReq'에 속한 학습 문구의 응집도는 0.388721 등과 같이 산출될 수 있다.
유사문구추출부(16)는 유사도계산부(14)를 통해 계산된 유사도 및 응집도계산부(15)를 통해 계산된 응집도를 기초로 대화 의도 내 특정 학습 문구를 유사 발화 문구로 선택하여 추출하기 위한 것으로, 예를 들어, 응집도가 해당 기준보다 낮고 유사도가 해당 기준보다 높은 학습 문구를 유사 발화 문구로 선택하여 추출할 수 있다.
유사문구추출부(16)에서 추출되는 유사 발화 문구의 일 예를 도 3의 유사도 계산 예시도 및 도 4의 응집도 계산 예시도를 참조하여 설명하면, 응집도가 상대적으로 낮은(실제로는 기 설정된 해당 기준보다 낮은) '5G_Clear' 대화의도에서 유사도가 상대적으로 높은(실제로는 기 설정된 해당 기준보다 높은) 학습 문구인 '5G 약정 할인 해지' 문구가 유사 발화 문구로 선택되어 추출될 수 있다.
유사문구추출부(16)는 전술한 바와 같이 혼동되는 학습 문구(또는 문장)을 판별하고 해당 대화의도(Intent)에서 제외하여 별도 파일로 생성할 수 있다.
따라서, 모델 운영 담당자는 데이터 전처리 단계에서 본 발명의 장치를 통해 의도분류 성공률을 저하시킬 수 있는 문장들을 미리 제거할 수 있으며, 해당 문장들을 추후 수정 반영할 수도 있다.
도 5는 본 발명의 예시적인 실시예에 따른 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법의 흐름도로, 도 1의 장치에 적용되므로 해당 장치의 동작과 병행하여 설명한다.
먼저, 입력부(11)는 도 2와 같이 정리된 대화의도(Intent) 별 학습 문구를 .CSV(Comma-Separated Value) 포맷의 형태로 입력 처리하고(S501), 전처리부(12)는 입력된 학습 문구 데이터에 대해 공백제거, 불용어 제거 등의 전처리를 수행한다(S503).
이어, 임베딩부(13)는 단계 S501에서 입력되어 단계 S503에서 전처리된 .CSV(Comma-Separated Value) 포맷의 대화 의도 별 학습 문구를 예를 들어 텐서플로우 허브(TensorFlow hub) 방식을 통해 임베딩하여 표 1과 같이 벡터화하고(S505), 유사도계산부(14)는 단계 S505에서 임베딩부(13)를 통해 임베딩된 학습 문구에서 대화 의도가 다른 두 학습 문구 간의 유사도를 도 3에 예시된 바와 같이 계산하되, 전술한 바와 같이 유사도는 코사인(Cosine) 유사도 계산 방식을 통해 계산할 수 있고, 코사인(Cosine) 유사도 계산 방식은 사이킷-런(Scikit-learn)의 코사인 유사도(Cosine Similarity) 방식을 포함할 수 있으며, 코사인 값이 클수록 유사도가 높으며 유사도 값은 0~1 사이의 값으로 정의될 수 있다(S507).
이어, 응집도계산부(15)는 동일 대화 의도 내 임베딩된 모든 학습 문구의 응집도를 계산하되, 예를 들어, 동일 대화 의도 내 임베딩된 모든 학습 문구의 평균 유사도를 계산하고 계산된 평균유사도 값을 응집도 값으로 정의할 수 있고, 응집도 계산 예시는 도 4에 도시된 바와 같다(S509).
마지막으로, 유사문구추출부(16)는 단계 S507에서 유사도계산부(14)를 통해 계산된 유사도 및 단계 S509에서 응집도계산부(15)를 통해 계산된 응집도를 기초로 대화 의도 내 특정 학습 문구를 유사 발화 문구로 선택하여 추출하되, 응집도가 해당 기준보다 낮고 유사도가 해당 기준보다 높은 학습 문구를 유사 발화 문구로 선택하여 추출할 수 있으며, 예를 들어, 도 4의 응집도 예시도에서 응집도가 상대적으로 낮은(실제로는 기 설정된 기준보다 낮은) '5G_Clear' 대화의도 내의 학습 문구 중, 도 3의 유사도 예시도에서 유사도가 상대적으로 높은(실제로는 기 설정된 기준보다 높은) 학습 문구인 '5G 약정 할인 해지' 문구를 유사 발화 문구로 선택하여 추출할 수 있다(S511).
전술한 바와 같이 본 발명의 방법에 따르면 유사 발화 문구(또는 문장)를 판별하고 해당 대화의도(Intent)에서 제외하여 별도 파일로 생성할 수 있으며, 이에 따라 모델 운영 담당자는 데이터 전처리 단계에서 본 발명의 방법을 통해 의도분류 성공률을 저하시킬 수 있는 문장들을 미리 제거할 수 있으며, 해당 문장들을 추후 수정 반영할 수도 있다.
한편, 전술한 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법에 따르면 해당 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 구현할 수 있다.
또 한편, 전술한 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법에 따르면 해당 방법을 하드웨어와 결합하여 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 애플리케이션을 구현할 수 있다.
또 다른 한편, 전술한 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법에 따르면 해당 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램을 구현할 수 있다.
예를 들어, 전술한 바와 같이 본 발명의 예시적인 실시예에 따른 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독가능 기록 매체 또는 이러한 기록 매체에 저장된 애플리케이션으로 구현될 수 있다. 상기 컴퓨터 판독 가능 기록 매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 기록 매체는 본 발명의 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
11: 입력부
12: 전처리부
13: 임베딩부
14: 유사도계산부
15: 응집도계산부
16: 유사문구추출부

Claims (17)

  1. 입력된 대화 의도 별 하나 이상의 학습 문구를 임베딩하기 위한 임베딩부;
    대화 의도가 다른 임베딩된 두 학습 문구 간의 유사도를 계산하기 위한 유사도계산부;
    동일 대화 의도 내 임베딩된 모든 학습 문구의 응집도를 계산하기 위한 응집도계산부; 및
    상기 계산된 유사도 및 응집도를 기초로 특정 대화 의도 내 특정 학습 문구를 상기 특정 대화 의도 내의 다른 학습 문구와 실질적으로 대화 의도가 다른 유사 발화 문구로 선택하여 추출하기 위한 유사문구추출부;
    를 포함하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치.
  2. 제1항에 있어서,
    상기 임베딩부는 .CVS(Comma-Separated Value) 포맷의 학습 문구를 입력하는 것을 특징으로 하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치.
  3. 제1항에 있어서,
    상기 유사도계산부는 코사인(Cosine) 유사도 계산 방식으로 유사도를 계산하는 것을 특징으로 하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치.
  4. 제3항에 있어서,
    상기 코사인(Cosine) 유사도 계산 방식은 사이킷-런(Scikit-learn)의 코사인 유사도(Cosine Similarity) 방식을 포함하는 것을 특징으로 하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치.
  5. 제1항에 있어서,
    상기 응집도계산부는 동일 대화 의도 내 임베딩된 모든 학습 문구의 평균 유사도를 응집도로 산출하는 것을 특징으로 하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치.
  6. 제1항에 있어서,
    상기 유사문구추출부는 응집도가 해당 기준보다 낮고 유사도가 해당 기준보다 높은 학습 문구를 유사 발화 문구로 선택하여 추출하는 것을 특징으로 하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치.
  7. 제1항에 있어서,
    상기 임베딩부는 입력된 학습 문구를 텐서플로우 허브(TensorFlow hub) 방식을 통해 임베딩하는 것을 특징으로 하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치.
  8. 인공지능 서비스 대화 모델의 학습 문구 품질 검증 장치에서 수행하는 인공지능 서비스 대화 모델의 학습 문구 품질 검증 방법으로서,
    (a) 입력된 대화 의도 별 하나 이상의 학습 문구를 임베딩하기 위한 단계;
    (b) 대화 의도가 다른 임베딩된 두 학습 문구 간의 유사도를 계산하기 위한 단계;
    (c) 동일 대화 의도 내 임베딩된 모든 학습 문구의 응집도를 계산하기 위한 단계; 및
    (d) 상기 계산된 유사도 및 응집도를 기초로 특정 대화 의도 내 특정 학습 문구를 상기 특정 대화 의도 내의 다른 학습 문구와 실질적으로 대화 의도가 다른 유사 발화 문구로 선택하여 추출하기 위한 단계;
    를 포함하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법.
  9. 제8항에 있어서,
    상기 단계 (a)는 .CVS(Comma-Separated Value) 포맷의 학습 문구를 입력하는 것을 특징으로 하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법.
  10. 제8항에 있어서,
    상기 단계 (b)는 코사인(Cosine) 유사도 계산 방식으로 유사도를 계산하는 것을 특징으로 하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법.
  11. 제10항에 있어서,
    상기 코사인(Cosine) 유사도 계산 방식은 사이킷-런(Scikit-learn)의 코사인 유사도(Cosine Similarity) 방식을 포함하는 것을 특징으로 하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법.
  12. 제8항에 있어서,
    상기 단계 (c)는 동일 대화 의도 내 임베딩된 모든 학습 문구의 평균 유사도를 응집도로 산출하는 것을 특징으로 하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법.
  13. 제8항에 있어서,
    상기 단계 (d)는 응집도가 해당 기준보다 낮고 유사도가 해당 기준보다 높은 학습 문구를 유사 발화 문구로 선택하여 추출하는 것을 특징으로 하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법.
  14. 제8항에 있어서,
    상기 단계 (a)는 입력된 학습 문구를 텐서플로우 허브(TensorFlow hub) 방식을 통해 임베딩하여 벡터화 하는 것을 특징으로 하는 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법.
  15. 제8항 내지 제14항 중 어느 한 항의 상기 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  16. 제8항 내지 제14항 중 어느 한 항의 상기 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법을 하드웨어와 결합하여 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 애플리케이션.
  17. 제8항 내지 제14항 중 어느 한 항의 상기 인공지능 서비스 대화모델의 학습 문구 품질 검증 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램.
KR1020190167901A 2019-12-16 2019-12-16 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법 KR102356996B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190167901A KR102356996B1 (ko) 2019-12-16 2019-12-16 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190167901A KR102356996B1 (ko) 2019-12-16 2019-12-16 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20210076558A KR20210076558A (ko) 2021-06-24
KR102356996B1 true KR102356996B1 (ko) 2022-01-28

Family

ID=76607366

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190167901A KR102356996B1 (ko) 2019-12-16 2019-12-16 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102356996B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971704B (zh) * 2024-03-28 2024-06-04 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种青少年编程场景的自我引导代码纠错数据集生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152641A (ja) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc 類似例文検索装置
JP2010165141A (ja) * 2009-01-15 2010-07-29 Kyowa Exeo Corp テキストログからの特定箇所抽出方法およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101131278B1 (ko) 2010-03-02 2012-03-30 포항공과대학교 산학협력단 대화 로그를 이용한 학습 기반 대화 시스템 성능 향상 방법 및 그 장치
KR101668725B1 (ko) * 2015-03-18 2016-10-24 성균관대학교산학협력단 잠재 키워드 생성 방법 및 장치
KR102033175B1 (ko) * 2017-11-15 2019-10-16 (주)페르소나시스템 머신 러닝 기반의 챗봇용 데이터 추가 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152641A (ja) * 2006-12-19 2008-07-03 Toyota Central R&D Labs Inc 類似例文検索装置
JP2010165141A (ja) * 2009-01-15 2010-07-29 Kyowa Exeo Corp テキストログからの特定箇所抽出方法およびプログラム

Also Published As

Publication number Publication date
KR20210076558A (ko) 2021-06-24

Similar Documents

Publication Publication Date Title
EP1226574B1 (en) Method and apparatus for discriminative training of acoustic models of a speech recognition system
US8135578B2 (en) Creation and use of application-generic class-based statistical language models for automatic speech recognition
US20160140957A1 (en) Speech Recognition Semantic Classification Training
CA2537503A1 (en) Unsupervised and active learning in automatic speech recognition for call classification
US9495955B1 (en) Acoustic model training
KR102385851B1 (ko) 음성 인식 및 번역 시스템,방법 및 컴퓨터 프로그램
JPWO2010150464A1 (ja) 情報分析装置、情報分析方法、及びプログラム
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
US20160232892A1 (en) Method and apparatus of expanding speech recognition database
CN112084317A (zh) 预训练语言模型的方法和装置
KR102356996B1 (ko) 인공지능 서비스 대화모델의 학습 문구 품질 검증 장치 및 방법
Sperber et al. Efficient speech transcription through respeaking.
CN111883137A (zh) 基于语音识别的文本处理方法及装置
CN109410923A (zh) 语音识别方法、装置、系统及存储介质
CN112989008A (zh) 一种多轮对话改写方法、装置和电子设备
CN109800299B (zh) 一种说话人聚类方法及相关装置
KR101444411B1 (ko) 발화검증 기반 대용량 음성 데이터 자동 처리 장치 및 방법
CN111898342A (zh) 一种基于编辑距离的中文发音校验方法
US20100145677A1 (en) System and Method for Making a User Dependent Language Model
KR20200102309A (ko) 단어 유사도를 이용한 음성 인식 시스템 및 그 방법
WO2012093451A1 (ja) 音声認識システム、音声認識方法および音声認識プログラム
KR102519618B1 (ko) 단대단 신경망 번역 시스템 및 그 방법
KR20210016682A (ko) 음성 인식 결과 오류 수정 장치 및 방법
US20130282374A1 (en) Speech recognition device, speech recognition method, and speech recognition program
CN113035171B (zh) 语音识别处理方法及系统

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant