KR102280490B1 - Training data construction method for automatically generating training data for artificial intelligence model for counseling intention classification - Google Patents
Training data construction method for automatically generating training data for artificial intelligence model for counseling intention classification Download PDFInfo
- Publication number
- KR102280490B1 KR102280490B1 KR1020210011678A KR20210011678A KR102280490B1 KR 102280490 B1 KR102280490 B1 KR 102280490B1 KR 1020210011678 A KR1020210011678 A KR 1020210011678A KR 20210011678 A KR20210011678 A KR 20210011678A KR 102280490 B1 KR102280490 B1 KR 102280490B1
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- electronic device
- sentences
- training data
- artificial intelligence
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0281—Customer communication at a business location, e.g. providing product or service information, consulting
Abstract
Description
본 개시는 훈련 데이터를 구축하는 전자 장치에 관한 것으로, 보다 상세하게는, 상담의도를 분류하는 인공지능 모델을 위한 훈련 데이터를 구축하는 전자 장치에 관한 것이다.The present disclosure relates to an electronic device for constructing training data, and more particularly, to an electronic device for constructing training data for an artificial intelligence model for classifying counseling intentions.
COVID-19의 전세계적인 확산 및 장기화에 따른 비대면 업무의 증가로 인하여 챗봇, 홈페이지 게시판 또는 전화 상담을 통한 고객 상담 수요가 지속적으로 증가하고 있다.Due to the increase of non-face-to-face work due to the global spread and prolonged COVID-19, the demand for customer consultation through chatbots, website bulletin boards, or phone consultations is continuously increasing.
특히, 고객 중심의 맞춤형 경영 혹은 서비스 제공을 목표로 하는 민간기업 또는 공공기관의 경우 웹, 앱, 전화, 이메일 등 다양한 채널을 통해 유입되는 고객의 소리를 저장하고 분석하는 것은 이러한 목표 달성의 첫번째 개선 과제이다.In particular, in the case of private companies or public institutions that aim to provide customer-oriented customized management or services, storing and analyzing customer voices through various channels such as web, app, phone, and e-mail is the first improvement in achieving this goal. It is a task.
그러나 고객의 소리는 숫자로 표현되는 명확한 형태의 정형 데이터가 아니라, 음성이나 문자로 표현되는 비정형의 데이터로 이를 분석하고 분류하는데 많은 인력 자원이 소요되고 있는 문제점이 있다. However, there is a problem that a lot of human resources are required to analyze and classify the customer's voice as unstructured data expressed in voice or text, not in a clear form of data expressed in numbers.
이러한 문제점을 개선하기 위하여 텍스트 기반 분석을 수행하는 인공지능 엔진에 대한 도입이 민간 기업 주도로 다수 이뤄지고 있으나, 해당 인공지능 엔진이 정확한 데이터를 분석하기 위해서는 시스템 도입 이후 수작업을 통한 대량의 훈련 데이터 생성 및 분류 작업이 필요하다. In order to solve this problem, many private companies have introduced artificial intelligence engines that perform text-based analysis. However, in order for the AI engine to analyze accurate data, it is necessary to manually generate a large amount of training data and classification is required.
결국 정확한 고객의 상담 의도를 자동으로 추출하고 분류하기 위해서는 텍스트 분석 기반 인공지능 엔진 자체의 도입 보다 해당 엔진이 학습하고 추론하기 위하여 각종 상담의도로 분류된 대량의 훈련 데이터를 확보하는 것이 중요하다. In the end, in order to automatically extract and classify accurate customer consultation intentions, it is more important to secure a large amount of training data classified by various consultation intentions in order for the engine to learn and reason rather than to introduce a text analysis-based artificial intelligence engine itself.
다만, 기존에 키워드 또는 문장 등록을 통한 상담의도 훈련 데이터 구축 방식은 사람의 지식 범위 내에서 상담의도 별 문장을 일일히 생각하여 등록하거나 수집된 원천 데이터 내에서 상담의도 별 문장을 일일히 선별하여 훈련 데이터를 구축하는 방식이라 실질적으로 인공지능 모델의 훈련을 위한 데이터의 총량이 절대적으로 부족하거나 다양한 표현으로 구사되는 데이터를 확보할 수 없다는 단점을 가진다. However, in the existing method of constructing counseling intention training data through keyword or sentence registration, each sentence for each counseling intention is considered and registered within the human knowledge range, or sentences for each counseling intention within the collected source data are written one by one. Since it is a method of constructing training data by selection, it has the disadvantage that the total amount of data for training the artificial intelligence model is absolutely insufficient, or data used in various expressions cannot be secured.
이에 대량의 온라인 게시물, 챗봇, 기업 내부 민원 게시판, 전화 녹취록 등을 통해 수집된 대량의 문서 내에서 사람의 수작업 선별을 대신하여 인공지능 시스템이 자동으로 고객의 의도를 정확히 분류할 수 있도록 하는 자동 훈련 데이터 구축 시스템을 제공하여, 최소의 인력 개입으로 단시간 내에 대량의 훈련 데이터를 확보하여 정확한 상담 의도 분류 엔진을 구축할 수 있는 연구가 필요한 실정이다.In this regard, automatic training to enable the artificial intelligence system to automatically classify customer intentions accurately in place of the manual selection of humans in the large amount of documents collected through a large number of online postings, chatbots, internal civil complaint boards, and phone transcripts, etc. There is a need for research that can build an accurate counseling intention classification engine by providing a data construction system and securing a large amount of training data within a short time with minimal human intervention.
본 개시는 상담의도를 분류하는 인공지능 모델의 훈련에 이용되는 훈련 데이터 구축에 있어, 인위적인 노력 없이 자동으로 훈련 데이터를 다량 생성할 수 있는 전자 장치 및 훈련 데이터 구축 방법을 제공한다.The present disclosure provides an electronic device capable of automatically generating a large amount of training data without artificial effort in constructing training data used for training an artificial intelligence model for classifying counseling intentions and a training data building method.
본 개시의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 개시의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 개시의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 개시의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.Objects of the present disclosure are not limited to the above-mentioned purposes, and other objects and advantages of the present disclosure that are not mentioned may be understood by the following description, and will be more clearly understood by examples of the present disclosure. Moreover, it will be readily apparent that the objects and advantages of the present disclosure may be realized by the means and combinations thereof indicated in the claims.
본 개시의 일 실시 예에 따른, 상담의도를 분류하는 인공지능 모델을 위한 전자 장치의 훈련 데이터 구축 방법은, 기저장된 복수의 상담의도 중 하나의 상담의도에 대하여 등록된 적어도 하나의 기본 문장으로부터 복수의 키워드를 추출하는 단계, 상기 추출된 복수의 키워드 중 적어도 하나에 대한 유사도가 임계치 이상인 제1 유사 키워드를 식별하는 단계, 상기 복수의 키워드 및 상기 제1 유사 키워드를 기반으로, 데이터베이스로부터 복수의 문장을 수집하는 단계, 상기 수집된 복수의 문장 중 상기 기본 문장에 대한 유사도가 임계치 이상인 적어도 하나의 제1 문장을 선택하는 단계를 포함한다. 상기 인공지능 모델은, 상기 기본 문장 및 상기 선택된 제1 문장을 기반으로 훈련될 수 있다.According to an embodiment of the present disclosure, there is provided a method of constructing training data of an electronic device for an artificial intelligence model for classifying consultation intentions, at least one basic registered consultation intention among a plurality of pre-stored consultation intentions. extracting a plurality of keywords from a sentence; identifying a first similar keyword having a similarity to at least one of the extracted plurality of keywords equal to or greater than a threshold; based on the plurality of keywords and the first similar keyword, from a database The method may include collecting a plurality of sentences, and selecting at least one first sentence having a similarity to the basic sentence or more from among the plurality of collected sentences. The artificial intelligence model may be trained based on the basic sentence and the selected first sentence.
상기 복수의 문장을 수집하는 단계는, 상기 복수의 키워드 및 상기 제1 유사 키워드를 포함하는 키워드들 중 일정 비율 이상의 키워드들을 조합하여 검색어를 생성하고, 상기 생성된 검색어에 대한 검색을 수행하여 상기 복수의 문장을 획득할 수 있다.The collecting of the plurality of sentences may include generating a search word by combining keywords of a certain ratio or more among the plurality of keywords and keywords including the first similar keyword, and performing a search on the generated search word to obtain the plurality of sentences. sentences can be obtained.
상기 전자 장치의 훈련 데이터 구축 방법은, 상기 선택된 제1 문장을, 상기 기본 문장이 등록된 상담의도에 매칭되는 훈련 데이터로 저장하는 단계를 포함할 수 있다.The method of constructing training data of the electronic device may include storing the selected first sentence as training data matching the counseling intention in which the basic sentence is registered.
또한, 상기 전자 장치의 훈련 데이터 구축 방법은, 상기 수집된 복수의 문장에 포함된 복수의 키워드 중 서로 간의 유사도가 임계치 이상인 키워드들을 포함하는 그룹을 생성하는 단계, 상기 수집된 복수의 문장 중 적어도 하나의 문장 내에서, 상기 그룹에 포함되는 키워드를 상기 그룹 내 다른 키워드로 대체하여, 복수의 재구성 문장을 생성하는 단계, 상기 복수의 재구성 문장 중 상기 기본 문장에 대한 유사도가 임계치 이상인 적어도 하나의 제2 문장을 선택하는 단계를 더 포함할 수 있다. 이 경우, 상기 인공지능 모델은, 상기 기본 문장, 상기 선택된 제1 문장, 및 상기 선택된 제2 문장을 기반으로 훈련될 수 있다.In addition, the method for constructing training data of the electronic device may include: generating a group including keywords having a similarity level equal to or greater than a threshold value among a plurality of keywords included in the plurality of collected sentences; at least one of the plurality of collected sentences generating a plurality of reconstructed sentences by replacing the keywords included in the group with other keywords in the group within the sentences, at least one second of the plurality of reconstructed sentences having a similarity to the basic sentence equal to or greater than a threshold value The method may further include selecting a sentence. In this case, the artificial intelligence model may be trained based on the basic sentence, the selected first sentence, and the selected second sentence.
한편, 상기 전자 장치의 훈련 데이터 구축 방법은, 상기 기본 문장 및 상기 선택된 제1 문장을 포함하는 문장들을 훈련 데이터와 검증 데이터로 구분하여 저장하는 단계, 상기 훈련 데이터에 해당하는 문장을 기반으로, 상기 인공지능 모델이 상기 기본 문장이 등록된 상담의도를 식별하도록 훈련시키는 단계, 상기 검증 데이터에 해당하는 문장을 상기 인공지능 모델에 입력하여 상기 인공지능 모델을 검증하는 단계를 포함할 수 있다.On the other hand, the method for constructing training data of the electronic device includes the steps of dividing and storing the sentences including the basic sentence and the selected first sentence into training data and verification data, and storing the sentences corresponding to the training data, based on the sentences corresponding to the training data, It may include training an artificial intelligence model to identify the consultation intention in which the basic sentence is registered, and verifying the artificial intelligence model by inputting a sentence corresponding to the verification data into the artificial intelligence model.
여기서, 상기 검증하는 단계는, 상기 검증 데이터에 해당하는 문장을 상기 인공지능 모델에 입력하여, 상기 인공지능 모델이 상기 기본문장이 등록된 상담의도를 출력하는지 여부를 식별하고, 상기 인공지능 모델이 상기 기본 문장이 등록된 상담의도를 출력하는 경우, 상기 인공지능 모델의 검증이 성공한 것으로 결정할 수 있다.Here, the verifying includes inputting a sentence corresponding to the verification data into the artificial intelligence model, identifying whether the artificial intelligence model outputs the consultation intention in which the basic sentence is registered, and the artificial intelligence model When the basic sentence outputs the registered counseling intention, it may be determined that the verification of the artificial intelligence model is successful.
또한, 상기 전자 장치의 훈련 데이터 구축 방법은, 상기 검증 데이터에 포함되는 적어도 하나의 검증용 문장을 통한 상기 인공지능 모델의 검증이 실패한 경우, 상기 검증용 문장으로부터 복수의 키워드를 추출하는 단계, 상기 추출된 복수의 키워드 중 적어도 하나에 대한 유사도가 임계치 이상인 제2 유사 키워드를 식별하는 단계, 상기 복수의 키워드 및 상기 제2 유사 키워드를 기반으로, 데이터베이스로부터 복수의 문장을 수집하는 단계, 상기 수집된 복수의 문장 중 상기 기본 문장에 대한 유사도가 임계치 이상인 적어도 하나의 제3 문장을 선택하는 단계를 포함할 수 있다. 이 경우, 상기 인공지능 모델은, 상기 검증용 문장 및 상기 선택된 제3 문장을 기반으로 훈련될 수 있다.In addition, the method for constructing training data of the electronic device includes the steps of: extracting a plurality of keywords from the verification sentence when verification of the artificial intelligence model through at least one verification sentence included in the verification data fails; identifying a second similar keyword having a similarity to at least one of the plurality of extracted keywords equal to or greater than a threshold; collecting a plurality of sentences from a database based on the plurality of keywords and the second similar keyword; The method may include selecting at least one third sentence having a similarity to the basic sentence or more from among the plurality of sentences. In this case, the artificial intelligence model may be trained based on the verification sentence and the selected third sentence.
본 개시에 따른 훈련 데이터 구축 방법은, 상담의도 별로 일부의 문장 등록만으로 다량의 훈련 데이터를 확보할 수 있다는 장점이 있다.The training data construction method according to the present disclosure has an advantage in that a large amount of training data can be secured only by registering some sentences for each consultation intention.
특히, 본 개시에 따른 훈련 데이터 구축 방법은, 상담의도 분류를 위하여 사람이 직접 수작업 분류를 하거나 학습 데이터 구축을 위하여 다수의 인력이 상담의도 학습을 위한 문장을 구축할 필요가 없어 인건비 절감과 데이터 누적 시간을 획기적으로 절감 가능하게 한다.In particular, in the training data construction method according to the present disclosure, there is no need for a person to manually classify the consultation intention or to construct a sentence for learning the consultation intention by a large number of personnel to construct the learning data, thereby reducing labor costs and Data accumulation time can be dramatically reduced.
도 1은 본 개시에 따른 전자 장치의 훈련 데이터 구축 및 인공지능 모델을 개략적으로 설명하기 위한 도면,
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도,
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 훈련 데이터 구축 방법을 설명하기 위한 흐름도,
도 4는 본 개시의 일 실시 예에 따른 전자 장치가 문장을 추가로 생성 및 선택하는 동작을 설명하기 위한 흐름도, 그리고
도 5는 본 개시의 일 실시 예에 다른 전자 장치의 기능적 구성을 설명하기 위한 블록도이다.1 is a diagram for schematically explaining training data construction and an artificial intelligence model of an electronic device according to the present disclosure;
2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure;
3 is a flowchart illustrating a method of constructing training data of an electronic device according to an embodiment of the present disclosure;
4 is a flowchart illustrating an operation in which an electronic device additionally generates and selects a sentence according to an embodiment of the present disclosure;
5 is a block diagram illustrating a functional configuration of an electronic device according to an embodiment of the present disclosure.
본 개시에 대하여 구체적으로 설명하기에 앞서, 본 명세서 및 도면의 기재 방법에 대하여 설명한다.Before describing the present disclosure in detail, a description will be given of the description of the present specification and drawings.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당해 기술 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다. First, terms used in the present specification and claims have been selected in consideration of functions in various embodiments of the present disclosure. However, these terms may vary depending on the intention of a person skilled in the art, legal or technical interpretation, and emergence of new technology. Also, some terms are arbitrarily selected by the applicant. These terms may be interpreted in the meanings defined in this specification, and if there is no specific term definition, it may be interpreted based on the general content of the present specification and common technical knowledge in the art.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성요소를 모두 도시되어 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다. Also, the same reference numerals or reference numerals in each drawing attached to this specification indicate parts or components that perform substantially the same functions. For convenience of description and understanding, the same reference numerals or reference numerals are used in different embodiments. That is, even though all components having the same reference number are illustrated in a plurality of drawings, the plurality of drawings do not mean one embodiment.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 "제1", "제2" 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성요소들을 서로 구별하기 위하여 사용하는 것이며 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안 된다. 일 예로, 이러한 서수와 결합된 구성요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한되어서는 안 된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다. In addition, in this specification and claims, terms including an ordinal number such as “first” and “second” may be used to distinguish between elements. This ordinal number is used to distinguish the same or similar elements from each other, and the meaning of the term should not be construed as limited due to the use of the ordinal number. As an example, the use order or arrangement order of the components combined with the ordinal number should not be limited by the number. If necessary, each ordinal number may be used interchangeably.
본 명세서에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.In this specification, the singular expression includes the plural expression unless the context clearly dictates otherwise. In the present application, terms such as "comprises" or "consisting of" are intended to designate that a feature, number, step, operation, component, part, or combination thereof described in the specification exists, and is not intended to It is to be understood that this does not preclude the possibility of addition or presence of features or numbers, steps, operations, components, parts, or combinations thereof.
본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.In an embodiment of the present disclosure, terms such as “module”, “unit”, “part”, etc. are terms used to refer to a component that performs at least one function or operation, and these components are hardware or software. It may be implemented or implemented as a combination of hardware and software. In addition, a plurality of "modules", "units", "parts", etc. are integrated into at least one module or chip, and are integrated into at least one processor, except when each needs to be implemented in individual specific hardware. can be implemented as
또한, 본 개시의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.In addition, in an embodiment of the present disclosure, when a part is connected to another part, this includes not only direct connection but also indirect connection through another medium. In addition, the meaning that a certain part includes a certain component means that other components may be further included, rather than excluding other components, unless otherwise stated.
도 1은 본 개시에 따른 전자 장치의 훈련 데이터 구축 및 인공지능 모델을 개략적으로 설명하기 위한 도면이다.1 is a diagram for schematically explaining training data construction and an artificial intelligence model of an electronic device according to the present disclosure.
도 1을 참조하면, 전자 장치(100)는 인공지능 모델(10)의 훈련을 위한 훈련 데이터를 구축할 수 있다.Referring to FIG. 1 , the
인공지능 모델(10)은 고객상담 서비스를 제공하는 적어도 하나의 시스템에서 활용될 수 있으며, 본 시스템은 전자 장치(100)를 포함하는 시스템일 수 있다.The artificial intelligence model 10 may be utilized in at least one system that provides a customer consultation service, and the present system may be a system including the
본 시스템은 챗봇, 홈페이지 게시판, 전화상담, 기타 온라인 상담 등의 수단으로 고객상담 서비스를 제공할 수 있으며, 이때, 적어도 하나의 사용자 단말을 통해 고객상담 서비스가 제공될 수 있으나, 이에 한정되지 않는다.The system may provide a customer consultation service by means such as a chatbot, a website bulletin board, a phone consultation, or other online consultation, and in this case, the customer consultation service may be provided through at least one user terminal, but is not limited thereto.
인공지능 모델(10)은 적어도 하나의 텍스트가 입력되면, 기설정된 복수의 상담의도 중 입력된 텍스트에 매칭되는 적어도 하나의 상담의도를 출력할 수 있다.When at least one text is input, the artificial intelligence model 10 may output at least one consultation intention matching the input text among a plurality of preset consultation intentions.
텍스트는, 고객으로부터 수신되는 텍스트일 수 있으며, 적어도 하나의 웹 페이지 또는 애플리케이션을 통해 고객(단말)으로부터 수신되는 메시지일 수 있다.The text may be text received from the customer, or a message received from the customer (terminal) through at least one web page or application.
또한, 텍스트는, 고객상담 중 수신되는 고객의 음성이 변환된 텍스트일 수도 있다.In addition, the text may be a text obtained by converting a customer's voice received during customer consultation.
복수의 상담의도는, 불만, 문의, 장애신고, 보상요청, 칭찬, 계약/해지, 제안 등 다양한 의도에 해당할 수 있다.The plurality of counseling intentions may correspond to various intentions such as complaints, inquiries, disability reports, compensation requests, praise, contract/cancellation, and proposals.
예를 들어, “일 처리가 왜 이래요?”와 같은 텍스트가 입력되는 경우, 인공지능 모델(10)은 상담의도를 '불만'으로 식별할 수 있다.For example, when a text such as “Why are you doing this work?” is input, the artificial intelligence model 10 may identify the consultation intention as 'dissatisfaction'.
인공지능 모델(10)은 인간의 신경망을 모의하는 적어도 하나의 네트워크를 포함할 수 있으며, 딥 러닝 기반으로 훈련되어 각 레이어를 구성하는 노드 간의 가중치(weight)가 업데이트 되면서 훈련될 수 있다.The artificial intelligence model 10 may include at least one network simulating a human neural network, and may be trained based on deep learning while the weights between nodes constituting each layer are updated.
인공지능 모델(10)은, 서로 다른 상담의도에 매칭되는 복수의 텍스트(문장, 단어 등)를 포함하는 훈련 데이터를 기반으로 훈련될 수 있으며, 복수의 상담의도 중 입력된 텍스트에 매칭되는 상담의도를 식별하기 위한 분류기 모델로 구현될 수 있다.The artificial intelligence model 10 may be trained based on training data including a plurality of texts (sentences, words, etc.) matching different consultation intentions, and matching the input text among the plurality of consultation intentions. It can be implemented as a classifier model for identifying counseling intentions.
전자 장치(100)는, 상담 의도 별로, 훈련 데이터로 등록된 소수의 기본 문장만으로 다수의 훈련 데이터를 생성하여 인공지능 모델(10)의 훈련 환경을 조성할 수 있다.The
이하 도면들을 통해, 전자 장치(100)의 구성 및 훈련 데이터 구축 방법을 보다 상세하게 설명한다.Hereinafter, a configuration of the
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하기 위한 블록도이다.2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
도 2를 참조하면, 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.Referring to FIG. 2 , the
전자 장치(100)는 적어도 하나의 컴퓨터로 구성된 서버(시스템)로 구현될 수 있다. 이밖에, 전자 장치(100)는 데스크탑 PC, 노트북 PC, 키오스크, 스마트폰, 태블릿 PC 등 다양한 단말 장치에 해당할 수도 있다.The
메모리(110)는 전자 장치(100)의 구성요소들의 전반적인 동작을 제어하기 위한 운영체제(OS: Operating System) 및 전자 장치(100)의 구성요소와 관련된 적어도 하나의 인스트럭션 또는 데이터를 저장하기 위한 구성이다.The
메모리(110)는 ROM, 플래시 메모리 등의 비휘발성 메모리를 포함할 수 있으며, DRAM 등으로 구성된 휘발성 메모리를 포함할 수 있다. 또한, 메모리(110)는 하드 디스크, SSD(Solid state drive) 등을 포함할 수도 있다.The
메모리(110)는 복수의 상담의도에 대한 정보, 상담의도 별로 등록된 기본 문장에 대한 정보, 상술한 인공지능 모델(10) 등을 포함할 수 있다. 다만, 인공지능 모델(10)의 경우, 전자 장치(100)의 메모리(110)가 아닌 전자 장치(100)로부터 훈련 데이터를 공급받아 인공지능 모델(10)을 훈련시킬 수 있는 적어도 하나의 외부 장치에 저장되어 있을 수도 있다.The
프로세서(120)는 전자 장치(100)를 전반적으로 제어하기 위한 구성이다. 구체적으로, 프로세서(120)는 메모리(110)와 연결되는 한편 메모리(110)에 저장된 적어도 하나의 인스트럭션을 실행함으로써 본 개시의 다양한 실시 예들에 따른 동작을 수행할 수 있다.The
프로세서(120)는 하나 이상의 프로세서로 구성될 수 있다. 이때, 하나 이상의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit) 등과 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서 등을 포함할 수 있다. 인공지능 전용 프로세서는, 특정 인공지능 모델의 훈련 내지는 이용에 특화된 하드웨어 구조로 설계될 수 있다.The
한편, 전자 장치(100)는 메모리(110) 및 프로세서(120) 외에 통신부, 사용자 입력부 등의 구성을 추가로 포함할 수 있다.Meanwhile, the
통신부는 다양한 유무선 통신방식으로 적어도 하나의 외부 장치와 통신을 수행하기 위한 회로, 모듈 등을 포함할 수 있다.The communication unit may include circuits and modules for performing communication with at least one external device in various wired/wireless communication methods.
사용자 입력부는 사용자로부터 상담의도 별 기본 문장을 입력 받거나, 적어도 하나의 텍스트를 입력 받거나, 인공지능 모델의 훈련에 대한 요청을 수신하는 등 사용자로부터 다양한 명령 또는 정보를 수신하기 위한 구성이다. 사용자 입력부는 버튼, 터치 센서, 마이크, 카메라, 기타 다양한 센서로 구현될 수 있다.The user input unit is configured to receive various commands or information from the user, such as receiving a basic sentence for each consultation intention from the user, receiving at least one text input, or receiving a request for training an artificial intelligence model. The user input unit may be implemented as a button, a touch sensor, a microphone, a camera, and various other sensors.
전자 장치(100)가 서버로 구현된 경우, 전자 장치(100)는 사용자 입력을 수신할 수 있는 적어도 하나의 외부 장치(ex. 각종 단말 장치, 키보드/마우스 등 입력 장치 등)와 통신부를 통해 연결되어 사용자 입력을 수신할 수 있다.When the
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 훈련 데이터 구축 방법을 설명하기 위한 흐름도이다.3 is a flowchart illustrating a method of constructing training data of an electronic device according to an embodiment of the present disclosure.
도 3은 전자 장치(100) 상에 상담의도 별로 적어도 하나의 기본 문장이 등록된 상황을 가정한다.FIG. 3 assumes a situation in which at least one basic sentence is registered for each consultation intention on the
기본 문장은, 상담의도를 판단하기에 유의미한 단서가 될 만한 문장으로서, 사용자 입력 또는 개발자의 사전설정에 따라 상담의도 별로 등록될 수 있다.The basic sentence is a sentence that can be a meaningful clue for determining the consultation intention, and may be registered for each consultation intention according to a user input or preset by a developer.
예를 들어, 상담의도 '불만'에 대해서는, '도대체 일을 어떻게 하는 거예요?', '짜증나 죽겠네', '서비스 엉망이네요' 등의 기본 문장들이 전자 장치(100)의 메모리(110) 상에 등록될 수 있다.For example, with respect to the consultation intention 'dissatisfaction', basic sentences such as 'How the hell are you doing?', 'I'm getting annoyed', and 'The service is messed up' are displayed on the
도 3을 참조하면, 전자 장치(100)는 기저장된 복수의 상담의도 중 일 상담의도에 대하여 등록된 적어도 하나의 기본 문장으로부터 복수의 키워드를 추출할 수 있다(S310).Referring to FIG. 3 , the
구체적으로, 전자 장치(100)는 기본 문장에 대하여 형태소 분석, 구문 분석, 개체명 인식, 감성 분석 등 다양한 분석을 처리하여 복수의 키워드를 추출할 수 있다. 이때, 전자 장치(100)는 텍스트 내에서 형태소에 해당하는 키워드를 추출하기 위한 적어도 하나의 인공지능 모델을 이용할 수 있다.Specifically, the
예를 들어, 전자 장치(100)는 기본 문장인 “도대체 일을 어떻게 하는 거예요?”로부터 '도대체', '일', '어떻게', '하다' 등의 키워드들을 추출할 수 있다.For example, the
그리고, 전자 장치(100)는 복수의 키워드 중 적어도 하나에 대한 유사도가 임계치 이상인 유사 키워드를 식별할 수 있다(S320).Then, the
이때, 전자 장치(100)는 적어도 하나의 자연어 이해 기술(Natural Language Understanding)을 통해 복수의 키워드를 벡터 형태로 변환하고, 변환된 벡터에 따른 유사도가 임계치 이상인(또는 편차가 임계치 미만인) 적어도 하나의 유사 키워드를 식별할 수 있다.In this case, the
이를 위해, 전자 장치(100)는 많은 수의 형태소, 단어, 문장 등이 하나 이상의 차원의 벡터 형태로 정의된 데이터 구조를 이용할 수 있다.To this end, the
예를 들어, 기본 문장 내 키워드인 '일'에 대해서는, '업무', '사무', '일 처리' 등이 유사 키워드로 식별될 수 있다.For example, with respect to 'work', which is a keyword in a basic sentence, 'work', 'office work', 'work processing', etc. may be identified as similar keywords.
유사도에 대한 임계치는, 해당 상담의도에 대해 등록된 기본 문장의 수에 따라 다르게 설정될 수 있다. 구체적으로, 전자 장치(100)는 기등록되어 있는 기본 문장의 수가 많을수록, 임계치를 높게 설정할 수 있다.The threshold for the degree of similarity may be set differently according to the number of basic sentences registered for the corresponding consultation intention. Specifically, the
또한, 유사도에 대한 임계치는, 상술한 인공지능 모델(10)의 과거 출력 이력에 따른 해당 상담의도의 비율(ex. 인공지능 모델(10)이 입력된 텍스트에 따라 “불만”을 선택했던 비율)에 따라 다르게 설정될 수도 있다. 구체적으로, 전자 장치(100)는 해당 상담의도가 출력되었던 비율이 높을수록, 임계치를 낮게 설정할 수 있다. 그 결과, 빈도가 높은 상담의도에 대해서는 (후술할 과정에 따라) 보다 많은 훈련 데이터가 생성될 수 있다.In addition, the threshold for the degree of similarity is the ratio of the corresponding counseling intention according to the past output history of the artificial intelligence model 10 (eg, the ratio at which the artificial intelligence model 10 selected “dissatisfaction” according to the input text). ) may be set differently. Specifically, the
구체적인 예로, 전자 장치(100)는 이하 수학식에 따라 임계치를 산출할 수 있다(Th(i): 특정한 상담의도(i)에 대한 유사도 임계치, N(bsi): 상담의도(i)에 대해 등록되어 있는 기본 문장의 수, R(i): 상담의도(i)가 인공지능 모델로부터 출력되었던 비율, α: 기설정된 상수).As a specific example, the
그리고, 전자 장치(100)는 기본 문장에 포함된 복수의 키워드 및 (식별된) 유사 키워드를 기반으로, 데이터베이스로부터 복수의 문장을 수집할 수 있다(S330).In addition, the
데이터베이스는 다양한 형태, 내용에 해당하는 많은 수의 문장을 포함할 수 있으며, 고객상담 서비스가 제공되는 시스템(전자 장치(100) 포함) 내에 구축된 데이터베이스일 수도 있고, 전자 장치(100)와 통신 가능한 적어도 하나의 외부 시스템(ex. SNS, 검색 엔진, 그 밖에 다양한 온라인 DB)에 구축된 데이터베이스일 수도 있다.The database may include a large number of sentences corresponding to various forms and contents, may be a database built in a system (including the electronic device 100 ) in which a customer consultation service is provided, or may be capable of communicating with the
구체적으로, 전자 장치(100)는 기본 문장에 포함된 복수의 키워드 및 적어도 하나의 유사 키워드를 기반으로 검색어를 생성할 수 있다.Specifically, the
여기서, 전자 장치(100)는 기본 문장에 포함된 복수의 키워드 및 유사 키워드(들)를 포함하는 전체 키워드들 중 일정 비율(ex. 30%, 50% 등) 이상의 키워드들을 조합하여 검색어를 생성할 수 있다.Here, the
그리고, 전자 장치(100)는, 데이터베이스를 통해, 생성된 검색어에 대한 검색을 수행하여, 복수의 문장을 수집할 수 있다.In addition, the
그리고, 전자 장치(100)는 수집된 복수의 문장 중 기본 문장에 대한 유사도가 임계치 이상인 적어도 하나의 문장을 선택할 수 있다(S340).Then, the
구체적으로, 전자 장치(100)는 수집된 복수의 문장 각각을 벡터 형태로 변환하고, 기본 문장 역시 벡터 형태로 변환하여, 기본 문장과 수집된 각 문장 간의 유사도를 산출할 수 있다.Specifically, the
그리고, 전자 장치(100)는 수집된 복수의 문장 중 벡터 형태의 비교 결과 기본 문장과의 유사도가 임계치 이상인(또는 편차가 임계치 미만인) 적어도 하나의 (수집된) 문장을 선택할 수 있다.In addition, the
전자 장치(100)는, 순차적으로 이어지는 요소들(형태소, 단어, 문구, 문장부호 등)로 구성되는 문장의 의미를 이해하기에 적합한 RNN(Recurrent Neural Network), LSTM(Long Shot Term Memory) 등에 기반한 모델 내지는 엔진을 이용할 수 있으나 이에 한정되지 않는다.The
여기서, 기본 문장과의 유사도가 임계치 이상이라는 것은, 기본 문장이 해당 문장으로 대체될 수 있음을 의미할 수 있다.Here, when the similarity with the basic sentence is equal to or greater than the threshold, it may mean that the basic sentence can be replaced with the corresponding sentence.
예를 들어, 수집된 복수의 문장이 각각 “제발 일 처리 제대로 하세요”, “도대체 업무를 어떻게 하시는 거예요”, “사무 이렇게 볼 거예요” 등이고, 각 문장의 기본 문장에 대한 유사도가 각각 75.2%, 95.3%, 57.3%인 경우를 가정할 수 있다.For example, the plural sentences collected were “Please do your job properly”, “How the hell are you doing your job”, “You will see this as office work”, etc., and the similarity to the basic sentences of each sentence is 75.2% and 95.3, respectively. %, 57.3% can be assumed.
만약, 유사도에 대한 임계치가 60%인 경우, 전자 장치(100)는 유사도가 임계치 이상인 “도대체 업무를 어떻게 하시는 거예요” 및 “사무 이렇게 볼 거예요” 등을 선택할 수 있다.If the threshold for the similarity is 60%, the
전자 장치(100)는, 선택된 문장들 각각을, 기본 문장이 등록된 상담의도(ex. 불만)에 매칭되는 훈련 데이터로 저장할 수 있다.The
즉, 기존에 이미 특정 상담의도(ex. 불만)에 대해 등록되어 있던 기본 문장에 더하여, 선택된 문장들이 추가로 동일한 상담의도에 대해 등록(태깅)될 수 있다. 그 결과, 인공지능 모델(10)이 해당 상담의도(ex. 불만)와 관련하여 훈련되기 위한 훈련 데이터(문장)의 수가 전자 장치(100)에 의해 자동으로 증가되었다.That is, in addition to the basic sentences already registered for a specific counseling intention (eg, dissatisfaction), selected sentences may be additionally registered (tagged) for the same counseling intention. As a result, the number of training data (sentences) for which the artificial intelligence model 10 is trained in relation to the corresponding consultation intention (eg, complaints) is automatically increased by the
그리고, 인공지능 모델(10)은 기본 문장 및 선택된 문장들을 포함하는 훈련 데이터를 기반으로 훈련될 수 있다.And, the artificial intelligence model 10 may be trained based on training data including basic sentences and selected sentences.
한편, 인공지능 모델(10)의 훈련은 전자 장치(100) 또는 적어도 하나의 외부 장치에서 수행될 수 있다.Meanwhile, training of the artificial intelligence model 10 may be performed in the
전자 장치(100)의 메모리(110)에 인공지능 모델(10)이 포함된 경우, 상술한 바와 같이 구축된(증가된) 훈련 데이터를 이용한 인공지능 모델(10)의 훈련은 전자 장치(100)의 프로세서(120)를 통해 수행될 수 있다.When the artificial intelligence model 10 is included in the
또는, 인공지능 모델(10)이 전자 장치(100)와 연결된 적어도 하나의 외부 장치에 저장된 경우, 전자 장치(100)는 기본 문장 및 선택된 문장을 포함하는 훈련 데이터를 해당 외부 장치로 전송하여 외부 장치에서 수행되는 훈련에 기여할 수 있다.Alternatively, when the artificial intelligence model 10 is stored in at least one external device connected to the
이렇듯, 도 3의 과정이 상담의도 별로 등록된 각각의 기본 문장에 대하여 수행됨으로써, 다양한 상담의도를 분류하는 인공지능 모델(10)을 위한 대용량의 훈련 데이터가 빠르게 구축될 수 있다.In this way, since the process of FIG. 3 is performed for each basic sentence registered for each consultation intention, a large amount of training data for the artificial intelligence model 10 for classifying various consultation intentions can be quickly built.
한편, 일 실시 예에 따르면, 전자 장치(100)는 도 3의 과정에서 수집된 복수의 문장(S330)을 재구성하여 추가적인 훈련 데이터(문장)를 생성할 수 있다.Meanwhile, according to an embodiment, the
관련하여, 도 4는 본 개시의 일 실시 예에 따른 전자 장치가 문장을 추가로 생성 및 선택하는 동작을 설명하기 위한 흐름도이다.In relation to this, FIG. 4 is a flowchart illustrating an operation in which an electronic device additionally generates and selects a sentence according to an embodiment of the present disclosure.
도 4를 참조하면, 전자 장치(100)는 앞서 수집된 문장들(ex. 제발 일 처리 제대로 하세요, 도대체 업무를 어떻게 하시는 거예요, 사무 이렇게 볼 거예요)에 포함된 복수의 키워드 중 서로 간의 유사도가 임계치 이상인 키워드들을 포함하는 그룹을 생성할 수 있다(S410).Referring to FIG. 4 , the
이때, 전자 장치(100)는 기능(명사, 부사, 용언 등)이 동일한 키워드들 간의 유사도를 비교하여, 기능 별로 그룹을 생성할 수 있다.In this case, the
예를 들어, 전자 장치(100)는 수집된 문장들에 포함된 키워드들(형태소) 중 부사에 해당하는 '제발', '제대로', '도대체', '어떻게', '이렇게'에 대하여 유사도를 산출할 수 있다. 만약, 부사에 해당하는 해당 키워드들 간의 유사도가 모두 임계치(ex. 60%) 미만인 경우, 전자 장치(100)는 부사에 해당하는 해당 키워드들에 대해서는 그룹을 생성하지 않을 수 있다.For example, the
또한, 전자 장치(100)는 수집된 문장들에 포함된 키워드들 중 용언에 해당하는 '하다' 및 '보다'의 유사도를 산출할 수 있다. 만약, 유사도가 임계치 이상인 60.4%인 경우, 전자 장치(100)는 '하다' 및 '보다'를 포함하는 그룹을 생성할 수 있다.Also, the
또한, 전자 장치(100)는 수집된 문장들에 포함된 키워드들 중 명사에 해당하는 '일 처리', '업무', '사무'에 대하여 각각 간의 유사도를 산출할 수 있다. 만약, 산출된 유사도가 모두 임계치 이상인 경우, 전자 장치(100)는 명사에 해당하는 해당 키워드들을 포함하는 그룹을 생성할 수 있다.Also, the
그리고, 전자 장치(100)는, 수집된 복수의 문장 중 적어도 하나의 문장 내에서, (생성된) 일 그룹에 포함되는 키워드를 동일한 그룹 내 다른 키워드로 대체하여, 복수의 재구성 문장을 생성할 수 있다(S420).In addition, the
예를 들어, 전자 장치(100)는 수집된 문장들 중 적어도 하나의 문장 내에 포함된 '하다'를 '보다'로 대체하거나 또는 '보다'를 '하다'로 대체할 수 있다. 일 예로, '제발 일 처리 제대로 하세요'는 '제발 일 처리 제대로 보세요'로 변경될 수 있다.For example, the
또한, 전자 장치(100)는 수집된 문장들 중 적어도 하나의 문장 내에 포함된 '일 처리'를 '업무' 또는 '사무'로 대체하거나, '업무'를 '일 처리' 또는 '사무'로 대체하거나, '사무'를 '일 처리' 또는 '업무'로 대체할 수 있다.Also, the
그 결과, 전자 장치(100)는 “제발 업무 제대로 하세요”, “제발 사무 제대로 하세요”, “제발 일 처리 제대로 보세요”, “제발 업무 제대로 보세요”, “도대체 업무를 어떻게 보시는 거예요”, “도대체 일 처리를 어떻게 하시는 거예요”, “도대체 사무를 어떻게 보시는 거예요”, “업무 이렇게 볼 거예요”, “업무 이렇게 할 거예요”, “일 처리 이렇게 볼 거예요” 등과 같은 다양한 재구성 문장들을 획득할 수 있다.As a result, the
그리고, 전자 장치(100)는, 복수의 재구성 문장 중 기본 문장에 대한 유사도가 임계치 이상인 적어도 하나의 문장을 선택할 수 있다(S430). 이 경우, 전자 장치(100)는 선택된 문장을 기본 문장이 등록된 상담의도(ex. 불만)에 매칭되는 훈련 데이터로 저장할 수 있다.In addition, the
그 결과, 기본 문장 및 앞서 도 3의 과정에서 선택된 문장에 더하여, 도 4의 과정을 통해 선택된 문장 역시 인공지능 모델(10)의 훈련에 이용될 수 있다.As a result, in addition to the basic sentence and the sentence selected in the process of FIG. 3 , the sentence selected through the process of FIG. 4 may also be used for training the artificial intelligence model 10 .
특히, 도 4와 같이 다수의 재구성 문장을 생성하는 경우, 유의미한 훈련 데이터의 확보량이 빠르게 증가할 수 있다.In particular, when a plurality of reconstructed sentences are generated as shown in FIG. 4 , the secured amount of meaningful training data may be rapidly increased.
한편, 비록 상술한 도 4에서는 전자 장치(100)가 도 3의 S330에서 수집된 복수의 문장을 이용하여 추가적인 문장들을 생성하였으나, 전자 장치(100)는 도 3에서 수집된 복수의 문장 중 S340 과정을 통해 선택된 문장들만을 이용하여 S410 내지 S430의 과정을 거칠 수도 있다.Meanwhile, although in FIG. 4 described above, the
한편, 일 실시 예에 따르면, 전자 장치(100)는 기본 문장 및 선택된 문장들(도 3 및/또는 도4)을 포함하는 문장들을 훈련 데이터와 검증 데이터로 구분하여 저장할 수도 있다.Meanwhile, according to an embodiment, the
일 실시 예로, 전자 장치(100)는 기본 문장 및 선택된 문장들을 포함하는 문장들을 임의로 훈련 데이터와 검증 데이터로 구분하여 저장할 수도 있다.As an embodiment, the
구체적인 예로, 전자 장치(100)는 문장들 중 (랜덤한) 80%를 훈련 데이터로 정의하고, 나머지 20%를 검증 데이터로 저장할 수 있으나, 이에 한정될 필요는 없다.As a specific example, the
다른 실시 예로, 전자 장치(100)는, 선택된 문장들을 기본 문장과의 유사도에 따라 순서대로 나열하고, 일정한 빈도(ex. 두 문장 당 하나의 문장, 열 문장 당 여덟 개의 문장 등)에 따라 훈련 데이터에 해당하는 문장을 선택할 수 있다. 그리고, 훈련 데이터 외의 문장은 검증 데이터가 된다.In another embodiment, the
구체적인 예로, 전자 장치(100)는 선택된 문장들이 유사도에 따라 순서대로 나열된 상태에서, 순차적으로 두 문장 당 하나의 문장은 훈련 데이터로 저장하고, 나머지 문장은 검증 데이터로 저장할 수 있다(ex. 문장1(훈련 데이터) - 문장2(검증 데이터) - 문장3(훈련 데이터) - 문장4(검증 데이터) - 문장 5(훈련 데이터), …)As a specific example, the
이 경우, 훈련 데이터 및 검증 데이터 각각에 있어서, 기본 문장과의 유사도 분포가 편향되지 않을 수 있다.In this case, in each of the training data and the verification data, the similarity distribution with the basic sentence may not be biased.
훈련 데이터와 검증 데이터가 분류되면, 전자 장치(100)(또는 외부 장치)는 훈련 데이터에 해당하는 문장을 기반으로, 인공지능 모델(10)을 훈련시킬 수 있다. 여기서, 훈련 데이터에 해당하는 문장이 입력됨에 따라 특정 상담의도(ex. 불만)를 출력하도록, 인공지능 모델의 노드 간 가중치가 업데이트 될 수 있다.When the training data and the verification data are classified, the electronic device 100 (or an external device) may train the artificial intelligence model 10 based on a sentence corresponding to the training data. Here, as a sentence corresponding to the training data is input, the weight between nodes of the artificial intelligence model may be updated so as to output a specific consultation intention (eg, dissatisfaction).
다음으로, 전자 장치(100)(또는 외부 장치)는 검증 데이터에 해당하는 문장을 인공지능 모델(10)에 입력하여 인공지능 모델(10)을 검증할 수 있다.Next, the electronic device 100 (or an external device) may verify the artificial intelligence model 10 by inputting a sentence corresponding to the verification data into the artificial intelligence model 10 .
구체적으로, 전자 장치(100)는 검증 데이터에 해당하는 문장을 인공지능 모델(10)에 입력하여, 인공지능 모델(10)이 해당 상담의도(ex. 불만)를 출력하는지 여부를 식별할 수 있다.Specifically, the
이때, 전자 장치(100)는 검증 데이터에 해당하는 문장들 전체를 이용하여 검증을 수행할 수 있으나, 그 중 일부만을 이용하여 검증을 수행할 수도 있다.In this case, the
일 실시 예로, 전자 장치(100)는 검증 데이터에 해당하는 문장들을 기본 문장과의 유사도에 따라 순서대로 나열하고, 나열된 문장들 내에서 일정 개수마다 하나의 문장을 선택하여(ex. 열 문장 당 한 문장) 검증에 이용할 수 있다. 이 경우, 검증 데이터에 해당하는 문장들 중 일부만을 이용함으로써 검증에 소요되는 시간이 줄어들 수 있다.As an embodiment, the
만약, 검증 데이터에 해당하는 문장이 입력된 결과 인공지능 모델(10)이 정확한 상담의도(: 불만)를 출력하는 경우, 전자 장치(100)는 인공지능 모델(10)의 검증이 성공한 것으로 결정할 수 있다.If, as a result of inputting a sentence corresponding to the verification data, the artificial intelligence model 10 outputs an accurate consultation intention (: dissatisfaction), the
반면, 검증이 실패한 경우, 전자 장치(100)는 검증 데이터를 훈련 데이터로 하여 인공지능 모델(10)을 추가로 훈련시킬 수 있다.On the other hand, when the verification fails, the
여기서, 비록 검증 데이터에 해당하는 전체 문장들 중 일부 문장만이 검증에 이용되었다고 하더라도, 검증이 실패함에 따른 추가 훈련은 검증 데이터에 해당하는 전체 문장들을 통해 수행될 수도 있다. 또는, 검증 데이터에 해당하는 문장들 중 검증에 실패한 특정 문장과의 유사도가 기설정된 임계치 이하인 문장을 통해서만 추가 훈련이 수행될 수도 있다.Here, even if only some sentences among all sentences corresponding to the verification data are used for verification, additional training according to the verification failure may be performed through all sentences corresponding to the verification data. Alternatively, additional training may be performed only through sentences having a similarity with a specific sentence that has failed verification among sentences corresponding to the verification data equal to or less than a preset threshold.
또한, 검증이 실패한 경우, 전자 장치(100)는 검증 데이터를 기반으로 추가적인 훈련 데이터를 생성할 수도 있다.Also, when the verification fails, the
구체적으로, 검증 데이터에 포함되는 적어도 하나의 검증용 문장을 통한 인공지능 모델(10)의 검증이 실패한 경우, 전자 장치(100)는 검증용 문장으로부터 복수의 키워드를 추출할 수 있다. 여기서, 전자 장치(100)는 추출된 복수의 키워드 중 적어도 하나에 대한 유사도가 임계치 이상인 유사 키워드를 식별할 수 있다. 다음으로, 전자 장치(100)는, 복수의 키워드 및 유사 키워드를 기반으로, 데이터베이스로부터 복수의 문장을 수집할 수 있다. 그리고, 전자 장치(100)는 복수의 문장 중 기본 문장에 대한 유사도가 임계치 이상인 적어도 하나의 문장을 선택하여, 기본 문장이 등록된 상담의도에 매칭되는 훈련 데이터로 저장/등록할 수 있다.Specifically, when verification of the artificial intelligence model 10 through at least one verification sentence included in verification data fails, the
이 경우, 전자 장치(100)는 검증 데이터에 해당하는 전체 문장들 중, 검증이 실패한 특정 문장만을 이용하여 추가적인 훈련 데이터를 생성할 수 있다. 또는, 전자 장치(100)는 검증이 실패한 특정 문장과의 유사도가 기설정된 임계치 이상인 문장만을 이용하여 추가적인 훈련 데이터를 생성할 수도 있다.In this case, the
한편, 도 5는 본 개시의 일 실시 예에 다른 전자 장치의 기능적 구성을 설명하기 위한 블록도이다.Meanwhile, FIG. 5 is a block diagram illustrating a functional configuration of an electronic device according to an embodiment of the present disclosure.
도 5를 참조하면, 전자 장치(100)는 입력부(510), 수집부(520), 분석부(530), 저장부(540) 등을 포함할 수 있다. 본 구성들은, 각각 기능적으로 구분된 적어도 하나의 모듈을 포함할 수 있으며, 각 모듈은 소프트웨어 및/또는 하드웨어를 통해 구현될 수 있다.Referring to FIG. 5 , the
입력부(510)는 전자 장치(100)의 훈련 데이터 구축에 필요한 데이터를 입력 받고 관리하기 위한 구성이다.The input unit 510 is a configuration for receiving and managing data required for constructing training data of the
입력부(510)는 상담의도 관리 모듈(511) 및 기본 문장 등록 모듈(512) 등을 포함할 수 있다.The input unit 510 may include a consultation intention management module 511 , a basic sentence registration module 512 , and the like.
상담의도 관리 모듈(511)은 등록된 상담의도를 변경, 추가, 제외 등 관리하기 위한 모듈에 해당한다.The consultation intention management module 511 corresponds to a module for managing registered consultation intentions, such as change, addition, exclusion, and the like.
상담의도 관리 모듈(511) 상에 등록된 상담의도들은, 인공지능 모델(10)의 출력이 될 수 있으며, 인공지능 모델(10)은 등록된 상담의도들 중 적어도 하나를 선택하도록 훈련될 수 있다.The consultation intentions registered on the consultation intention management module 511 may be an output of the artificial intelligence model 10, and the artificial intelligence model 10 is trained to select at least one of the registered consultation intentions. can be
상담의도 관리 모듈(511)은 사용자로부터 적어도 하나의 상담의도를 입력 받아 저장할 수 있으며, 사용자 입력에 따라 적어도 하나의 상담의도를 변경 또는 추가할 수 있다.The consultation intention management module 511 may receive and store at least one consultation intention from the user, and may change or add at least one consultation intention according to the user input.
기본 문장 등록 모듈(512)은 상담의도 별로 적어도 하나의 기본 문장을 등록하기 위한 모듈이다.The basic sentence registration module 512 is a module for registering at least one basic sentence for each consultation intention.
일 예로, 기본 문장 등록 모듈(512)은 사용자 입력을 통해 상담의도 별 기본 문장을 하나 이상 획득할 수 있다. For example, the basic sentence registration module 512 may acquire one or more basic sentences for each consultation intention through a user input.
또는, 기본 문장 등록 모듈(512)은 등록된 적어도 하나의 상담의도에 대하여 데이터베이스 내 검색 및 분석을 수행함으로써 관련된 기본 문장을 획득할 수도 있다.Alternatively, the basic sentence registration module 512 may acquire a related basic sentence by performing a search and analysis in the database for at least one registered consultation intention.
수집부(520)는 인공지능 모델(10)의 훈련 데이터가 될 수 있는 다양한 문장 또는 해당 문장을 구성할 수 있는 키워드를 수집하기 위한 구성이다.The
수집부(520)는 형태소 분석 모듈(521), 키워드 추출 모듈(522), 검색 모듈(523), 문장 수집 모듈(524), 문장 재구성 모듈(525) 등을 포함할 수 있다.The
분석부(530)는 적어도 하나의 키워드 및 문장에 대하여 다양한 분석(ex. 유사도 분석)을 수행하기 위한 구성이다.The
분석부(530)는 연관 키워드 추출 모듈(531), 문장 유사도 분석 모듈(532), 문장-상담의도 태깅 모듈(533) 등을 포함할 수 있다.The
형태소 분석 모듈(521)은 기본 문장에 대한 형태소 분석을 수행하여 기본 문장으로부터 복수의 형태소를 추출할 수 있다.The morpheme analysis module 521 may extract a plurality of morphemes from the basic sentence by performing morpheme analysis on the basic sentence.
그리고, 키워드 추출 모듈(522)는 추출된 복수의 형태소로부터 적어도 하나의 키워드를 획득할 수 있다. In addition, the keyword extraction module 522 may obtain at least one keyword from the plurality of extracted morphemes.
이때, 추출된 형태소 전체가 키워드가 될 수도 있고, 또는 최소 단위의 의미를 포함하는 형태소만 키워드로 추출될 수도 있다. 이를 위해, 키워드 추출 모듈(522)은 각 형태소를 벡터 변환하여 특정한 범위의 값 또는 좌표를 가지는 벡터에 매칭되는 형태소만을 키워드로 획득할 수 있다. 다만, 이에 한정되지 않는다.In this case, the entire extracted morpheme may be a keyword, or only a morpheme including the meaning of a minimum unit may be extracted as a keyword. To this end, the keyword extraction module 522 may obtain, as a keyword, only morphemes matching vectors having values or coordinates within a specific range by vector-transforming each morpheme. However, the present invention is not limited thereto.
연관 키워드 추출 모듈(531)은 적어도 하나의 키워드와 연관되거나 유사한 유사 키워드를 추출하기 위한 모듈이다.The related keyword extraction module 531 is a module for extracting similar keywords related to or similar to at least one keyword.
연관 키워드 추출 모듈(531)은 키워드 추출 모듈(522)을 통해 추출된 키워드와의 유사도가 임계치 이상인 적어도 하나의 유사 키워드를 식별할 수 있다. 이때, 연관 키워드 추출 모듈(531)은 키워드를 벡터 변환하여 유사도 내지는 벡터 간 거리를 산출할 수 있다.The related keyword extraction module 531 may identify at least one similar keyword having a similarity with the keyword extracted through the keyword extraction module 522 equal to or greater than a threshold value. In this case, the related keyword extraction module 531 may convert the keyword into a vector to calculate a similarity or a distance between vectors.
검색 모듈(523)은 적어도 하나의 문장을 추가로 수집하기 위한 모듈이다.The search module 523 is a module for additionally collecting at least one sentence.
검색 모듈(523)은 키워드 추출 모듈(522)을 통해 추출된 키워드 및 연관 키워드 추출 모듈(531)로부터 추출된 유사 키워드를 이용하여 검색어를 생성하고, 생성된 검색어를 통해 다양한 문장을 획득할 수 있다.The search module 523 may generate a search word using the keyword extracted through the keyword extraction module 522 and the similar keyword extracted from the related keyword extraction module 531, and obtain various sentences through the generated search word. .
문장 수집 모듈(524)은 훈련 데이터가 될 수 있는 문장을 수집하기 위한 모듈이다.The sentence collection module 524 is a module for collecting sentences that can be training data.
문장 수집 모듈(524)은 앞서 검색 모듈(523)의 검색을 통해 획득된 다양한 문장들 중 키워드 추출 모듈(522)을 통해 추출된 키워드 및/또는 연관 키워드 추출 모듈(531)을 통해 추출된 유사 키워드를 일정 수 이상 포함하는 문장들을 수집할 수 있다.The sentence collection module 524 is a keyword extracted through the keyword extraction module 522 and/or similar keywords extracted through the related keyword extraction module 531 among various sentences previously obtained through the search of the search module 523 . It is possible to collect sentences including a certain number or more.
이 경우, 문장 유사도 분석 모듈(532)은 수집된 문장들 각각과 기본 문장 간의 유사도를 비교할 수 있다.In this case, the sentence similarity analysis module 532 may compare the similarity between each of the collected sentences and the basic sentence.
여기서, 문장-상담의도 태깅 모듈(533)은, 수집된 문장들 중 기본 문장과의 유사도가 임계치 이상인 문장을 (기본 문장이 등록된) 특정 상담의도에 대하여 태깅할 수 있다.Here, the sentence-counseling intention tagging module 533 may tag a sentence having a similarity with a basic sentence or more among the collected sentences with respect to a specific counseling intention (in which the basic sentence is registered).
한편, 문장 재구성 모듈(525)은, 수집된 문장들을 재구성하여 훈련 데이터를 추가로 확보하기 위한 모듈이다.On the other hand, the sentence reconstruction module 525 is a module for further securing training data by reconstructing the collected sentences.
문장 재구성 모듈(525)은 수집된 문장들 내 키워드들 각각 간의 유사도를 산출하고, 서로 간의 유사도가 임계치 이상인 키워드들을 동일한 그룹으로 묶을 수 있다.The sentence reconstruction module 525 may calculate a similarity between each of the keywords in the collected sentences, and group keywords having a similarity greater than or equal to a threshold value into the same group.
여기서, 문장 재구성 모듈(525)은 수집된 문장들 내에서 동일한 그룹의 키워드들끼리 서로 대체되도록 함으로써, 복수의 재구성 문장을 획득할 수 있다.Here, the sentence reconstruction module 525 may obtain a plurality of reconstructed sentences by replacing keywords of the same group in the collected sentences.
이 경우, 문장 유사도 분석 모듈(532)은 복수의 재구성 문장 각각과 기본 문장과의 유사도를 산출할 수 있다.In this case, the sentence similarity analysis module 532 may calculate a similarity between each of the plurality of reconstructed sentences and the basic sentence.
여기서, 문장-상담의도 태깅 모듈(533)은, 재구성된 문장들 중 기본 문장과의 유사도가 임계치 이상인 문장을 (기본 문장이 등록된) 특정 상담의도에 대하여 태깅할 수 있다.Here, the sentence-counseling intention tagging module 533 may tag a sentence having a similarity of more than a threshold value with the basic sentence among the reconstructed sentences with respect to a specific counseling intention (in which the basic sentence is registered).
저장부(540)는 상담의도 별 훈련 데이터를 최종적으로 분류하여 저장하기 위한 구성이다.The storage unit 540 is configured to finally classify and store training data for each counseling intention.
저장부(540)는 문장 검수 모듈(541) 및 훈련/검증 데이터 분류 모듈(542)을 포함할 수 있다.The storage unit 540 may include a sentence verification module 541 and a training/verification data classification module 542 .
문장 검수 모듈(541)은 상담의도에 대하여 태깅된 문장들에 대하여 추가적인 검수를 수행하기 위한 모듈이다.The sentence inspection module 541 is a module for performing additional inspection on the sentences tagged with respect to the consultation intention.
문장 검수 모듈(541)은 문장 완성도에 따라 적어도 하나의 문장을 필터링할 수도 있고, 각 문장을 확인한 사용자 입력에 따라 적어도 하나의 문장을 필터링할 수도 있다.The sentence checking module 541 may filter at least one sentence according to sentence completion, or may filter at least one sentence according to a user input that has checked each sentence.
훈련/검증 데이터 분류 모듈(542)은 특정 상담의도에 대하여 태깅된 문장들을 훈련 데이터 및 검증 데이터로 분류하기 위한 모듈이다.The training/verification data classification module 542 is a module for classifying sentences tagged with respect to a specific counseling intention into training data and verification data.
구체적으로, 훈련/검증 데이터 분류 모듈(542)은 태깅된 문장들 중 (훈련 데이터로 분류된) 일부를 훈련 데이터로 하여 인공지능 모델(10)의 훈련에 이용되도록 할 수 있다.Specifically, the training/verification data classification module 542 may use some of the tagged sentences (classified as training data) as training data to be used for training the artificial intelligence model 10 .
이후, 훈련된 인공지능 모델(10)은, 검증 데이터에 해당하는 문장을 기반으로 검증될 수 있다.Thereafter, the trained artificial intelligence model 10 may be verified based on a sentence corresponding to the verification data.
한편, 이상에서 설명된 다양한 실시 예들은 서로 저촉되거나 모순되지 않는 한 두 개 이상의 실시 예가 서로 결합되어 구현될 수 있다.Meanwhile, the various embodiments described above may be implemented by combining two or more embodiments as long as they do not conflict with or contradict each other.
한편, 이상에서 설명된 다양한 실시 예들은 소프트웨어(software), 하드웨어(hardware) 또는 이들의 조합된 것을 이용하여 컴퓨터(computer) 또는 이와 유사한 장치로 읽을 수 있는 기록 매체 내에서 구현될 수 있다.Meanwhile, the various embodiments described above may be implemented in a recording medium readable by a computer or a similar device using software, hardware, or a combination thereof.
하드웨어적인 구현에 의하면, 본 개시에서 설명되는 실시 예들은 ASICs(Application Specific Integrated Circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서(processors), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 전기적인 유닛(unit) 중 적어도 하나를 이용하여 구현될 수 있다. According to the hardware implementation, the embodiments described in the present disclosure are ASICs (Application Specific Integrated Circuits), DSPs (digital signal processors), DSPDs (digital signal processing devices), PLDs (programmable logic devices), FPGAs (field programmable gate arrays) ), processors, controllers, micro-controllers, microprocessors, and other electrical units for performing other functions may be implemented using at least one.
일부의 경우에 본 명세서에서 설명되는 실시 예들이 프로세서 자체로 구현될 수 있다. 소프트웨어적인 구현에 의하면, 본 명세서에서 설명되는 절차 및 기능과 같은 실시 예들은 별도의 소프트웨어 모듈들로 구현될 수 있다. 상술한 소프트웨어 모듈들 각각은 본 명세서에서 설명되는 하나 이상의 기능 및 작동을 수행할 수 있다.In some cases, the embodiments described herein may be implemented by the processor itself. According to the software implementation, embodiments such as the procedures and functions described in this specification may be implemented as separate software modules. Each of the above-described software modules may perform one or more functions and operations described herein.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 전자 장치(100)에서의 처리동작을 수행하기 위한 컴퓨터 명령어(computer instructions) 또는 컴퓨터 프로그램은 비일시적 컴퓨터 판독 가능 매체(non-transitory computer-readable medium)에 저장될 수 있다. 이러한 비일시적 컴퓨터 판독 가능 매체에 저장된 컴퓨터 명령어 또는 컴퓨터 프로그램은 특정 기기의 프로세서에 의해 실행되었을 때 상술한 다양한 실시 예에 따른 전자 장치(100)에서의 처리 동작을 상술한 특정 기기가 수행하도록 한다. On the other hand, the computer instructions or computer program for performing the processing operation in the
비일시적 컴퓨터 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 비일시적 컴퓨터 판독 가능 매체의 구체적인 예로는, CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등이 있을 수 있다.The non-transitory computer-readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, etc., and can be read by a device. Specific examples of the non-transitory computer-readable medium may include a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.In the above, preferred embodiments of the present disclosure have been illustrated and described, but the present disclosure is not limited to the specific embodiments described above, and is commonly used in the technical field pertaining to the present disclosure without departing from the gist of the present disclosure as claimed in the claims. Various modifications may be made by those having the knowledge of, of course, and these modifications should not be individually understood from the technical spirit or perspective of the present disclosure.
100: 전자 장치 110: 메모리
120: 프로세서100: electronic device 110: memory
120: processor
Claims (9)
기저장된 복수의 상담의도 중 하나의 상담의도에 대하여 등록된 적어도 하나의 기본 문장으로부터 복수의 키워드를 추출하는 단계;
상기 추출된 복수의 키워드 중 적어도 하나에 대한 유사도가 임계치 이상인 제1 유사 키워드를 식별하는 단계;
상기 복수의 키워드 및 상기 제1 유사 키워드를 기반으로, 데이터베이스로부터 복수의 문장을 수집하는 단계; 및
상기 수집된 복수의 문장 중 상기 기본 문장에 대한 유사도가 임계치 이상인 적어도 하나의 제1 문장을 선택하는 단계;를 포함하고,
상기 인공지능 모델은,
상기 기본 문장 및 상기 선택된 제1 문장을 기반으로 훈련되고,
상기 전자 장치의 훈련 데이터 구축 방법은,
상기 기본 문장 및 상기 선택된 제1 문장을 포함하는 문장들을 훈련 데이터와 검증 데이터로 구분하여 저장하는 단계;
상기 훈련 데이터에 해당하는 문장을 기반으로, 상기 인공지능 모델이 상기 기본 문장이 등록된 상담의도를 식별하도록 훈련시키는 단계;
상기 검증 데이터에 해당하는 문장을 상기 인공지능 모델에 입력하여 상기 인공지능 모델을 검증하는 단계;
상기 검증 데이터에 포함되는 적어도 하나의 검증용 문장을 통한 상기 인공지능 모델의 검증이 실패한 경우, 상기 검증용 문장으로부터 복수의 키워드를 추출하는 단계;
상기 추출된 복수의 키워드 중 적어도 하나에 대한 유사도가 임계치 이상인 제2 유사 키워드를 식별하는 단계;
상기 복수의 키워드 및 상기 제2 유사 키워드를 기반으로, 데이터베이스로부터 복수의 문장을 수집하는 단계; 및
상기 수집된 복수의 문장 중 상기 기본 문장에 대한 유사도가 임계치 이상인 적어도 하나의 제3 문장을 선택하는 단계;를 포함하고,
상기 인공지능 모델은,
상기 검증용 문장 및 상기 선택된 제3 문장을 기반으로 훈련되는, 전자 장치의 훈련 데이터 구축 방법.In the method of constructing training data of an electronic device for an artificial intelligence model for classifying counseling intentions,
extracting a plurality of keywords from at least one basic sentence registered for one consultation intention among a plurality of pre-stored consultation intentions;
identifying a first similar keyword having a similarity to at least one of the plurality of extracted keywords equal to or greater than a threshold;
collecting a plurality of sentences from a database based on the plurality of keywords and the first similar keyword; and
Including; selecting at least one first sentence having a similarity to the basic sentence or more from among the plurality of collected sentences;
The artificial intelligence model is
is trained based on the basic sentence and the selected first sentence,
The method of constructing training data of the electronic device,
storing the sentences including the basic sentence and the selected first sentence as training data and verification data;
training the artificial intelligence model to identify the counseling intention for which the basic sentence is registered, based on the sentence corresponding to the training data;
verifying the artificial intelligence model by inputting a sentence corresponding to the verification data into the artificial intelligence model;
extracting a plurality of keywords from the verification sentence when verification of the artificial intelligence model through at least one verification sentence included in the verification data fails;
identifying a second similar keyword having a similarity to at least one of the plurality of extracted keywords equal to or greater than a threshold;
collecting a plurality of sentences from a database based on the plurality of keywords and the second similar keywords; and
selecting at least one third sentence having a similarity to the basic sentence or more from among the plurality of collected sentences;
The artificial intelligence model is
A method of constructing training data of an electronic device, which is trained based on the verification sentence and the selected third sentence.
상기 복수의 문장을 수집하는 단계는,
상기 복수의 키워드 및 상기 제1 유사 키워드를 포함하는 키워드들 중 일정 비율 이상의 키워드들을 조합하여 검색어를 생성하고,
상기 생성된 검색어에 대한 검색을 수행하여 상기 복수의 문장을 획득하는, 전자 장치의 훈련 데이터 구축 방법.According to claim 1,
The step of collecting the plurality of sentences,
generating a search word by combining keywords of a certain ratio or more among the plurality of keywords and keywords including the first similar keyword;
A method of constructing training data for an electronic device, wherein the plurality of sentences are obtained by performing a search for the generated search word.
상기 전자 장치의 훈련 데이터 구축 방법은,
상기 선택된 제1 문장을, 상기 기본 문장이 등록된 상담의도에 매칭되는 훈련 데이터로 저장하는 단계;를 포함하는, 전자 장치의 훈련 데이터 구축 방법.According to claim 1,
The method of constructing training data of the electronic device,
Storing the selected first sentence as training data matching the consultation intention in which the basic sentence is registered; comprising, a method of constructing training data for an electronic device.
상기 전자 장치의 훈련 데이터 구축 방법은,
상기 수집된 복수의 문장에 포함된 복수의 키워드 중 서로 간의 유사도가 임계치 이상인 키워드들을 포함하는 그룹을 생성하는 단계;
상기 수집된 복수의 문장 중 적어도 하나의 문장 내에서, 상기 그룹에 포함되는 키워드를 상기 그룹 내 다른 키워드로 대체하여, 복수의 재구성 문장을 생성하는 단계; 및
상기 복수의 재구성 문장 중 상기 기본 문장에 대한 유사도가 임계치 이상인 적어도 하나의 제2 문장을 선택하는 단계;를 더 포함하고,
상기 인공지능 모델은,
상기 기본 문장, 상기 선택된 제1 문장, 및 상기 선택된 제2 문장을 기반으로 훈련되는, 전자 장치의 훈련 데이터 구축 방법.According to claim 1,
The method of constructing training data of the electronic device,
generating a group including keywords having a similarity level greater than or equal to a threshold value among a plurality of keywords included in the collected plurality of sentences;
generating a plurality of reconstructed sentences by replacing a keyword included in the group with another keyword in the group in at least one sentence among the plurality of collected sentences; and
Selecting at least one second sentence having a similarity to the basic sentence from among the plurality of reconstructed sentences is greater than or equal to a threshold value;
The artificial intelligence model is
The training data construction method of an electronic device, which is trained based on the basic sentence, the selected first sentence, and the selected second sentence.
상기 검증하는 단계는,
상기 검증 데이터에 해당하는 문장을 상기 인공지능 모델에 입력하여, 상기 인공지능 모델이 상기 기본문장이 등록된 상담의도를 출력하는지 여부를 식별하고,
상기 인공지능 모델이 상기 기본 문장이 등록된 상담의도를 출력하는 경우, 상기 인공지능 모델의 검증이 성공한 것으로 결정하는, 전자 장치의 훈련 데이터 구축 방법.According to claim 1,
The verification step is
Input the sentence corresponding to the verification data into the artificial intelligence model, and identify whether the artificial intelligence model outputs the consultation intention in which the basic sentence is registered,
When the artificial intelligence model outputs the consultation intention in which the basic sentence is registered, it is determined that the verification of the artificial intelligence model is successful.
상기 프로세서는,
상기 메모리에 저장된 인스트럭션을 실행함으로써 제1항의 훈련 데이터 구축 방법을 수행하는, 전자 장치.An electronic device comprising a memory and a processor, the electronic device comprising:
The processor is
An electronic device for performing the training data construction method of claim 1 by executing the instructions stored in the memory.
전자 장치의 프로세서에 의해 실행되어, 상기 전자 장치로 하여금 제1항의 훈련 데이터 구축 방법을 수행하도록 하는, 컴퓨터 판독 가능 기록 매체에 저장된 컴퓨터 프로그램.In a computer program stored in a computer-readable recording medium,
A computer program stored in a computer-readable recording medium that is executed by a processor of an electronic device to cause the electronic device to perform the training data construction method of claim 1 .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210011678A KR102280490B1 (en) | 2021-01-27 | 2021-01-27 | Training data construction method for automatically generating training data for artificial intelligence model for counseling intention classification |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210011678A KR102280490B1 (en) | 2021-01-27 | 2021-01-27 | Training data construction method for automatically generating training data for artificial intelligence model for counseling intention classification |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102280490B1 true KR102280490B1 (en) | 2021-07-22 |
Family
ID=77157961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210011678A KR102280490B1 (en) | 2021-01-27 | 2021-01-27 | Training data construction method for automatically generating training data for artificial intelligence model for counseling intention classification |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102280490B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230033424A (en) * | 2021-09-01 | 2023-03-08 | 주식회사 한글과컴퓨터 | Electronic apparatus which generates a training set for performing reinforcement learning of the deep learning model for distinguishing user intention, and the operating method thereof |
CN117422428A (en) * | 2023-12-19 | 2024-01-19 | 尚恰实业有限公司 | Automatic examination and approval method and system for robot based on artificial intelligence |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050032937A (en) * | 2003-10-02 | 2005-04-08 | 한국전자통신연구원 | Method for automatically creating a question and indexing the question-answer by language-analysis and the question-answering method and system |
KR20190133931A (en) * | 2018-05-24 | 2019-12-04 | 한국과학기술원 | Method to response based on sentence paraphrase recognition for a dialog system |
KR20200021162A (en) * | 2018-08-20 | 2020-02-28 | 주식회사 부뜰정보시스템 | System and method for learning counseling chatter robot based on counceling contents of counselor |
KR20200119393A (en) * | 2019-03-27 | 2020-10-20 | 주식회사 단비아이엔씨 | Apparatus and method for recommending learning data for chatbots |
KR102168504B1 (en) | 2018-12-26 | 2020-10-21 | 주식회사 와이즈넛 | Aparatus for coherence analyzing between each sentence in a text document and method thereof |
-
2021
- 2021-01-27 KR KR1020210011678A patent/KR102280490B1/en active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050032937A (en) * | 2003-10-02 | 2005-04-08 | 한국전자통신연구원 | Method for automatically creating a question and indexing the question-answer by language-analysis and the question-answering method and system |
KR20190133931A (en) * | 2018-05-24 | 2019-12-04 | 한국과학기술원 | Method to response based on sentence paraphrase recognition for a dialog system |
KR20200021162A (en) * | 2018-08-20 | 2020-02-28 | 주식회사 부뜰정보시스템 | System and method for learning counseling chatter robot based on counceling contents of counselor |
KR102168504B1 (en) | 2018-12-26 | 2020-10-21 | 주식회사 와이즈넛 | Aparatus for coherence analyzing between each sentence in a text document and method thereof |
KR20200119393A (en) * | 2019-03-27 | 2020-10-20 | 주식회사 단비아이엔씨 | Apparatus and method for recommending learning data for chatbots |
Non-Patent Citations (1)
Title |
---|
Coulombe, Claude. Text data augmentation made simple by leveraging nlp cloud apis. arXiv preprint arXiv:1812.04718. 2018.* * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230033424A (en) * | 2021-09-01 | 2023-03-08 | 주식회사 한글과컴퓨터 | Electronic apparatus which generates a training set for performing reinforcement learning of the deep learning model for distinguishing user intention, and the operating method thereof |
KR102566928B1 (en) * | 2021-09-01 | 2023-08-14 | 주식회사 한글과컴퓨터 | Electronic apparatus which generates a training set for performing reinforcement learning of the deep learning model for distinguishing user intention, and the operating method thereof |
CN117422428A (en) * | 2023-12-19 | 2024-01-19 | 尚恰实业有限公司 | Automatic examination and approval method and system for robot based on artificial intelligence |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163478B (en) | Risk examination method and device for contract clauses | |
CN110209764B (en) | Corpus annotation set generation method and device, electronic equipment and storage medium | |
Stamatatos et al. | Clustering by authorship within and across documents | |
Stamatatos et al. | Overview of the PAN/CLEF 2015 evaluation lab | |
US20230004604A1 (en) | Ai-augmented auditing platform including techniques for automated document processing | |
EP3848797A1 (en) | Automatic parameter value resolution for api evaluation | |
US20150309990A1 (en) | Producing Insight Information from Tables Using Natural Language Processing | |
WO2020237872A1 (en) | Method and apparatus for testing accuracy of semantic analysis model, storage medium, and device | |
US11734322B2 (en) | Enhanced intent matching using keyword-based word mover's distance | |
KR102280490B1 (en) | Training data construction method for automatically generating training data for artificial intelligence model for counseling intention classification | |
CN114648392B (en) | Product recommendation method and device based on user portrait, electronic equipment and medium | |
CN111222837A (en) | Intelligent interviewing method, system, equipment and computer storage medium | |
JP2017527913A (en) | Systems and processes for analyzing, selecting, and capturing sources of unstructured data by experience attributes | |
US11176311B1 (en) | Enhanced section detection using a combination of object detection with heuristics | |
US10504145B2 (en) | Automated classification of network-accessible content based on events | |
US8666987B2 (en) | Apparatus and method for processing documents to extract expressions and descriptions | |
JP6026036B1 (en) | DATA ANALYSIS SYSTEM, ITS CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM | |
Voronov et al. | Forecasting popularity of news article by title analyzing with BN-LSTM network | |
US11663215B2 (en) | Selectively targeting content section for cognitive analytics and search | |
US20220366344A1 (en) | Determining section conformity and providing recommendations | |
US11347928B2 (en) | Detecting and processing sections spanning processed document partitions | |
CN112182020A (en) | Financial behavior identification and classification method, device and computer readable storage medium | |
CN111950265A (en) | Domain lexicon construction method and device | |
CN110717029A (en) | Information processing method and system | |
JP5946949B1 (en) | DATA ANALYSIS SYSTEM, ITS CONTROL METHOD, PROGRAM, AND RECORDING MEDIUM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |