KR102677843B1 - Device of Customized Career Prediction in Life Cycle of Atheletes, and Career Prediction method using the same, and a computer-readable storage medium - Google Patents

Device of Customized Career Prediction in Life Cycle of Atheletes, and Career Prediction method using the same, and a computer-readable storage medium Download PDF

Info

Publication number
KR102677843B1
KR102677843B1 KR1020210096586A KR20210096586A KR102677843B1 KR 102677843 B1 KR102677843 B1 KR 102677843B1 KR 1020210096586 A KR1020210096586 A KR 1020210096586A KR 20210096586 A KR20210096586 A KR 20210096586A KR 102677843 B1 KR102677843 B1 KR 102677843B1
Authority
KR
South Korea
Prior art keywords
information
career
athlete
embedding
word
Prior art date
Application number
KR1020210096586A
Other languages
Korean (ko)
Other versions
KR20220150174A (en
Inventor
이상근
김강민
박준형
정용호
Original Assignee
고려대학교 산학협력단
진진시스템(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단, 진진시스템(주) filed Critical 고려대학교 산학협력단
Publication of KR20220150174A publication Critical patent/KR20220150174A/en
Application granted granted Critical
Publication of KR102677843B1 publication Critical patent/KR102677843B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

본 발명은 체육인 생애주기별 맞춤형 진로예측 장치에 있어서, 체육인 정보가 저장된 데이터 저장부; 상기 체육인 정보로부터 체육인의 수상실적 정보 및 이력 정보를 추출하여 단어 임베딩 벡터를 생성하는 임베딩부 및 상기 단어 임베딩 벡터를 합성곱 신경망인 CNN(Convolutional Neural Network) 모델에 입력하여 체육인의 진로정보를 생성하는 진로예측부를 포함하고, 상기 진로정보는, 체육인이 진출할 수 있는 적어도 하나 이상의 진로에 대한 확률값인 것을 특징으로 하는 체육인 생애주기별 맞춤형 진로예측 장치를 제공할 수 있다.The present invention provides a career prediction device customized for each athlete's life cycle, comprising: a data storage unit storing athlete information; An embedding unit that extracts the athlete's award performance information and history information from the athlete information and generates a word embedding vector, and inputs the word embedding vector into a CNN (Convolutional Neural Network) model, which is a convolutional neural network, to generate the athlete's career information. It is possible to provide a career prediction device customized for each athlete's life cycle, including a career prediction unit, wherein the career information is a probability value for at least one career path that the athlete can advance into.

Description

체육인 생애주기별 맞춤형 진로예측 장치, 이를 이용한 진로 예측 방법 및 이를 제공하기 위한 컴퓨터 프로그램이 기록된 컴퓨터-판독가능매체{Device of Customized Career Prediction in Life Cycle of Atheletes, and Career Prediction method using the same, and a computer-readable storage medium}A computer-readable medium in which a customized career prediction device for each athlete's life cycle, a career prediction method using the same, and a computer program for providing the same are recorded {Device of Customized Career Prediction in Life Cycle of Atheletes, and Career Prediction method using the same, and a computer-readable storage medium}

본 발명은 체육인 생애주기별 맞춤형 진로예측 장치, 이를 이용한 진로 예측 방법 및 이를 제공하기 위한 컴퓨터 프로그램이 기록된 컴퓨터-판독가능매체에 관한 것으로, 더욱 자세하게는 체육인의 진로 예측을 위해 체육 종목별로 상이한 체육인의 수상 실적, 경기 참여 실적 및 이력을 분석하고 과거 체육인들의 진로를 바탕으로 각 체육인 개인의 생애주기별로 적절한 진로를 예측해주는 체육인 생애주기별 맞춤형 진로예측 장치, 이를 이용한 진로 예측 방법 및 이를 제공하기 위한 컴퓨터 프로그램이 기록된 컴퓨터-판독가능매체에 관한 것이다.The present invention relates to a career prediction device customized for each athlete's life cycle, a career prediction method using the same, and a computer-readable medium on which a computer program for providing the same is recorded. More specifically, to predict the career path of an athlete, the present invention relates to a career prediction device tailored to each athlete's life cycle. A customized career prediction device for each athlete's life cycle that analyzes the awards, competition participation performance and history and predicts the appropriate career path for each individual athlete's life cycle based on the past athletes' career paths, a career prediction method using the same, and a method for providing the same. It relates to a computer-readable medium on which a computer program is recorded.

전문 체육인이 급속도로 증가하고 있지만, 전문 체육인의 특성상 일부 성공한 소수의 체육인을 제외하고 다수의 체육인은 진로 및 커리어 개발에 상당한 어려움을 겪는다. 이에 따라 체육인의 종목과 개인적인 특성 및 이력을 고려한 적절한 개인별 진로 가이드가 필요하다. 이를 위해선 개별 체육인이 가지고 있는 수상 실적, 이력 등을 바탕으로 과거 체육인의 진로 정보를 통해 개별 체육인에게 진로 가이드를 해주어야 한다. Although the number of professional athletes is rapidly increasing, due to the characteristics of professional athletes, with the exception of a few successful athletes, many athletes experience significant difficulties in career path and career development. Accordingly, an appropriate individual career guide is needed that takes into account the athlete's sport, personal characteristics, and history. To achieve this, it is necessary to provide career guidance to individual athletes through career information of past athletes based on their awards and track records.

하지만 기존의 체육 관련 진로 가이드 시스템은 설문조사에 기반하여 적합한 종목을 추천해주는 것에 머물렀으며, 체육인들의 수상 실적과 이력은 자연어 형태로 기록되어 정량적인 분석이 어렵고, 체육 종목은 수십가지가 넘고, 이러한 종목 간의 이력 정보는 서로 상이한 문제가 있다.However, the existing sports-related career guidance system only recommends appropriate sports based on surveys, and athletes' awards and records are recorded in natural language, making quantitative analysis difficult, and there are more than dozens of sports sports. The history information between these stocks has different problems.

또한 과거의 수천명의 방대한 체육인의 정보를 참조하여 적합한 진로를 추천해주는 것은 상당한 시간과 노력이 필요하다. 체육 분야로 진로를 삼은 체육인들은 소수의 국가대표, 프로선수 등으로 성공하는 경우를 제외하고는 다수의 체육인들은 진로에 어려움을 겪고 있기 때문에 체육인들의 커리어를 고려한 적절한 진로 가이드가 필요함에 따라 효율적인 진로 가이드를 위해 종목마다 상이한 체육인의 이력을 자동으로 분석하고, 이를 바탕으로 과거 체육인의 정보를 통해 진로를 예측해줄 수 있는 기술이 필요하다.Additionally, recommending an appropriate career path by referring to the vast information of thousands of past athletes requires considerable time and effort. Except for a small number of athletes who choose to pursue a career in the field of physical education and become successful as national team members or professional athletes, many athletes are experiencing difficulties in their career path, so an appropriate career guide that takes into account the careers of athletes is needed, and an efficient career guide is needed. For this purpose, a technology is needed that can automatically analyze the history of different athletes for each sport and, based on this, predict career paths through information on past athletes.

한편, 최근 인공지능 기술 중 하나인 딥러닝 기술의 여러 분야(e.g. 금융, 기상 등)에서 우수한 성능을 보였다.Meanwhile, deep learning technology, one of the recent artificial intelligence technologies, showed excellent performance in several fields (e.g. finance, weather, etc.).

이에 따라, 딥러닝 기술과 오랜 기간 동안 축적된 약 백여개의 종목에 대한 전문 체육인과 비전문 체육인의 데이터들로 체육인들의 진로를 예측해주어 가이드를 해줄 수 있는 연구가 필요한 실정이다.Accordingly, there is a need for research that can predict and guide the career paths of athletes using deep learning technology and data from professional and non-professional athletes for about 100 sports accumulated over a long period of time.

대한민국 등록특허 제10-2143586호(2020.08.05)Republic of Korea Patent No. 10-2143586 (2020.08.05)

상기와 같은 문제를 해결하고자, 본 발명은 체육인 생애주기별 맞춤형 진로예측 장치, 이를 이용한 진로 예측 방법 및 이를 제공하기 위한 컴퓨터 프로그램이 기록된 컴퓨터-판독가능매체에 관한 것으로서, 체육인들의 개별 이력 및 수상 실적을 분석하고 이를 과거 체육인들의 진로에 기반하여 적절한 진로를 추천해주기 위해, 개별 체육인의 이력 및 수상 실적을 분석하여 과거 체육인들의 진로를 통해 적절한 진로를 추천하여 가이드를 제공하는 것을 목적으로 한다.In order to solve the above problems, the present invention relates to a career prediction device customized for each athlete's life cycle, a career prediction method using the same, and a computer-readable medium on which a computer program for providing the same is recorded, and the individual history and awards of athletes In order to analyze performance and recommend an appropriate career path based on the career paths of past athletes, the purpose is to provide guidance by analyzing the history and awards of individual athletes and recommending appropriate career paths based on the career paths of past athletes.

상기와 같은 과제를 해결하기 위하여, 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치는, 체육인 정보가 저장된 데이터 저장부; 상기 체육인 정보로부터 체육인의 수상실적 정보 및 이력 정보를 추출하여 단어 임베딩 벡터를 생성하는 임베딩부 및 상기 단어 임베딩 벡터를 합성곱 신경망인 CNN(Convolutional Neural Network) 모델에 입력하여 체육인의 진로정보를 생성하는 진로예측부를 포함하고, 상기 진로정보는, 체육인이 진출할 수 있는 적어도 하나 이상의 진로에 대한 확률값인 것을 특징으로 한다.In order to solve the above problems, a customized career prediction device for each athlete's life cycle according to an embodiment of the present invention includes a data storage unit storing athlete information; An embedding unit that extracts the athlete's award performance information and history information from the athlete information and generates a word embedding vector, and inputs the word embedding vector into a CNN (Convolutional Neural Network) model, which is a convolutional neural network, to generate the athlete's career information. It includes a career prediction unit, and the career information is characterized in that it is a probability value for at least one career path that an athlete can advance into.

또한, 상기 임베딩부는 스포츠 도메인 말뭉치를 기반으로 말뭉치 임베딩 벡터를 생성하여 학습하는 임베딩 학습부; 상기 추출된 수상실적 정보 및 이력정보를 실질형태소만 포함하도록 정제하여 정제 정보를 생성하는 정제 정보 생성부 및 상기 학습된 말뭉치 임베딩 벡터에 기초하여 상기 정제 정보로부터 상기 단어 임베딩 벡터를 생성하는 임베딩 추출부를 포함할 수 있다.In addition, the embedding unit includes an embedding learning unit that generates and learns a corpus embedding vector based on a sports domain corpus; A refined information generator that generates refined information by refining the extracted award performance information and history information to include only substantive morphemes, and an embedding extractor that generates the word embedding vector from the refined information based on the learned corpus embedding vector. It can be included.

또한, 상기 임베딩부는, 패스트텍스트(fastText)를 사용하여 상기 스포츠 도메인 말뭉치 및 상기 정제 정보로부터 음절 단위의 단어로 추출한 다음 상기 말뭉치 임베딩 벡터 및 단어 임베딩 벡터를 생성하는 것을 특징으로 한다.In addition, the embedding unit extracts syllable-level words from the sports domain corpus and the refined information using fastText and then generates the corpus embedding vector and the word embedding vector.

또한, 상기 진로 예측부는, 상기 단어 임베딩 벡터를 상기 CNN 모델에 입력하기 전에 체육인의 이력 정보를 개월 단위로 구분하는 토큰을 추가하여 상기 단어 임베딩 벡터를 상기 토큰에 적용하는 전처리부를 포함할 수 있다.In addition, the career prediction unit may include a preprocessor that adds a token that divides the athlete's history information into months before inputting the word embedding vector into the CNN model and applies the word embedding vector to the token.

또한, 상기 전처리부는, 다수의 훈련 데이터를 생성하기 위해 생애주기가 완성된 체육인의 상기 이력 정보를 년 주기로 분할하는 것을 특징으로 한다.In addition, the preprocessor is characterized by dividing the history information of athletes whose life cycles have been completed into year cycles in order to generate a plurality of training data.

또한, 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치를 이용한 진로예측 방법은, 체육인 정보를 데이터 저장부에 저장하는 데이터 저장단계; 상기 데이터 저장부로부터 체육인의 수상실적 정보 및 이력 정보를 추출하여 단어 임베딩 벡터를 생성하는 임베딩 단계 및 상기 단어 임베딩 벡터를 합성곱 신경망인 CNN(Convolutional Neural Network) 모델에 입력하여 체육인의 진로정보를 생성하는 진로 예측단계를 포함하는 체육인 생애주기별 맞춤형 진로예측 방법을 제공할 수 있다.In addition, the career prediction method using a career prediction device customized for each athlete's life cycle according to an embodiment of the present invention includes a data storage step of storing athlete information in a data storage unit; An embedding step of generating a word embedding vector by extracting the athlete's award performance information and history information from the data storage unit, and inputting the word embedding vector into a CNN (Convolutional Neural Network) model, which is a convolutional neural network, to generate the athlete's career information. It is possible to provide a customized career prediction method for each athlete's life cycle, including the career prediction stage.

또한, 상기 임베딩 단계는, 스포츠 도메인 말뭉치를 기반으로 말뭉치 임베딩 벡터를 생성하여 학습하는 학습단계; 상기 추출된 상기 수상실적 정보 및 이력 정보를 실질형태소만 포함하도록 정제하여 정제 정보를 생성하는 정제 정보 생성단계 및 상기 학습된 말뭉치 임베딩 벡터에 기초하여 상기 정제 정보로부터 상기 단어 임베딩 벡터를 생성하는 임베딩 추출단계를 포함할 수 있다.In addition, the embedding step includes a learning step of generating and learning a corpus embedding vector based on the sports domain corpus; A refined information generation step of generating refined information by refining the extracted award performance information and history information to include only substantive morphemes, and an embedding extraction step of generating the word embedding vector from the refined information based on the learned corpus embedding vector. May include steps.

또한, 상기 진로 예측단계는, 상기 단어 임베딩 벡터를 상기 CNN 모델에 입력하기 전에 체육인의 이력 정보를 개월 단위로 구분하는 토큰을 추가하여 상기 단어 임베딩 벡터를 상기 토큰에 적용하고, 다수의 훈련 데이터를 생성하기 위해 생애주기가 완성된 체육인의 상기 이력 정보를 년 주기로 분할하는 전처리단계를 포함할 수 있다.In addition, in the career prediction step, before inputting the word embedding vector into the CNN model, a token that divides the athlete's history information by month is added, the word embedding vector is applied to the token, and a plurality of training data are used. In order to generate it, a pre-processing step may be included in which the history information of the athlete whose life cycle is completed is divided into year cycles.

또한, 본 발명의 실시예에 따라 체육인 생애주기별 맞춤형 진로예측 방법을 수행하는 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체를 제공할 수 있다.In addition, according to an embodiment of the present invention, it is possible to provide a computer-readable recording medium on which a computer program that performs a customized career prediction method for each athlete's life cycle is recorded.

상기와 같은 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치, 이를 이용한 진로 예측 방법 및 이를 제공하기 위한 컴퓨터 프로그램이 기록된 컴퓨터-판독가능매체는 체육인의 종목을 고려하고, 개개인의 이력 정보를 파악하여 맞춤형 교육 및 진로 가이드를 제공함으로써 체육인이 최적의 커리어를 개발할 수 있도록 한다.The career prediction device customized for each athlete's life cycle according to the embodiment of the present invention as described above, the career prediction method using the same, and the computer-readable medium on which the computer program for providing the same are recorded take into account the athlete's sports and the individual's history. By understanding information and providing customized education and career guidance, we help athletes develop optimal careers.

또한, 위에서 언급된 본 발명의 실시 예에 따른 효과는 기재된 내용에만 한정되지 않고, 명세서 및 도면으로부터 예측 가능한 모든 효과를 더 포함할 수 있다.In addition, the effects according to the embodiments of the present invention mentioned above are not limited to the contents described, and may further include all effects predictable from the specification and drawings.

도 1은 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치의 순서도.
도 2는 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치의 임베딩 추출부의 순서도.
도 3은 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치의 진행 단계를 도시한 예시도.
도 4 및 도 5는 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치를 통해 체육인의 진로를 예측했을 때, 실제 진로에 대하여 예측된 진로를 평가한 값을 나타낸 표.
도 6은 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 방법을 순차적으로 나타낸 흐름도.
도 7은 도 6의 S20 단계에서 이루어질 수 있는 단계들을 개략적으로 나타낸 흐름도.
Figure 1 is a flowchart of a career prediction device customized for each athlete's life cycle according to an embodiment of the present invention.
Figure 2 is a flowchart of the embedding extraction unit of the customized career prediction device for each athlete's life cycle according to an embodiment of the present invention.
Figure 3 is an exemplary diagram illustrating the progress stages of a customized career prediction device for each athlete's life cycle according to an embodiment of the present invention.
Figures 4 and 5 are tables showing the evaluation values of the predicted career with respect to the actual career when the career of an athlete is predicted through a career prediction device customized for each athlete's life cycle according to an embodiment of the present invention.
Figure 6 is a flow chart sequentially showing a customized career prediction method for each athlete's life cycle according to an embodiment of the present invention.
FIG. 7 is a flowchart schematically showing steps that can be performed in step S20 of FIG. 6.

이하, 도면을 참조한 본 발명의 설명은 특정한 실시 형태에 대해 한정되지 않으며, 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있다. 또한, 이하에서 설명하는 내용은 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.Hereinafter, the description of the present invention with reference to the drawings is not limited to specific embodiments, and various changes may be made and various embodiments may be possible. In addition, the content described below should be understood to include all conversions, equivalents, and substitutes included in the spirit and technical scope of the present invention.

이하의 설명에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용되는 용어로서, 그 자체에 의미가 한정되지 아니하며, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.In the following description, the terms first, second, etc. are terms used to describe various components, and their meaning is not limited, and is used only for the purpose of distinguishing one component from other components.

본 명세서 전체에 걸쳐 사용되는 동일한 참조번호는 동일한 구성요소를 나타낸다.Like reference numerals used throughout this specification refer to like elements.

본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 이하에서 기재되는 "포함하다", "구비하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것으로 해석되어야 하며, 하나 또는 그 이상의 다른 특징들이나, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.As used herein, singular expressions include plural expressions, unless the context clearly dictates otherwise. In addition, terms such as “comprise,” “provide,” or “have” used below are intended to designate the presence of features, numbers, steps, operations, components, parts, or a combination thereof described in the specification. It should be construed and understood as not precluding the possibility of the presence or addition of one or more other features, numbers, steps, operations, components, parts or combinations thereof.

또한, 명세서에 기재된 "??부", "??기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.In addition, terms such as "unit", "unit", and "module" used in the specification refer to a unit that processes at least one function or operation, which is implemented as hardware, software, or a combination of hardware and software. It can be.

이하, 첨부된 도면을 참조하여 본 발명의 실시 예에 따른 체육인 생애주기별 맞춤형 진로예측 장치, 이를 이용한 진로 예측 방법 및 이를 제공하기 위한 컴퓨터 프로그램이 기록된 컴퓨터-판독가능매체를 상세히 살펴보기로 한다.Hereinafter, with reference to the attached drawings, we will look in detail at a career prediction device customized for each life cycle of an athlete according to an embodiment of the present invention, a career prediction method using the same, and a computer-readable medium on which a computer program for providing the same is recorded. .

참고로, 이하의 설명에서는 본 발명의 용이한 이해를 위해 체육인을 예시로 설명하지만, 체육인 이외의 다른 직업군에서도 본 발명의 실시예들이 동일한 방식으로 적용될 수 있다. For reference, in the following description, athletes are used as an example for easy understanding of the present invention, but embodiments of the present invention can be applied in the same way to other occupational groups other than athletes.

도 1은 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치의 순서도이고, 도 2는 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치의 임베딩 추출부의 순서도이며, 도 3은 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치의 진행 단계를 도시한 예시도이다.Figure 1 is a flowchart of a career prediction device customized for each life cycle of an athlete according to an embodiment of the present invention, Figure 2 is a flowchart of the embedding extraction unit of a career prediction device customized for each life cycle of an athlete according to an embodiment of the present invention, and Figure 3 is This is an exemplary diagram showing the progress stages of a customized career prediction device for each athlete's life cycle according to an embodiment of the present invention.

도 1 내지 3을 참조하면, 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치(10)는 체육인의 수상 실적 및 이력 정보를 이용하여 체육인의 진로를 예측하는 시스템으로, 데이터 저장부(100), 임베딩부(200) 및 진로 예측부(300)를 포함할 수 있다.Referring to Figures 1 to 3, the career prediction device 10 customized for each athlete's life cycle according to an embodiment of the present invention is a system that predicts the athlete's career using the athlete's award performance and history information, and includes a data storage unit ( 100), an embedding unit 200, and a path prediction unit 300.

데이터 저장부(100)는 진로 예측 대상인 체육인과 관련된 모든 데이터를 저장하는 곳으로, 체육인 개인의 이력서, 수상정보, 체육인과 관련된 기사 등을 포함할 수 있다. The data storage unit 100 stores all data related to the athlete who is the subject of career prediction, and may include the athlete's individual resume, award information, articles related to the athlete, etc.

도 2를 참조하면, 임베딩부(200)는 데이터 저장부(100)로부터 체육인의 수상실적 정보 및 이력 정보를 추출하여 단어 임베딩 벡터를 생성하는 곳으로, 임베딩 학습부(210), 정제 정보 생성부(220) 및 임베딩 추출부(230)를 포함할 수 있다.Referring to FIG. 2, the embedding unit 200 extracts the athlete's award performance information and history information from the data storage unit 100 and generates a word embedding vector, including the embedding learning unit 210 and the refined information generating unit. It may include 220 and an embedding extraction unit 230.

먼저, 임베딩 학습부(210)는 스포츠 도메인 말뭉치를 기반으로 말뭉치 임베딩 벡터를 생성하여 학습할 수 있다. First, the embedding learning unit 210 can generate and learn a corpus embedding vector based on the sports domain corpus.

더욱 구체적으로, 임베딩 학습부(210)는 '국립국어원 모두의 말뭉치'의 신문 기사에서 각 스포츠별로 기사를 추출하여 스포츠 도메인 말뭉치를 수집할 수 있다. 이후, 임베딩 학습부(210)는 음절 단위로 단어 표현을 생성하는 서브 단어 표현 모델인 패스트텍스트(fastText) 방법을 이용하여 스포츠 도메인 말뭉치를 임베딩 학습에 맞게 가공하여 가공 데이터를 생성할 수 있다.More specifically, the embedding learning unit 210 can collect sports domain corpus by extracting articles for each sport from newspaper articles in the 'National Institute of the Korean Language Everyone's Corpus'. Thereafter, the embedding learning unit 210 can generate processed data by processing the sports domain corpus for embedding learning using the fastText method, a sub-word expression model that generates word expressions on a syllable basis.

이때, 가공 데이터는 스포츠 도메인 말뭉치에 대해 학습할 단어 목록을 추출하고, 추출된 각각의 단어에 대한 하위 단어 정보일 수 있다.At this time, the processed data extracts a list of words to learn from the sports domain corpus and may be sub-word information for each extracted word.

이에, 임베딩 학습부(210)는 가공 데이터를 가지고 입출력층 및 프로젝션층으로 이루어진 학습 모델을 이용한 단어 임베딩 학습을 통해 학습할 단어를 학습하여 벡터화 한 말뭉치 임베딩 벡터를 생성할 수 있다.Accordingly, the embedding learning unit 210 can generate a vectorized corpus embedding vector by learning words to be learned through word embedding learning using a learning model consisting of an input/output layer and a projection layer using processed data.

여기서, 패스트텍스트(fastText) 방법은 워드 임베딩 및 텍스트 분류를 학습하기 위한 라이브러리로, 단어를 벡터로 만드는 방법 중 하나이다. 더욱 구체적으로 패스트텍스트(fastText) 방법은 하나의 단어 안에도 여러 단어들이 존재하는 것으로 간주하며, 단어 안의 여러 단어들을 고려한 학습을 수행할 수 있다.Here, the fastText method is a library for learning word embedding and text classification, and is one of the methods of turning words into vectors. More specifically, the fastText method considers that multiple words exist within one word, and can perform learning considering multiple words within a word.

정제 정보 생성부(220)는 데이터 저장부(100)로부터 체육인의 수상실적 정보 및 이력 정보를 추출한 다음 정제하여 정제 정보를 생성하는 곳이다.The refined information generation unit 220 extracts the athlete's award performance information and history information from the data storage unit 100 and then refines them to generate refined information.

이때, 수상실적 정보는 "유소년 대회 입상", "프로리그 우승", "아마추어팀 리그 우승" 등 체육대회와 관련된 수상에 대한 모든 정보를 포함할 수 있으며, 이력 정보는 "프로 입단", "아마추어팀 감독 부임" 등 체육인의 이력에 관련된 모든 정보를 포함할 수 있다.At this time, the award information may include all information about awards related to sports competitions, such as “winner in youth competition,” “winner of professional league,” and “winner of amateur team league,” while history information may include “joined professional team,” “amateur team league winner,” etc. It can include all information related to the athlete’s career, such as “appointment of team manager.”

상기와 같이 추출된 수상실적 정보 및 이력 정보는 고유명사(인명, 팀명, 학교 등)을 보존할 수 있도록 한국어 형태소 분석기를 활용하여 데이터를 정제하는 것이 가장 바람직하다.It is most desirable to use a Korean morpheme analyzer to refine the data of the award performance information and history information extracted as above so that proper nouns (names of people, team names, schools, etc.) can be preserved.

여기서, 한국어 형태소 분석기로는 Kiwi, HAM, HLX, Mecab 등 다양한 종류가 존재하는데 Kiwi 형태소 분석기를 이용하는 것이 가장 바람직하나, 이에 한정되지 않는다.Here, there are various types of Korean morpheme analyzers such as Kiwi, HAM, HLX, and Mecab. It is most preferable to use the Kiwi morpheme analyzer, but it is not limited to this.

더욱 구체적으로, Kiwi 형태소 분석기를 이용하여 수상실적 정보 및 이력 정보에 대한 형태소 분석을 수행하고, 그 결과를 활용할 수 있다.More specifically, you can use the Kiwi morpheme analyzer to perform morpheme analysis on award performance information and history information and use the results.

이에 따라, 정제 정보 생성부(220)는 수상실적 정보 및 이력 정보에 포함된 '을', '를' 같은 조사나 '하다', '였다'와 같은 어미들은 제거하여, 추후 단어 임베딩 벡터를 가지지 않도록 할 수 있다. 즉, 정제 정보 생성부(220)는 정제 정보가 일반명사, 동사 및 형용사 등의 실질형태소만 포함하도록 하여 불필요한 정보는 사전에 제거할 수 있는 장점이 있다.Accordingly, the refined information generation unit 220 removes particles such as 'eul' and 'eul' or endings such as 'do' and 'was' included in the award performance information and history information, so that it does not have a word embedding vector in the future. You can avoid it. That is, the refined information generator 220 has the advantage of removing unnecessary information in advance by ensuring that the refined information includes only substantive morphemes such as common nouns, verbs, and adjectives.

임베딩 추출부(230)는 정제 정보로부터 단어 임베딩 벡터를 생성할 수 있다.The embedding extraction unit 230 may generate a word embedding vector from the refined information.

이때, 임베딩 추출부(230)는 상기 임베딩 학습부(210)에서와 같이 패스트텍스트(fastText) 방법을 이용하여 정제 정보에 포함된 단어들에 대한 하위 단어 정제정보를 추출한 다음 추출된 하위 단어 정제정보로부터 단어 임베딩 벡터를 생성할 수 있다.At this time, the embedding extraction unit 230 extracts low-order word refinement information for words included in the refinement information using the fastText method as in the embedding learning unit 210, and then extracts the extracted low-word refinement information. You can create a word embedding vector from .

이에 따라, 임베딩부(200)는 임베딩 학습부(210)를 통해 말뭉치 임베딩 벡터를 학습하고, 학습된 말뭉치 임베딩 벡터를 바탕으로 체육인의 수상실적 정보 및 이력 정보를 단어 임베딩 벡터를 생성하여 진로 예측부(300)로 하여금 체육인의 진로예측을 수행하도록 할 수 있다.Accordingly, the embedding unit 200 learns a corpus embedding vector through the embedding learning unit 210, and generates a word embedding vector using the athlete's award performance information and history information based on the learned corpus embedding vector to create a career prediction unit. (300) can be used to predict the athlete's career path.

진로 예측부(300)는 단어 임베딩 벡터를 합성곱 신경망인 CNN(Convolutional Neural Network) 모델에 입력하여 체육인의 진로정보를 생성할 수 있다.The career prediction unit 300 may generate the athlete's career information by inputting the word embedding vector into a CNN (Convolutional Neural Network) model, which is a convolutional neural network.

여기서, 체육인의 진로정보는 체육인이 진출할 수 있는 적어도 하나 이상의 진로에 대한 확률값을 의미한다. 이때, 체육인과 관련된 진로는 은퇴, 행정가, 지도자, 국가대표, 청소년대표 및 심판 중 하나 이상일 수 있으며, 이에 한정되지 않고, 체육인와 관련된 진로는 모두 포함할 수 있다.Here, the athlete's career information refers to the probability value of at least one career path that the athlete can advance into. At this time, career paths related to athletes may be one or more of retirement, administrator, leader, national representative, youth representative, and referee, but are not limited to this and may include all career paths related to athletes.

더욱 구체적으로, 진로 예측부(300)는 CNN(Convolutional Neural Network) 모델을 통해 임베딩 학습부(210)의 말뭉치 임베딩 벡터와 임베딩 추출부(230)의 단어 임베딩 벡터의 상관 관계에 대한 학습 모델을 획득할 수 있다. More specifically, the career prediction unit 300 acquires a learning model for the correlation between the corpus embedding vector of the embedding learning unit 210 and the word embedding vector of the embedding extraction unit 230 through a CNN (Convolutional Neural Network) model. can do.

이에, 진로 예측부(300)는 학습 모델에 기초하여 체육인의 진로정보를 생성하기 위한 목적에 따라 입력된 단어 임베딩 벡터에 대해 분할 및 조합 분석을 수행하여 진로정보를 생성할 수 있다.Accordingly, the career prediction unit 300 may generate career information by performing segmentation and combination analysis on the input word embedding vector for the purpose of generating career information for athletes based on the learning model.

이때, 진로 예측부(300)는 CNN(Convolutional Neural Network) 모델의 Input Layer, Convolutional Layer, Dropout Layer, Hidden Layer 및 Output Layer를 통해 수행될 수 있다.At this time, the career path prediction unit 300 may be performed through the Input Layer, Convolutional Layer, Dropout Layer, Hidden Layer, and Output Layer of a CNN (Convolutional Neural Network) model.

Input Layer는 단어 임베딩 벡터를 입력 받아 Convolutional Layer에 전달할 수 있다.The Input Layer can receive word embedding vectors and transmit them to the Convolutional Layer.

Convolutional Layer는 단어 임베딩 벡터를 특정한 연속된 단어의 수로 분할 및 조합하면서 데이터를 분석할 수 있다. 이 경우, Convolutional Layer가 도출한 결과는 각기 다른 개수의 단어로 구성된 부분 단어 집합을 분석한 결과일 수 있다.Convolutional Layer can analyze data by dividing and combining word embedding vectors into a specific number of consecutive words. In this case, the results derived from the convolutional layer may be the result of analyzing partial word sets composed of different numbers of words.

Dropout Layer는 분석 결과로부터 일부 정보를 탈락시킬 수 있다. 이러한 탈락 과정에 의해, 인공지능 분석 모델이 학습데이터에 과하게 조정되는 오버 피팅 현상을 방지하고, 현실에서 발생 가능한 비정형 텍스트의 임의성을 추가함으로써, 분석 결과의 품질이 향상될 수 있다.Dropout Layer may drop some information from analysis results. Through this elimination process, the quality of the analysis results can be improved by preventing the overfitting phenomenon in which the artificial intelligence analysis model is excessively adjusted to the learning data and by adding the randomness of unstructured text that can occur in reality.

이후, 데이터는 Hidden Layer와 Output Layer에 의해 데이터가 순차적으로 처리되고, Output Layer를 통하여 진로 정보 생성을 위한 하나의 수치 정보가 도출된다. 이 경우, 진로 정보에 주어진 확률값을 비교하여, 오차의 정도를 분석 모델에 반영하는 반복적인 학습 과정이 수행될 수 있다. 전체 학습 과정이 수행되는 동안, 단어 임베딩 벡터에 대하여 반복적인 학습을 수행할 수 있다.Afterwards, the data is sequentially processed by the Hidden Layer and the Output Layer, and a single numerical information for generating career information is derived through the Output Layer. In this case, an iterative learning process may be performed in which the probability value given to the career information is compared and the degree of error is reflected in the analysis model. While the entire learning process is being performed, iterative learning can be performed on word embedding vectors.

이때, 진로 예측부(300)는 진로 정보 각각의 초기 확률값을 1로 설정하여 학습할 수 있다.At this time, the career prediction unit 300 may learn by setting the initial probability value of each piece of career information to 1.

여기서, 초기 확률값은 원핫 벡터(one-hot vector)의 형태로 표현한 값으로, 하나의 요소는 1이고, 나머지는 0 으로 표현할 수 있으며, 각각의 값은 100%, 0%의 의미를 가질 수 있다.Here, the initial probability value is a value expressed in the form of a one-hot vector, where one element can be expressed as 1 and the rest as 0, and each value can have the meaning of 100% and 0%. .

본 발명의 진로 예측부(300)는 진로 정보 각각에 대하여 정답에 대한 확률값을 원핫 벡터의 형태인 1로 설정하여 학습함으로써, 체육인이 다양한 진로로 동시 진출이 가능한 점을 고려할 수 있다.The career prediction unit 300 of the present invention learns by setting the probability value for the correct answer to 1 in the form of a one-hot vector for each piece of career information, thereby taking into account the fact that athletes can advance into various career paths simultaneously.

예컨대, 진로 정보가 [국가대표, 지도자, 행정가]로 구성되었을 때, 해당 체육인이 국가대표를 지낸 후 지도자가 된 경우, 초기 확률값을 [1, 1, 0]으로 부여한 뒤 학습할 수 있다.For example, when career information consists of [national representative, leader, administrator], and if the athlete in question became a leader after serving as a national representative, the initial probability value can be assigned as [1, 1, 0] and then learned.

이에 따라, 진로 예측부(300)는 체육인에 대해 진로 정보를 한가지로 한정하지 않고 해당 체육인에 적합한 진로 정보를 모두 도출하여, 체육인으로 하여금 선택의 폭을 넓힐 수 있도록 할 수 있다. Accordingly, the career prediction unit 300 is not limited to one type of career information for an athlete, but derives all career information suitable for the athlete, allowing the athlete to expand the range of choices.

또한, 진로 예측부(300)는 단어 임베딩 벡터를 상기 CNN 모델에 입력하기 전에 체육인의 이력 정보를 6개월 단위로 구분하는 토큰을 추가하여 단어 임베딩 벡터를 상기 토큰에 적용하는 전처리부를 포함할 수 있다. In addition, the career prediction unit 300 adds a token that divides the athlete's history information into 6-month units before inputting the word embedding vector into the CNN model, and may include a preprocessor that applies the word embedding vector to the token. .

이때, 전처리부는 다수의 훈련 데이터를 생성하기 위해 생애주기가 완성된 체육인의 이력 정보를 년 주기로 분할할 수 있다.At this time, the preprocessor may divide the history information of the athlete whose life cycle has been completed into year cycles in order to generate a large number of training data.

이와 같이, 진로 예측부(300)는 이력 정보를 년 주기로 분할한 다음, 토큰을 통해 상기 이력 정보를 개월 단위로 분류함으로써 체육인의 이력 정보를 시간 흐름에 따라 잘 구분할 수 있다. 이때, 진로 예측부(300)는 이력 정보를 3년 주기로 분할하고, 토큰을 6개월 단위로 분류하는 것이 가장 바람직하나, 이에 한정되지 않는다. 이를 통해 진로 예측부(300)는 체육인의 진로 예측 시 보다 빠르고 정확하게 진로 정보를 생성하는 장점이 있다.In this way, the career prediction unit 300 divides the history information into year cycles and then classifies the history information into months through tokens, so that the athlete's history information can be clearly classified according to the passage of time. At this time, it is most desirable for the career prediction unit 300 to divide the history information into 3-year cycles and classify tokens into 6-month increments, but it is not limited to this. Through this, the career prediction unit 300 has the advantage of generating career information more quickly and accurately when predicting the career of an athlete.

본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치(10)는 상기에서 설명한 단계에 따라 체육인의 진로 정보를 생성할 수 있다. The career prediction device 10 customized for each athlete's life cycle according to an embodiment of the present invention can generate the athlete's career information according to the steps described above.

예컨대, 도 3을 참조하면, 상기와 같은 단계를 통해 신문 기사나 다양한 기사에 '2011년 8월 서울 제3회 재능기 전국 중학교 배구대회 참여'와 같이 기재되어 있는 체육인 관련 수상실적 정보 및 이력 정보를 추출하고, 추출된 정보를 임베딩하여 벡터로 표현한 다음, 상기 벡터를 가지고 '국가대표 확률 42%, 지도자 확률 13% 등'과 같이 체육인의 진로를 예측할 수 있다.For example, referring to Figure 3, through the above steps, award information and history information related to athletes are written in newspaper articles or various articles such as 'Participation in the 3rd Talent National Middle School Volleyball Competition in Seoul in August 2011'. is extracted, the extracted information is embedded and expressed as a vector, and then the athlete's career path can be predicted using the vector, such as 'probability of national team 42%, probability of leader 13%, etc.'

도 4 내지 도 5는 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치를 통해 체육인의 진로를 예측했을 때, 실제 진로에 대하여 예측된 진로를 평가한 값을 나타낸 표이다.Figures 4 and 5 are tables showing the evaluation values of the predicted career with respect to the actual career when the athlete's career is predicted through a career prediction device customized for each athlete's life cycle according to an embodiment of the present invention.

도 4 내지 5를 참조하면, 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치를 통해 체육인의 진로를 예측했을 때, 그 체육인이 실제 진로를 얼마나 맞추었는지를 확인할 수 있다.Referring to Figures 4 and 5, when an athlete's career is predicted through a career prediction device customized for each athlete's life cycle according to an embodiment of the present invention, it is possible to check how well the athlete has matched the actual career path.

이때, 체육인의 진로는 총 6개의 범주(은퇴, 행정가, 지도자, 국가대표, 청소년대표, 심판)로 하였으며, 성능 평가 척도는 총 3가지로 1-best accuracy, Recall@2, Full accuracy이다.At this time, the career paths of athletes were divided into six categories (retired, administrator, leader, national representative, youth representative, referee), and there were three performance evaluation scales: 1-best accuracy, Recall@2, and Full accuracy.

1-best accuracy는 총 6개의 범주 중 모델이 가장 강하게 예측하는 것을 하나 고르고, 그것이 실제 진로에 있었는지를 평가한다. Recall@2는 6개의 범주 중 모델이 두 개의 진로 예측을 하고, 그 두 개 중 하나라도 실제 진로에 있었는지를 평가한다. Full Accruacy는 6개의 범주 중 1개 이상의 진로를 예측하고 예측한 진로가 실제 진로와 완전히 정확한지를 평가한다. 1-best accuracy는 수식 1을 통해 계산할 수 있고, Recall@2는 수식 2를 통해, Full accuracy는 수식 3을 통해 계산할 수 있다.1-best accuracy selects the one that the model predicts most strongly out of a total of six categories and evaluates whether it was on the actual course. In Recall@2, the model predicts two paths out of six categories and evaluates whether any of the two paths were actually on the path. Full Accuracy predicts one or more career paths out of six categories and evaluates whether the predicted career path is completely accurate with the actual career path. 1-best accuracy can be calculated through Equation 1, Recall@2 can be calculated through Equation 2, and Full accuracy can be calculated through Equation 3.

[수식 1][Formula 1]

이때, label은 실제 체육인의 진로이다. 1-best accuracy는 Correct predictions를 All predictions으로 나눈 값이다. 모델의 모든 예측은 All prdictions 이고, Correct predictions 는 모델이 예측한 하나의 진로가 실제 진로에 포함되어 있는 경우다. At this time, the label is the actual career path of the athlete. 1-best accuracy is Correct predictions divided by All predictions. All predictions of the model are All predictions, and Correct predictions are when one career path predicted by the model is included in the actual career path.

[수식 2][Formula 2]

이때 label은 실제 체육인의 진로이다. Recall@2 accuracy는 Correct recalls를 All predictions로 나눈 값이다. 모델의 모든 예측은 All prediction이고, Correct recall@2는 모델이 2개를 예측했을 때 그 두 개중 하나라도 실제 진로에 있는 경우다. At this time, the label is the actual career path of the athlete. Recall@2 accuracy is the value divided by Correct recalls by All predictions. All predictions of the model are All predictions, and Correct recall@2 is when the model predicts two things and at least one of them is on the actual path.

[수식 3][Formula 3]

이때 label은 실제 체육인의 진로이다. Full-accuracy는 Correct full predictions를 All predictions로 나눈 값이다. 모델의 모든 예측을 All prediction이고, Correct full prediction은 모델이 예측한 N개가 정확하게 라벨과 동일할 경우다. At this time, the label is the actual career path of the athlete. Full-accuracy is the value of Correct full predictions divided by All predictions. All predictions of the model are All predictions, and Correct full prediction is when the N numbers predicted by the model are exactly the same as the label.

위의 평가 지표로 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치(10)의 성능을 측정하였다. 스포츠 도메인 임베딩 모델 기법의 성능을 검증하기 위해 스포츠 도메인 임베딩을 사용하지 않았을 경우, 단어 표현 모델인 word2vec 방법을 사용한 경우, 서브 단어 표현 모델인 패스트텍스트(fastText) 방법을 사용한 경우를 각각 검증하였다. 또한 각각의 임베딩 모델에 대해서 진로 예측을 위한 순환 신경망 모델인 LSTM과 합성 곱 신경망 모델인 CNN을 사용하였다.The performance of the career prediction device 10 customized for each athlete's life cycle according to an embodiment of the present invention was measured using the above evaluation indicators. To verify the performance of the sports domain embedding model technique, we verified the cases where sports domain embedding was not used, when the word2vec method, a word representation model, was used, and when the fastText method, a subword representation model, was used. Additionally, for each embedding model, LSTM, a recurrent neural network model, and CNN, a convolutional neural network model, were used for career prediction.

도 4는 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치를 통해 배구 체육인 진로 예측 성능을 측정한 결과이다. 스포츠 도메인 임베딩 모델과 진로 예측 모델을 조합하여 각각 성능을 측정한 결과다. 표를 통해 서브 단어 표현 모델인 패스트텍스트(fastText) 방법으로 임베딩하고, 합성곱 신경망인 CNN을 사용했을 때, 진로 예측을 더 효과적으로 할 수 있음을 확인할 수 있다.Figure 4 shows the results of measuring the career prediction performance of volleyball athletes through a career prediction device customized for each athlete's life cycle according to an embodiment of the present invention. This is the result of measuring the performance of a combination of a sports domain embedding model and a career prediction model. From the table, you can see that career prediction can be done more effectively when embedding with the fastText method, a subword expression model, and using CNN, a convolutional neural network.

도 5는 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치를 통해 스피드 스케이팅 체육인 진로 예측 성능을 측정한 결과이다. 스포츠 도메인 임베딩 모델과 진로 예측 모델을 조합하여 각각 성능을 측정한 결과다. 표를 통해 서브 단어 표현 모델인 패스트텍스트(fastText) 방법으로 임베딩하고, 합성곱 신경망인 CNN을 사용했을 때, 진로 예측을 더 효과적으로 할 수 있음을 확인할 수 있다.Figure 5 shows the results of measuring the career prediction performance of speed skating athletes through a career prediction device customized for each athlete's life cycle according to an embodiment of the present invention. This is the result of measuring the performance of a combination of a sports domain embedding model and a career prediction model. From the table, you can see that career prediction can be done more effectively when embedding with the fastText method, a subword expression model, and using CNN, a convolutional neural network.

이러한 체육인 생애주기별 맞춤형 진로예측 방법에 대하여 하기에서 구체적으로 설명하기로 한다.This customized career prediction method for each athlete's life cycle will be explained in detail below.

도 6은 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 방법을 순차적으로 나타낸 흐름도이고, 도 7은 도 6의 S20 단계에서 이루어질 수 있는 단계들을 개략적으로 나타낸 흐름도이다.Figure 6 is a flowchart sequentially showing a customized career prediction method for each athlete's life cycle according to an embodiment of the present invention, and Figure 7 is a flowchart schematically showing steps that can be performed in step S20 of Figure 6.

도 6을 참조하면, 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 방법은 데이터 저장단계(S10), 임베딩 단계(S20) 및 진로 예측단계(S30)를 포함할 수 있다.Referring to FIG. 6, the customized career prediction method for each athlete's life cycle according to an embodiment of the present invention may include a data storage step (S10), an embedding step (S20), and a career prediction step (S30).

데이터 저장단계(S10)는 체육인 정보를 데이터 저장부(100)에 저장하여 데이터셋이 구성되도록 할 수 있다.In the data storage step (S10), athlete information can be stored in the data storage unit 100 to form a dataset.

임베딩 단계(S20)는 데이터 저장부(100)로부터 체육인의 수상실적 정보 및 이력 정보를 추출하여 단어 임베딩 벡터를 생성할 수 있다.In the embedding step (S20), a word embedding vector may be generated by extracting the athlete's award performance information and history information from the data storage unit 100.

도 7을 참조하면, 임베딩 단계(S20)는 학습단계(S21), 정제 정보 생성단계(S22) 및 임베딩 추출단계(S23)를 포함할 수 있다. 임베딩 단계(S20)를 구성하는 각각의 단계에 대해서는 상기 장치에서 설명하였으므로, 자세한 설명은 생략하기로 한다.Referring to FIG. 7, the embedding step (S20) may include a learning step (S21), a refinement information generation step (S22), and an embedding extraction step (S23). Since each step constituting the embedding step (S20) has been described in the above device, detailed description will be omitted.

학습단계(S21)는 스포츠 도메인 말뭉치를 기반으로 말뭉치 임베딩 벡터를 생성하여 학습할 수 있다.The learning step (S21) can be learned by generating a corpus embedding vector based on the sports domain corpus.

정제 정보 생성단계(S22)는 데이터 저장부(100)로부터 체육인의 수상실적 정보 및 이력 정보를 추출한 다음 Kiwi 형태소 분석기를 이용하여 상기 수상실적 정보 및 이력 정보가 실질형태소만 포함하도록 정제한 정제 정보를 생성할 수 있다.In the refined information generation step (S22), the athlete's award performance information and history information are extracted from the data storage unit 100, and then the award performance information and history information are refined to include only substantive morphemes using a Kiwi morpheme analyzer. can be created.

임베딩 추출단계(S23)는 정제 정보를 말뭉치 임베딩 벡터와 매칭하여 단어 임베딩 벡터를 생성할 수 있다.The embedding extraction step (S23) can generate a word embedding vector by matching the purification information with the corpus embedding vector.

마지막으로, 진로 예측단계(S30)는 단어 임베딩 벡터를 합성곱 신경망인 CNN(Convolutional Neural Network) 모델에 입력하여 체육인의 진로정보를 생성 할 수 있다.Lastly, in the career prediction step (S30), the athlete's career information can be generated by inputting the word embedding vector into a CNN (Convolutional Neural Network) model.

보다 구체적으로, 진로 예측단계(S30)는 CNN(Convolutional Neural Network) 모델을 통해 체육인의 진로정보를 생성하기 위한 목적에 따라 입력된 단어 임베딩의 분할 및 조합 분석을 수행하고 입력된 데이터의 패턴을 파악하여 진로에 대한 확률값을 도출할 수 있다.More specifically, the career prediction step (S30) performs segmentation and combination analysis of input word embeddings for the purpose of generating career information for athletes through a CNN (Convolutional Neural Network) model and identifies patterns in the input data. Thus, the probability value for the career path can be derived.

이때, 진로 예측단계(S30)는 단어 임베딩 벡터를 상기 CNN 모델에 입력하기 전에 수행되는 전처리단계를 포함할 수 있다.At this time, the career path prediction step (S30) may include a preprocessing step performed before inputting the word embedding vector into the CNN model.

전처리단계는 패턴을 찾기 전에 체육인의 이력 정보를 개월 단위로 구분하는 토큰을 추가하여 상기 단어 임베딩 벡터를 상기 토큰에 적용하고, 다수의 훈련 데이터를 생성하기 위해 생애주기가 완성된 체육인의 상기 이력 정보를 년 주기로 분할할 수 있다.In the preprocessing step, before finding a pattern, tokens that divide the athlete's history information by months are added, the word embedding vector is applied to the token, and the history information of the athlete whose life cycle is completed is generated to generate a large number of training data. can be divided into year cycles.

이상에서 설명한 본 발명의 실시예에 따른 체육인 생애주기별 맞춤형 진로예측 장치는, 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 이러한 기록 매체는 컴퓨터 판독 가능 매체를 포함하며, 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함하며, 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.The customized career prediction device for each athlete's life cycle according to the embodiment of the present invention described above can also be implemented in the form of a recording medium containing instructions executable by a computer, such as a program module executed by a computer. Such recording media includes computer-readable media, which can be any available media that can be accessed by a computer and includes both volatile and non-volatile media, removable and non-removable media. Computer-readable media also includes computer storage media, both volatile and non-volatile implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules, or other data. , includes both removable and non-removable media.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Although the embodiments of the present invention have been described in detail above, the scope of the present invention is not limited thereto, and various modifications and improvements made by those skilled in the art using the basic concept of the present invention defined in the following claims are also possible. It falls within the scope of rights.

10: 체육인 생애주기별 맞춤형 진로예측 장치
100: 데이터 저장부
200: 임베딩부
210: 임베딩 학습부
220: 정제 정보 생성부
230: 임베딩 추출부
300: 진로 예측부
10: Customized career prediction device for each athlete’s life cycle
100: data storage unit
200: Embedding part
210: Embedding learning unit
220: Purification information generation unit
230: Embedding extraction unit
300: Career prediction department

Claims (9)

체육인 정보가 저장된 데이터 저장부;
상기 체육인 정보로부터 체육인의 수상실적 정보 및 이력 정보를 추출하여 단어 임베딩 벡터를 생성하는 임베딩부 및
상기 단어 임베딩 벡터를 합성곱 신경망인 CNN(Convolutional Neural Network) 모델에 입력하여 체육인의 진로정보를 생성하는 진로 예측부를 포함하고,
상기 진로정보는,
체육인이 진출할 수 있는 적어도 하나 이상의 진로에 대한 확률값이고,
상기 진로 예측부는,
상기 단어 임베딩 벡터를 상기 CNN 모델에 입력하기 전에 체육인의 이력 정보를 개월 단위로 구분하는 토큰을 추가하여 상기 단어 임베딩 벡터를 상기 토큰에 적용하는 전처리부를 포함하고,
상기 전처리부는,
다수의 훈련 데이터를 생성하기 위해 생애주기가 완성된 체육인의 상기 이력 정보를 년 주기로 분할하며,
상기 진로 예측부는 상기 이력 정보를 년 주기로 분할한 다음, 상기 토큰을 통해 상기 이력 정보를 개월 단위로 분류하고,
상기 임베딩부는,
스포츠 도메인 말뭉치를 기반으로 말뭉치 임베딩 벡터를 생성하여 학습하는 임베딩 학습부;
상기 추출된 수상실적 정보 및 이력정보를 실질형태소만 포함하도록 정제하여 정제 정보를 생성하는 정제 정보 생성부 및
상기 학습된 말뭉치 임베딩 벡터에 기초하여 상기 정제 정보로부터 상기 단어 임베딩 벡터를 생성하는 임베딩 추출부를 포함하고,
상기 임베딩부는,
패스트텍스트(fastText)를 사용하여 상기 스포츠 도메인 말뭉치 및 상기 정제 정보로부터 음절 단위의 단어를 추출한 다음 상기 말뭉치 임베딩 벡터 및 상기 단어 임베딩 벡터를 생성하는 것을 특징으로 하고,
상기 임베딩 학습부는,
음절 단위로 단어 표현을 생성하는 서브 단어 표현 모델인 상기 패스트텍스트(fastText) 방법으로 상기 스포츠 도메인 말뭉치를 임베딩 학습에 맞게 가공한 가공 데이터를 생성하되, 상기 가공 데이터는 상기 스포츠 도메인 말뭉치로부터 추출된 단어 목록에 대한 하위 단어 정보로 구성되며,
상기 임베딩 학습부는 상기 가공데이터를 단어 임베딩 학습을 통해 학습하여 상기 말뭉치 임베딩 벡터를 생성하는 것이고,
상기 임베딩 추출부는,
상기 패스트텍스트(fastText) 방법을 사용하여 상기 정제정보에 포함된 단어들에 대한 하위 단어 정제정보를 추출하고 상기 추출된 하위 단어 정제정보로부터 상기 단어 임베딩 벡터를 생성하는 것이고,
상기 진로 예측부는,
진로 정보 각각에 대한 초기 확률값을 원핫 벡터의 형태로 설정하여 학습하되, 상기 원핫 벡터의 형태는 적어도 하나의 요소는 1이고, 나머지는 0으로 표현한 것인, 체육인 생애주기별 맞춤형 진로예측 장치.
A data storage unit storing athlete information;
An embedding unit that generates a word embedding vector by extracting the athlete's award performance information and history information from the athlete information, and
A career prediction unit that generates career information of the athlete by inputting the word embedding vector into a CNN (Convolutional Neural Network) model, a convolutional neural network,
The above career information is,
It is the probability value for at least one career path that an athlete can advance into,
The career prediction unit,
Before inputting the word embedding vector into the CNN model, a preprocessor adds a token that divides the athlete's history information into months and applies the word embedding vector to the token,
The preprocessor,
In order to generate a large number of training data, the above history information of athletes whose life cycle has been completed is divided into year cycles,
The career prediction unit divides the history information into year cycles and then classifies the history information into months through the token,
The embedding part,
An embedding learning unit that generates and learns corpus embedding vectors based on the sports domain corpus;
A refined information generation unit that refines the extracted award performance information and history information to include only substantive morphemes to generate refined information;
An embedding extraction unit that generates the word embedding vector from the refined information based on the learned corpus embedding vector,
The embedding part,
Characterized by extracting syllable-level words from the sports domain corpus and the refined information using fastText, and then generating the corpus embedding vector and the word embedding vector,
The embedding learning unit,
Processed data is generated by processing the sports domain corpus for embedding learning using the fastText method, which is a sub-word expression model that generates word expressions on a syllable basis, and the processed data is words extracted from the sports domain corpus. It consists of subword information about the list,
The embedding learning unit learns the processed data through word embedding learning to generate the corpus embedding vector,
The embedding extractor,
Extracting low-level word refinement information for words included in the refining information using the fastText method and generating the word embedding vector from the extracted low-word refining information,
The career prediction unit,
A customized career prediction device for each athlete's life cycle, where the initial probability value for each piece of career information is set and learned in the form of a one-hot vector, where at least one element is expressed as 1 and the rest are expressed as 0.
삭제delete 삭제delete 삭제delete 삭제delete 체육인 생애주기별 맞춤형 진로예측 장치에서의 체육인에 대한 맞춤형 진로 예측 방법에 있어서,
데이터 저장부에서 체육인 정보를 데이터 저장부에 저장하는 데이터 저장단계;
임베딩부에서 상기 체육인 정보로부터 체육인의 수상실적 정보 및 이력 정보를 추출하여 단어 임베딩 벡터를 생성하는 임베딩 단계 및
진로예측부에서 상기 단어 임베딩 벡터를 합성곱 신경망인 CNN(Convolutional Neural Network) 모델에 입력하여 체육인의 진로정보를 생성하는 진로 예측단계를 포함하고,
상기 진로 예측단계는,
상기 단어 임베딩 벡터를 상기 CNN 모델에 입력하기 전에 체육인의 이력 정보를 개월 단위로 구분하는 토큰을 추가하여 상기 단어 임베딩 벡터를 상기 토큰에 적용하고, 다수의 훈련 데이터를 생성하기 위해 생애주기가 완성된 체육인의 상기 이력 정보를 년 주기로 분할하는 전처리단계를 포함하고,
상기 진로 예측부는 상기 이력 정보를 년 주기로 분할한 다음, 상기 토큰을 통해 상기 이력 정보를 개월 단위로 분류하고,
상기 임베딩 단계는,
스포츠 도메인 말뭉치를 기반으로 말뭉치 임베딩 벡터를 생성하여 학습하는 학습단계;
상기 추출된 상기 수상실적 정보 및 이력 정보를 실질형태소만 포함하도록 정제하여 정제 정보를 생성하는 정제 정보 생성단계 및
상기 학습된 말뭉치 임베딩 벡터에 기초하여 상기 정제 정보로부터 상기 단어 임베딩 벡터를 생성하는 임베딩 추출단계를 포함하고,
상기 임베딩 단계는,
패스트텍스트(fastText)를 사용하여 상기 스포츠 도메인 말뭉치 및 상기 정제 정보로부터 음절 단위의 단어를 추출한 다음 상기 말뭉치 임베딩 벡터 및 상기 단어 임베딩 벡터를 생성하는 것을 특징으로 하고,
상기 학습단계는,
음절 단위로 단어 표현을 생성하는 서브 단어 표현 모델인 상기 패스트텍스트(fastText) 방법으로 상기 스포츠 도메인 말뭉치를 임베딩 학습에 맞게 가공한 가공 데이터를 생성하되, 상기 가공 데이터는 상기 스포츠 도메인 말뭉치로부터 추출된 단어 목록에 대한 하위 단어 정보로 구성되며,
상기 학습단계는 상기 가공데이터를 단어 임베딩 학습을 통해 학습하여 상기 말뭉치 임베딩 벡터를 생성하는 것이고,
상기 임베딩 추출단계는,
상기 패스트텍스트(fastText) 방법을 사용하여 상기 정제정보에 포함된 단어들에 대한 하위 단어 정제정보를 추출하고 상기 추출된 하위 단어 정제정보로부터 상기 단어 임베딩 벡터를 생성하는 것이고,
상기 진로 예측단계는,
진로 정보 각각에 대한 초기 확률값을 원핫 벡터의 형태로 설정하여 학습하되, 상기 원핫 벡터의 형태는 적어도 하나의 요소는 1이고, 나머지는 0으로 표현한 것인, 체육인 생애주기별 맞춤형 진로예측 방법.
In the customized career prediction method for athletes in a customized career prediction device for each athlete's life cycle,
A data storage step of storing athlete information in a data storage unit;
An embedding step in which the embedding unit extracts the athlete's award performance information and history information from the athlete information and generates a word embedding vector;
It includes a career prediction step in which the career prediction unit inputs the word embedding vector into a CNN (Convolutional Neural Network) model, which is a convolutional neural network, to generate career information for the athlete,
The career prediction step is,
Before inputting the word embedding vector into the CNN model, tokens that separate the athlete's history information by months are added, the word embedding vector is applied to the token, and the life cycle is completed to generate a plurality of training data. Including a pre-processing step of dividing the athlete's history information into year cycles,
The career prediction unit divides the history information into year cycles and then classifies the history information into months through the token,
The embedding step is,
A learning step of generating and learning a corpus embedding vector based on the sports domain corpus;
A refined information generation step of generating refined information by refining the extracted award performance information and history information to include only substantive morphemes;
An embedding extraction step of generating the word embedding vector from the refined information based on the learned corpus embedding vector,
The embedding step is,
Characterized by extracting syllable-level words from the sports domain corpus and the refined information using fastText, and then generating the corpus embedding vector and the word embedding vector,
The learning stage is,
Processed data is generated by processing the sports domain corpus for embedding learning using the fastText method, which is a sub-word expression model that generates word expressions on a syllable basis, and the processed data is words extracted from the sports domain corpus. It consists of subword information about the list,
The learning step is to generate the corpus embedding vector by learning the processed data through word embedding learning,
The embedding extraction step is,
Extracting low-level word refinement information for words included in the refining information using the fastText method and generating the word embedding vector from the extracted low-word refining information,
The career prediction step is,
A customized career prediction method for each athlete's life cycle in which the initial probability value for each piece of career information is set and learned in the form of a one-hot vector, where at least one element is expressed as 1 and the rest are expressed as 0.
삭제delete 삭제delete 제 6항에 따른 체육인 생애주기별 맞춤형 진로예측 방법을 수행하는 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.

A computer-readable recording medium on which a computer program that performs a customized career prediction method for each athlete's life cycle according to paragraph 6 is recorded.

KR1020210096586A 2021-05-03 2021-07-22 Device of Customized Career Prediction in Life Cycle of Atheletes, and Career Prediction method using the same, and a computer-readable storage medium KR102677843B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210057368 2021-05-03
KR20210057368 2021-05-03

Publications (2)

Publication Number Publication Date
KR20220150174A KR20220150174A (en) 2022-11-10
KR102677843B1 true KR102677843B1 (en) 2024-06-25

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190220824A1 (en) * 2018-01-12 2019-07-18 Wei Liu Machine learning systems for matching job candidate resumes with job requirements
US20200380470A1 (en) 2019-06-03 2020-12-03 Microsoft Technology Licnesing, Llc Data selection based on career transition embeddings
US20210065126A1 (en) * 2019-08-27 2021-03-04 Dhi Group, Inc. Job skill taxonomy

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190220824A1 (en) * 2018-01-12 2019-07-18 Wei Liu Machine learning systems for matching job candidate resumes with job requirements
US20200380470A1 (en) 2019-06-03 2020-12-03 Microsoft Technology Licnesing, Llc Data selection based on career transition embeddings
US20210065126A1 (en) * 2019-08-27 2021-03-04 Dhi Group, Inc. Job skill taxonomy

Similar Documents

Publication Publication Date Title
Hernandez et al. Natural language descriptions of deep visual features
Jia et al. Adversarial examples for evaluating reading comprehension systems
CN107230174B (en) Online interactive learning system and method based on network
Phandi et al. Flexible domain adaptation for automated essay scoring using correlated linear regression
Ruts et al. Dutch norm data for 13 semantic categories and 338 exemplars
Xue et al. A hierarchical BERT-based transfer learning approach for multi-dimensional essay scoring
Poświata et al. OPI@ LT-EDI-ACL2022: Detecting signs of depression from social media text using RoBERTa pre-trained language models
CN111460101A (en) Knowledge point type identification method and device and processor
Isljamovıc et al. PREDICTING STUDENTS’ACADEMIC PERFORMANCE USING ARTIFICIAL NEURAL NETWORK: A CASE STUDY FROM FACULTY OF ORGANIZATIONAL SCIENCES
Kumar et al. Calling out bluff: Attacking the robustness of automatic scoring systems with simple adversarial testing
Das et al. A hybrid deep learning technique for sentiment analysis in e-learning platform with natural language processing
Neuman et al. Modeling small systems through the relative entropy lattice
He et al. Automatic coding of open-ended questions into multiple classes: Whether and how to use double coded data
Kalra et al. Generation of domain-specific vocabulary set and classification of documents: weight-inclusion approach
KR102677843B1 (en) Device of Customized Career Prediction in Life Cycle of Atheletes, and Career Prediction method using the same, and a computer-readable storage medium
Mittal et al. Feedback analysis of online teaching using svm
Sygkounas et al. A replication study of the top performing systems in semeval twitter sentiment analysis
Yurtkan et al. Student Success Prediction Using Feedforward Neural Networks
KR20220150174A (en) Device of Customized Career Prediction in Life Cycle of Atheletes, and Career Prediction method using the same, and a computer-readable storage medium
Fazuludeen et al. MOOCRec 2 for humanities-learning style based MOOC recommender and search engine
Singh Twitter Sentiment Analysis Using Machine Learning
Sadat et al. MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference
Suriyasat et al. A Comparison of Machine Learning and Neural Network Algorithms for an Automated Thai Essay Scoring
Bhutada et al. Smart Grading System for Evaluating Typed Text Answers Using Ensemble Machine Learning Techniques
Skitalinskaya et al. CLEF ProtestNews Lab 2019: Contextualized Word Embeddings for Event Sentence Detection and Event Extraction.