KR20230124471A - 영어 학습을 위한 ai 언어 모델 기반의 개인화된 의미단위 청크 구성 방법 및 장치 - Google Patents
영어 학습을 위한 ai 언어 모델 기반의 개인화된 의미단위 청크 구성 방법 및 장치 Download PDFInfo
- Publication number
- KR20230124471A KR20230124471A KR1020230000216A KR20230000216A KR20230124471A KR 20230124471 A KR20230124471 A KR 20230124471A KR 1020230000216 A KR1020230000216 A KR 1020230000216A KR 20230000216 A KR20230000216 A KR 20230000216A KR 20230124471 A KR20230124471 A KR 20230124471A
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- chunking
- chunk
- chunks
- information
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000000470 constituent Substances 0.000 claims description 25
- 238000012800 visualization Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 230000000241 respiratory effect Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 20
- 238000012805 post-processing Methods 0.000 description 14
- 230000029058 respiratory gaseous exchange Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 239000003607 modifier Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/154—Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Educational Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Educational Administration (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
본 개시의 일 실시예에 따라, 컴퓨팅 장치에 의해 수행되는 청크 구성 방법으로서, 복수의 문장들로 구성되는 컨텐츠에 대하여 문장 분석을 수행하는 단계, 상기 문장 분석의 결과에 따라, 상기 복수의 문장들 각각을 구성하는 문장 구성 성분들을 의미 단위로 청킹하여, 청킹된 컨텐츠를 생성하는 단계, 및 상기 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력하는 단계를 포함할 수 있다.
Description
본 개시는 영어 학습을 위한 AI 언어 모델 기반의 개인화된 의미단위 청크 구성 방법 및 장치에 관한 것이다.
최근 TV 프로그램이나 영화 등과 같은 컨텐츠를 통해 외국어 학습을 보다 재미있고 효과적으로 수행하고자 하는 수요가 증가하고 있다. 종래에는 컨텐츠를 통해 외국어 학습을 수행하는 경우, 한국어로 번역된 자막과 컨텐츠의 외국어(예를 들어, 영어) 자막을 동시에 디스플레이 하거나, 또는 외국어 자막만을 디스플레이 하였다. 이와 같이 종래의 컨텐츠 기반 외국어 학습은 컨텐츠에 맞추어 단순히 개별 텍스트를 배열하는 형식을 취하여, 컨텐츠를 사용자 스스로 읽거나 듣고 커리큘럼에 따라 컨텐츠를 학습하는 전통적 학습의 형태를 벗어나지 못하였다.
그러나, 효과적인 외국어 학습을 위하여는 개별 단어의 의미를 파악하는 것에서 나아가, 의미 단위로 문장을 이해하는 것이 필요하다. 청크(chunk; 말뭉치) 는 하나 이상의 단어로 구성된 단어 덩어리이다. 인간은 하나의 문장을 말할 때 머릿속으로 한꺼번에 생각하고 한꺼번에 말하는 것이 아니라, 적절한 의미 단위로 끊어서 사고하고 끊어서 말하게 된다. 따라서, 외국어 학습 시에도 단어들을 단순 나열하는 방식에 비해 청크 단위로 끊어서 사고하고 학습하는 것, 청크 기반 학습(chunk-based learning)이 효과적이라는 점은, 수 많은 언어학자의 연구와 학교 학습 현장으로부터 오랜 기간에 걸쳐 검증되어 왔다.
이에 따라 청크 기반으로 외국어 학습 서비스를 제공하는 사례가 늘어나고 있으나, 현재로서는 트레이닝 방식에 청크 기반 학습을 일부 도입하거나, 또는 한두문장 가량의 짧은 소규모 컨텐츠에만 청크 기반 학습을 차용하는 것에 그치고 있다. 이는 종래의 청킹이 수작업으로 수행되어, 대용량 컨텐츠(예를 들어, 영화, 소설, 연설문 등)에 청킹을 적용하기 위하여는 상당한 수준의 인력 및 시간 소모가 요구되기 때문이다.
이에, 외국어 컨텐츠에 의미 단위 청킹을 적용하여 외국어 학습을 위해 제공하되, 인공지능 모델을 기반으로 청킹을 자동으로 수행하여 별도의 검수나 자원 소모를 요하지 않는 기술이 요구된다.
해결하고자 하는 과제는, AI 기반 언어 모델을 통해 컨텐츠 내 문장 성분들 간 의존성 관계를 분석하여 의미 단위로 실시간 자동 청킹된 컨텐츠를 제공함으로써, 효과적인 외국어 학습을 수행할 수 있는 방법 및 장치를 제공하는 것이다. 상기 과제 이외에도 구체적으로 언급되지 않은 다른 과제를 달성하는 데 사용될 수 있다.
한 실시예에 따라 컴퓨팅 장치에 의해 수행되는 청크 구성 방법으로서, 복수의 문장들로 구성되는 컨텐츠에 대하여 문장 분석을 수행하는 단계, 상기 문장 분석의 결과에 따라, 상기 복수의 문장들 각각을 구성하는 문장 구성 성분들을 의미 단위로 청킹하여, 청킹된 컨텐츠를 생성하는 단계, 및 상기 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력하는 단계를 포함한다.
상기 문장 분석을 수행하는 단계는, 상기 복수의 문장 각각의 문장 구성 성분들을 식별하고, 상기 문장 구성 성분들의 품사 정보 및 상기 문장 구성 성분 간의 의존 관계 정보 중 적어도 일부를 추출하는 단계를 포함할 수 있다.
상기 청킹된 컨텐츠를 생성하는 단계는, 상기 문장 구성 성분 간의 의존 관계에 따라 상기 문장 구성 성분들을 구조화하여 의존성 트리를 생성하는 단계, 및 상기 의존성 트리 내에서 서브 트리 단위로 묶인 문장 구성 성분들을 하나의 상기 의미 단위로 결정하여 하나의 청크로 청킹하는 단계를 포함할 수 있다.
상기 청킹된 컨텐츠를 생성하는 단계는, 상기 문장 분석 결과로부터 생성되는 형태소 별 성분정보를 기 학습된 청크 모델에 입력하여, 상기 형태소 별 청크정보를 출력받는 단계, 및 상기 청크정보를 기초로 상기 문장 구성 성분들을 의미 단위로 청킹하는 단계를 포함할 수 있다.
상기 청킹된 컨텐츠를 생성하는 단계는, 상기 문장 분석 결과를 기초로, 상기 문장 구성 성분 별 순서 정보, POS(part-of-speech) 정보, 의존성(dependency) 정보, 및 태그(tag) 정보를 포함하는 성분정보를 생성하는 단계, 상기 형태소 별 성분정보를 기 학습된 청크 모델에 입력하여, 상기 문장 구성 성분 별 청크 유형 정보, 및 청크 식별 정보를 포함하는 청크정보를 출력받는 단계, 및 상기 청크정보를 기초로 상기 문장 구성 성분들을 의미 단위로 청킹하는 단계를 포함할 수 있다.
상기 청킹된 컨텐츠를 생성하는 단계는, 상기 문장 분석 결과를 기초로, 상기 문장 구성 성분들 중 수식 성분들을 제외한 주요 성분들을 식별하는 단계, 사용자에 의해 사전 정의된 끊어읽기 규칙을 상기 주요 성분들에 적용하여, 상기 문장 구성 성분들을 의미 단위로 청킹하는 단계를 포함할 수 있다.
상기 방법은, 상기 사용자의 학습 수준 및 상기 청킹된 컨텐츠 내 각 문장들의 난이도 중 적어도 일부에 따라 상기 각 문장들을 구성하는 청크들 내 단어의 개수를 변경하여, 상기 청킹된 컨텐츠를 상기 사용자의 학습 수준에 따라 개인화 처리하는 단계를 더 포함할 수 있다.
상기 출력하는 단계는, 상기 복수의 청크들 중 사용자가 읽고자 하는 문장 내 일 부분과 대응되는 청크를 실시간으로 식별하여, 다른 청크들과 시각적으로 상이하도록 하이라이트 하여 출력하는 단계를 포함할 수 있다.
한 실시예에 따라 컴퓨팅 장치에 의해 수행되는 청크 구성 방법으로서, 의미단위 청킹 및 호흡단위 청킹 중, 어느 하나의 청킹 방식에 대한 선택 입력을 사용자 단말로부터 수신하는 단계, 상기 의미단위 청킹에 관한 상기 선택 입력이 수신되는 것에 응답하여, 복수의 문장들로 구성되는 컨텐츠에 대한 문장 분석 결과를 기초로, 상기 복수의 문장들 각각을 구성하는 문장 구성 성분들을 의미 단위로 청킹하는 단계, 및 상기 의미 단위로 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력하는 단계를 포함할 수 있다.
상기 문장 분석 결과는, 상기 복수의 문장 각각을 구성하는 문장 구성 성분들의 품사 정보 및 상기 문장 구성 성분 간의 의존 관계 정보 중 적어도 일부를 포함할 수 있다.
상기 의미 단위로 청킹하는 단계는, 상기 문장 구성 성분 간의 의존 관계에 따라 상기 문장 구성 성분들을 구조화하여 의존성 트리를 생성하는 단계, 및 상기 의존성 트리 내에서 서브 트리 단위로 묶인 문장 구성 성분들을 하나의 상기 의미 단위로 결정하여 하나의 청크로 청킹하는 단계를 포함할 수 있다.
상기 의미 단위로 청킹하는 단계는, 상기 문장 분석 결과로부터 생성되는 형태소 별 성분정보를 기 학습된 청크 모델에 입력하여, 상기 형태소 별 청크정보를 출력받는 단계, 및 상기 청크정보를 기초로 상기 문장 구성 성분들을 의미 단위로 청킹하는 단계를 포함할 수 있다.
상기 의미 단위로 청킹하는 단계는, 상기 문장 분석 결과를 기초로, 상기 문장 구성 성분 별 순서 정보, POS(part-of-speech) 정보, 의존성(dependency) 정보, 및 태그(tag) 정보를 포함하는 성분정보를 생성하는 단계, 상기 형태소 별 성분정보를 기 학습된 청크 모델에 입력하여, 상기 문장 구성 성분 별 청크 유형 정보, 및 청크 식별 정보를 포함하는 청크정보를 출력받는 단계, 및 상기 청크정보를 기초로 상기 문장 구성 성분들을 의미 단위로 청킹하는 단계를 포함할 수 있다.
상기 의미 단위로 청킹하는 단계는, 상기 문장 분석 결과를 기초로, 상기 문장 구성 성분들 중 수식 성분들을 제외한 주요 성분들을 식별하는 단계, 사용자에 의해 사전 정의된 끊어읽기 규칙을 상기 주요 성분들에 적용하여, 상기 문장 구성 성분들을 의미 단위로 청킹하는 단계를 포함할 수 있다.
상기 방법은, 상기 호흡단위 청킹에 관한 상기 선택 입력이 수신되는 것에 응답하여, 상기 컨텐츠에 대응되는 음성 데이터로부터 하나 이상의 발화 텀(term)들을 식별하는 단계, 및 상기 하나 이상의 발화 텀 각각의 길이가 임계값 이상인지 여부에 기초하여, 상기 하나 이상의 발화 텀 중 적어도 일부를 기준으로 상기 문장 구성 성분들을 호흡 단위로 청킹하는 단계를 더 포함할 수 있다.
상기 발화 텀들을 식별하는 단계는, 상기 컨텐츠에 대응되는 상기 음성 데이터가 존재하지 않는 경우, 기 학습된 TTS(Text-To-Speech) 모델을 통해 상기 음성 데이터를 생성하고, 생성된 상기 음성 데이터로부터 상기 하나 이상의 발화 텀들을 식별하는 단계를 포함할 수 있다.
상기 방법은, 상기 호흡 단위로 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력하는 단계를 더 포함할 수 있다.
상기 방법은, 상기 사용자의 학습 수준 및 상기 의미 단위로 청킹된 컨텐츠 내 각 문장들의 난이도 중 적어도 일부에 따라 상기 각 문장들을 구성하는 청크들 내 단어의 개수를 변경하여, 상기 의미 단위로 청킹된 컨텐츠를 상기 사용자의 학습 수준에 따라 개인화 처리하는 단계를 더 포함할 수 있다.
한 실시예에 따른 청크 구성 장치로서, 복수의 문장들로 구성되는 컨텐츠에 대하여 문장 분석을 수행하는 분장 분석부, 상기 문장 분석의 결과에 따라, 상기 복수의 문장들 각각을 구성하는 문장 구성 성분들을 의미 단위로 청킹하여 청킹된 컨텐츠를 생성하는 의미단위 청킹부, 및 상기 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력하는 시각화부를 포함할 수 있다.
한 실시예에 따른 청크 구성 장치로서, 의미단위 청킹 및 호흡단위 청킹 중, 어느 하나의 청킹 방식에 대한 선택 입력을 사용자 단말로부터 수신하는 청킹 옵션 결정부, 상기 의미단위 청킹에 관한 상기 선택 입력이 수신되는 것에 응답하여, 복수의 문장들로 구성되는 컨텐츠에 대한 문장 분석 결과를 기초로, 상기 복수의 문장들 각각을 구성하는 문장 구성 성분들을 의미 단위로 청킹하는 의미단위 청킹부, 및 상기 의미 단위로 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력하는 시각화부를 포함할 수 있다.
본 발명의 실시예에 따르면, 인공지능 모델을 기반으로 자동화된 문법 구조 분석을 통해 외국어 컨텐츠에 대한 청크를 구성하여, 외국어 텍스트의 가독성과 독해력을 향상시키고 효과적인 외국어 학습을 제공할 수 있다.
본 발명의 실시예에 따르면, 통사 구조 인지 능령을 향상시킬 수 있는 의미 단위 청킹 외에도 호흡 단위 청킹 등 사용자의 희망에 따라 다양한 청킹 옵션을 제공할 수 있다.
본 발명의 실시예에 따르면, 사용자 수준에 따라 다른 형태의 맞춤형 청크를 제공하여 사용자 수준 별로 효과적인 외국어 학습을 제공할 수 있다.
도 1은 본 발명의 몇몇 실시예에 따른 청크 구성 장치의 일 예시를 나타낸 블록도이다.
도 2는 본 발명의 몇몇 실시예에 따른 의미 단위 청킹을 수행하는 방법의 일례를 도시한 도면이다.
도 3은 본 발명의 다른 몇몇 실시예에 따른 의미 단위 청킹을 수행하는 방법들의 일례를 도시한 도면이다.
도 4는 본 발명의 몇몇 실시예에 따른 의존성 트리를 기초로 의미 단위 청킹을 수행하는 예시를 도시한 도면이다.
도 5는 본 발명의 몇몇 실시예에 따른 청크 구성 장치의 다른 일 예시를 나타낸 블록도이다
도 6은 본 발명의 몇몇 실시예에 따른 호흡 단위 청킹을 수행하는 방법의 일례를 도시한 도면이다.
도 7은 본 발명의 몇몇 실시예에 따라 둘 이상의 청크 옵션이 제공되는 일례를 도시한 도면이다.
도 8은 본 발명의 몇몇 실시예에 따라 청킹된 컨텐츠에 후처리가 수행된 일례를 도시한 도면이다.
도 9는 본 발명의 몇몇 실시예에 따라 청킹된 컨텐츠에 구문 시각화가 수행된 일례를 도시한 도면이다.
도 10은 본 발명의 몇몇 실시예에 따른 청크 구성 방법에 대한 순서도이다.
도 11은 본 발명의 다른 몇몇 실시예에 따른 청크 구성 방법에 대한 순서도이다.
도 12는 본 발명의 몇몇 실시예에 따른 청크 구성 방법을 제공하는 컴퓨팅 장치를 나타낸 블록도이다.
도 2는 본 발명의 몇몇 실시예에 따른 의미 단위 청킹을 수행하는 방법의 일례를 도시한 도면이다.
도 3은 본 발명의 다른 몇몇 실시예에 따른 의미 단위 청킹을 수행하는 방법들의 일례를 도시한 도면이다.
도 4는 본 발명의 몇몇 실시예에 따른 의존성 트리를 기초로 의미 단위 청킹을 수행하는 예시를 도시한 도면이다.
도 5는 본 발명의 몇몇 실시예에 따른 청크 구성 장치의 다른 일 예시를 나타낸 블록도이다
도 6은 본 발명의 몇몇 실시예에 따른 호흡 단위 청킹을 수행하는 방법의 일례를 도시한 도면이다.
도 7은 본 발명의 몇몇 실시예에 따라 둘 이상의 청크 옵션이 제공되는 일례를 도시한 도면이다.
도 8은 본 발명의 몇몇 실시예에 따라 청킹된 컨텐츠에 후처리가 수행된 일례를 도시한 도면이다.
도 9는 본 발명의 몇몇 실시예에 따라 청킹된 컨텐츠에 구문 시각화가 수행된 일례를 도시한 도면이다.
도 10은 본 발명의 몇몇 실시예에 따른 청크 구성 방법에 대한 순서도이다.
도 11은 본 발명의 다른 몇몇 실시예에 따른 청크 구성 방법에 대한 순서도이다.
도 12는 본 발명의 몇몇 실시예에 따른 청크 구성 방법을 제공하는 컴퓨팅 장치를 나타낸 블록도이다.
아래에서는 첨부한 도면을 참고로 하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 네트워크를 구성하는 장치들은 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 몇몇 실시예에 따른 청크 구성 장치를 나타낸 블록도이다.
도 1을 참조하면, 본 개시에 따른 청크 구성 장치(100)는 컨텐츠 수신부(110), 문장 분석부(120), 의미단위 청킹부(130), 개인화부(140), 후처리부(150), 및 시각화부(160)를 포함할 수 있다. 다만 상술한 구성은 본 개시에 따른 청크 구성 장치(100)를 구현하는 데 필수적인 것은 아니어서, 청크 구성 장치(100)는 열거된 구성보다 많거나 적은 구성들로 구현될 수 있다.
한편 본 개시에 따른 청크 구성 장치(100)는 사용자 단말(200)과 통신 가능하게 연결되어, 사용자 단말(200)로부터 컨텐츠를 수신하거나, 후술할 바와 같이 청킹 옵션에 관한 선택을 입력받거나, 또는 청크 구성이 완료된 컨텐츠를 사용자 단말(200)로 제공할 수 있다. 다만 이에 한정되는 것은 아니며, 본 개시에 따른 청크 구성 장치(100)의 일부 혹은 모든 기능은 사용자 단말(200) 내에서 구현될 수도 있다.
본 개시에 따른 청크 구성 장치(100)의 컨텐츠 수신부(110)는, 텍스트 및/또는 음성 형태의 하나 이상의 외국어 문장을 포함하는 컨텐츠를 수신할 수 있다. 컨텐츠는 외국어 학습을 위한 청크 구성을 수행하기 위해 청크 구성 장치(100)로 제공될 수 있다. 컨텐츠는 예컨대 영화, TV 프로그램, 동적 GIF나 릴스와 같은 간단한 동영상 등의 영상이거나, 도서, 대본, 연설문 등과 같은 텍스트일 수 있다.
본 개시에 따른 청크 구성 장치(100)의 문장 분석부(120)는, 컨텐츠에 포함된 하나 이상의 외국어 문장들 각각에 대하여 문장 분석을 수행할 수 있다. 구체적으로 문장 분석을 통해, 외국어 문장 내 문장 구성 성분(즉, 형태소)에 대한 품사 정보와 문장 구성 성분 간의 의존 관계 정보를 획득할 수 있다. 문장 분석에는 종래에 알려진 인공지능 기반의 자연어 처리(NLP; Natural Language Processing) 모델이 사용될 수 있다.
본 개시에 따른 청크 구성 장치(100)의 의미단위 청킹부(130)는, 문장 분석부의 분석 결과를 기초로, 컨텐츠에 포함된 하나 이상의 외국어 문장들 각각에 대해 의미단위의 청킹을 수행할 수 있다.
의미단위의 청킹은, 문장을 낱개의 단어 단위가 아닌 하나의 의미를 구성하는 의미 단위로 끊어읽는 것을 의미할 수 있다. 의미 단위로 끊어읽기를 통해 외국어를 학습할 경우, 통사 구조 인지 능력이 향상되어 언어 습득에 긍정적인 영향을 미침이 알려져 있다.
의미단위 청킹부(130)는, 문장 분석 결과로부터 도출되는 문장 성분 간 의존관계를 기초로 문장 내에서 청크를 끊기 위한 지점들을 결정할 수 있다. 구체적으로 의미단위 청킹부(130)는 문장 분석 결과를 기초로, 문장 구성 성분들을 의존 관계에 따라 트리 형태로 구조화 한 의존성 트리(dependency tree)를 도출할 수 있고, 의존성 트리에서 서브트리(subtree) 단위로 묶인 문장 구성 성분들을 하나의 청크로 구성하여 청킹을 수행할 수 있다. 의존성 트리를 기초로 의미단위 청킹을 수행하는 일례에 관하여 도 3을 통해 자세히 서술한다.
또는 의미단위 청킹부(130)는 기 학습된 청크 모델을 기초로 의미단위 청킹을 수행할 수 있다. 여기서 청크 모델은, 문장 분석 결과로부터 생성되는 형태소 별 성분정보를 입력 값으로 하여, 형태소 별 청크정보를 출력하도록 기 학습될 수 있다. 기 학습된 청크 모델은 딥 러닝 기반의 모델일 수 있으며, 가령 BERT 모델일 수 있으나 이에 한정되는 것은 아니며, 자연어 토큰(token)을 처리할 수 있는 임의의 모델이 청크 모델의 구현을 위해 사용될 수 있다.
한편 청크 모델의 입력 값인 형태소 별 성분정보는, 문장 분석에 따라 문장에서 식별된 복수의 형태소들 각각에 대한 순서(sequential) 정보, POS(part-of-speech) 정보, 의존성(dependency) 정보, 및 태그(tag) 정보를 매칭한 정보일 수 있다. 또한 청크 모델의 출력 값인 형태소 별 청크정보는, 복수의 형태소들 각각에 대한 청크 유형 정보 및 청크 식별 정보(청크 번호 등)일 수 있다. 기 학습된 청크 모델을 기초로 의미단위 청킹을 수행하는 일례에 관하여 도 4를 통해 자세히 서술한다.
이 밖에도 의미단위 청킹부(130)는, 청크 구성 장치(100)의 운용자 또는 청크 구성 장치(100)를 사용하는 사용자에 의해 사전에 정의된 끊어읽기 규칙에 따라, 룰 기반으로 의미단위 청킹을 수행할 수도 있다. 이 경우 의미단위 청킹부(130)는 문장 분석 결과에서 수식 성분을 제외한 문장의 주요 성분을 식별하고, 식별된 주요 성분들에 사전 정의된 끊어읽기 규칙을 적용하여, 문장 내에서 청크를 끊기 위한 지점들을 결정할 수 있다.
여기서 문장의 주요 성분은 주어, 서술어, 목적어, 보어 등 문장을 구성하는 핵심 성분을 의미할 수 있으며, 문장의 수식 성분은 문장의 주요 성분 뒤에서 주요 성분을 꾸미는 구나 절(후치수식), 또는 문장 내에서 추가 정보를 제공하는 부사 구나 절 등을 의미할 수 있다.
가령 “When she entered her own garden, she would always see the beautiful flowers near the pond”와 같은 문장에서 주요 성분은 “she(주어)”, “would always see(서술어)”, 그리고 “some beautiful flowers(목적어)”일 수 있고, 수식 성분은 “when she entered her own garden(부사절)” 그리고 “near the pond(형용사구)”일 수 있다.
본 개시에 따른 청크 구성 장치(100)의 개인화부(140)는, 청크 구성 장치(100)를 사용하는 사용자의 외국어 학습 수준에 따라, 청킹된 컨텐츠를 개인화 처리 할 수 있다. 이에 따라 사용자는 개인의 학습 수준에 적합하게 청킹된 컨텐츠를 제공받을 수 있다.
개략적으로 설명하면, 개인화부(140)는 사용자의 외국어 학습 수준이 낮을 수록 청킹된 컨텐츠 내 청크 별로 더 적은 수의 단어가 포함되도록(즉, 각 청크의 크기가 더 작도록) 개인화할 수 있다. 보다 구체적으로, 개인화부(140)는 사용자의 학습 수준에 따라 각각의 청크를 구성하는 단어 수의 최소 값 및/또는 최대 값을 사전 설정할 수 있다.
또는 개인화부(140)는, 단어 수를 사전 설정하는 대신에, 사용자가 학습중인 문장을 구성하고 있는 단어들의 난이도를 사용자의 학습 수준과 비교하여, 해당 문장 내 청크를 구성하는 단어 수의 최소 값 및/또는 최대 값을 실시간으로 동적 설정할 수 있다.
또는 개인화부(140)는 각각의 문장 구조의 복잡도에 따라, 해당 문장 내 청크를 구성하는 단어 수의 최소 값 및/또는 최대 값을 설정할 수도 있다. 문장 구조의 복잡도는 문장 내 문장 성분들을 구성하는 단어의 개수 등에 의해 판단될 수 있다.
한편 여기서 사용자의 외국어 학습 수준은, 사용자가 청크 구성 장치(100)를 통해 외국어 학습을 수행함에 따라 기록 및 생성되는 사용자 학습 데이터를 기초로 측정될 수 있다.
본 개시에 따른 청크 구성 장치(100)의 후처리부(150)는, 청킹된 컨텐츠에 대하여 독해력 및 가독성 향상을 위한 후처리를 수행할 수 있다. 구체적으로 후처리는, 문장 성분들의 뜻을 포함하는 힌트들을 청킹된 컨텐츠에 추가하는 것과, 청킹 결과 내 적어도 일부의 청킹 구성을 변경하는 것을 포함할 수 있다.
가령 후처리부(150)는 청킹된 컨텐츠에 포함되는 구동사들, 숙어들, 단어들 중 적어도 일부에 대한 뜻을 병기하도록 후처리할 수 있으며, 병기 여부는 구동사, 숙어, 단어 각각의 난이도(CEFR 기준 레벨 등 참고)에 따라 결정될 수 있다.
또는 후처리부(150)는 청킹된 컨텐츠에 대하여 의존성 패턴(dependency pattern)을 적용하여 정보를 추출하고, 추출된 정보에 따라 청크 구성을 일부 변경할 수 있다. 가령 후처리부(150)는 청킹된 컨텐츠 내의 ‘as soon’ / ‘as’와 같은 두 개의 청크들을 ‘as soon as’와 같이 하나의 청크로 병합하도록 변경할 수 있다. 이에 따라 청킹된 컨텐츠는 구동사나 숙어의 의미가 정확하게 해석되도록 후처리될 수 있다. 후처리의 일례에 관하여는 도 8을 통하여 자세히 후술한다.
본 개시에 따른 청크 구성 장치(100)의 시각화부(160)는, 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 하이라이트 되도록 시각화 할 수 있다. 이러한 시각화를 통해 청킹된 컨텐츠에 대한 가독성과 독해력을 더욱 향상시킬 수 있다.
구체적으로 시각화부(160)는, 사용자가 읽고자 하는 문장 내 일 부분과 대응되는 청크를 하이라이트 할 수 있다. 여기서 하이라이트는 해당 청크를 다른 청크들과 시각적으로 상이하게 표현하여 해당 청크에 대한 가독성을 높일 수 있는 임의의 방법이 사용될 수 있으며, 가령 하이라이트는 텍스트 배경 색상 표기, 밑줄, 끊는 문장부호(V)의 표시 등이 사용될 수 있다.
한편 하이라이트 되는 청크는, 해당 청크와 대응되는 텍스트의 국어 번역문이나 텍스트 내 일부 단어 및 숙어들에 대한 뜻 정보를 병기하여, 해당 청크에 대한 가독성과 독해력을 더욱 향상시킬 수 있다. 다만 이에 한정되는 것은 아니다. 시각화의 일례에 관하여는 도 9를 통하여 자세히 후술한다.
도 2는 본 발명의 몇몇 실시예에 따른 의미 단위 청킹을 수행하는 방법의 일례를 도시한 도면이다.
구체적으로 도 2는 문장 분석 결과로부터 도출되는 문장 성분 간 의존관계를 기초로 의미 단위 청킹을 수행하는 방법을 도시한다. 본 개시에 따른 청크 구성 장치(100)는, 텍스트 및/또는 음성 형태의 하나 이상의 외국어 문장을 포함하는 컨텐츠를 수신할 수 있고, 컨텐츠에 포함된 하나 이상의 외국어 문장들 각각에 대하여 문장 분석을 수행할 수 있다.
구체적으로 문장 분석을 통해, 외국어 문장 내 문장 구성 성분(즉, 형태소)에 대한 품사 정보와 문장 구성 성분 간의 의존 관계 정보를 획득할 수 있다. 문장 분석에는 종래에 알려진 인공지능 기반의 자연어 처리(NLP; Natural Language Processing) 모델이 사용될 수 있다.
본 개시에 따른 청크 구성 장치(100)는, 문장 분석부의 분석 결과를 기초로, 컨텐츠에 포함된 하나 이상의 외국어 문장들 각각에 대해 의미단위의 청킹을 수행할 수 있다. 의미단위의 청킹은, 문장을 낱개의 단어 단위가 아닌 하나의 의미를 구성하는 의미 단위로 끊어읽는 것을 의미할 수 있다. 의미 단위로 끊어읽기를 통해 외국어를 학습할 경우, 통사 구조 인지 능력이 향상되어 언어 습득에 긍정적인 영향을 미침이 알려져 있다.
도 2를 참고하면, 청크 구성 장치(100)는 문장 분석 결과로부터 도출되는 문장 성분 간 의존관계를 기초로 문장 내에서 청크를 끊기 위한 지점들을 결정할 수 있다. 구체적으로 청크 구성 장치(100)는 문장 분석 결과를 수신하고, 문장 구성 성분들을 의존 관계에 따라 트리 형태로 구조화 한 의존성 트리(dependency tree)를 도출할 수 있으며(S110), 의존성 트리에서 서브트리(subtree) 단위로 묶인 문장 구성 성분들을 하나의 청크로 구성하여(S120) 청킹을 수행할 수 있다.
도 3은 본 발명의 다른 몇몇 실시예에 따른 의미 단위 청킹을 수행하는 방법의 일례를 도시한 도면이다.
구체적으로 도 3은, 기 학습된 청크 모델을 기초로 의미 단위 청킹을 수행하는 방법을 도시한다. 여기서 청크 모델은, 문장 분석 결과를 수신하고 문장 분석 결과로부터 생성되는 형태소 별 성분정보를 입력 받을 수 있다(S210). 청크 모델은 형태소 별 성분정보의 입력에 대응하여, 형태소 별 청크정보를 출력(S220)하도록 기 학습될 수 있다. 기 학습된 청크 모델은 딥 러닝 기반의 모델일 수 있으며, 가령 BERT 모델일 수 있으나 이에 한정되는 것은 아니며, 자연어 토큰(token)을 처리할 수 있는 임의의 모델이 청크 모델의 구현을 위해 사용될 수 있다.
한편 청크 모델의 입력 값인 형태소 별 성분정보는, 문장 분석에 따라 문장에서 식별된 복수의 형태소들 각각에 대한 순서(sequential) 정보, POS(part-of-speech) 정보, 의존성(dependency) 정보, 및 태그(tag) 정보를 매칭한 정보일 수 있다. 표 1은 청크 모델의 입력 값인 형태소 별 성분정보의 예시를 나타낸다.
idx | text | pos_ | tag_ | dep_ | head.idx | head.pos | children |
0 | Far | ADV | RB | advmod | 1 | ADV | [ ] |
1 | away | ADV | RB | advmod | 18 | VERB | [0] |
2 | , | PUNCT | , | punct | 18 | VERB | [ ] |
3 | as | ADV | RB | advmod | 5 | ADV | [ ] |
4 | far | ADV | RB | advmod | 5 | ADV | [ ] |
5 | north | ADV | RB | advmod | 18 | VERB | [3, 4, 15] |
6 | as | SCONJ | IN | mark | 15 | AUX | [ ] |
7 | any man | NOUN | NN | nsubj | 15 | AUX | [8, 9] |
8 | , | PUNCT | , | punct | 7 | NOUN | [ ] |
9 | woman | NOUN | NN | conj | 7 | NOUN | [10, 11, 12] |
10 | , | PUNCT | , | punct | 9 | NOUN | [ ] |
11 | or | CCONJ | CC | cc | 9 | NOUN | [ ] |
12 | child | NOUN | NN | conj | 9 | NOUN | [ ] |
13 | had | AUX | VBD | aux | 15 | AUX | [ ] |
14 | ever | ADV | RB | advmod | 15 | AUX | [ ] |
15 | been | AUX | VBN | advcl | 5 | ADV | [6, 7, 13, 14] |
16 | , | PUNCT | , | punct | 18 | VERB | [ ] |
17 | once | ADV | RB | advmod | 18 | VERB | [ ] |
18 | stood | VERB | VBD | ROOT | 18 | VERB | [1, 2, 5, 16, 17, 19, 20 |
19 | the Enchanted Forest | PROPN | NNP | nsubj | 18 | VERB | [ ] |
20 | . | PUNCT | . | punct | 18 | VERB | [ ] |
또한 청크 모델의 출력 값인 형태소 별 청크정보는, 복수의 형태소들 각각에 대한 청크 유형 정보 및 청크 식별 정보(청크 번호 등)일 수 있다. 표 2는 청크 모델의 출력 값인 형태소 별 청크정보의 예시를 나타낸다.
idx (seq) | chunk_type | chunk_id |
0 | Subject | 1 |
1 | Verb | 2 |
2 | Modifier | 3 |
3 | Modifier | 3 |
4 | CLAUSE | 4 |
… | … | … |
도 2 및 3에 개시된 것 외에도 청크 구성 장치(100)는, 청크 구성 장치(100)의 운용자 또는 청크 구성 장치(100)를 사용하는 사용자에 의해 사전에 정의된 끊어읽기 규칙에 따라, 룰 기반으로 의미단위 청킹을 수행할 수도 있다. 이 경우 청크 구성 장치(100)는 문장 분석 결과에서 수식 성분을 제외한 문장의 주요 성분을 식별하고, 식별된 주요 성분들에 사전 정의된 끊어읽기 규칙을 적용하여, 문장 내에서 청크를 끊기 위한 지점들을 결정할 수 있다. 도 4는 본 발명의 몇몇 실시예에 따른 의존성 트리를 기초로 의미 단위 청킹을 수행하는 예시를 도시한 도면이다.
구체적으로 도 4는 “To those who seek peace and security: We support you”와 같은 문장에 대한 문장 분석 결과를 토대로 생성되는 의존성 트리의 일례와, 해당 의존성 트리를 구성하는 각각의 서브트리들을 도시한다.
도 4fmf 참고하면, “peace”, “and”, “security”가 하나의 서브트리로, “seek”, “who”가 하나의 서브트리로, “To those”가 하나의 서브트리로, 그리고 “We”, “you”, “support”가 하나의 서브트리로 각각 구성되는 일례를 볼 수 있다. 이에 따라, 도 4에서 주어진 문장은, “To those / who seek / peace and security / : We support you”와 같이, 즉 의존성 트리에서 서브트리단위로 묶인 문장 구성 성분들이 하나의 청크를 구성하도록 청킹될 수 있다.
도 5는 본 발명의 몇몇 실시예에 따른 청크 구성 장치의 다른 일 예시를 나타낸 블록도이다.
도 5를 참조하면, 본 개시에 따른 청크 구성 장치(300)는 컨텐츠 수신부(310), 문장 분석부(320), 청킹 옵션 결정부(330), 청킹부(340), 개인화부(350), 후처리부(360), 및 시각화부(370)를 포함할 수 있다. 도 1에 도시된 청크 구성 장치(100)의 일례와 대조하면, 도 5에 개시된 청크 구성 장치(300)의 다른 일례는 의미단위 청킹부(130) 대신 청킹 옵션 결정부(330)와, 의미단위 청킹부(341)를 포함하는 청킹부(340)를 더 포함할 수 있다.
본 개시에 따른 청크 구성 장치(300)의 청킹 옵션 결정부(330)는, 복수의 서로 다른 청킹 방식들 중 어느 하나를 컨텐츠에 대하여 수행할 청킹 방식으로 결정할 수 있다. 여기서 복수의 서로 다른 청킹 방식들은, 상술한 의미단위 청킹과 후술할 호흡단위 청킹을 포함할 수 있다.
청킹 옵션 결정부(330)는 사용자 단말(200)로부터 수신한 사용자의 선택입력에 대응되는 값을 청킹 방식을 결정할 수 있다. 이 때 사용자의 선택입력은 각각의 청킹 방식에 대응되는 엔티티들을 포함하도록 생성되어 사용자 단말(200)에 제공되는 사용자 인터페이스를 통해 수신될 수 있다. 해당 사용자 인터페이스의 일 예시에 관하여 도 7에서 자세히 설명한다.
다만 이에 한정되는 것은 아니며, 청킹 옵션 결정부(330)는 청크 구성 장치(300)의 운용자에 의해 사전에 기본 값으로 설정된 값을 청킹 방식으로 결정하거나, 또는 컨텐츠의 속성에 따라 적합하다고 판단되는 값을 청킹 방식으로 결정할 수도 있다.
본 개시에 따른 청크 구성 장치(300)의 청킹부(340)는, 결정된 청킹 옵션에 따라 의미단위 청킹 및 호흡단위 청킹 중 적어도 하나를 기초로 컨텐츠를 청킹할 수 있다. 의미단위 청킹을 수행하는 방법에 관하여는 도 1 내지 4를 통해 자세히 설명한 바 본 도면에서는 중복 설명을 피하기 위해 생략한다.
본 개시에 따른 청킹부(140)의 호흡 단위 청킹부(342)는, 컨텐츠에 관한 음성 데이터에서 하나 이상의 발화 텀(term)들을 식별하고, 식별된 발화 텀들을 기초로 컨텐츠에 포함된 하나 이상의 외국어 문장들 각각에 대해 호흡단위의 청킹을 수행할 수 있다.
호흡단위의 청킹은, 사람이 문장을 읽을 때 문장 별 길이 및/또는 문장 구성 성분들의 의미단위에 따라 적절한 곳에서 쉬어가며 읽는 것에 착안하여, 문장을 자연스럽게 읽을 수 있는 호흡 단위로 끊어읽는 것을 의미할 수 있다.
호흡 단위 청킹부(342)는 먼저 컨텐츠에 관한 음성 데이터의 존재 여부를 판단할 수 있다. 음성 데이터가 존재하는 경우(예를 들어, 영화 대본(텍스트 컨텐츠)에 대한 영화 내 말소리 데이터(컨텐츠에 관한 음성 데이터)가 존재하는 경우), 호흡 단위 청킹부(342)는 해당 음성 데이터에서 화자가 발화하는 단어와 단어 사이의 텀(term)을 식별하고, 텀의 길이가 임계값 이상인 경우 해당 텀을 쉬어가는 호흡으로 인지하고 청크를 끊는 지점으로 결정할 수 있다.
한편 컨텐츠에 관한 음성 데이터가 존재하지 않는 경우(예를 들어, 소설(텍스트 컨텐츠)에 대한 음성 데이터(소설을 읽고 녹음한 데이터)가 존재하지 않는 경우), 호흡 단위 청킹부(342)는 먼저 TTS(Text-To-Speech) 기술에 기초하여 텍스트 형태의 컨텐츠로부터 대응되는 음성 데이터를 생성할 수 있다. 음성 데이터를 생성하는 것은 종래의 알려진 기 학습된 TTS 모델에 의해 수행될 수 있다.
호흡 단위 청킹부(342)는 컨텐츠에 관한 음성 데이터를 생성한 후, 상술한 것과 마찬가지로 음성 데이터에서 화자가 발화하는 단어와 단어 사이의 텀(term)을 식별하여 호흡 단위 청킹을 수행할 수 있다.
도 6은 본 발명의 몇몇 실시예에 따른 호흡 단위 청킹을 수행하는 방법의 일례를 도시한 도면이다.
구체적으로 도 6은, 컨텐츠에 대응되는 음성 데이터가 존재하지 않는 경우에 호흡 단위 청킹을 수행하는 방법을 도시한다. 본 개시에 따른 청크 구성 장치(300)는, 사용자에 의해 호흡 단위 청킹이 청킹 방식으로 결정되는 경우, 컨텐츠를 호흡 단위로 청킹할 수 있다.
호흡단위의 청킹은, 사람이 문장을 읽을 때 문장 별 길이 및/또는 문장 구성 성분들의 의미단위에 따라 적절한 곳에서 쉬어가며 읽는 것에 착안하여, 문장을 자연스럽게 읽을 수 있는 호흡 단위로 끊어읽는 것을 의미할 수 있다.
이를 위해 청크 구성 장치(300)는 먼저 컨텐츠에 관한 음성 데이터의 존재 여부를 판단할 수 있다. 음성 데이터가 존재하는 경우, 호흡 단위 청킹부(342)는 해당 음성 데이터에서 화자가 발화하는 단어와 단어 사이의 텀(term)을 식별하고, 텀의 길이가 임계값 이상인 경우 해당 텀을 쉬어가는 호흡으로 인지하고 청크를 끊는 지점으로 결정할 수 있다.
한편 컨텐츠에 관한 음성 데이터가 존재하지 않는 경우, 청크 구성 장치(300)는 먼저 TTS(Text-To-Speech) 기술에 기초하여 텍스트 형태의 컨텐츠로부터 대응되는 음성 데이터를 생성할 수 있다(S310). 음성 데이터를 생성하는 것은 종래의 알려진 기 학습된 TTS 모델에 의해 수행될 수 있다.
청크 구성 장치(300)는 컨텐츠에 관한 음성 데이터를 생성한 후, 상술한 것과 마찬가지로 음성 데이터에서 화자가 발화하는 단어와 단어 사이의 텀(term)을 식별하여(S320) 호흡 단위 청킹을 수행할 수 있다(S330).
도 7은 본 발명의 몇몇 실시예에 따라 둘 이상의 청크 옵션이 제공되는 일례를 도시한 도면이다.
본 개시에 따른 청크 구성 장치(300)는, 복수의 서로 다른 청킹 방식들 중 어느 하나를 컨텐츠에 대하여 수행할 청킹 방식으로 결정할 수 있다. 여기서 복수의 서로 다른 청킹 방식들은, 상술한 의미단위 청킹과 후술할 호흡단위 청킹을 포함할 수 있다. 구체적으로 도 7은 의미 단위 청킹이 청킹 방식으로 선택되는 경우의 청킹 결과(401), 그리고 호흡 단위 청킹이 청킹 방식으로 선택되는 경우의 청킹 결과(402)를 각각 도시한다.
청크 구성 장치(300)는 사용자 단말(200)로부터 수신한 사용자의 선택입력에 대응되는 값을 청킹 방식을 결정할 수 있다. 이 때 사용자의 선택입력은 도 7에 도시된 것과 같이, 각각의 청킹 방식에 대응되는 엔티티들을 포함하도록 생성되어 사용자 단말(200)에 제공되는 사용자 인터페이스를 통해 수신될 수 있다.
다만 이에 한정되는 것은 아니며, 청크 구성 장치(300)는 청크 구성 장치(300)의 운용자에 의해 사전에 기본 값으로 설정된 값을 청킹 방식으로 결정하거나, 또는 컨텐츠의 속성에 따라 적합하다고 판단되는 값을 청킹 방식으로 결정할 수도 있다.
도 8은 본 발명의 몇몇 실시예에 따라 청킹된 컨텐츠에 후처리가 수행된 일례를 도시한 도면이다.
본 개시에 따른 청크 구성 장치(100, 300)는, 청킹된 컨텐츠에 대하여 독해력 및 가독성 향상을 위한 후처리를 수행할 수 있다. 구체적으로 후처리는, 문장 성분들의 뜻을 포함하는 힌트들을 청킹된 컨텐츠에 추가하는 것과, 청킹 결과 내 적어도 일부의 청킹 구성을 변경하는 것을 포함할 수 있다.
가령 청크 구성 장치(100, 300)는 청킹된 컨텐츠에 포함되는 구동사들, 숙어들, 단어들 중 적어도 일부에 대한 뜻을 병기하도록 후처리할 수 있으며, 병기 여부는 구동사, 숙어, 단어 각각의 난이도(CEFR 기준 레벨 등 참고)에 따라 결정될 수 있다. 도 8은 청킹된 컨텐츠에 대한 후처리를 통해, 청킹된 컨텐츠의 문장 구성 성분 일부(예를 들어, “In fact”, “to indicate”, “evidence”, “has very little to do with”, “distractions” 등)에 대해 뜻 정보가 병기된 일례들을 도시한다(501, 502).
또는 청크 구성 장치(100, 300)는 청킹된 컨텐츠에 대하여 의존성 패턴(dependency pattern)을 적용하여 정보를 추출하고, 추출된 정보에 따라 청크 구성을 일부 변경할 수 있다. 가령 청크 구성 장치(100, 300)는 청킹된 컨텐츠 내의 ‘as soon’ / ‘as’와 같은 두 개의 청크들을 ‘as soon as’와 같이 하나의 청크로 병합하도록 변경할 수 있다. 이에 따라 청킹된 컨텐츠는 구동사나 숙어의 의미가 정확하게 해석되도록 후처리될 수 있다.
도 9는 본 발명의 몇몇 실시예에 따라 청킹된 컨텐츠에 구문 시각화가 수행된 일례를 도시한 도면이다.
본 개시에 따른 청크 구성 장치(100, 300)는, 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 하이라이트 되도록 시각화 할 수 있다. 이러한 시각화를 통해 청킹된 컨텐츠에 대한 가독성과 독해력을 더욱 향상시킬 수 있다.
구체적으로 청크 구성 장치(100, 300)는, 사용자가 읽고자 하는 문장 내 일 부분과 대응되는 청크를 하이라이트 할 수 있다. 여기서 하이라이트는 해당 청크를 다른 청크들과 시각적으로 상이하게 표현하여 해당 청크에 대한 가독성을 높일 수 있는 임의의 방법이 사용될 수 있다.
가령 하이라이트는 텍스트 배경 색상 표기, 밑줄, 끊는 문장부호(V)의 표시 등이 사용될 수 있다. 구체적으로 도 9는 청크가 배경 색상 표기로 하이라이트 된 일례(601), 그리고 청크가 볼드(bold) 표시로 하이라이트 된 일례(602)를 각각 도시한다.
한편 하이라이트 되는 청크는, 해당 청크와 대응되는 텍스트의 국어 번역문이나 텍스트 내 일부 단어 및 숙어들에 대한 뜻 정보를 병기하여, 해당 청크에 대한 가독성과 독해력을 더욱 향상시킬 수 있다.
도 10은 본 발명의 몇몇 실시예에 따른 청크 구성 방법에 대한 순서도이다.
도 10을 참고하면, 먼저 본 개시에 따른 청크 구성 장치(100)는 복수의 문장들로 구성되는 컨텐츠에 대하여 문장 분석을 수행할 수 있다(S410).
다음으로 본 개시에 따른 청크 구성 장치(100)는 문장 분석의 결과에 따라, 상기 복수의 문장들 각각을 구성하는 문장 구성 성분들을 의미 단위로 청킹하여, 청킹된 컨텐츠를 생성할 수 있다(S420).
다음으로 본 개시에 따른 청크 구성 장치(100)는 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력할 수 있다(S430).
도 11은 본 발명의 다른 몇몇 실시예에 따른 청크 구성 방법에 대한 순서도이다.
도 11을 참고하면, 먼저 본 개시에 따른 청크 구성 장치(300)는 의미단위 청킹 및 호흡단위 청킹 중, 어느 하나의 청킹 방식에 대한 선택 입력을 사용자 단말로부터 수신할 수 있다(S510).
다음으로 본 개시에 따른 청크 구성 장치(300)는 의미단위 청킹에 관한 선택 입력이 수신되는 것에 응답하여, 복수의 문장들로 구성되는 컨텐츠에 대한 문장 분석 결과를 기초로, 복수의 문장들 각각을 구성하는 문장 구성 성분들을 의미 단위로 청킹할 수 있다(S520).
다음으로 본 개시에 따른 청크 구성 장치(300)는 의미 단위로 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력할 수 있다(S530).
도 12는 본 발명의 몇몇 실시예에 따른 청크 구성 방법을 제공하는 컴퓨팅 장치를 나타낸 블록도이다.
여기서 검색결과 보완 방법을 제공하는 컴퓨팅 장치(10)는, 전술한 청크 구성 장치(100, 300)이거나, 또는 청크 구성 방법을 제공하기 위해 청크 구성 장치(100, 300)와 통신적으로 연결되는 임의의 단말(미도시)일 수 있다. 다만 이에 한정되는 것은 아니다.
도 12를 참조하면, 본 개시에 따른 컴퓨팅 장치(10)는 하나 이상의 프로세서(11), 프로세서(11)에 의하여 수행되는 프로그램을 로드하는 메모리(12), 프로그램 및 각종 데이터를 저장하는 스토리지(13), 및 통신 인터페이스(14)를 포함할 수 있다. 다만, 상술한 구성 요소들은 본 개시에 따른 컴퓨팅 장치(10)를 구현하는데 있어서 필수적인 것은 아니어서, 컴퓨팅 장치(10)는 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다. 예컨대 컴퓨팅 장치(10)는 출력부 및/또는 입력부(미도시)를 더 포함하거나, 또는 스토리지(13)가 생략될 수도 있다.
프로그램은 메모리(12)에 로드될 때 프로세서(11)로 하여금 본 개시의 다양한 실시예에 따른 방법/동작을 수행하게끔 하는 명령어들(instructions)을 포함할 수 있다. 즉, 프로세서(11)는 명령어들을 실행함으로써, 본 개시의 다양한 실시예에 따른 방법/동작들을 수행할 수 있다. 프로그램은 기능을 기준으로 묶인 일련의 컴퓨터 판독가능 명령어들로 구성되고, 프로세서에 의해 실행되는 것을 가리킨다.
프로세서(11)는 컴퓨팅 장치(10)의 각 구성의 전반적인 동작을 제어한다. 프로세서(11)는 CPU(Central Processing Unit), MPU(Micro Processor Unit), MCU(Micro Controller Unit), GPU(Graphic Processing Unit) 또는 본 개시의 기술 분야에 잘 알려진 임의의 형태의 프로세서 중 적어도 하나를 포함하여 구성될 수 있다. 또한, 프로세서(11)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위한 적어도 하나의 애플리케이션 또는 프로그램에 대한 연산을 수행할 수 있다.
메모리(12)는 각종 데이터, 명령 및/또는 정보를 저장한다. 메모리(12)는 본 개시의 다양한 실시예들에 따른 방법/동작을 실행하기 위하여 스토리지(13)로부터 하나 이상의 프로그램을 로드할 수 있다. 메모리(12)는 RAM과 같은 휘발성 메모리로 구현될 수 있을 것이나, 본 개시의 기술적 범위는 이에 한정되지 않는다.
스토리지(13)는 프로그램을 비임시적으로 저장할 수 있다. 스토리지(13)는 ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리 등과 같은 비휘발성 메모리, 하드 디스크, 착탈형 디스크, 또는 본 개시가 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터로 읽을 수 있는 기록 매체를 포함하여 구성될 수 있다. 통신 인터페이스(14)는 유/무선 통신 모듈일 수 있다.
이상에서 설명한 본 개시의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 개시의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있다.
이상에서 본 개시의 실시예에 대하여 상세하게 설명하였지만 본 개시의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 개시의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 개시의 권리범위에 속하는 것이다.
Claims (20)
- 컴퓨팅 장치에 의해 수행되는 청크 구성 방법으로서,
복수의 문장들로 구성되는 컨텐츠에 대하여 문장 분석을 수행하는 단계,
상기 문장 분석의 결과에 따라, 상기 복수의 문장들 각각을 구성하는 문장 구성 성분들을 의미 단위로 청킹하여, 청킹된 컨텐츠를 생성하는 단계, 및
상기 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력하는 단계를 포함하는,
청크 구성 방법. - 제1항에서,
상기 문장 분석을 수행하는 단계는,
상기 복수의 문장 각각의 문장 구성 성분들을 식별하고, 상기 문장 구성 성분들의 품사 정보 및 상기 문장 구성 성분 간의 의존 관계 정보 중 적어도 일부를 추출하는 단계를 포함하는,
청크 구성 방법. - 제2항에서,
상기 청킹된 컨텐츠를 생성하는 단계는,
상기 문장 구성 성분 간의 의존 관계에 따라 상기 문장 구성 성분들을 구조화하여 의존성 트리를 생성하는 단계, 및
상기 의존성 트리 내에서 서브 트리 단위로 묶인 문장 구성 성분들을 하나의 상기 의미 단위로 결정하여 하나의 청크로 청킹하는 단계를 포함하는,
청크 구성 방법. - 제1항에서,
상기 청킹된 컨텐츠를 생성하는 단계는,
상기 문장 분석 결과로부터 생성되는 형태소 별 성분정보를 기 학습된 청크 모델에 입력하여, 상기 형태소 별 청크정보를 출력받는 단계, 및
상기 청크정보를 기초로 상기 문장 구성 성분들을 의미 단위로 청킹하는 단계를 포함하는,
청크 구성 방법. - 제4항에서,
상기 청킹된 컨텐츠를 생성하는 단계는,
상기 문장 분석 결과를 기초로, 상기 문장 구성 성분 별 순서 정보, POS(part-of-speech) 정보, 의존성(dependency) 정보, 및 태그(tag) 정보를 포함하는 성분정보를 생성하는 단계,
상기 형태소 별 성분정보를 기 학습된 청크 모델에 입력하여, 상기 문장 구성 성분 별 청크 유형 정보, 및 청크 식별 정보를 포함하는 청크정보를 출력받는 단계, 및
상기 청크정보를 기초로 상기 문장 구성 성분들을 의미 단위로 청킹하는 단계를 포함하는,
청크 구성 방법. - 제1항에서,
상기 청킹된 컨텐츠를 생성하는 단계는,
상기 문장 분석 결과를 기초로, 상기 문장 구성 성분들 중 수식 성분들을 제외한 주요 성분들을 식별하는 단계,
사용자에 의해 사전 정의된 끊어읽기 규칙을 상기 주요 성분들에 적용하여, 상기 문장 구성 성분들을 의미 단위로 청킹하는 단계를 포함하는,
청크 구성 방법. - 제1항에서,
상기 방법은,
상기 사용자의 학습 수준 및 상기 청킹된 컨텐츠 내 각 문장들의 난이도 중 적어도 일부에 따라 상기 각 문장들을 구성하는 청크들 내 단어의 개수를 변경하여, 상기 청킹된 컨텐츠를 상기 사용자의 학습 수준에 따라 개인화 처리하는 단계를 더 포함하는,
청크 구성 방법. - 제1항에서,
상기 출력하는 단계는,
상기 복수의 청크들 중 사용자가 읽고자 하는 문장 내 일 부분과 대응되는 청크를 실시간으로 식별하여, 다른 청크들과 시각적으로 상이하도록 하이라이트 하여 출력하는 단계를 포함하는,
청크 구성 방법. - 컴퓨팅 장치에 의해 수행되는 청크 구성 방법으로서,
의미단위 청킹 및 호흡단위 청킹 중, 어느 하나의 청킹 방식에 대한 선택 입력을 사용자 단말로부터 수신하는 단계,
상기 의미단위 청킹에 관한 상기 선택 입력이 수신되는 것에 응답하여, 복수의 문장들로 구성되는 컨텐츠에 대한 문장 분석 결과를 기초로, 상기 복수의 문장들 각각을 구성하는 문장 구성 성분들을 의미 단위로 청킹하는 단계, 및
상기 의미 단위로 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력하는 단계를 포함하는,
청크 구성 방법. - 제9항에서,
상기 문장 분석 결과는,
상기 복수의 문장 각각을 구성하는 문장 구성 성분들의 품사 정보 및 상기 문장 구성 성분 간의 의존 관계 정보 중 적어도 일부를 포함하는,
청크 구성 방법. - 제10항에서,
상기 의미 단위로 청킹하는 단계는,
상기 문장 구성 성분 간의 의존 관계에 따라 상기 문장 구성 성분들을 구조화하여 의존성 트리를 생성하는 단계, 및
상기 의존성 트리 내에서 서브 트리 단위로 묶인 문장 구성 성분들을 하나의 상기 의미 단위로 결정하여 하나의 청크로 청킹하는 단계를 포함하는,
청크 구성 방법. - 제9항에서,
상기 의미 단위로 청킹하는 단계는,
상기 문장 분석 결과로부터 생성되는 형태소 별 성분정보를 기 학습된 청크 모델에 입력하여, 상기 형태소 별 청크정보를 출력받는 단계, 및
상기 청크정보를 기초로 상기 문장 구성 성분들을 의미 단위로 청킹하는 단계를 포함하는,
청크 구성 방법. - 제12항에서,
상기 의미 단위로 청킹하는 단계는,
상기 문장 분석 결과를 기초로, 상기 문장 구성 성분 별 순서 정보, POS(part-of-speech) 정보, 의존성(dependency) 정보, 및 태그(tag) 정보를 포함하는 성분정보를 생성하는 단계,
상기 형태소 별 성분정보를 기 학습된 청크 모델에 입력하여, 상기 문장 구성 성분 별 청크 유형 정보, 및 청크 식별 정보를 포함하는 청크정보를 출력받는 단계, 및
상기 청크정보를 기초로 상기 문장 구성 성분들을 의미 단위로 청킹하는 단계를 포함하는,
청크 구성 방법. - 제9항에서,
상기 의미 단위로 청킹하는 단계는,
상기 문장 분석 결과를 기초로, 상기 문장 구성 성분들 중 수식 성분들을 제외한 주요 성분들을 식별하는 단계,
사용자에 의해 사전 정의된 끊어읽기 규칙을 상기 주요 성분들에 적용하여, 상기 문장 구성 성분들을 의미 단위로 청킹하는 단계를 포함하는,
청크 구성 방법. - 제9항에서,
상기 방법은,
상기 호흡단위 청킹에 관한 상기 선택 입력이 수신되는 것에 응답하여, 상기 컨텐츠에 대응되는 음성 데이터로부터 하나 이상의 발화 텀(term)들을 식별하는 단계, 및
상기 하나 이상의 발화 텀 각각의 길이가 임계값 이상인지 여부에 기초하여, 상기 하나 이상의 발화 텀 중 적어도 일부를 기준으로 상기 문장 구성 성분들을 호흡 단위로 청킹하는 단계를 더 포함하는,
청크 구성 방법. - 제15항에서,
상기 발화 텀들을 식별하는 단계는,
상기 컨텐츠에 대응되는 상기 음성 데이터가 존재하지 않는 경우, 기 학습된 TTS(Text-To-Speech) 모델을 통해 상기 음성 데이터를 생성하고, 생성된 상기 음성 데이터로부터 상기 하나 이상의 발화 텀들을 식별하는 단계를 포함하는,
청크 구성 방법. - 제15항에서,
상기 방법은,
상기 호흡 단위로 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력하는 단계를 더 포함하는,
청크 구성 방법. - 제9항에서,
상기 방법은,
상기 사용자의 학습 수준 및 상기 의미 단위로 청킹된 컨텐츠 내 각 문장들의 난이도 중 적어도 일부에 따라 상기 각 문장들을 구성하는 청크들 내 단어의 개수를 변경하여, 상기 의미 단위로 청킹된 컨텐츠를 상기 사용자의 학습 수준에 따라 개인화 처리하는 단계를 더 포함하는,
청크 구성 방법. - 복수의 문장들로 구성되는 컨텐츠에 대하여 문장 분석을 수행하는 분장 분석부,
상기 문장 분석의 결과에 따라, 상기 복수의 문장들 각각을 구성하는 문장 구성 성분들을 의미 단위로 청킹하여 청킹된 컨텐츠를 생성하는 의미단위 청킹부, 및
상기 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력하는 시각화부를 포함하는,
청크 구성 장치. - 의미단위 청킹 및 호흡단위 청킹 중, 어느 하나의 청킹 방식에 대한 선택 입력을 사용자 단말로부터 수신하는 청킹 옵션 결정부,
상기 의미단위 청킹에 관한 상기 선택 입력이 수신되는 것에 응답하여, 복수의 문장들로 구성되는 컨텐츠에 대한 문장 분석 결과를 기초로, 상기 복수의 문장들 각각을 구성하는 문장 구성 성분들을 의미 단위로 청킹하는 의미단위 청킹부, 및
상기 의미 단위로 청킹된 컨텐츠에 포함되는 복수의 청크들 중 적어도 일부를 동적으로 하이라이트 하여 출력하는 시각화부를 포함하는,
청크 구성 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20220021379 | 2022-02-18 | ||
KR1020220021379 | 2022-02-18 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230124471A true KR20230124471A (ko) | 2023-08-25 |
Family
ID=87847109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230000216A KR20230124471A (ko) | 2022-02-18 | 2023-01-02 | 영어 학습을 위한 ai 언어 모델 기반의 개인화된 의미단위 청크 구성 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230124471A (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102654803B1 (ko) * | 2023-11-20 | 2024-04-08 | 주식회사 액션파워 | 음성인식 학습 데이터에서 음성-텍스트 정렬 오류를 검출하는 방법 |
KR102702534B1 (ko) * | 2023-08-28 | 2024-09-04 | 주식회사 에듀템 | 인공지능 모델 기반의 ai 청킹 장치 및 방법 |
-
2023
- 2023-01-02 KR KR1020230000216A patent/KR20230124471A/ko unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102702534B1 (ko) * | 2023-08-28 | 2024-09-04 | 주식회사 에듀템 | 인공지능 모델 기반의 ai 청킹 장치 및 방법 |
KR102654803B1 (ko) * | 2023-11-20 | 2024-04-08 | 주식회사 액션파워 | 음성인식 학습 데이터에서 음성-텍스트 정렬 오류를 검출하는 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7541422B2 (ja) | 言語学的に駆動される自動化されたテキスト・フォーマット設定 | |
US9548052B2 (en) | Ebook interaction using speech recognition | |
US20130196292A1 (en) | Method and system for multimedia-based language-learning, and computer program therefor | |
KR20230124471A (ko) | 영어 학습을 위한 ai 언어 모델 기반의 개인화된 의미단위 청크 구성 방법 및 장치 | |
US20070061720A1 (en) | System, device, and method for conveying information using a rapid serial presentation technique | |
US20130080160A1 (en) | Document reading-out support apparatus and method | |
CN102193646B (zh) | 人名候选词的生成方法及装置 | |
Giorgi et al. | On the syntax/pragmatics interface: Expressing surprise and disapproval | |
CN111158630B (zh) | 一种播放控制方法及装置 | |
Nurhayati | Morphological and morphophonemic process of Alay variation | |
D'Egidio | How readers perceive translated literary works: An analysis of reader reception | |
Zahner-Ritter et al. | The prosodic marking of rhetorical questions in Standard Chinese | |
US20240257802A1 (en) | Acoustic-based linguistically-driven automated text formatting | |
JPS6318458A (ja) | 感情情報抽出装置 | |
WO2020036011A1 (ja) | 情報処理装置、情報処理方法、および、プログラム | |
Aliyeva | Text Linguistics and the Use of Linguistic Data in Modern Technologies: Prospects for Development | |
KR20040059136A (ko) | 플래쉬 기법을 이용한 언어학습방법 | |
de Lacerda Pataca | Speech-modulated typography | |
WO2023047623A1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
KR20220136801A (ko) | 이미지를 이용한 중국어 연상학습 콘텐츠 제공 방법 및 장치 | |
JP2007264643A (ja) | 情報表示装置および情報表示処理プログラム | |
Oskina et al. | On the issue of rendering stylistic coloring of cockney dialect in translation | |
Aldossari et al. | An Investigation of Language-Specific and Orthographic Effects in L2 Arabic geminate production by Advanced Japanese-and English-speaking learners | |
Ganuza et al. | Turning talk into text: the representation of contemporary urban vernaculars in Swedish fiction | |
KR20150130171A (ko) | 중국어 학습 시스템 및 방법 |