KR20220053412A - 순차통역 학습을 위한 평가 방법, 이를 수행하기 위한 기록 매체 및 장치 - Google Patents

순차통역 학습을 위한 평가 방법, 이를 수행하기 위한 기록 매체 및 장치 Download PDF

Info

Publication number
KR20220053412A
KR20220053412A KR1020200137859A KR20200137859A KR20220053412A KR 20220053412 A KR20220053412 A KR 20220053412A KR 1020200137859 A KR1020200137859 A KR 1020200137859A KR 20200137859 A KR20200137859 A KR 20200137859A KR 20220053412 A KR20220053412 A KR 20220053412A
Authority
KR
South Korea
Prior art keywords
interpretation
filler
voice
recorded
learning
Prior art date
Application number
KR1020200137859A
Other languages
English (en)
Other versions
KR102529241B1 (ko
KR102529241B9 (ko
Inventor
이주리애
박혜경
고유정
김영주
김혜지
추지온
상우연
Original Assignee
이화여자대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이화여자대학교 산학협력단 filed Critical 이화여자대학교 산학협력단
Priority to KR1020200137859A priority Critical patent/KR102529241B1/ko
Publication of KR20220053412A publication Critical patent/KR20220053412A/ko
Application granted granted Critical
Publication of KR102529241B1 publication Critical patent/KR102529241B1/ko
Publication of KR102529241B9 publication Critical patent/KR102529241B9/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Educational Technology (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

순차통역 학습을 위한 평가 방법은, 원문 음성에서 통역할 꼭지를 재생한 후 자동으로 통역을 녹음하는 녹음 모드로 변환하는 단계; 상기 녹음 모드가 시작된 때부터 통역이 시작되는 때까지의 통역개시지연 시간을 카운트하는 단계; 녹음된 통역 음성의 파형 분석을 통해 통역개시지연 시간 이후의 공백 구간을 침묵 구간으로 인식하여 카운트하는 단계; 녹음된 통역 음성의 비침묵 구간에서 필러를 구분하는 필러 예측 모델을 적용하여 통역된 꼭지별로 통역개시지연, 침묵 및 필러가 텍스트에 표시된 전사 파일을 생성하는 단계; 및 상기 전사 파일을 통계 처리하여 결과를 도출하는 단계;를 포함한다. 이에 따라, 순차통역 학습에서 즉각적이고 신뢰도 높은 평가 피드백을 제공할 수 있다.

Description

순차통역 학습을 위한 평가 방법, 이를 수행하기 위한 기록 매체 및 장치{EVALUATION METHOD FOR CONSECUTIVE INTERPRETATION TRAINING, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}
본 발명은 순차통역 학습을 위한 평가 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 순차통역 학습을 위해 통역개시지연 시간 파악 및 가시화 기능을 제공하고 전사 파일 채점과 자가평가를 위한 통계분석을 제공하는 기술에 관한 것이다.
스마트폰 및 무선 인터넷과 관련된 기술의 발달이 고도화됨에 따라, 시간과 장소에 구애받지 않는 온라인 기반의 학습 프로그램이 등장하고 있다. 특히, 외국어 학습에 있어서 온라인 기반 학습은 비교적 저렴한 비용으로 학습자의 수준에 따른 교육을 제공받을 수 있어 매우 각광받고 있다.
한편, 통역 학습에 있어서는 끊임없는 반복 훈련과 적절한 피드백이 중요하다. 이에 따라, 시간 및 장소에 제약 없이 스스로 학습할 수 있는 온라인 기반의 프로그램들이 출시되었다. 그러나, 현재 출시된 프로그램들을 이용하더라도 음성 녹음된 통역 결과물을 문자화하여 원문과 비교하는 데에는 어려움이 있다.
구체적으로, 통역 학습 평가 시에는 언어적인 부분과 비 언어적인 부분을 학습자와 교육자가 공히 확인하기 위해서는, 통역 음성 파일 뿐만 아니라 통역을 전사한 파일이 필요하다.
통역 전사 파일은 오역, 누락, 필러 등 내용의 정확성을 파악하기 위해 필요한데, 음성 파일을 텍스트화 하는 과정에서 교수자와 학습자 모두 많은 시간과 수고가 들어 실제 학습자들의 통역을 평가하는데 시간이 부족하다.
또한, 통역 음성 파일만으로는 통역개시지연 시간을 직관적으로 파악하기가 불가능하다. 순차 통역에서는 연사의 발화가 끝난 후 가능한 빨리 통역이 시작되는 것이 좋으므로, 원활한 통역을 수행했는가를 보기 위해서는 원문 음성 출력 이후의 통역 개시 시점이 매우 중요한 평가요소이다.
학습자가 제출한 통역 음성 파일만으로는 연사의 발화가 끝나는 시점을 파악할 수 없다. 따라서, 현재 통번역학과에서는 다음과 같은 두 가지 방법으로 통역 개시 시간을 파악한다.
교수자는 학습자에게 원문이 끝나자마자 녹음을 개시하게 하여 녹음파일을 재생한 후 통역이 시작될 때까지의 침묵 시간을 측정하여 파악한다. 그러나, 학습자가 녹음을 시작하는 시간이 부정확하여 정확한 측정이 어렵다. 다른 방법으로, 통역 음성 파일에 원문 음성 파일이 같이 녹음되게 하여 시작 시점을 파악하는데, 이는 학습자의 통역 음성에 집중하기 어려운 환경이다. 이 역시 교수자가 직접 카운트해야 하기 때문에 부정확한 문제가 있다.
또한, 통역 학습 평가 시에 현재 객관적 평가 지표를 확인하기 어렵다. 교수자가 모든 학습자의 통역 전사 파일을 비교해 점수를 매겨야 하기 때문에 평가하는데 오랜 시간이 든다. 학습자는 정확한 평가 기준을 알 수 없고 다른 학습자와 직관적 비교가 어렵다는 문제가 있다.
기존 구글 STT API, 네이버 STT API 등은 결과 텍스트에 침묵구간의 위치 및 길이가 나타나지 않는다. 또한, 결과 텍스트에 필러(음, 그, 어 등)가 나타나지 않으며, 음성 그대로가 아니라 일부 수정된 텍스트가 출력된다는 한계가 있다.
KR 10-1438088 B1 JP 2010-282058 A KR 10-1438087 B1
이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 통역 훈련에서 즉각적으로 통역 피드백을 위한 정량적 데이터를 도출하여 순차통역 학습을 위한 평가 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기 순차통역 학습을 위한 평가 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 순차통역 학습을 위한 평가 방법을 수행하기 위한 장치를 제공하는 것이다.
상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 순차통역 학습을 위한 평가 방법은, 원문 음성에서 통역할 꼭지를 재생한 후 자동으로 통역을 녹음하는 녹음 모드로 변환하는 단계; 상기 녹음 모드가 시작된 때부터 통역이 시작되는 때까지의 통역개시지연 시간을 카운트하는 단계; 녹음된 통역 음성의 파형 분석을 통해 통역개시지연 시간 이후의 공백 구간을 침묵 구간으로 인식하여 카운트하는 단계; 녹음된 통역 음성의 비침묵 구간에서 필러를 구분하는 필러 예측 모델을 적용하여 통역된 꼭지별로 통역개시지연, 침묵 및 필러가 텍스트에 표시된 전사 파일을 생성하는 단계; 및 상기 전사 파일을 통계 처리하여 결과를 도출하는 단계;를 포함한다.
본 발명의 실시예에서, 상기 전사 파일을 생성하는 단계는, 상기 필러 예측 모델을 통해 필러 단어를 검출하여 필러와 비필러로 구분하여 태깅하는 단계; 및 필러를 종류별로 분류하는 단계;를 포함할 수 있다.
본 발명의 실시예에서, 상기 필러와 비필러로 구분하여 태깅하는 단계는, 녹음된 통역 음성의 비침묵 구간이 미리 설정된 인풋 레이어의 길이보다 짧은 경우에는 바로 상기 필러 구분 예측 모델에 적용할 수 있다.
본 발명의 실시예에서, 상기 필러와 비필러로 구분하여 태깅하는 단계는, 녹음된 통역 음성의 비침묵 구간이 미리 설정된 인풋 레이어의 길이와 같거나 긴 경우에는 상기 인풋 레이어의 길이보다 짧아질 때까지 반복적으로 분할할 수 있다.
본 발명의 실시예에서, 상기 필러와 비필러로 구분하여 태깅하는 단계는, 녹음된 통역 음성의 비침묵 구간이 미리 설정된 인풋 레이어의 길이보다 짧아지는 시점에 상기 필러 구분 예측 모델에 적용할 수 있다.
본 발명의 실시예에서, 상기 전사 파일을 생성하는 단계는, 공백의 경우 공백 길이를 n초로 출력하는 단계; 필러의 경우 해당 필러로 텍스트화 및 통계 처리하여 출력하는 단계; 및 필러 외 단어의 경우 지정된 데이터베이스의 API로 텍스트화하여 출력하는 단계;를 포함할 수 있다.
본 발명의 실시예에서, 상기 순차통역 학습을 위한 평가 방법은, 원문 텍스트에서 통역할 꼭지별로 상기 단계들을 반복할 수 있다.
본 발명의 실시예에서, 상기 순차통역 학습을 위한 평가 방법은, 녹음된 통역 음성의 노이즈 제거를 통해 전처리 하는 단계;를 더 포함할 수 있다.
상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 순차통역 학습을 위한 평가 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.
상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 순차통역 학습을 위한 평가 장치는, 원문 음성에서 통역할 꼭지를 재생한 후 자동으로 통역을 녹음하는 녹음 모드로 변환하는 녹음부; 상기 녹음 모드가 시작된 때부터 통역이 시작되는 때까지의 통역개시지연 시간을 카운트하는 지연시간 측정부; 녹음된 통역 음성의 파형 분석을 통해 통역개시지연 시간 이후의 공백 구간을 침묵 구간으로 인식하여 카운트하는 침묵 판단부; 녹음된 통역 음성의 비침묵 구간에서 필러를 구분하는 필러 예측 모델을 적용하여 통역된 꼭지별로 통역개시지연, 침묵 및 필러가 텍스트에 표시된 전사 파일을 생성하는 전사 파일 생성부; 및 상기 전사 파일을 통계 처리하여 결과를 도출하는 결과 출력부;를 포함한다.
이와 같은 순차통역 학습을 위한 평가 방법에 따르면, 학습자가 전사 파일을 제공하기 위해 반복해서 통역 음성파일을 들을 필요 없이 바로 전사 파일을 만들어준다. 이에 따라, 교수자와 학습자가 통역 음성에 대한 전사 자료를 만드는데 소요되는 시간 및 노력이 현저히 줄어든다.
또한, 교수자에게 학습자의 정성적인 통역 평가를 위한 충분한 시간을 제공할 수 있고, 통역 평가의 중요한 요소인 통역개시지연 시간을 측정해주어, 교수자가 원활한 평가를 할 수 있도록 돕는다. 나아가, 학습자의 통역 평가를 위한 통계분석 자료를 제공하여 교수자의 객관적 판단 및 학습자의 자가평가를 돕는다.
도 1은 본 발명에 따른 순차통역 학습을 위한 스마트러닝 시스템의 전체 개념도이다.
도 2는 본 발명의 일 실시예에 따른 순차통역 학습을 위한 평가 장치의 블록도이다.
도 3은 본 발명에서 통역 개시 지연 시간을 카운트하는 것을 설명하기 위한 도면이다.
도 4는 본 발명에서 원문 음성 슬라이싱 및 통역 꼭지별 자동 녹음을 설명하기 위한 도면이다.
도 5는 본 발명에서 한 음절을 스플릿(split)하는 것을 설명하기 위한 도면이다.
도 6은 본 발명에서 파형 분석을 통해 공백 구간과 비공백 구간으로 분리하는 것을 설명하기 위한 도면이다.
도 7은 본 발명에서 필러 구분을 통해 필러와 그 외 단어로 분리하는 것을 설명하기 위한 도면이다.
도 8은 본 발명에서 필러 분류를 통해 필러의 종류를 구별하는 것을 설명하기 위한 도면이다.
도 9는 본 발명의 성능을 평가한 시뮬레이션 결과를 보여주는 그래프이다.
도 10은 본 발명의 일 실시예에 따른 순차통역 학습을 위한 평가 방법의 흐름도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1은 본 발명에 따른 순차통역 학습을 위한 스마트러닝 시스템의 전체 개념도이다. 도 2는 본 발명의 일 실시예에 따른 순차통역 학습을 위한 평가 장치의 블록도이다.
본 발명에 따른 순차통역 학습을 위한 평가 장치(10, 이하 장치)는 원문 음성의 종료와 동시에 통역 음성을 자동으로 녹음하고, 꼭지별 통역 음성 파일의 통역개시지연을 계산하고, 통역 음성 파일의 전사 파일을 생성하여 제공하는 통역 학습을 위한 스마트러닝 기술이다.
도 1을 참조하면, 스마트러닝 시스템(1)은 통역 음성 파일을 입력으로 받아들여 전처리 모듈(11)을 거친다. 전처리 모듈(11)은 노이즈 제거 및 MFCC(Mel Frequency Cepstral Coefficient)을 통해 음성의 특징을 추출한다.
이어, 모델 모듈(13)을 통해 추출된 음성의 특징의 공백 및 비공백을 판단하고, 비공백 음성을 필러 및 비필러로 구분한다. 필러는 다시 종류별로 분류된다. 분류된 필러 및 비필러는 태깅되어 기존 데이터베이스나 새로운 데이터베이스(15)의 학습 데이터로 활용될 수 있다.
본 발명에서는 이러한 시스템을 통해 통역 음성의 전사 파일을 생성하고, 통역에 대한 평가를 할 수 있게 한다.
도 2를 참조하면, 본 발명에 따른 장치(10)는 녹음부(110), 지연시간 측정부(130), 침묵 판단부(150), 전사 파일 생성부(170) 및 결과 출력부(190)를 포함한다. 본 발명에 따른 장치(10)는 도 1의 스마트러닝 시스템(1)의 일부를 구성할 수 있다.
본 발명의 상기 장치(10)는 순차통역 학습을 위한 평가를 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 녹음부(110), 상기 지연시간 측정부(130), 상기 침묵 판단부(150), 상기 전사 파일 생성부(170) 및 상기 결과 출력부(190)의 구성은 상기 장치(10)에서 실행되는 상기 순차통역 학습을 위한 평가를 수행하기 위한 소프트웨어에 의해 제어될 수 있다.
상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 녹음부(110), 상기 지연시간 측정부(130), 상기 침묵 판단부(150), 상기 전사 파일 생성부(170) 및 상기 결과 출력부(190)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.
상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.
상기 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.
상기 녹음부(110)는 원문 음성에서 통역할 꼭지를 재생한 후 자동으로 통역을 녹음하는 녹음 모드로 변환한다. 여기서 꼭지란, 통역하고자 하는 원문의 임의의 단위이며, 한 문장, 한 단락 또는 한 페이지, 몇 개의 문장 등 사용자(예를 들어, 교수)에 의해 정의될 수 있다.
상기 녹음부(110)는 원문 음성의 슬라이싱을 통해 원문의 꼭지 단위로 자동 통역 녹음을 제공한다. 즉, 지정한 꼭지가 끝나면 자동으로 통역 녹음 모드로 들어가고 이때부터 통역시간이 카운트 된다.
상기 지연시간 측정부(130)는 상기 녹음 모드가 시작된 때부터 통역이 시작되는 때까지의 통역개시지연 시간을 카운트한다.
도 3을 참조하면, 원문 음성과 통역 음성 사이의 통역 시간의 간격을 통역개시지연 시간으로 정의하고, 이후의 공백 구간은 침묵 구간으로 인식하여 카운트한다.
도 4를 참조하면, 원문 음성을 꼭지별로 슬라이싱하고, 원문 음성을 공백 구간과 비공백 구간으로 분리한다. 파일에서 공백 구간이 설정한 임계치(Threshold) 보다 클 경우, 해당 공백 구간의 시작시간을 꼭지의 끝으로 간주한다. 또한, 해당 공백 구간의 종료시간을 다음 꼭지의 시작으로 간주하여 슬라이싱한다.
이를 통해, 통역 꼭지별 자동 녹음도 가능하며, 슬라이싱된 문장을 학습자에게 재생하고, 원문 음성의 종료와 동시에 통역 음성을 녹음할 수 있다. 또한, 통역개시지연을 시간을 측정할 수 있다. 꼭지별 통역 음성 파일의 첫번째 공백 구간의 길이를 통역개시지연 시간으로 계산한다.
상기 침묵 판단부(150)는 녹음된 통역 음성의 파형 분석을 통해 통역개시지연 시간 이후의 공백 구간을 침묵 구간으로 인식하여 카운트한다. 도 6은 본 발명에서 파형 분석을 통해 공백 구간과 비공백 구간 분리하는 것을 설명하기 위한 도면이다. 도 6을 참조하면, 파형 분석을 통해 공백 구간과 비공백 구간을 분리한다.
상기 전사 파일 생성부(170)는 녹음된 통역 음성의 비침묵 구간에서 필러를 구분하는 필러 예측 모델을 적용하여 통역된 꼭지별로 통역개시지연, 침묵 및 필러가 텍스트에 표시된 전사 파일을 생성한다.
본 발명에서 제공하는 전사자료는 통역 음성 그대로 텍스트화된 것으로, 필러, 침묵구간 및 반복단어가 함께 텍스트로 가시화하여 표시된다. 이에 따라, 사용자는 통역개시지연 시간 및 침묵구간 등을 직관적으로 파악할 수 있다.
상기 전사 파일 생성부(170)는 필러 예측 모델을 통해 필러 단어를 검출하여 필러와 비필러로 구분하여 태깅하고, 필러를 종류별로 분류한다. 상기 전사 파일 생성부(170)에서 필러를 구분할 때, 녹음된 통역 음성의 비침묵 구간에 따라 다른 방식으로 판단될 수 있다.
상기 전사 파일 생성부(170)는 녹음된 통역 음성의 비침묵 구간이 미리 설정된 인풋 레이어의 길이보다 짧은 경우에는 바로 상기 필러 구분 예측 모델에 적용한다.
반면, 녹음된 통역 음성의 비침묵 구간이 미리 설정된 인풋 레이어의 길이와 같거나 긴 경우에는 상기 인풋 레이어의 길이보다 짧아질 때까지 반복적으로 분할한다. 도 5는 본 발명에서 한 음절을 스플릿(split)하는 것을 설명하기 위한 도면이다.
이때 반복적으로 분할할 때마다 기준이 되는 공백의 길이를 점점 더 짧게 조정하여 공백으로 판단되는 최소 길이가 더 짧게 조정한다. 반복이 멈춰지는 시점, 즉 음성의 길이가 인풋 레이어의 길이보다 짧아지는 시점에 필러와 비필러 예측 모델에 적용한다. 예측 모델의 결과에 따라 필러일 경우에는 필러의 종류를 예측하는 모델에 들어가 태깅되고, 비필러인 경우에는 비필러로 태깅된다.
도 7은 본 발명에서 필러 구분을 통해 필러와 그 외 단어로 분리하는 것을 설명하기 위한 도면이다. 도 7과 같이, Filler word detector를 통해 필러와 그 외 단어로 분리할 수 있다.
도 8은 본 발명에서 필러 분류를 통해 필러의 종류를 구별하는 것을 설명하기 위한 도면이다. 도 8과 같이, Filler word classifier를 통해 필러의 종류를 구별할 수 있다.
필러의 예로는, '어', '음', '그', 비필러 등 약 1100개의 음성 데이터가 있고, 데이터를 수집하여 직접 생성할 수 있다. 본 발명에서 예측 모델은 Feature extraction(예를 들어, librosa의 mfcc)를 사용하여 Keras 신경망 모델로 구현할 수 있다.
결과적으로, 전사 파일은 통역 음성의 Array of json을 후처리하여 예를 들어 아래와 같이 출력될 수 있다.
1) 공백(1_ _ _)이면 공백 길이를 '??n초??' 출력
2) 필러(01_ _)이면 해당 필러로 텍스트화
3) 그 외 단어(00_ _)이면 Google STT API로 텍스트화
본 발명에서 한 꼭지의 통역이 끝나면 다음 원문이 재생되도록 설정할 수 있고, 상기 과정들이 반복된다. 원하는 부분의 통역이 모두 끝나면 통역이 꼭지 별로 파일로 만들어지고 통역개시지연, 침묵, 필러가 표시된 텍스트가 출력된다.
상기 결과 출력부(190)는 상기 전사 파일을 통계 처리하여 결과를 도출한다. 예를 들어, 통역개시지연, 침묵 및 필러의 카운트 결과(예를 들어, 초단위)가 통계 처리되어 제시될 수 있고, 텍스트화되어 출력될 수 있다.
도 9는 본 발명의 성능을 평가한 시뮬레이션 결과를 보여주는 그래프이다.
도 9를 참조하면, 본 발명에 따른 학습 결과 각 필러의 판별이 가능하고, 약 90%의 정확도를 보였다.
본 발명은 침묵구간의 위치 및 길이, 필러를 텍스트에 표시해주는 새로운 전사 시스템을 제공하고, 통역개시지연 시간 파악 및 가시화가 가능하다. 또한, 전사 파일 채점과 자가평가를 위한 통계분석 자료를 제공하여 교수자의 객관적 판단과 학습자의 자가평가를 돕는다.
도 10은 본 발명의 일 실시예에 따른 순차통역 학습을 위한 평가 방법의 흐름도이다.
본 실시예에 따른 순차통역 학습을 위한 평가 방법은, 도 1의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.
또한, 본 실시예에 따른 순차통역 학습을 위한 평가 방법은 순차통역 학습을 위한 평가를 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.
본 발명에 따른 순차통역 학습을 위한 평가 방법은 원문 음성의 종료와 동시에 통역 음성을 자동으로 녹음하고, 꼭지별 통역 음성 파일의 통역개시지연을 계산하고, 통역 음성 파일의 전사 파일을 생성하여 제공하는 통역 학습을 위한 스마트러닝 기술이다.
도 10을 참조하면, 본 실시예에 따른 순차통역 학습을 위한 평가 방법은, 원문 음성에서 통역할 꼭지를 재생한 후 자동으로 통역을 녹음하는 녹음 모드로 변환한다(단계 S10).
여기서 꼭지란, 통역하고자 하는 원문의 임의의 단위이며, 한 문장, 한 단락 또는 한 페이지, 몇 개의 문장 등 사용자(예를 들어, 교수)에 의해 정의될 수 있다. 본 발명은 원문 음성의 슬라이싱을 통해 원문의 꼭지 단위로 자동 통역 녹음을 제공한다. 즉, 지정한 꼭지가 끝나면 자동으로 통역 녹음 모드로 들어가고 이때부터 통역시간이 카운트 된다.
상기 녹음 모드가 시작된 때부터 통역이 시작되는 때까지의 통역개시지연 시간을 카운트한다(단계 S20). 이후의 공백 구간은 침묵 구간으로 인식하여 카운트할 수 있다.
녹음된 통역 음성의 파형 분석을 통해 통역개시지연 시간 이후의 공백 구간을 침묵 구간으로 인식하여 카운트한다(단계 S30).
이때, 녹음된 통역 음성의 전처리 하는 단계를 더 포함할 수 있다. 전처리는 노이즈 제거 및 MFCC(Mel Frequency Cepstral Coefficient)을 통해 음성의 특징을 추출할 수 있다.
녹음된 통역 음성의 비침묵 구간에서 필러를 구분하는 필러 예측 모델을 적용하여 통역된 꼭지별로 통역개시지연, 침묵 및 필러가 텍스트에 표시된 전사 파일을 생성한다(단계 S40).
상기 전사 파일을 생성하는 단계(단계 S40)는, 상기 필러 예측 모델을 통해 필러 단어를 검출하여 필러와 비필러로 구분하여 태깅하고, 필러를 종류별로 분류할 수 있다.
상기 필러와 비필러로 구분하여 태깅하는 단계는, 녹음된 통역 음성의 비침묵 구간이 미리 설정된 인풋 레이어의 길이보다 짧은 경우에는 바로 상기 필러 구분 예측 모델에 적용한다.
반면, 녹음된 통역 음성의 비침묵 구간이 미리 설정된 인풋 레이어의 길이와 같거나 긴 경우에는 상기 인풋 레이어의 길이보다 짧아질 때까지 반복적으로 분할한 후, 녹음된 통역 음성의 비침묵 구간이 미리 설정된 인풋 레이어의 길이보다 짧아지는 시점에 상기 필러 구분 예측 모델에 적용할 수 있다.
상기 전사 파일을 생성하는 단계(단계 S40)는, 후처리를 통해 공백의 경우 공백 길이를 n초로 출력하고, 필러의 경우 해당 필러로 텍스트화 및 통계 처리하여 출력할 수 있다. 또한, 필러 외 단어의 경우 지정된 데이터베이스의 API로 텍스트화하여 출력할 수 있다.
본 발명에서 제공하는 전사 파일은 통역 음성 그대로 텍스트화된 것으로, 필러, 침묵구간 및 반복단어가 함께 텍스트로 가시화하여 표시된다. 이에 따라, 사용자는 통역개시지연 시간 및 침묵구간 등을 직관적으로 파악할 수 있다.
상기 전사 파일을 통계 처리하여 결과를 도출한다(단계 S50). 예를 들어, 통역개시지연, 침묵 및 필러의 카운트 결과(예를 들어, 초단위)가 통계 처리되어 제시될 수 있고, 텍스트화되어 출력될 수 있다.
원문 텍스트에서 통역할 꼭지별로 상기 단계들을 반복 수행하여 꼭지별로 통역개시지연, 침묵 및 필러가 텍스트에 표시된 전사 파일을 생성할 수 있다.
이에 따라, 본 발명은 학습자가 전사 파일을 제공하기 위해 반복해서 통역 음성파일을 들을 필요 없이 바로 전사 파일을 만들어준다. 따라서, 교수자와 학습자가 통역 음성에 대한 전사 자료를 만드는데 소요되는 시간 및 노력이 현저히 줄어든다.
또한, 교수자에게 학습자의 정성적인 통역 평가를 위한 충분한 시간을 제공할 수 있고, 통역 평가의 중요한 요소인 통역개시지연 시간을 측정해주어, 교수자가 원활한 평가를 할 수 있도록 돕는다. 나아가, 학습자의 통역 평가를 위한 통계분석 자료를 제공하여 교수자의 객관적 판단 및 학습자의 자가평가를 돕는다.
이와 같은, 순차통역 학습을 위한 평가 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
최근 글로벌 시대에 걸맞게 국제 회의 등 모든 분야에 걸쳐 통역 현장은 더욱 다양화되고 있다. 또한, AI 시장이 확장됨에 따라 기계 통번역 수요를 피할 순 없지만, 구어의 경우 문장구조가 완전치 않아 AI 통역에는 여전히 한계가 존재한다. 따라서, 통역개시지연 시간을 직관적으로 파악할 수 있고, 평가 피드백에 시간이 적게 드는 본 발명은 4차 산업혁명 시대의 기술로 유용하게 활용 가능하다.
1: 순차통역 학습을 위한 스마트러닝 시스템
11: 전처리 모듈
13: 모델 모듈
15: 데이터베이스
10: 순차통역 학습을 위한 평가 장치
110: 녹음부
130: 지연시간 측정부
150: 침묵 판단부
170: 전사 파일 생성부
190: 결과 출력부

Claims (10)

  1. 원문 음성에서 통역할 꼭지를 재생한 후 자동으로 통역을 녹음하는 녹음 모드로 변환하는 단계;
    상기 녹음 모드가 시작된 때부터 통역이 시작되는 때까지의 통역개시지연 시간을 카운트하는 단계;
    녹음된 통역 음성의 파형 분석을 통해 통역개시지연 시간 이후의 공백 구간을 침묵 구간으로 인식하여 카운트하는 단계;
    녹음된 통역 음성의 비침묵 구간에서 필러를 구분하는 필러 예측 모델을 적용하여 통역된 꼭지별로 통역개시지연, 침묵 및 필러가 텍스트에 표시된 전사 파일을 생성하는 단계; 및
    상기 전사 파일을 통계 처리하여 결과를 도출하는 단계;를 포함하는, 순차통역 학습을 위한 평가 방법.
  2. 제1항에 있어서, 상기 전사 파일을 생성하는 단계는,
    상기 필러 예측 모델을 통해 필러 단어를 검출하여 필러와 비필러로 구분하여 태깅하는 단계; 및
    필러를 종류별로 분류하는 단계;를 포함하는, 순차통역 학습을 위한 평가 방법.
  3. 제2항에 있어서, 상기 필러와 비필러로 구분하여 태깅하는 단계는,
    녹음된 통역 음성의 비침묵 구간이 미리 설정된 인풋 레이어의 길이보다 짧은 경우에는 바로 상기 필러 구분 예측 모델에 적용하는, 순차통역 학습을 위한 평가 방법.
  4. 제2항에 있어서, 상기 필러와 비필러로 구분하여 태깅하는 단계는,
    녹음된 통역 음성의 비침묵 구간이 미리 설정된 인풋 레이어의 길이와 같거나 긴 경우에는 상기 인풋 레이어의 길이보다 짧아질 때까지 반복적으로 분할하는, 순차통역 학습을 위한 평가 방법.
  5. 제4항에 있어서, 상기 필러와 비필러로 구분하여 태깅하는 단계는,
    녹음된 통역 음성의 비침묵 구간이 미리 설정된 인풋 레이어의 길이보다 짧아지는 시점에 상기 필러 구분 예측 모델에 적용하는, 순차통역 학습을 위한 평가 방법.
  6. 제1항에 있어서, 상기 전사 파일을 생성하는 단계는,
    공백의 경우 공백 길이를 n초로 출력하는 단계;
    필러의 경우 해당 필러로 텍스트화 및 통계 처리하여 출력하는 단계; 및
    필러 외 단어의 경우 지정된 데이터베이스의 API로 텍스트화하여 출력하는 단계;를 포함하는, 순차통역 학습을 위한 평가 방법.
  7. 제1항에 있어서,
    원문 텍스트에서 통역할 꼭지별로 상기 단계들을 반복하는, 순차통역 학습을 위한 평가 방법.
  8. 제1항에 있어서,
    녹음된 통역 음성의 노이즈 제거를 통해 전처리 하는 단계;를 더 포함하는, 순차통역 학습을 위한 평가 방법.
  9. 제1항 내지 제8항 중 어느 하나의 항에 따른 상기 순차통역 학습을 위한 평가 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
  10. 원문 음성에서 통역할 꼭지를 재생한 후 자동으로 통역을 녹음하는 녹음 모드로 변환하는 녹음부;
    상기 녹음 모드가 시작된 때부터 통역이 시작되는 때까지의 통역개시지연 시간을 카운트하는 지연시간 측정부;
    녹음된 통역 음성의 파형 분석을 통해 통역개시지연 시간 이후의 공백 구간을 침묵 구간으로 인식하여 카운트하는 침묵 판단부;
    녹음된 통역 음성의 비침묵 구간에서 필러를 구분하는 필러 예측 모델을 적용하여 통역된 꼭지별로 통역개시지연, 침묵 및 필러가 텍스트에 표시된 전사 파일을 생성하는 전사 파일 생성부; 및
    상기 전사 파일을 통계 처리하여 결과를 도출하는 결과 출력부;를 포함하는, 순차통역 학습을 위한 평가 장치.
KR1020200137859A 2020-10-22 2020-10-22 순차통역 학습을 위한 평가 방법, 이를 수행하기 위한 기록 매체 및 장치 KR102529241B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200137859A KR102529241B1 (ko) 2020-10-22 2020-10-22 순차통역 학습을 위한 평가 방법, 이를 수행하기 위한 기록 매체 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200137859A KR102529241B1 (ko) 2020-10-22 2020-10-22 순차통역 학습을 위한 평가 방법, 이를 수행하기 위한 기록 매체 및 장치

Publications (3)

Publication Number Publication Date
KR20220053412A true KR20220053412A (ko) 2022-04-29
KR102529241B1 KR102529241B1 (ko) 2023-05-08
KR102529241B9 KR102529241B9 (ko) 2024-03-13

Family

ID=81428760

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200137859A KR102529241B1 (ko) 2020-10-22 2020-10-22 순차통역 학습을 위한 평가 방법, 이를 수행하기 위한 기록 매체 및 장치

Country Status (1)

Country Link
KR (1) KR102529241B1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282058A (ja) 2009-06-05 2010-12-16 Tokyobay Communication Co Ltd 外国語学習補助方法及び装置
KR101318377B1 (ko) * 2012-09-17 2013-10-16 비전워크코리아(주) 온라인을 통한 외국어 말하기 평가 시스템
JP2014153458A (ja) * 2013-02-06 2014-08-25 Nippon Telegr & Teleph Corp <Ntt> フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム
KR101438087B1 (ko) 2012-07-03 2014-09-17 (주)아이티씨교육 음성인식엔진을 이용한 순차 및 동시 통역 테스트에 따른 외국어 문장 패턴 내면화 강화 및 인출 훈련 서비스 제공 방법
KR101438088B1 (ko) 2012-08-08 2014-09-17 (주)아이티씨교육 음성인식 및 문자전환 기술을 이용한 통역 테스트와 쓰기 테스트의 2차 피드백을 통한 외국어 학습 서비스 제공 방법
KR20190057509A (ko) * 2017-11-20 2019-05-29 이화여자대학교 산학협력단 순차통역 자습 보조 방법 및 이를 수행하기 위한 기록매체

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010282058A (ja) 2009-06-05 2010-12-16 Tokyobay Communication Co Ltd 外国語学習補助方法及び装置
KR101438087B1 (ko) 2012-07-03 2014-09-17 (주)아이티씨교육 음성인식엔진을 이용한 순차 및 동시 통역 테스트에 따른 외국어 문장 패턴 내면화 강화 및 인출 훈련 서비스 제공 방법
KR101438088B1 (ko) 2012-08-08 2014-09-17 (주)아이티씨교육 음성인식 및 문자전환 기술을 이용한 통역 테스트와 쓰기 테스트의 2차 피드백을 통한 외국어 학습 서비스 제공 방법
KR101318377B1 (ko) * 2012-09-17 2013-10-16 비전워크코리아(주) 온라인을 통한 외국어 말하기 평가 시스템
JP2014153458A (ja) * 2013-02-06 2014-08-25 Nippon Telegr & Teleph Corp <Ntt> フィラー遷移モデル学習装置と言語モデル学習装置とそれらの方法とプログラム
KR20190057509A (ko) * 2017-11-20 2019-05-29 이화여자대학교 산학협력단 순차통역 자습 보조 방법 및 이를 수행하기 위한 기록매체

Also Published As

Publication number Publication date
KR102529241B1 (ko) 2023-05-08
KR102529241B9 (ko) 2024-03-13

Similar Documents

Publication Publication Date Title
US9449522B2 (en) Systems and methods for evaluating difficulty of spoken text
CN103559892B (zh) 口语评测方法及系统
US10755595B1 (en) Systems and methods for natural language processing for speech content scoring
CN109697988B (zh) 一种语音评价方法及装置
CN104464755A (zh) 语音评测方法和装置
KR102060229B1 (ko) 순차통역 자습 보조 방법 및 이를 수행하기 위한 기록매체
Yuan et al. Using forced alignment for phonetics research
Ghanem et al. Pronunciation features in rating criteria
KR102414626B1 (ko) 외국어 발음 훈련 및 평가 시스템
CN109697975B (zh) 一种语音评价方法及装置
US20120164612A1 (en) Identification and detection of speech errors in language instruction
Meena et al. A data-driven model for timing feedback in a map task dialogue system
KR102529241B1 (ko) 순차통역 학습을 위한 평가 방법, 이를 수행하기 위한 기록 매체 및 장치
Loukina et al. Pronunciation accuracy and intelligibility of non-native speech
Hirschberg et al. Generalizing prosodic prediction of speech recognition errors
Zechner et al. Automatic scoring of children’s read-aloud text passages and word lists
Barczewska et al. Detection of disfluencies in speech signal
Proença et al. Children's Reading Aloud Performance: A Database and Automatic Detection of Disfluencies
KR102386635B1 (ko) 음소의 특성에 관한 통계적 분석에 기초하여 자동적으로 음성 합성 데이터를 평가하는 방법 및 장치
KR20190049263A (ko) 순차통역 수업 학습자를 위한 수업 보조 방법 및 이를 수행하기 위한 기록매체
CN112151018A (zh) 语音评测及语音识别方法、装置、设备及存储介质
KR102585031B1 (ko) 실시간 외국어 발음 평가시스템 및 방법
Stojanović et al. A Method for Estimating Variations in Speech Tempo from Recorded Speech
Varatharaj Developing Automated Audio Assessment Tools for a Chinese Language Course
Khan et al. detection of questions in Arabic audio monologues using prosodic features

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
G170 Re-publication after modification of scope of protection [patent]