KR20220103477A - Video conferencing system to enhance communication accessibility for the hearing impaired - Google Patents
Video conferencing system to enhance communication accessibility for the hearing impaired Download PDFInfo
- Publication number
- KR20220103477A KR20220103477A KR1020210006111A KR20210006111A KR20220103477A KR 20220103477 A KR20220103477 A KR 20220103477A KR 1020210006111 A KR1020210006111 A KR 1020210006111A KR 20210006111 A KR20210006111 A KR 20210006111A KR 20220103477 A KR20220103477 A KR 20220103477A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- learning
- voice
- unit
- hearing
- Prior art date
Links
- 208000032041 Hearing impaired Diseases 0.000 title claims abstract description 27
- 238000004891 communication Methods 0.000 title claims abstract description 18
- 230000002996 emotional effect Effects 0.000 claims abstract description 20
- 230000008451 emotion Effects 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 208000016354 hearing loss disease Diseases 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 description 7
- 238000007689 inspection Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 4
- 208000025721 COVID-19 Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 241000711573 Coronaviridae Species 0.000 description 1
- 206010011469 Crying Diseases 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
본 발명은 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템에 관한 것이다. 보다 상세하게는 비대면 회의 시스템에서 실시간으로 재생되는 음성 또는 영상정보의 인식을 통해 실시간 자막을 자동 생성할 수 있도록 하여 청각장애인의 참여 어려움을 해소하는 데 도움을 주고, 회의록, 녹취록 등의 속기가 필요한 영역의 인력을 대체하여 활용 가능하며, 잘못된 번역으로 인한 내용 전달의 오류를 감소시키고 정확한 의미 전달에 기여할 수 있도록 하고, 감정특징표시부를 구비함으로써, 자막과 함께 억양과 감정 상태를 표시함에 따라 청각 장애인의 보다 정확한 이해에 도움을 주는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 에 관한 것이다. The present invention relates to a video conference providing system for enhancing communication accessibility of the hearing impaired. More specifically, real-time subtitles can be automatically generated through the recognition of voice or video information played in real time in the non-face-to-face conference system, helping to solve the difficulties of participation by the hearing impaired, and shorthand for meeting minutes and transcripts. It can be used as a substitute for manpower in the necessary area, reduces errors in content delivery due to incorrect translation and contributes to accurate meaning delivery. It relates to a system for providing video conferencing to strengthen communication accessibility of the hearing impaired, which helps the disabled to have a more accurate understanding.
2019년 12월 중국 우한(武漢)으로부터 발생한 신종 코로나바이러스(COVID-19)는 전 세계적으로 급속하게 퍼지며 삶의 환경을 대면 방식에서 비대면(Untact, 비접촉) 방식으로 전환시키고 있다. 이로 인해 인터넷을 활용한 온라인 화상 회의와 재택근무 시스템 등 새로운 방식들이 주목받고 있다.The novel coronavirus (COVID-19), which originated in Wuhan, China, in December 2019 is rapidly spreading around the world, changing the living environment from face-to-face to non-contact. As a result, new methods such as online video conferencing using the Internet and telecommuting systems are attracting attention.
이러한 비대면 방식에 대해 주목함에 따라 최근 화상회의 관련 시장도 빠르게 성장하고 있으나, 비대면 방식인 화상회의 시장은 회의내용을 이해하는 데 있어 영상과 음향에 의존할 수 밖에 없어 청각장애인을 포함하는 장애인에겐 참여에 어려움이 있다.As attention has been paid to such non-face-to-face methods, the video conferencing-related market is also growing rapidly. have difficulty participating.
특히, 청각장애인은 입모양, 얼굴 표정으로 내용을 유추하는 경우가 대부분이며 화상 회의의 경우, 낮은 화질 선명도, 잦은 버퍼링으로 대화를 따라가기 힘든경우가 대부분이고, 다자간 음성 회의는 애초에 들을 수 없는 청각 장애인은 참여가 불가능한 상황이다.In particular, most of the hearing impaired people infer the content by the shape of their mouth and facial expressions. People with disabilities are unable to participate.
따라서, 언택트 사회, 장애인들은 코로나 19 감염에 대한 불안은 물론 소통에서 소외되는 불합리한 상실감까지 겪고 있음에 따라 포스트 코로나 시대의 비대면 회의 시스템에서 소통 지원 기술 개발은 매우 시급한 사안으로 판단된다.Therefore, as the untact society and the disabled suffer from anxiety about COVID-19 infection as well as an unreasonable sense of loss of being alienated from communication, the development of communication support technology in the non-face-to-face conference system in the post-corona era is considered a very urgent matter.
선행기술문헌 : KR 등록특허공보 제0711819호(2007.4.19 공고)Prior art literature: KR Registered Patent Publication No. 0711819 (published on 19 July 2007)
본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 특히 화상회의 시 장애인들의 적극적인 참여가 가능하도록 하는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 을 제공하는 데 그 목적이 있다.The present invention was devised to solve the above problems, and in particular, an object of the present invention is to provide a video conference providing system for enhancing communication accessibility of the hearing impaired that enables active participation of the disabled during video conference.
상기 목적을 달성하기 위해 안출된 본 발명에 따른 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 은 화상회의에 참가하는 참가자들의 ID, 이름, 나이, 청각 장애 여부와 정도를 포함하는 개인정보를 입력받는 회원가입부; 회원가입부에 의한 회원가입 후 로그인한 정보를 관리하고 화상회의 참가자를 식별하는 참가자식별부; 화상회의에서 실시간으로 재생되는 음성 또는 영상정보로부터 음성신호를 추출하여 음성 데이터를 생성하는 음성신호인식부; 음성 데이터와 대응되는 스크립트(script)를 생성하는 스크립트 생성부; 음성 데이터를 수초 단위로 분리하여 학습이 용이한 크기로 처리하고, 해당 음성에 대응되는 스크립트에 따라 텍스트 데이터를 불러와 음성데이터와 텍스트 데이터를 싱크(sync)시켜 하나의 학습데이터 쌍으로 가공하며, 기계학습에 의해 학습시키는 학습처리부; 및 음성데이터에 대응되는 자막데이터를 생성하는 자막생성부를 포함할 수 있다.The video conference providing system for enhancing communication accessibility of the hearing impaired according to the present invention devised to achieve the above object is to input personal information including the ID, name, age, and hearing impairment of participants participating in the video conference. Receiving membership registration; a participant identification unit that manages log-in information after membership registration by the member registration unit and identifies video conference participants; a voice signal recognition unit for generating voice data by extracting a voice signal from voice or image information reproduced in real time in a video conference; a script generator for generating a script corresponding to the voice data; It separates the voice data by a few seconds and processes it into a size that is easy to learn, calls the text data according to the script corresponding to the voice and synchronizes the voice data and the text data to process it into one learning data pair, Learning processing unit for learning by machine learning; and a caption generator for generating caption data corresponding to the audio data.
또한, 학습처리부의 학습데이터 쌍에 대응되는 음성데이터에 단계별로 노이즈를 추가하여 학습처리부에서 가공된 학습데이터 쌍에 정렬하고, 학습데이터 쌍에 노이즈를 단계별로 가공하여 노이즈에 대한 학습을 수행하는 노이즈학습부를 더 포함할 수 있다.In addition, noise is added step-by-step to the voice data corresponding to the training data pair of the learning processing unit, aligned to the training data pair processed by the learning processing unit, and the noise is processed step-by-step in the training data pair to learn about the noise. It may further include a learning unit.
음성신호익식부의 음성 데이터로부터 억양을 추출하고, 특정 감정 표현이 포함된 말이나 소리를 별도의 음성데이터로 추출하는 감정특징추출부를 더 포함할 수 있다.It may further include an emotion feature extracting unit for extracting intonation from the voice data of the voice signal recognition unit and extracting words or sounds including a specific emotional expression as separate voice data.
본 발명에 의하면 비대면 회의 시스템에서 실시간으로 재생되는 음성 또는 영상정보의 인식을 통해 실시간 자막을 자동 생성할 수 있도록 하여 청각장애인의 참여 어려움을 해소하는 데 도움을 주고, 회의록, 녹취록 등의 속기가 필요한 영역의 인력을 대체하여 활용 가능하며, 잘못된 번역으로 인한 내용 전달의 오류를 감소시키고 정확한 의미 전달에 기여할 수 있도록 하는 데 그 효과가 있다. According to the present invention, real-time subtitles can be automatically generated through the recognition of voice or image information reproduced in real time in a non-face-to-face conference system, thereby helping to solve the difficulties of participation by the hearing impaired, and shorthand for meeting minutes, transcripts, etc. It can be used by replacing the manpower in the required area, and it is effective in reducing errors in content delivery due to incorrect translation and contributing to the delivery of accurate meaning.
또한, 본 발명에 의하면, 감정특징표시부를 구비함으로써, 자막과 함께 억양과 감정 상태를 표시함에 따라 청각 장애인의 보다 정확한 이해에 도움을 주는 데 그 효과가 있다.In addition, according to the present invention, it is effective in helping the hearing impaired to understand more accurately by displaying the intonation and emotional state together with the subtitle by providing the emotional characteristic display unit.
도 1은 본 발명의 바람직한 실시예에 따른 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 의 개념도이다.1 is a conceptual diagram of a video conference providing system for enhancing communication accessibility of the hearing impaired according to a preferred embodiment of the present invention.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. First of all, it should be noted that in adding reference numerals to the components of each drawing, the same components are given the same reference numerals as much as possible even though they are indicated on different drawings. In addition, in describing the present invention, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, preferred embodiments of the present invention will be described below, but the technical spirit of the present invention is not limited thereto and may be variously implemented by those skilled in the art without being limited thereto.
본 발명은 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템(1000)에 관한 것이다. 보다 상세하게는 비대면 회의 시스템에서 실시간으로 재생되는 음성 또는 영상정보의 인식을 통해 실시간 자막을 자동 생성할 수 있도록 하여 청각장애인의 참여 어려움을 해소하는 데 도움을 주고, 회의록, 녹취록 등의 속기가 필요한 영역의 인력을 대체하여 활용 가능하며, 잘못된 번역으로 인한 내용 전달의 오류를 감소시키고 정확한 의미 전달에 기여할 수 있도록 하고, 감정특징표시부(90)를 구비함으로써, 자막과 함께 억양과 감정 상태를 표시함에 따라 청각 장애인의 보다 정확한 이해에 도움을 주는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 (1000)에 관한 것이다. The present invention relates to a video
도 1은 본 발명의 바람직한 실시예에 따른 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 (1000)의 개념도이다.1 is a conceptual diagram of a video
도 1 내지 도 2를 참조하면, 본 발명의 바람직한 실시예에 따른 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 (1000)은 회원가입부(10), 참가자식별부(20), 음성신호인식부(30), 스크립트 생성부(40), 학습처리부(50), 노이즈학습부(60), 감정특징추출부(70), 자막생성부(80), 감정특징표시부(90), 회의록생성부(100), 및 검수부(110)를 포함하여 구성된다.1 to 2, the video
이하, 회원가입부(10)부터 상세히 설명하기로 한다.Hereinafter, the
회원가입부(10)는 화상회의에 참가하는 참가자들이 PC나 스마트기기를 포함하는 단말기를 이용하여 3G, LTE, Wi-fi 등의 무선인터넷 환경에서 ID, 이름, 나이, 청각 장애 여부와 정도를 포함하는 개인정보를 입력하고 회원가입을 한다.The
참가자 식별부는 회원가입부(10)에 의한 회원가입 후 로그인한 정보를 관리하고 참가자를 식별하며, 화상회의 시 다수의 참가자들의 발언을 각기 구분하기 위함이다. The participant identification unit manages log-in information after membership registration by the
음성신호인식부(30)은 실시간으로 송출되는 방송 데이터로부터 음성신호를 추출하여 음성 데이터를 생성한다. The voice
또한, 음성신호인식부(30)는 실시간 스트리밍 음성신호가 아닌 음성 또는 영상을 파일 형태로 업로드하면 업로드된 파일로부터 음성정보를 추출하고 그 음성정보의 내용을 실시간으로 자막화하는 음성파일추출모듈(미도시)이 포함될 수 있다. In addition, the voice
음성파일추출모듈(미도시)은 회의 녹음과 같이 음성파일을 업로드하였을 때 그 음성파일의 내용을 실시간으로 자막화하여 나타낼 수 있도록 한다. The audio file extraction module (not shown) enables the content of the audio file to be displayed by subtitling in real time when the audio file is uploaded, such as a conference recording.
또한, 음성신호인식부(30)는 URL 형태의 영상 파일을 삽입하고 삽입된 영상 파일에서 오디오 스트리밍 파일을 추출하는 오디오 스트리밍 음성파일추출모듈(미도시)이 구비되어 영상 파일로부터 음성 스트리밍만을 선택적으로 추출할 수 있다. In addition, the voice
스크립트생성부는 음성데이터과 연관되는 스크립트(script)를 생성한다. 보다 구체적으로, 스크립트생성부는 음성데이터에 대응되는 텍스화된 문서인 스크립트(script)를 생성하도록 한다. The script generator generates a script associated with the voice data. More specifically, the script generator generates a script that is a textualized document corresponding to voice data.
학습처리부(50)는 음성 데이터를 수초 단위로 잘라 학습이 용이한 크기로 처리하고 해당 음성에 대응되는 스크립트에 따라 텍스트 데이터를 불러와 음성데이터와 텍스트 데이터를 싱크(sync)시켜 하나의 학습데이터 쌍으로 가공하며, 기계학습에 의해 학습시킨다. The
이때, 학습처리부(50)는 음성 데이터의 특정 시간대에 특정 텍스트 문자열이 발생되는 위치를 확률로 산출하여 가장 적절한 상태열을 탐색하여 정렬시키도록 한다. In this case, the
예컨대, 1시간의 음성데이터와 그에 대응되는 3000자의 텍스트 데이터를 각각 정렬하고 이를 7초 단위로 자르고 음성 데이터의 특정 시간대에 특정 단어가 발생하는 위치를 식별하여 음성과 텍스트를 싱크(sync) 시키도록 한다. For example, one hour of voice data and 3,000 characters of text data corresponding thereto are sorted, cut in 7-second units, and the location where a specific word occurs in a specific time of the voice data is identified to synchronize the voice and text. do.
이때, 학습처리부(50)는 인식된 음성 데이터가 어떤 음소, 단어, 문장으로 구성되었는지 확인하며, 바로 전 시간(t-1)의 state를 기억한 후 마지막에 경로 역추적(path backtracking)을 통해 가장 확률이 높은 best state sequence를 찾아 결과로 출력하도록 한다.At this time, the
이후, 학습처리부(50)는 하나의 쌍으로 형성된 학습데이터를 기계학습에 의해 학습시킨다. 학습된 모델을 토대로 음성데이터를 인식하면 음성데이터로부터 출력되는 자막이 생성될 수 있다. Thereafter, the
또한, 학습처리부(50)는 복수 개의 학습데이터 중 상대적으로 학습이 쉬운 짧은 학습 데이터를 우선적으로 학습시켜 동작시키도록 하고, 학습된 언어모델과 음성모델을 토대로 실시간 음성 데이터를 인식하여 실시간으로 자막을 생성하도록 한다. In addition, the
언어모델은 음성모델의 결과로 도출된 예측 데이터를 실제 존재할 수 있는 문장인지 확인하고 보정하는 과정을 거쳐 음성인식 결과를 텍스트로 출력시키고, 문장이 실제 사용되는 문장으로 존재할 확률 분석을 통해 인식 성능을 향상시켜 생성되도록 한다. The language model checks and corrects the prediction data derived as a result of the speech model whether it is a sentence that can actually exist, outputs the result of speech recognition as text, and improves recognition performance by analyzing the probability that the sentence exists as a sentence that is actually used. to improve and create.
음성모델은 뉴스, 드라마, 다큐, 웹데이터를 포함하는 정보로부터 반복적 학습을 수행하도록 한다. The voice model allows iterative learning from information including news, drama, documentary, and web data.
생성된 언어모델과 음성모델은 데이터베이스(미도시)에 저장되고 학습처리부(50)에 의해 새로운 데이터가 학습화될 때마다 업데이트 된다. The generated language model and voice model are stored in a database (not shown) and are updated whenever new data is learned by the
노이즈학습부(60)는 반향 상태, 잡음 제거 처리를 수행하기 위한 것으로, 학습처리부(50)의 학습데이터 쌍에 대응되는 음성데이터에 단계별로 노이즈를 추가하여 학습처리부(50)에서 가공된 학습데이터 쌍에 정렬하고, 학습데이터 쌍에 노이즈를 단계별로 가공하여 노이즈에 대한 학습을 수행하여 노이즈를 제거할 수 있도록 한다.The
보다 상세하게는, 노이즈가 단계별로 포함된 음성모델을 각기 준비하여 학습처리부(50)의 학습데이터 쌍에 대응되게 정렬하여 정제함에 따라 정확도 향상을 기대할 수 있다. 따라서, 전체 단어 모델은 학습처리부(50)로 모든 자릿수에 정확한 음성 데이터로 가공하고, 노이즈학습부(60)로 잡음을 단계별로 추가하여 모든 발화는 표준이 되는 음성 모델로 수회 강제 정렬을 수행하여 학습 및 노이즈 제거를 통해 정제하여 정확도를 높이도록 한다.More specifically, it can be expected to improve accuracy by preparing each speech model including noise step by step and aligning it to correspond to the training data pair of the
또한, 본 발명에서는 학습처리부(50)에 의해 학습된 언어모델과 음성모델을 토대로 실시간 음성 데이터를 인식하고, 노이즈학습부(60)로 노이즈에 대해 단계별로 학습시킨 음성데이터에 실시간으로 자막을 생성하며, 생성된 언어모델과 음성모델은 데이터베이스에 저장되고, 학습처리부(50)와 노이즈학습부(60)에 의해 새로운 데이터가 학습될 때마다 일정 주기를 두고 업데이트되는 것을 특징으로 한다.Also, in the present invention, real-time speech data is recognized based on the language model and the speech model learned by the
감정특징추출부(70)는 음성신호익식부의 음성 데이터로부터 억양을 추출하고, 특정 감정 표현이 포함된 말이나 소리를 별도의 음성데이터로 추출한다.The emotional feature extraction unit 70 extracts intonation from the voice data of the voice signal recognition unit, and extracts words or sounds containing specific emotional expressions as separate voice data.
특히, 감정특징추출부(70)는 화상회의에서 청각장애인의 맥락 이해에 도움을 주기 위한 것으로, 화상회의 영상에서 화자의 입모양, 변환된 자막과 함께 억양과 특정 감정 표현이 포함된 말이나 소리를 별도로 추출하여 감정특징표시부(90)로 자막과 함께 나타내도록함으로써 맥락 이해에 도움을 줄 뿐만 아니라 청각장애인도 출력되는 정보로 불완전한 자막을 선별할 수 있도록 도움을 주어 자막의 정확도 향상에 기여한다.In particular, the emotional feature extraction unit 70 is to help the deaf person understand the context in the video conference, and the speech or sound containing the intonation and specific emotional expression along with the speaker's mouth shape and the converted subtitles in the video conference video. By separately extracting and displaying the subtitles together with the subtitles by the emotional
자막생성부(80)는 음성데이터에 대응되는 자막데이터를 생성하도록 한다. The
감정특징표시부(90)는 감정특징추출부(70)에서 추출한 억양을 도식화하여 나타내고, 특정 감정 표현의 자막이 포함되는 부분에는 해당 감정 상태를 별도 표시한다. The emotional
일례로, 감정특징표시부(90)는 DB에 특정 감정 표현을 별도로 저장해두는 데, 웃음 소리, 흐느끼는 소리, 우는 소리 등을 포함하는 소리가 저장되거나 말에서 기쁨, 슬픔, 화남 등의 감정표현이 포함된 말을 저장하여 해당 소리나 표현이 감지되었을 경우, 자막과 별도로 표시하도록 하여 청각장애인들에게 화상회의의 발언 이해에 도움을 준다.As an example, the emotional
회의록생성부(100)는 참가자식별부(20)에서 식별된 각 참가자별로 자막생성부(80)에서 생성된 자막을 매칭하여 특정 조건에 부합하는 회의록을 생성한다. 여기서 특정 조건은 특정 참가자 발언의 자막만 추출하여 회의록을 작성한다든지 특정 참가자를 제외하고, 회의록을 작성하는 등의 다양한 조건에 따라 회의록을 작성할 수 있도록 한다.The meeting
검수부(110)는 음성데이터와 그와 대응되는 텍스트로 결합된 한 쌍의 학습 데이터가 정확히 매칭되었는지 매칭정확도를 검수하고, 복수 개의 학습데이터 중 일부를 샘플링하여 음성 데이터와 텍스트 데이터와의 매칭이 제대로 이루어졌는 지를 검수하며, 음성모델과 언어모델로부터 음성데이터와 텍스트 데이터 간의 매칭을 토대로 신뢰도(confidence)를 측정하여 측정된 신뢰도가 기 설정된 표준값 미만일 경우에는 음성데이터와 텍스트 데이터와의 매칭이 잘못 이루어졌다고 판단하여 해당 부분의 영상데이터와 음성데이터, 텍스트 데이터, 및 감정특징표시부(90)에서 도시하는 억양, 감정 상태를 제공하여 청각장애인을 포함하는 사용자에게 검수를 요청할 수 있도록 한다.The
검수부(110)는 잘못된 번역으로 인한 내용 전달의 오류를 감소시키고, 학습을 통해 업데이트되며 정확한 의미 전달에 기여할 수 있도록 한다. The
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of the present invention, and various modifications, changes and substitutions are possible within the scope that does not depart from the essential characteristics of the present invention by those of ordinary skill in the art to which the present invention pertains. will be. Accordingly, the embodiments disclosed in the present invention and the accompanying drawings are for explaining, not limiting, the technical spirit of the present invention, and the scope of the technical spirit of the present invention is not limited by these embodiments and the accompanying drawings. . The protection scope of the present invention should be construed by the following claims, and all technical ideas within the equivalent range should be construed as being included in the scope of the present invention.
10 - 회원가입부
20 - 참가자식별부
30 - 음성신호인식부
40 - 스크립트 생성부
50 - 학습처리부
60 - 노이즈학습부
70 - 감정특징추출부
80 - 자막생성부
90 - 감정특징표시부
100 - 회의록생성부
110 - 검수부
1000 - 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 10 - Membership
20 - Participant Identification Unit
30 - voice signal recognition unit
40 - script generator
50 - learning processing unit
60 - Noise learning unit
70 - Emotion feature extraction unit
80 - subtitle generator
90 - Emotion characteristic display unit
100 - Minutes Generation Department
110 - Inspection Department
1000 - Video conferencing system to enhance communication accessibility of the hearing impaired
Claims (3)
회원가입부에 의한 회원가입 후 로그인한 정보를 관리하고 화상회의 참가자를 식별하는 참가자식별부;
화상회의에서 실시간으로 재생되는 음성 또는 영상정보로부터 음성신호를 추출하여 음성 데이터를 생성하는 음성신호인식부;
음성 데이터와 대응되는 스크립트(script)를 생성하는 스크립트 생성부;
음성 데이터를 수초 단위로 분리하여 학습이 용이한 크기로 처리하고, 해당 음성에 대응되는 스크립트에 따라 텍스트 데이터를 불러와 음성데이터와 텍스트 데이터를 싱크(sync)시켜 하나의 학습데이터 쌍으로 가공하며, 기계학습에 의해 학습시키는 학습처리부; 및
음성데이터에 대응되는 자막데이터를 생성하는 자막생성부
를 포함하는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 .Member registration unit for receiving personal information including ID, name, age, hearing impairment and degree of participants participating in the video conference;
a participant identification unit that manages log-in information after membership registration by the member registration unit and identifies video conference participants;
a voice signal recognition unit for generating voice data by extracting a voice signal from voice or image information reproduced in real time in a video conference;
a script generator for generating a script corresponding to the voice data;
It separates the voice data by a few seconds and processes it into a size that is easy to learn, calls the text data according to the script corresponding to the voice, synchronizes the voice data and the text data, and processes it into one learning data pair. Learning processing unit for learning by machine learning; and
A caption generator for generating caption data corresponding to the audio data
A system for providing video conferencing to enhance communication accessibility for the hearing impaired, including .
학습처리부의 학습데이터 쌍에 대응되는 음성데이터에 단계별로 노이즈를 추가하여 학습처리부에서 가공된 학습데이터 쌍에 정렬하고, 학습데이터 쌍에 노이즈를 단계별로 가공하여 노이즈에 대한 학습을 수행하는 노이즈학습부
를 더 포함하는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 According to claim 1,
A noise learning unit that adds noise step by step to the voice data corresponding to the learning data pair of the learning processing unit, aligns it with the training data pair processed in the learning processing unit, and processes the noise in the learning data pair step by step to learn about the noise
A system for providing video conferencing to enhance communication accessibility of the hearing impaired, including further
음성신호익식부의 음성 데이터로부터 억양을 추출하고, 특정 감정 표현이 포함된 말이나 소리를 별도의 음성데이터로 추출하는 감정특징추출부
를 더 포함하는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 . 3. The method of claim 1 or 2
Emotion feature extraction unit that extracts intonation from the voice data of the voice signal recognition unit and extracts words or sounds containing specific emotional expressions as separate voice data
A system for providing video conferencing to enhance communication accessibility of the hearing impaired, including further.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210006111A KR102426645B1 (en) | 2021-01-15 | 2021-01-15 | Video conferencing system to enhance communication accessibility for the hearing impaired |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210006111A KR102426645B1 (en) | 2021-01-15 | 2021-01-15 | Video conferencing system to enhance communication accessibility for the hearing impaired |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220103477A true KR20220103477A (en) | 2022-07-22 |
KR102426645B1 KR102426645B1 (en) | 2022-07-29 |
Family
ID=82606123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210006111A KR102426645B1 (en) | 2021-01-15 | 2021-01-15 | Video conferencing system to enhance communication accessibility for the hearing impaired |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102426645B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116527840A (en) * | 2023-07-05 | 2023-08-01 | 卓望数码技术(深圳)有限公司 | Live conference intelligent subtitle display method and system based on cloud edge collaboration |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH052399A (en) * | 1991-06-25 | 1993-01-08 | Toshiba Corp | Speech recognition device |
JP2019179314A (en) * | 2018-03-30 | 2019-10-17 | 本田技研工業株式会社 | Conference system, control method therefor, and program |
KR20200081062A (en) * | 2018-12-27 | 2020-07-07 | 주식회사 케이티 | Device, server and method for providing call connection video using avatar |
KR102135643B1 (en) * | 2019-09-04 | 2020-07-20 | (주) 소프트기획 | Real-time intelligent shorthand service providing system using voice recognition engine |
-
2021
- 2021-01-15 KR KR1020210006111A patent/KR102426645B1/en active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH052399A (en) * | 1991-06-25 | 1993-01-08 | Toshiba Corp | Speech recognition device |
JP2019179314A (en) * | 2018-03-30 | 2019-10-17 | 本田技研工業株式会社 | Conference system, control method therefor, and program |
KR20200081062A (en) * | 2018-12-27 | 2020-07-07 | 주식회사 케이티 | Device, server and method for providing call connection video using avatar |
KR102135643B1 (en) * | 2019-09-04 | 2020-07-20 | (주) 소프트기획 | Real-time intelligent shorthand service providing system using voice recognition engine |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116527840A (en) * | 2023-07-05 | 2023-08-01 | 卓望数码技术(深圳)有限公司 | Live conference intelligent subtitle display method and system based on cloud edge collaboration |
Also Published As
Publication number | Publication date |
---|---|
KR102426645B1 (en) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10176366B1 (en) | Video relay service, communication system, and related methods for performing artificial intelligence sign language translation services in a video relay service environment | |
KR102061044B1 (en) | Method and system for translating sign language and descriptive video service | |
Fernandez-Lopez et al. | Towards estimating the upper bound of visual-speech recognition: The visual lip-reading feasibility database | |
Provine et al. | Laughter among deaf signers | |
US20220327309A1 (en) | METHODS, SYSTEMS, and MACHINE-READABLE MEDIA FOR TRANSLATING SIGN LANGUAGE CONTENT INTO WORD CONTENT and VICE VERSA | |
CN106328146A (en) | Video subtitle generation method and apparatus | |
KR102135643B1 (en) | Real-time intelligent shorthand service providing system using voice recognition engine | |
US11908449B2 (en) | Audio and video translator | |
Wagner et al. | The big australian speech corpus (the big asc) | |
Kumar et al. | Translations of the CALLHOME Egyptian Arabic corpus for conversational speech translation | |
KR102426645B1 (en) | Video conferencing system to enhance communication accessibility for the hearing impaired | |
Ramadani et al. | A new technology on translating Indonesian spoken language into Indonesian sign language system. | |
US20210264812A1 (en) | Language learning system and method | |
US11587561B2 (en) | Communication system and method of extracting emotion data during translations | |
KR102318150B1 (en) | Hand sign language image generation system based on Generative Adversarial Networks | |
US11848026B2 (en) | Performing artificial intelligence sign language translation services in a video relay service environment | |
Hanson | Computing technologies for deaf and hard of hearing users | |
CN111160051B (en) | Data processing method, device, electronic equipment and storage medium | |
CN113903327A (en) | Voice environment atmosphere recognition method based on deep neural network | |
Cordella | Discourse Analysis and Subtitles of Documentaries: the case of" The children of Russia" | |
CN112309183A (en) | Interactive listening and speaking exercise system suitable for foreign language teaching | |
Pucci | Towards Universally Designed Communication: Opportunities and Challenges in the Use of Automatic Speech Recognition Systems to Support Access, Understanding and Use of Information in Communicative Settings | |
Agarwal et al. | Towards MOOCs for lipreading: Using synthetic talking heads to train humans in lipreading at scale | |
KR20130065064A (en) | The sign language providing system using auto-transformed voice recognition data | |
Cahyaningrum et al. | HOW ACCURATE GOOGLE TRANSLATE IN TRANSLATING JAVANESE HUMOUR “MBAH MINTO VS BOCIL” INTO ENGLISH VERSION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |