KR20220103477A - Video conferencing system to enhance communication accessibility for the hearing impaired - Google Patents

Video conferencing system to enhance communication accessibility for the hearing impaired Download PDF

Info

Publication number
KR20220103477A
KR20220103477A KR1020210006111A KR20210006111A KR20220103477A KR 20220103477 A KR20220103477 A KR 20220103477A KR 1020210006111 A KR1020210006111 A KR 1020210006111A KR 20210006111 A KR20210006111 A KR 20210006111A KR 20220103477 A KR20220103477 A KR 20220103477A
Authority
KR
South Korea
Prior art keywords
data
learning
voice
unit
hearing
Prior art date
Application number
KR1020210006111A
Other languages
Korean (ko)
Other versions
KR102426645B1 (en
Inventor
박준호
강민경
김세형
송병관
Original Assignee
(주)소프트기획
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)소프트기획 filed Critical (주)소프트기획
Priority to KR1020210006111A priority Critical patent/KR102426645B1/en
Publication of KR20220103477A publication Critical patent/KR20220103477A/en
Application granted granted Critical
Publication of KR102426645B1 publication Critical patent/KR102426645B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

The present invention relates to a video conference providing system to enhance communication accessibility for hearing-impaired people. More specifically, the video conference providing system to enhance communication accessibility for hearing-impaired people can solve a difficulty in participation of hearing-impaired people by automatically generating subtitles in real time through voice played in real time or recognition of image information in a contactless conference system, can be utilized by replacing manpower in a region requiring speedwriting such as minutes and recorded tapes, can reduce content delivery errors caused by mistranslation and contribute to accurate meaning delivery, and can help accurate understanding of hearing-impaired people by having an emotion feature display unit to display an accent and an emotional state with the subtitles.

Description

청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템{Video conferencing system to enhance communication accessibility for the hearing impaired}Video conferencing system to enhance communication accessibility for the hearing impaired

본 발명은 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템에 관한 것이다. 보다 상세하게는 비대면 회의 시스템에서 실시간으로 재생되는 음성 또는 영상정보의 인식을 통해 실시간 자막을 자동 생성할 수 있도록 하여 청각장애인의 참여 어려움을 해소하는 데 도움을 주고, 회의록, 녹취록 등의 속기가 필요한 영역의 인력을 대체하여 활용 가능하며, 잘못된 번역으로 인한 내용 전달의 오류를 감소시키고 정확한 의미 전달에 기여할 수 있도록 하고, 감정특징표시부를 구비함으로써, 자막과 함께 억양과 감정 상태를 표시함에 따라 청각 장애인의 보다 정확한 이해에 도움을 주는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 에 관한 것이다. The present invention relates to a video conference providing system for enhancing communication accessibility of the hearing impaired. More specifically, real-time subtitles can be automatically generated through the recognition of voice or video information played in real time in the non-face-to-face conference system, helping to solve the difficulties of participation by the hearing impaired, and shorthand for meeting minutes and transcripts. It can be used as a substitute for manpower in the necessary area, reduces errors in content delivery due to incorrect translation and contributes to accurate meaning delivery. It relates to a system for providing video conferencing to strengthen communication accessibility of the hearing impaired, which helps the disabled to have a more accurate understanding.

2019년 12월 중국 우한(武漢)으로부터 발생한 신종 코로나바이러스(COVID-19)는 전 세계적으로 급속하게 퍼지며 삶의 환경을 대면 방식에서 비대면(Untact, 비접촉) 방식으로 전환시키고 있다. 이로 인해 인터넷을 활용한 온라인 화상 회의와 재택근무 시스템 등 새로운 방식들이 주목받고 있다.The novel coronavirus (COVID-19), which originated in Wuhan, China, in December 2019 is rapidly spreading around the world, changing the living environment from face-to-face to non-contact. As a result, new methods such as online video conferencing using the Internet and telecommuting systems are attracting attention.

이러한 비대면 방식에 대해 주목함에 따라 최근 화상회의 관련 시장도 빠르게 성장하고 있으나, 비대면 방식인 화상회의 시장은 회의내용을 이해하는 데 있어 영상과 음향에 의존할 수 밖에 없어 청각장애인을 포함하는 장애인에겐 참여에 어려움이 있다.As attention has been paid to such non-face-to-face methods, the video conferencing-related market is also growing rapidly. have difficulty participating.

특히, 청각장애인은 입모양, 얼굴 표정으로 내용을 유추하는 경우가 대부분이며 화상 회의의 경우, 낮은 화질 선명도, 잦은 버퍼링으로 대화를 따라가기 힘든경우가 대부분이고, 다자간 음성 회의는 애초에 들을 수 없는 청각 장애인은 참여가 불가능한 상황이다.In particular, most of the hearing impaired people infer the content by the shape of their mouth and facial expressions. People with disabilities are unable to participate.

따라서, 언택트 사회, 장애인들은 코로나 19 감염에 대한 불안은 물론 소통에서 소외되는 불합리한 상실감까지 겪고 있음에 따라 포스트 코로나 시대의 비대면 회의 시스템에서 소통 지원 기술 개발은 매우 시급한 사안으로 판단된다.Therefore, as the untact society and the disabled suffer from anxiety about COVID-19 infection as well as an unreasonable sense of loss of being alienated from communication, the development of communication support technology in the non-face-to-face conference system in the post-corona era is considered a very urgent matter.

선행기술문헌 : KR 등록특허공보 제0711819호(2007.4.19 공고)Prior art literature: KR Registered Patent Publication No. 0711819 (published on 19 July 2007)

본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로, 특히 화상회의 시 장애인들의 적극적인 참여가 가능하도록 하는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 을 제공하는 데 그 목적이 있다.The present invention was devised to solve the above problems, and in particular, an object of the present invention is to provide a video conference providing system for enhancing communication accessibility of the hearing impaired that enables active participation of the disabled during video conference.

상기 목적을 달성하기 위해 안출된 본 발명에 따른 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 은 화상회의에 참가하는 참가자들의 ID, 이름, 나이, 청각 장애 여부와 정도를 포함하는 개인정보를 입력받는 회원가입부; 회원가입부에 의한 회원가입 후 로그인한 정보를 관리하고 화상회의 참가자를 식별하는 참가자식별부; 화상회의에서 실시간으로 재생되는 음성 또는 영상정보로부터 음성신호를 추출하여 음성 데이터를 생성하는 음성신호인식부; 음성 데이터와 대응되는 스크립트(script)를 생성하는 스크립트 생성부; 음성 데이터를 수초 단위로 분리하여 학습이 용이한 크기로 처리하고, 해당 음성에 대응되는 스크립트에 따라 텍스트 데이터를 불러와 음성데이터와 텍스트 데이터를 싱크(sync)시켜 하나의 학습데이터 쌍으로 가공하며, 기계학습에 의해 학습시키는 학습처리부; 및 음성데이터에 대응되는 자막데이터를 생성하는 자막생성부를 포함할 수 있다.The video conference providing system for enhancing communication accessibility of the hearing impaired according to the present invention devised to achieve the above object is to input personal information including the ID, name, age, and hearing impairment of participants participating in the video conference. Receiving membership registration; a participant identification unit that manages log-in information after membership registration by the member registration unit and identifies video conference participants; a voice signal recognition unit for generating voice data by extracting a voice signal from voice or image information reproduced in real time in a video conference; a script generator for generating a script corresponding to the voice data; It separates the voice data by a few seconds and processes it into a size that is easy to learn, calls the text data according to the script corresponding to the voice and synchronizes the voice data and the text data to process it into one learning data pair, Learning processing unit for learning by machine learning; and a caption generator for generating caption data corresponding to the audio data.

또한, 학습처리부의 학습데이터 쌍에 대응되는 음성데이터에 단계별로 노이즈를 추가하여 학습처리부에서 가공된 학습데이터 쌍에 정렬하고, 학습데이터 쌍에 노이즈를 단계별로 가공하여 노이즈에 대한 학습을 수행하는 노이즈학습부를 더 포함할 수 있다.In addition, noise is added step-by-step to the voice data corresponding to the training data pair of the learning processing unit, aligned to the training data pair processed by the learning processing unit, and the noise is processed step-by-step in the training data pair to learn about the noise. It may further include a learning unit.

음성신호익식부의 음성 데이터로부터 억양을 추출하고, 특정 감정 표현이 포함된 말이나 소리를 별도의 음성데이터로 추출하는 감정특징추출부를 더 포함할 수 있다.It may further include an emotion feature extracting unit for extracting intonation from the voice data of the voice signal recognition unit and extracting words or sounds including a specific emotional expression as separate voice data.

본 발명에 의하면 비대면 회의 시스템에서 실시간으로 재생되는 음성 또는 영상정보의 인식을 통해 실시간 자막을 자동 생성할 수 있도록 하여 청각장애인의 참여 어려움을 해소하는 데 도움을 주고, 회의록, 녹취록 등의 속기가 필요한 영역의 인력을 대체하여 활용 가능하며, 잘못된 번역으로 인한 내용 전달의 오류를 감소시키고 정확한 의미 전달에 기여할 수 있도록 하는 데 그 효과가 있다. According to the present invention, real-time subtitles can be automatically generated through the recognition of voice or image information reproduced in real time in a non-face-to-face conference system, thereby helping to solve the difficulties of participation by the hearing impaired, and shorthand for meeting minutes, transcripts, etc. It can be used by replacing the manpower in the required area, and it is effective in reducing errors in content delivery due to incorrect translation and contributing to the delivery of accurate meaning.

또한, 본 발명에 의하면, 감정특징표시부를 구비함으로써, 자막과 함께 억양과 감정 상태를 표시함에 따라 청각 장애인의 보다 정확한 이해에 도움을 주는 데 그 효과가 있다.In addition, according to the present invention, it is effective in helping the hearing impaired to understand more accurately by displaying the intonation and emotional state together with the subtitle by providing the emotional characteristic display unit.

도 1은 본 발명의 바람직한 실시예에 따른 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 의 개념도이다.1 is a conceptual diagram of a video conference providing system for enhancing communication accessibility of the hearing impaired according to a preferred embodiment of the present invention.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. First of all, it should be noted that in adding reference numerals to the components of each drawing, the same components are given the same reference numerals as much as possible even though they are indicated on different drawings. In addition, in describing the present invention, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, preferred embodiments of the present invention will be described below, but the technical spirit of the present invention is not limited thereto and may be variously implemented by those skilled in the art without being limited thereto.

본 발명은 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템(1000)에 관한 것이다. 보다 상세하게는 비대면 회의 시스템에서 실시간으로 재생되는 음성 또는 영상정보의 인식을 통해 실시간 자막을 자동 생성할 수 있도록 하여 청각장애인의 참여 어려움을 해소하는 데 도움을 주고, 회의록, 녹취록 등의 속기가 필요한 영역의 인력을 대체하여 활용 가능하며, 잘못된 번역으로 인한 내용 전달의 오류를 감소시키고 정확한 의미 전달에 기여할 수 있도록 하고, 감정특징표시부(90)를 구비함으로써, 자막과 함께 억양과 감정 상태를 표시함에 따라 청각 장애인의 보다 정확한 이해에 도움을 주는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 (1000)에 관한 것이다. The present invention relates to a video conference providing system 1000 for enhancing communication accessibility of the hearing impaired. More specifically, real-time subtitles can be automatically generated through the recognition of audio or video information played in real time in the non-face-to-face conference system, helping to solve the difficulties of participation by the hearing impaired, and shorthand for meeting minutes and transcripts. It can be used as a replacement for manpower in the necessary area, reduces errors in content delivery due to incorrect translation and contributes to accurate meaning delivery, and by having an emotional characteristic display unit 90, displays the intonation and emotional state with subtitles Accordingly, it relates to a video conference providing system (1000) for strengthening communication accessibility of the hearing impaired, which helps the hearing impaired to have a more accurate understanding.

도 1은 본 발명의 바람직한 실시예에 따른 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 (1000)의 개념도이다.1 is a conceptual diagram of a video conference providing system 1000 for enhancing communication accessibility of the hearing impaired according to a preferred embodiment of the present invention.

도 1 내지 도 2를 참조하면, 본 발명의 바람직한 실시예에 따른 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 (1000)은 회원가입부(10), 참가자식별부(20), 음성신호인식부(30), 스크립트 생성부(40), 학습처리부(50), 노이즈학습부(60), 감정특징추출부(70), 자막생성부(80), 감정특징표시부(90), 회의록생성부(100), 및 검수부(110)를 포함하여 구성된다.1 to 2, the video conference providing system 1000 for enhancing communication accessibility of the hearing impaired according to a preferred embodiment of the present invention includes a member registration unit 10, a participant identification unit 20, and voice signal recognition. Unit 30, script generation unit 40, learning processing unit 50, noise learning unit 60, emotion feature extraction unit 70, subtitle generation unit 80, emotion characteristic display unit 90, meeting minutes generation unit (100), and is configured to include the inspection unit (110).

이하, 회원가입부(10)부터 상세히 설명하기로 한다.Hereinafter, the member registration unit 10 will be described in detail.

회원가입부(10)는 화상회의에 참가하는 참가자들이 PC나 스마트기기를 포함하는 단말기를 이용하여 3G, LTE, Wi-fi 등의 무선인터넷 환경에서 ID, 이름, 나이, 청각 장애 여부와 정도를 포함하는 개인정보를 입력하고 회원가입을 한다.The membership registration unit 10 allows participants participating in the video conference to use a terminal including a PC or a smart device to check ID, name, age, and the degree of hearing impairment in a wireless Internet environment such as 3G, LTE, Wi-fi, etc. Enter your personal information and register as a member.

참가자 식별부는 회원가입부(10)에 의한 회원가입 후 로그인한 정보를 관리하고 참가자를 식별하며, 화상회의 시 다수의 참가자들의 발언을 각기 구분하기 위함이다. The participant identification unit manages log-in information after membership registration by the member registration unit 10, identifies participants, and separates the remarks of a plurality of participants during a video conference.

음성신호인식부(30)은 실시간으로 송출되는 방송 데이터로부터 음성신호를 추출하여 음성 데이터를 생성한다. The voice signal recognition unit 30 generates voice data by extracting a voice signal from broadcast data transmitted in real time.

또한, 음성신호인식부(30)는 실시간 스트리밍 음성신호가 아닌 음성 또는 영상을 파일 형태로 업로드하면 업로드된 파일로부터 음성정보를 추출하고 그 음성정보의 내용을 실시간으로 자막화하는 음성파일추출모듈(미도시)이 포함될 수 있다. In addition, the voice signal recognition unit 30 is a voice file extraction module ( not shown) may be included.

음성파일추출모듈(미도시)은 회의 녹음과 같이 음성파일을 업로드하였을 때 그 음성파일의 내용을 실시간으로 자막화하여 나타낼 수 있도록 한다. The audio file extraction module (not shown) enables the content of the audio file to be displayed by subtitling in real time when the audio file is uploaded, such as a conference recording.

또한, 음성신호인식부(30)는 URL 형태의 영상 파일을 삽입하고 삽입된 영상 파일에서 오디오 스트리밍 파일을 추출하는 오디오 스트리밍 음성파일추출모듈(미도시)이 구비되어 영상 파일로부터 음성 스트리밍만을 선택적으로 추출할 수 있다. In addition, the voice signal recognition unit 30 is provided with an audio streaming audio file extraction module (not shown) that inserts an image file in the form of a URL and extracts an audio streaming file from the inserted image file, so that only audio streaming from the image file is selectively provided. can be extracted.

스크립트생성부는 음성데이터과 연관되는 스크립트(script)를 생성한다. 보다 구체적으로, 스크립트생성부는 음성데이터에 대응되는 텍스화된 문서인 스크립트(script)를 생성하도록 한다. The script generator generates a script associated with the voice data. More specifically, the script generator generates a script that is a textualized document corresponding to voice data.

학습처리부(50)는 음성 데이터를 수초 단위로 잘라 학습이 용이한 크기로 처리하고 해당 음성에 대응되는 스크립트에 따라 텍스트 데이터를 불러와 음성데이터와 텍스트 데이터를 싱크(sync)시켜 하나의 학습데이터 쌍으로 가공하며, 기계학습에 의해 학습시킨다. The learning processing unit 50 cuts the voice data in units of several seconds, processes it into a size that is easy to learn, calls the text data according to the script corresponding to the voice, and synchronizes the voice data and the text data to form one learning data pair. processed by machine learning.

이때, 학습처리부(50)는 음성 데이터의 특정 시간대에 특정 텍스트 문자열이 발생되는 위치를 확률로 산출하여 가장 적절한 상태열을 탐색하여 정렬시키도록 한다. In this case, the learning processing unit 50 calculates a position where a specific text string is generated in a specific time period of the voice data with a probability, and searches for and arranges the most appropriate state string.

예컨대, 1시간의 음성데이터와 그에 대응되는 3000자의 텍스트 데이터를 각각 정렬하고 이를 7초 단위로 자르고 음성 데이터의 특정 시간대에 특정 단어가 발생하는 위치를 식별하여 음성과 텍스트를 싱크(sync) 시키도록 한다. For example, one hour of voice data and 3,000 characters of text data corresponding thereto are sorted, cut in 7-second units, and the location where a specific word occurs in a specific time of the voice data is identified to synchronize the voice and text. do.

이때, 학습처리부(50)는 인식된 음성 데이터가 어떤 음소, 단어, 문장으로 구성되었는지 확인하며, 바로 전 시간(t-1)의 state를 기억한 후 마지막에 경로 역추적(path backtracking)을 통해 가장 확률이 높은 best state sequence를 찾아 결과로 출력하도록 한다.At this time, the learning processing unit 50 checks which phonemes, words, and sentences the recognized voice data is composed of, remembers the state of the immediately preceding time (t-1), and finally through path backtracking. Find the best state sequence with the highest probability and output it as a result.

이후, 학습처리부(50)는 하나의 쌍으로 형성된 학습데이터를 기계학습에 의해 학습시킨다. 학습된 모델을 토대로 음성데이터를 인식하면 음성데이터로부터 출력되는 자막이 생성될 수 있다. Thereafter, the learning processing unit 50 learns the learning data formed as a pair by machine learning. When voice data is recognized based on the learned model, subtitles output from the voice data can be generated.

또한, 학습처리부(50)는 복수 개의 학습데이터 중 상대적으로 학습이 쉬운 짧은 학습 데이터를 우선적으로 학습시켜 동작시키도록 하고, 학습된 언어모델과 음성모델을 토대로 실시간 음성 데이터를 인식하여 실시간으로 자막을 생성하도록 한다. In addition, the learning processing unit 50 preferentially learns and operates short learning data, which is relatively easy to learn, among a plurality of learning data, and recognizes real-time voice data based on the learned language model and voice model to provide subtitles in real time. to create

언어모델은 음성모델의 결과로 도출된 예측 데이터를 실제 존재할 수 있는 문장인지 확인하고 보정하는 과정을 거쳐 음성인식 결과를 텍스트로 출력시키고, 문장이 실제 사용되는 문장으로 존재할 확률 분석을 통해 인식 성능을 향상시켜 생성되도록 한다. The language model checks and corrects the prediction data derived as a result of the speech model whether it is a sentence that can actually exist, outputs the result of speech recognition as text, and improves recognition performance by analyzing the probability that the sentence exists as a sentence that is actually used. to improve and create.

음성모델은 뉴스, 드라마, 다큐, 웹데이터를 포함하는 정보로부터 반복적 학습을 수행하도록 한다. The voice model allows iterative learning from information including news, drama, documentary, and web data.

생성된 언어모델과 음성모델은 데이터베이스(미도시)에 저장되고 학습처리부(50)에 의해 새로운 데이터가 학습화될 때마다 업데이트 된다. The generated language model and voice model are stored in a database (not shown) and are updated whenever new data is learned by the learning processing unit 50 .

노이즈학습부(60)는 반향 상태, 잡음 제거 처리를 수행하기 위한 것으로, 학습처리부(50)의 학습데이터 쌍에 대응되는 음성데이터에 단계별로 노이즈를 추가하여 학습처리부(50)에서 가공된 학습데이터 쌍에 정렬하고, 학습데이터 쌍에 노이즈를 단계별로 가공하여 노이즈에 대한 학습을 수행하여 노이즈를 제거할 수 있도록 한다.The noise learning unit 60 is for performing reverberation state and noise removal processing, and the learning data processed by the learning processing unit 50 by adding noise step by step to the voice data corresponding to the learning data pair of the learning processing unit 50 It is possible to remove the noise by aligning the pairs and processing the noise step-by-step in the training data pair to learn about the noise.

보다 상세하게는, 노이즈가 단계별로 포함된 음성모델을 각기 준비하여 학습처리부(50)의 학습데이터 쌍에 대응되게 정렬하여 정제함에 따라 정확도 향상을 기대할 수 있다. 따라서, 전체 단어 모델은 학습처리부(50)로 모든 자릿수에 정확한 음성 데이터로 가공하고, 노이즈학습부(60)로 잡음을 단계별로 추가하여 모든 발화는 표준이 되는 음성 모델로 수회 강제 정렬을 수행하여 학습 및 노이즈 제거를 통해 정제하여 정확도를 높이도록 한다.More specifically, it can be expected to improve accuracy by preparing each speech model including noise step by step and aligning it to correspond to the training data pair of the learning processing unit 50 and refining it. Therefore, the whole word model is processed into voice data that is accurate to every digit with the learning processing unit 50, and noise is added step by step with the noise learning unit 60. It is refined through learning and noise removal to increase the accuracy.

또한, 본 발명에서는 학습처리부(50)에 의해 학습된 언어모델과 음성모델을 토대로 실시간 음성 데이터를 인식하고, 노이즈학습부(60)로 노이즈에 대해 단계별로 학습시킨 음성데이터에 실시간으로 자막을 생성하며, 생성된 언어모델과 음성모델은 데이터베이스에 저장되고, 학습처리부(50)와 노이즈학습부(60)에 의해 새로운 데이터가 학습될 때마다 일정 주기를 두고 업데이트되는 것을 특징으로 한다.Also, in the present invention, real-time speech data is recognized based on the language model and the speech model learned by the learning processing unit 50, and subtitles are generated in real time on the speech data learned step by step by the noise learning unit 60. The generated language model and voice model are stored in a database, and are updated at regular intervals whenever new data is learned by the learning processing unit 50 and the noise learning unit 60 .

감정특징추출부(70)는 음성신호익식부의 음성 데이터로부터 억양을 추출하고, 특정 감정 표현이 포함된 말이나 소리를 별도의 음성데이터로 추출한다.The emotional feature extraction unit 70 extracts intonation from the voice data of the voice signal recognition unit, and extracts words or sounds containing specific emotional expressions as separate voice data.

특히, 감정특징추출부(70)는 화상회의에서 청각장애인의 맥락 이해에 도움을 주기 위한 것으로, 화상회의 영상에서 화자의 입모양, 변환된 자막과 함께 억양과 특정 감정 표현이 포함된 말이나 소리를 별도로 추출하여 감정특징표시부(90)로 자막과 함께 나타내도록함으로써 맥락 이해에 도움을 줄 뿐만 아니라 청각장애인도 출력되는 정보로 불완전한 자막을 선별할 수 있도록 도움을 주어 자막의 정확도 향상에 기여한다.In particular, the emotional feature extraction unit 70 is to help the deaf person understand the context in the video conference, and the speech or sound containing the intonation and specific emotional expression along with the speaker's mouth shape and the converted subtitles in the video conference video. By separately extracting and displaying the subtitles together with the subtitles by the emotional characteristic display unit 90, it not only helps to understand the context, but also helps the hearing impaired to select incomplete subtitles from the output information, thereby contributing to the improvement of the accuracy of subtitles.

자막생성부(80)는 음성데이터에 대응되는 자막데이터를 생성하도록 한다. The caption generator 80 generates caption data corresponding to the audio data.

감정특징표시부(90)는 감정특징추출부(70)에서 추출한 억양을 도식화하여 나타내고, 특정 감정 표현의 자막이 포함되는 부분에는 해당 감정 상태를 별도 표시한다. The emotional characteristic display unit 90 schematically displays the intonation extracted by the emotional characteristic extraction unit 70, and separately displays the corresponding emotional state in a portion including a caption of a specific emotional expression.

일례로, 감정특징표시부(90)는 DB에 특정 감정 표현을 별도로 저장해두는 데, 웃음 소리, 흐느끼는 소리, 우는 소리 등을 포함하는 소리가 저장되거나 말에서 기쁨, 슬픔, 화남 등의 감정표현이 포함된 말을 저장하여 해당 소리나 표현이 감지되었을 경우, 자막과 별도로 표시하도록 하여 청각장애인들에게 화상회의의 발언 이해에 도움을 준다.As an example, the emotional characteristic display unit 90 separately stores specific emotional expressions in the DB, and sounds including laughter, sobbing, crying, etc. are stored, or emotional expressions such as joy, sadness, and anger are stored in words. By storing the spoken words and displaying the corresponding sound or expression separately from the subtitles, it helps the hearing impaired to understand the remarks of the video conference.

회의록생성부(100)는 참가자식별부(20)에서 식별된 각 참가자별로 자막생성부(80)에서 생성된 자막을 매칭하여 특정 조건에 부합하는 회의록을 생성한다. 여기서 특정 조건은 특정 참가자 발언의 자막만 추출하여 회의록을 작성한다든지 특정 참가자를 제외하고, 회의록을 작성하는 등의 다양한 조건에 따라 회의록을 작성할 수 있도록 한다.The meeting minutes generating unit 100 matches the subtitles generated by the subtitle generating unit 80 for each participant identified by the participant identification unit 20 to generate meeting minutes meeting specific conditions. Here, the specific condition allows to write the minutes by extracting only the subtitles of a specific participant's remarks or to write the minutes according to various conditions such as excluding specific participants and writing the minutes.

검수부(110)는 음성데이터와 그와 대응되는 텍스트로 결합된 한 쌍의 학습 데이터가 정확히 매칭되었는지 매칭정확도를 검수하고, 복수 개의 학습데이터 중 일부를 샘플링하여 음성 데이터와 텍스트 데이터와의 매칭이 제대로 이루어졌는 지를 검수하며, 음성모델과 언어모델로부터 음성데이터와 텍스트 데이터 간의 매칭을 토대로 신뢰도(confidence)를 측정하여 측정된 신뢰도가 기 설정된 표준값 미만일 경우에는 음성데이터와 텍스트 데이터와의 매칭이 잘못 이루어졌다고 판단하여 해당 부분의 영상데이터와 음성데이터, 텍스트 데이터, 및 감정특징표시부(90)에서 도시하는 억양, 감정 상태를 제공하여 청각장애인을 포함하는 사용자에게 검수를 요청할 수 있도록 한다.The inspection unit 110 inspects the matching accuracy whether the voice data and the pair of learning data combined with the corresponding text match exactly, and samples some of the plurality of learning data to ensure that the voice data and text data are matched. It is checked whether it is done properly, and the confidence is measured based on the matching between the voice data and the text data from the voice model and the language model. It is judged that it is lost, and the intonation and emotional state shown in the image data, audio data, text data, and emotion characteristic display unit 90 of the corresponding part are provided so that the user including the hearing impaired can request an inspection.

검수부(110)는 잘못된 번역으로 인한 내용 전달의 오류를 감소시키고, 학습을 통해 업데이트되며 정확한 의미 전달에 기여할 수 있도록 한다. The inspection unit 110 reduces errors in content delivery due to incorrect translation, and is updated through learning and contributes to accurate meaning delivery.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of the present invention, and various modifications, changes and substitutions are possible within the scope that does not depart from the essential characteristics of the present invention by those of ordinary skill in the art to which the present invention pertains. will be. Accordingly, the embodiments disclosed in the present invention and the accompanying drawings are for explaining, not limiting, the technical spirit of the present invention, and the scope of the technical spirit of the present invention is not limited by these embodiments and the accompanying drawings. . The protection scope of the present invention should be construed by the following claims, and all technical ideas within the equivalent range should be construed as being included in the scope of the present invention.

10 - 회원가입부
20 - 참가자식별부
30 - 음성신호인식부
40 - 스크립트 생성부
50 - 학습처리부
60 - 노이즈학습부
70 - 감정특징추출부
80 - 자막생성부
90 - 감정특징표시부
100 - 회의록생성부
110 - 검수부
1000 - 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템
10 - Membership
20 - Participant Identification Unit
30 - voice signal recognition unit
40 - script generator
50 - learning processing unit
60 - Noise learning unit
70 - Emotion feature extraction unit
80 - subtitle generator
90 - Emotion characteristic display unit
100 - Minutes Generation Department
110 - Inspection Department
1000 - Video conferencing system to enhance communication accessibility of the hearing impaired

Claims (3)

화상회의에 참가하는 참가자들의 ID, 이름, 나이, 청각 장애 여부와 정도를 포함하는 개인정보를 입력받는 회원가입부;
회원가입부에 의한 회원가입 후 로그인한 정보를 관리하고 화상회의 참가자를 식별하는 참가자식별부;
화상회의에서 실시간으로 재생되는 음성 또는 영상정보로부터 음성신호를 추출하여 음성 데이터를 생성하는 음성신호인식부;
음성 데이터와 대응되는 스크립트(script)를 생성하는 스크립트 생성부;
음성 데이터를 수초 단위로 분리하여 학습이 용이한 크기로 처리하고, 해당 음성에 대응되는 스크립트에 따라 텍스트 데이터를 불러와 음성데이터와 텍스트 데이터를 싱크(sync)시켜 하나의 학습데이터 쌍으로 가공하며, 기계학습에 의해 학습시키는 학습처리부; 및
음성데이터에 대응되는 자막데이터를 생성하는 자막생성부
를 포함하는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 .
Member registration unit for receiving personal information including ID, name, age, hearing impairment and degree of participants participating in the video conference;
a participant identification unit that manages log-in information after membership registration by the member registration unit and identifies video conference participants;
a voice signal recognition unit for generating voice data by extracting a voice signal from voice or image information reproduced in real time in a video conference;
a script generator for generating a script corresponding to the voice data;
It separates the voice data by a few seconds and processes it into a size that is easy to learn, calls the text data according to the script corresponding to the voice, synchronizes the voice data and the text data, and processes it into one learning data pair. Learning processing unit for learning by machine learning; and
A caption generator for generating caption data corresponding to the audio data
A system for providing video conferencing to enhance communication accessibility for the hearing impaired, including .
제1항에 있어서,
학습처리부의 학습데이터 쌍에 대응되는 음성데이터에 단계별로 노이즈를 추가하여 학습처리부에서 가공된 학습데이터 쌍에 정렬하고, 학습데이터 쌍에 노이즈를 단계별로 가공하여 노이즈에 대한 학습을 수행하는 노이즈학습부
를 더 포함하는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템
According to claim 1,
A noise learning unit that adds noise step by step to the voice data corresponding to the learning data pair of the learning processing unit, aligns it with the training data pair processed in the learning processing unit, and processes the noise in the learning data pair step by step to learn about the noise
A system for providing video conferencing to enhance communication accessibility of the hearing impaired, including further
제1항 또는 제2항에 있어서
음성신호익식부의 음성 데이터로부터 억양을 추출하고, 특정 감정 표현이 포함된 말이나 소리를 별도의 음성데이터로 추출하는 감정특징추출부
를 더 포함하는 청각장애인의 소통 접근성 강화를 위한 화상회의 제공 시스템 .
3. The method of claim 1 or 2
Emotion feature extraction unit that extracts intonation from the voice data of the voice signal recognition unit and extracts words or sounds containing specific emotional expressions as separate voice data
A system for providing video conferencing to enhance communication accessibility of the hearing impaired, including further.
KR1020210006111A 2021-01-15 2021-01-15 Video conferencing system to enhance communication accessibility for the hearing impaired KR102426645B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210006111A KR102426645B1 (en) 2021-01-15 2021-01-15 Video conferencing system to enhance communication accessibility for the hearing impaired

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210006111A KR102426645B1 (en) 2021-01-15 2021-01-15 Video conferencing system to enhance communication accessibility for the hearing impaired

Publications (2)

Publication Number Publication Date
KR20220103477A true KR20220103477A (en) 2022-07-22
KR102426645B1 KR102426645B1 (en) 2022-07-29

Family

ID=82606123

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210006111A KR102426645B1 (en) 2021-01-15 2021-01-15 Video conferencing system to enhance communication accessibility for the hearing impaired

Country Status (1)

Country Link
KR (1) KR102426645B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116527840A (en) * 2023-07-05 2023-08-01 卓望数码技术(深圳)有限公司 Live conference intelligent subtitle display method and system based on cloud edge collaboration

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH052399A (en) * 1991-06-25 1993-01-08 Toshiba Corp Speech recognition device
JP2019179314A (en) * 2018-03-30 2019-10-17 本田技研工業株式会社 Conference system, control method therefor, and program
KR20200081062A (en) * 2018-12-27 2020-07-07 주식회사 케이티 Device, server and method for providing call connection video using avatar
KR102135643B1 (en) * 2019-09-04 2020-07-20 (주) 소프트기획 Real-time intelligent shorthand service providing system using voice recognition engine

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH052399A (en) * 1991-06-25 1993-01-08 Toshiba Corp Speech recognition device
JP2019179314A (en) * 2018-03-30 2019-10-17 本田技研工業株式会社 Conference system, control method therefor, and program
KR20200081062A (en) * 2018-12-27 2020-07-07 주식회사 케이티 Device, server and method for providing call connection video using avatar
KR102135643B1 (en) * 2019-09-04 2020-07-20 (주) 소프트기획 Real-time intelligent shorthand service providing system using voice recognition engine

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116527840A (en) * 2023-07-05 2023-08-01 卓望数码技术(深圳)有限公司 Live conference intelligent subtitle display method and system based on cloud edge collaboration

Also Published As

Publication number Publication date
KR102426645B1 (en) 2022-07-29

Similar Documents

Publication Publication Date Title
US10176366B1 (en) Video relay service, communication system, and related methods for performing artificial intelligence sign language translation services in a video relay service environment
KR102061044B1 (en) Method and system for translating sign language and descriptive video service
Fernandez-Lopez et al. Towards estimating the upper bound of visual-speech recognition: The visual lip-reading feasibility database
Provine et al. Laughter among deaf signers
US20220327309A1 (en) METHODS, SYSTEMS, and MACHINE-READABLE MEDIA FOR TRANSLATING SIGN LANGUAGE CONTENT INTO WORD CONTENT and VICE VERSA
CN106328146A (en) Video subtitle generation method and apparatus
KR102135643B1 (en) Real-time intelligent shorthand service providing system using voice recognition engine
US11908449B2 (en) Audio and video translator
Wagner et al. The big australian speech corpus (the big asc)
Kumar et al. Translations of the CALLHOME Egyptian Arabic corpus for conversational speech translation
KR102426645B1 (en) Video conferencing system to enhance communication accessibility for the hearing impaired
Ramadani et al. A new technology on translating Indonesian spoken language into Indonesian sign language system.
US20210264812A1 (en) Language learning system and method
US11587561B2 (en) Communication system and method of extracting emotion data during translations
KR102318150B1 (en) Hand sign language image generation system based on Generative Adversarial Networks
US11848026B2 (en) Performing artificial intelligence sign language translation services in a video relay service environment
Hanson Computing technologies for deaf and hard of hearing users
CN111160051B (en) Data processing method, device, electronic equipment and storage medium
CN113903327A (en) Voice environment atmosphere recognition method based on deep neural network
Cordella Discourse Analysis and Subtitles of Documentaries: the case of" The children of Russia"
CN112309183A (en) Interactive listening and speaking exercise system suitable for foreign language teaching
Pucci Towards Universally Designed Communication: Opportunities and Challenges in the Use of Automatic Speech Recognition Systems to Support Access, Understanding and Use of Information in Communicative Settings
Agarwal et al. Towards MOOCs for lipreading: Using synthetic talking heads to train humans in lipreading at scale
KR20130065064A (en) The sign language providing system using auto-transformed voice recognition data
Cahyaningrum et al. HOW ACCURATE GOOGLE TRANSLATE IN TRANSLATING JAVANESE HUMOUR “MBAH MINTO VS BOCIL” INTO ENGLISH VERSION

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant