KR20120073795A - 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법 - Google Patents

수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법 Download PDF

Info

Publication number
KR20120073795A
KR20120073795A KR1020100135668A KR20100135668A KR20120073795A KR 20120073795 A KR20120073795 A KR 20120073795A KR 1020100135668 A KR1020100135668 A KR 1020100135668A KR 20100135668 A KR20100135668 A KR 20100135668A KR 20120073795 A KR20120073795 A KR 20120073795A
Authority
KR
South Korea
Prior art keywords
video
sign language
conference
subtitles
image
Prior art date
Application number
KR1020100135668A
Other languages
English (en)
Inventor
김희숙
김정훈
Original Assignee
엘지에릭슨 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지에릭슨 주식회사 filed Critical 엘지에릭슨 주식회사
Priority to KR1020100135668A priority Critical patent/KR20120073795A/ko
Publication of KR20120073795A publication Critical patent/KR20120073795A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

일반 회의참여자와 청각장애인 회의참여자 간에 원활한 화상회의가 가능하도록 하는, 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법이 개시된다. 본 발명에 의하면, 적어도 두 명의 회의참여자(적어도 한 명의 장애 회의참여자, 적어도 한 명의 일반 회의참여자를 포함함) 간의 화상회의 서비스시에, 제1 회의참여자의 수화 영상으로부터 수화에 대응하는 자막을 추출하여 수화 영상에 추가하고, 제2 회의참여자의 회의 영상으로부터 음성에 대응하는 자막을 추출하여 회의 영상에 추가한다. 그리고 수화가 자막으로 변환된 제1 회의참여자의 영상과 음성이 자막으로 변환된 제2 회의참여자의 영상을 하나의 화면으로 혼합하여 제1 및 제2 회의참여자의 단말로 각각 전송한다.

Description

수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법{VIDEO CONFERENCE SYSTEM AND METHOD USING SIGN LANGUAGE TO SUBTITLE CONVERSION FUNCTION}
본 발명은 화상회의 기술분야에 관한 것으로, 더욱 상세하게는 장애인(특히 청각장애인)과 비장애인(일반인) 간에 원활한 화상회의가 가능하도록 하는, 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법에 관한 것이다.
비디오 화상회의 시스템은 다자간의 음성 및 화상을 종합하여 그 데이터를 혼합(mixing)하여 각 회의참여자에게 보내는 기능을 한다. 각 회의참여자는 인터넷 전화기, 이동통신 단말기, 영상 단말기 등의 기기를 이용하여 회의에 참여할 수 있다. 화상회의 시스템은 각 회의참여자들에게서 인코딩된 영상을 받아 디코딩(decoding)하고 각 회의참여자들의 영상을 크기 변환(resize)한 후 하나의 화면으로 합쳐(영상 혼합, mixing) 하나로 합쳐진 영상을 인코딩(encoding)하여 다시 각 회의참여자들에게 전송한다. 이때 각 회의참여자는 자신의 기기에 맞는 코덱과 비디오 해상도로 변환된 화면을 수신받는다.
비디오 화상회의 시스템은 화상회의 전에 미리 회의에 대한 특성을 예약할 수 있도록 하는 서비스를 제공한다. 예약 서비스에서 각 회의참여자의 단말에 대한 영상 코덱, 해상도, 출력화면의 해상도 및 회의 시간 등을 설정할 수 있다. 특히 송신 및 수신시 각 회의참여자의 특성에 맞게 음성/영상/음성 및 영상을 선택할 수 있다.
수화는 청각장애인이 사용하는 의사소통 수단으로, 손 제스처(gestures)로 구성되며 언어적인 구조를 가지고 있다. 청각장애인은 수화를 통해 대화를 하는데, 수화를 알지 못하는 일반 회의참여자(일반인)와 화상회의가 불가능하다. 또한 음성으로 대화하는 일반 회의참여자들은 음성을 듣지 못하는 장애 회의참여자(청각장애인)와 화상회의가 불가능하다.
본 발명의 목적은 장애 회의참여자의 수화를 자막(또는 음성)으로 변환하여 일반 회의참여자에게 제공하고, 일반 회의참여자의 음성을 자막으로 변환하여 장애 회의참여자에게 제공함으로써, 장애인과 비장애인 간에 원활한 화상회의가 가능하도록 하는 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법을 제공하는 것이다.
본 발명의 일 특징에 따르면, 일반 회의참여자와 청각장애인 회의참여자 간에 원활한 화상회의가 가능하도록 하는, 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법이 개시된다. 본 발명에 의하면, 적어도 두 명의 회의참여자(적어도 한 명의 장애 회의참여자, 적어도 한 명의 일반 회의참여자를 포함함) 간의 화상회의 서비스시에, 제1 회의참여자의 수화 영상으로부터 수화에 대응하는 자막을 추출하여 수화 영상에 추가하고, 제2 회의참여자의 회의 영상으로부터 음성에 대응하는 자막을 추출하여 회의 영상에 추가한다. 그리고 수화가 자막으로 변환된 제1 회의참여자의 영상과 음성이 자막으로 변환된 제2 회의참여자의 영상을 하나의 화면으로 혼합하여 제1 및 제2 회의참여자의 단말로 각각 전송한다.
본 발명에 의하면, 일반 회의참여자와 청각장애인 회의참여자 간에 원활한 화상회의가 가능한 이점이 있다.
도1은 본 발명의 실시예에 따라 화상회의 시스템의 구성을 도시한 도면.
도2는 본 발명의 실시예에 따라 수화-자막 변환부의 상세한 구성을 도시한 도면.
도3은 본 발명의 실시예에 따라 음성-자막 변환부의 상세한 구성을 도시한 도면.
도4는 본 발명의 실시예에 따라 화상회의 예약 화면을 도시한 도면.
도5는 본 발명의 실시예에 따라 화상회의 과정을 도시한 도면.
이하 첨부된 도면을 참조하여 본 발명의 실시예들에 대해 상세히 설명한다. 다만, 이하의 설명에서는 본 발명의 요지를 불필요하게 흐릴 우려가 있는 경우, 널리 알려진 기능이나 구성에 관한 구체적 설명은 생략하기로 한다.
도1은 본 발명의 실시예에 따라 화상회의 시스템의 구성을 도시한 도면이다. 이하에서 제1 회의참여자는 적어도 한 명의 장애 회의참여자(청각장애인)를 통칭하고, 제2 회의참여자는 적어도 한 명의 일반 회의참여자(일반인)를 통칭한다. 본 발명에서 화상회의 서비스는 제1 회의참여자와 제2 회의참여자 간에 이루어진다.
도1에 도시된 바와 같이, 본 발명에 따른 화상회의 시스템은, 다수의 수화 이미지 패턴과 이에 대응되는 자막, 다수의 음성 패턴과 이에 대응되는 자막을 저장하고 있는 DB(18)와, 적어도 두 명의 회의참여자의 인코딩 영상을 수신받아 각각 디코딩하는 디코더(decoder)(11)와, 회의참여자들의 영상을 크기 변환하는 크기 변환부(resizer)(12)와, 크기 변환된 제1 회의참여자(청각장애인)의 수화 영상으로부터 수화에 대응하는 자막을 추출하여 수화 영상에 추가하는 수화-자막 변환부(16)와, 크기 변환된 제2 회의참여자(일반인)의 회의 영상으로부터 음성에 대응하는 자막을 추출하여 회의 영상에 추가하는 음성-자막 변환부(17)와, 수화가 자막으로 변환된 제1 회의참여자의 영상과 음성이 자막으로 변환된 제2 회의참여자의 영상을 하나의 화면으로 혼합하는 영상 혼합부(mixer)(13)와, 혼합된 영상을 인코딩하는 인코더(encoder)(14)와, 인코딩된 혼합 영상을 제1 및 제2 회의참여자의 단말로 각각 전송하는 전송부(15)를 포함한다.
여기서 제1 회의참여자(청각장애인)의 수화 영상은 자막과 함께 제공될 뿐만 아니라, 또는 자막을 음성으로 변환하여 음성과 함께, 또는 자막 및 음성과 함께 제2 회의참여자(일반인)에게 제공될 수 있다. 이를 위해, 수화-자막 변환부(16)에 의해 추출된 자막을 음성으로 변환하여 수화 영상에 추가하는 자막-음성 변환부(미도시됨)를 더 포함한다. 이 경우 영상 혼합부(13)는 수화가 음성, 또는 자막 및 음성으로 변환된 제1 회의참여자의 영상과, 음성이 자막으로 변환된 제2 회의참여자의 영상을 회의참여자들의 수와 해상도를 고려하여 하나로 합친다.
제1 및 제2 회의참여자는 화상회의 전에 예약 서비스를 통해 송, 수신 방식을 사전에 선택할 수 있는데, 도4에 도시된 바와 같이 송신시 음성(voice only), 영상(video only), 음성 및 영상(voice/video), 수화(signed language) 중 어느 하나를 선택할 수 있고, 수신시 음성, 영상, 음성 및 영상, 텍스트(text/video) 중 어느 하나를 선택할 수 있다. 만약 제1 회의참여자가 송신시 '수화'를 선택하고 수신시 '텍스트'를 선택한 경우, 제1 회의참여자의 수화 영상과 더불어 제1 회의참여자의 수화에 대응하는 자막(나아가 자막에 대응하는 음성, 또는 자막 및 음성)이 제2 회의참여자에게 함께 전달되고, 제2 회의참여자의 영상과 더불어 제2 회의참여자의 음성에 대응하는 자막이 제1 회의참여자에게 함께 전달된다. 또한 제1 및 제2 회의참여자는 비디오 및 오디오 코덱, 비디오 해상도, 출력 레이아웃 등을 사전에 추가적으로 설정할 수도 있다. 즉 청각장애인이 송신방식을 '수화'로 설정하고 수신방식을 '텍스트(자막)'로 설정한 경우, 청각장애인은 일반 회의참여자들의 영상에 자막이 포함된 화상회의 서비스를 받을 수 있고, 일반 회의 참여자들은 청각장애인의 수화 영상에 자막(즉 수화가 해석된 자막)이 포함된 화상회의 서비스를 받을 수 있다. 이는 일반 회의참여자가 수신 방식을 음성 및 영상으로 설정해 둔 경우라도, 상대측 회의참여자인 청각장애인이 송신 방식을 수화로 설정하면 가능하다.
상기에서는 회의참여자의 영상 크기를 변환한 후, 수화-자막 변환 및 음성-자막 변환하는 것을 예로 들었으나, 수화-자막 변환 및 음성-자막 변환 후 영상 크기를 변환하는 것 역시 가능할 것이다. 영상의 크기 변환 과정은 영상 혼합 과정 이전에 수행되기만 하면 족하다.
수화-자막 변환부(16)는 제1 회의참여자(청각장애인)의 수화를 해석하여 자막(또는 자막에 대응하는 음성, 또는 자막 및 음성이 가능함)으로 변환하는 기능을 수행한다. 즉 제1 회의참여자의 단말로부터 인코딩된 수화 영상을 수신하면 수화에 맞는 자막을 찾아 제1 회의참여자의 영상에 자막을 추가한다. 이를 위해 DB(18)에는 수화 이미지 패턴과 이에 대응되는 자막이 저장되어 있고, 수화-자막 변환부(16)는 수화 동작을 캡쳐한 화면을 저장된 패턴과 비교한 후 자막으로 변환한다. 도3을 참조하여 수화-자막 변환부(16)의 구성을 살펴보면, 제1 회의참여자의 수화 영상을 스캔하는 영상 스캔부(21)와, 스캔된 수화 영상을 프레임화하여 적어도 하나의 수화 영상 패턴을 저장하는 영상 저장부(22)와, 수화 영상 패턴에 매칭되는 수화 이미지 패턴을 검색하는 영상 비교부(23)와, 매칭된 수화 이미지 패턴에 대응되는 자막을 수화 영상에 추가하는 영상 변환부(24)를 포함한다.
수화의 지화, 명사, 동사, 형용사, 조사 등 의미있는 수화 이미지 패턴은 데이터베이스(18)에 저장된다. 이 저장된 수화 이미지 패턴은 스캔한 수화 영상과 비교할 때 사용된다.
영상 스캔부(21)는 제1 회의참여자의 수화 영상을 스캔(캡쳐)하여 영상 저장부(22)로 전달한다. 영상 저장부(22)는 스캔된 수화 영상을 프레임화하여 다수의 수화 영상 패턴을 저장한다. 영상 비교부(23)는 스캔한 수화 영상 패턴을 데이터베이스(18)에 저장된 수화 이미지 패턴과 비교한다. 만약 매칭되는 패턴이 데이터베이스(18)에서 검색되면, 매칭된 수화 이미지 패턴에 대응되는 자막을 영상 변환부(24)로 전달한다. 영상 변환부(24)는 제1 회의참여자의 영상에 자막을 포함시켜 영상 혼합부(13)로 전달한다.
여기서 영상 비교부(23)는 스캔한 수화 영상 패턴과 일치하는 수화 이미지 패턴을 찾지 못하면, 다음으로 스캔된 수화 영상 패턴과 합쳐서 비교하게 된다. 즉, n번째 수화 영상 패턴과 동일한 수화 이미지 패턴이 데이터베이스(18)에 없는 경우, n+(n+1), n+(n+1)+(n+2) 패턴을 합쳐서 매칭되는 패턴을 검색한다. 매칭되는 수화 이미지 패턴을 찾으면, 이에 대응하는 자막을 영상 변환부(24)로 전송하고, 영상 변환부(24)는 수화 영상에 자막이 추가된 수화+자막 데이터를 (크기 변환 과정이 수화-자막 변환 과정 이전에 선행된 경우) 영상 혼합부(13)로 전달한다. 만약 크기 변환 과정이 수화-자막 변환 과정 이전에 선행되지 않은 경우, 영상 변환부(24)는 수화+자막 데이터를 크기 변환부(12)로 전달한다.
여기서 여러 개의 패턴에서 하나의 자막이 나온 경우에는 마지막 패턴에 자막을 추가한다.
영상 비교부(23)에서의 패턴 매칭 과정을 구체적으로 살펴보면, 만약 "회의"라는 수화 영상이 입력되었을 때, 수화 영상 패턴을 a1, a2, a3, a4라 가정하자. 영상 비교부(23)는 a1 패턴을 DB(18)에서 검색한다. 검색 결과, 유사한 패턴들, a`1, b`1, c`1이 검색되었다고 가정하면, 이제 a2 패턴에 대해 a`1 다음에 a2가 올 수 있는 패턴인지 여부를 판단한다. 또한 b`1, c`1에 대해서도 그 뒤에 a2가 올 수 있는 패턴인지 여부를 판단한다. 이 중에서 조건을 만족하는 패턴 a`1, b`1만이 남게 된다. 그리고 a3 패턴에 대해, a`2 다음에 a3이 올 수 있는 패턴인지 여부를 판단하고, b`2 다음에 a3이 올 수 있는 패턴인지 여부를 판단한다. 이 중에서 조건을 만족하는 패턴, a`2만이 남게 된다. 그리고 a4 패턴에 대해, a`3 다음에 a4가 올 수 있는 패턴인지 여부를 판단한다. 순차적인 패턴이 매칭되었을 때 해당 수화 영상은 자막으로 변환된다. 이와 같은 패턴 매칭 과정을 위해서는 영상 저장부(22)에 수화 영상을 프레임화하여 수화 영상 패턴을 저장할 때의 단위와 화상회의시 프레임 전송율(rate)이 동일해야 한다.
음성-자막 변환부(17)는 제2 회의참여자(일반인)의 음성을 자막으로 변환하는 기능을 수행한다. 도4를 참조하여 음성-자막 변환부(17)의 구성을 살펴보면, 제2 회의참여자의 음성을 검출하여 구문 분할하는 음성 검출부(31)와, 구문 분할된 데이터의 패턴을 저장하는 음성 저장부(32)와, 구문 분할된 데이터의 패턴에 매칭되는 음성 패턴을 검색하는 음성 비교부(33)와, 매칭된 음성 패턴에 대응되는 자막을 제2 회의참여자의 영상에 추가하는 음성 변환부(34)를 포함한다.
음성-자막 변환부(17)는 제2 회의참여자들의 음성을 검출한다. 그리고 음향을 분석하여 인식 단위인 단어 또는 문장으로 구문 분할한다. 구문 분할된 데이터는 음성 저장부(32)에 저장된다. 음성 비교부(33)는 구문 분할한 데이터를 데이터베이스(18)에 저장된 음성 패턴과 비교하여 음성 변환부(34)로 결과를 알려준다. 음성 변환부(34)는 제2 회의참여자의 영상에 자막이 추가된 영상+자막 데이터를 (크기 변환 과정이 음성-자막 변환 과정 이전에 선행된 경우) 영상 혼합부(13)로 전달한다. 만약 크기 변환 과정이 음성-자막 변환 과정 이전에 선행되지 않은 경우, 음성 변환부(34)는 영상+자막 데이터를 크기 변환부(12)로 전달한다.
도5는 본 발명의 실시예에 따라 화상회의 과정을 도시한 도면이다. 4자 화상회의를 예로 들어 설명하기로 한다. 회의참여자b는 제1 회의참여자(청각장애인)이고, 회의참여자a,c,d는 제2 회의참여자(일반인)이라 가정한다.
회의 전에 회의참여자a,b,c,d는 송, 수신 방식을 선택한다. 회의참여자b가 '수화' 송신 방식을 선택한 경우, 화상회의 시스템은 수화를 자막으로 변환하는 수화-자막 변환부(16)를 가동한다. 또한 회의참여자b가 '텍스트' 수신 방식을 선택한 경우, 음성을 자막(텍스트)로 변환하는 음성-자막 변환부(17)를 가동한다. 송, 수신 방식은 회의참여자마다 다르게 설정할 수 있으며, 설정에 맞게 화상회의 시스템은 동작한다.
화상회의 시스템은 화상회의 전에 예약된 회의참여자의 송, 수신 방식에 따라 동작한다. 송신 모드를 '수화'로 선택한 회의참여자b의 경우, 회의참여자b의 영상은 수화-자막 변환부(16)를 거치고, 수신 모드를 '텍스트'로 선택한 경우, 다른 회의 참여자a,c,d의 음성은 음성-자막 변환부(17)를 거친다.
회의참여자a,c,d는 음성을 통해 화상회의에 참여하고, 회의참여자b는 수화를 통해 화상회의에 참여한다.
회의참여자a의 단말은 회의참여자a의 음성 및 영상을 화상회의 시스템으로 전송한다. 전송된 데이터를 디코더(11)에서 디코딩하여 크기 변환부(12)로 전달한다. 크기 변환 전 또는 후의 과정에서, 회의참여자a의 음성은 음성-자막 변환부(17)에서 자막으로 변환되어 회의참여자a의 영상과 결합된다. 변환된 회의참여자a의 영상+자막 데이터는 영상 혼합부(13)의 메모리에 저장된다.
회의참여자b의 단말은 회의참여자b의 수화 영상을 화상회의 시스템으로 전송한다. 전송된 데이터를 디코더(11)에서 디코딩하여 크기 변환부(12)로 전달한다. 크기 변환 전 또는 후의 과정에서, 회의참여자b의 수화은 수화-자막 변환부(16)에서 자막으로 변환되어 회의참여자b의 영상과 결합된다. 변환된 회의참여자b의 수화+자막 데이터는 영상 혼합부(13)의 메모리에 저장된다.
회의참여자c/d의 단말은 회의참여자c/d의 음성 및 영상을 화상회의 시스템으로 전송한다. 전송된 데이터를 디코더(11)에서 디코딩하여 크기 변환부(12)로 전달한다. 크기 변환 전 또는 후의 과정에서, 회의참여자c/d의 음성은 음성-자막 변환부(17)에서 자막으로 변환되어 회의참여자c/d의 영상과 결합된다. 변환된 회의참여자c/d의 영상+자막 데이터는 영상 혼합부(13)의 메모리에 저장된다.
회의참여자들의 데이터가 모두 저장되면, 영상 혼합부(13)는 회의참여자들의 수와 해상도를 고려하여 모든 회의참여자들의 영상을 하나로 합치는 기능을 수행한다. 하나로 합쳐진 영상은 인코더(14)에서 인코딩되어 다시 각 회의참여자(a`,b`,c`,d`)에게 동일하게 전송된다.
이와 같은 화상회의 시스템을 이용하여, 일반 회의참여자는 청각장애인의 수화가 변환된 영상을 받을 수 있고, 청각장애인 회의참여자는 음성이 자막으로 변환된 영상을 받을 수 있다.
상기 방법은 특정 실시예들을 통하여 설명되었지만, 상기 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 케리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 상기 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
본 명세서에서는 본 발명이 일부 실시예들과 관련하여 설명되었지만, 본 발명이 속하는 기술분야의 당업자가 이해할 수 있는 본 발명의 정신 및 범위를 벗어나지 않는 범위에서 다양한 변형 및 변경이 이루어질 수 있다는 점을 알아야 할 것이다. 또한, 그러한 변형 및 변경은 본 명세서에 첨부된 특허청구의 범위 내에 속하는 것으로 생각되어야 한다.
11: 디코더 12: 크기 변환부
13: 영상 혼합부 14: 인코더
15: 전송부 16: 수화-자막 변환부
17: 음성-자막 변환부 18: DB

Claims (8)

  1. 화상회의 시스템으로서,
    다수의 수화 이미지 패턴과 이에 대응되는 자막, 다수의 음성 패턴과 이에 대응되는 자막을 저장하고 있는 DB;
    적어도 두 명의 회의참여자의 인코딩 영상을 수신받아 각각 디코딩하는 디코더;
    회의참여자들의 영상을 크기 변환하는 크기 변환부;
    크기 변환된 제1 회의참여자의 수화 영상으로부터 수화에 대응하는 자막을 추출하여 상기 수화 영상에 추가하는 수화-자막 변환부;
    크기 변환된 제2 회의참여자의 회의 영상으로부터 음성에 대응하는 자막을 추출하여 상기 회의 영상에 추가하는 음성-자막 변환부;
    수화가 자막으로 변환된 제1 회의참여자의 영상과 음성이 자막으로 변환된 제2 회의참여자의 영상을 하나의 화면으로 혼합하는 영상 혼합부;
    혼합된 영상을 인코딩하는 인코더; 및
    상기 인코딩된 혼합 영상을 제1 및 제2 회의참여자의 단말로 전송하는 전송부를 포함하는 화상회의 시스템.
  2. 화상회의 시스템으로서,
    다수의 수화 이미지 패턴과 이에 대응되는 자막, 다수의 음성 패턴과 이에 대응되는 자막을 저장하고 있는 DB;
    적어도 두 명의 회의참여자의 인코딩 영상을 수신받아 각각 디코딩하는 디코더;
    제1 회의참여자의 수화 영상으로부터 수화에 대응하는 자막을 추출하여 상기 수화 영상에 추가하는 수화-자막 변환부;
    제2 회의참여자의 회의 영상으로부터 음성에 대응하는 자막을 추출하여 상기 회의 영상에 추가하는 음성-자막 변환부;
    수화가 자막으로 변환된 제1 회의참여자의 영상과 음성이 자막으로 변환된 제2 회의참여자의 영상을 각각 크기 변환하는 크기 변환부;
    크기 변환된 제1 및 제2 회의참여자의 영상과 자막을 하나의 화면으로 혼합하는 영상 혼합부;
    혼합된 영상을 인코딩하는 인코더; 및
    상기 인코딩된 혼합 영상을 제1 및 제2 회의참여자의 단말로 각각 전송하는 전송부를 포함하는 화상회의 시스템.
  3. 제1항 또는 제2항에 있어서,
    상기 수화-자막 변환부에 의해 추출된 자막을 음성으로 변환하여 상기 수화 영상에 추가하는 자막-음성 변환부를 더 포함하고,
    상기 영상 혼합부는, 수화가 자막, 또는 음성, 또는 자막 및 음성으로 변환된 제1 회의참여자의 영상과, 음성이 자막으로 변환된 제2 회의참여자의 영상을 회의참여자들의 수와 해상도를 고려하여 하나로 합치는, 화상회의 시스템.
  4. 제3항에 있어서,
    상기 제1 및 제2 회의참여자는, 회의 예약 서비스를 통해 송, 수신 방식을 선택하는, 화상회의 시스템.
  5. 제3항에 있어서,
    상기 수화-자막 변환부는,
    제1 회의참여자의 수화 영상을 스캔하는 영상 스캔부;
    상기 스캔된 수화 영상을 프레임화하여 적어도 하나의 수화 영상 패턴을 저장하는 영상 저장부;
    상기 수화 영상 패턴에 매칭되는 수화 이미지 패턴을 검색하는 영상 비교부; 및
    매칭된 수화 이미지 패턴에 대응되는 자막을 상기 수화 영상에 추가하는 영상 변환부를 포함하는 화상회의 시스템.
  6. 제3항에 있어서,
    상기 음성-자막 변환부는,
    제2 회의참여자의 음성을 검출하여 구문 분할하는 음성 검출부;
    상기 구문 분할된 데이터의 패턴을 저장하는 음성 저장부;
    상기 구문 분할된 데이터의 패턴에 매칭되는 음성 패턴을 검색하는 음성 비교부; 및
    매칭된 음성 패턴에 대응되는 자막을 상기 회의 영상에 추가하는 음성 변환부를 포함하는 화상회의 시스템.
  7. 적어도 두 명의 회의참여자 간의 화상회의 서비스 방법으로서,
    제1 회의참여자의 수화 영상으로부터 수화에 대응하는 자막을 추출하여 상기 수화 영상에 추가하는 단계;
    제2 회의참여자의 회의 영상으로부터 음성에 대응하는 자막을 추출하여 상기 회의 영상에 추가하는 단계; 및
    수화가 자막으로 변환된 제1 회의참여자의 영상과 음성이 자막으로 변환된 제2 회의참여자의 영상을 하나의 화면으로 혼합하여 제1 및 제2 회의참여자의 단말로 각각 전송하는 단계를 포함하는 화상회의 서비스 방법.
  8. 제7항에 있어서,
    상기 추출된 자막을 음성으로 변환하여 상기 수화 영상에 추가하는 단계; 및
    수화가 자막, 또는 음성, 또는 자막 및 음성으로 변환된 제1 회의참여자의 영상과, 음성이 자막으로 변환된 제2 회의참여자의 영상을 하나의 화면으로 혼합하여 제1 및 제2 회의참여자의 단말로 전송하는 단계를 더 포함하는 화상회의 서비스 방법.
KR1020100135668A 2010-12-27 2010-12-27 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법 KR20120073795A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100135668A KR20120073795A (ko) 2010-12-27 2010-12-27 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100135668A KR20120073795A (ko) 2010-12-27 2010-12-27 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20120073795A true KR20120073795A (ko) 2012-07-05

Family

ID=46708091

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100135668A KR20120073795A (ko) 2010-12-27 2010-12-27 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20120073795A (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9374536B1 (en) 2015-11-12 2016-06-21 Captioncall, Llc Video captioning communication system, devices and related methods for captioning during a real-time video communication session
US9525830B1 (en) 2015-11-12 2016-12-20 Captioncall Llc Captioning communication systems
KR20180064370A (ko) * 2015-09-30 2018-06-14 소니 주식회사 정보 처리 시스템 및 정보 처리 방법
KR20200045205A (ko) * 2018-10-22 2020-05-04 삼성에스디에스 주식회사 화상 회의 서비스 방법 및 이를 수행하기 위한 장치
CN111787267A (zh) * 2020-07-01 2020-10-16 广州科天视畅信息科技有限公司 会议视频字幕合成系统和方法
WO2022055705A1 (en) * 2020-09-09 2022-03-17 Arris Enterprises Llc An inclusive video-conference system and method
KR102428677B1 (ko) * 2021-12-10 2022-08-08 주식회사 위아프렌즈 수어 동영상에 자막을 추가하는 시스템
KR102440894B1 (ko) * 2021-12-10 2022-09-06 주식회사 위아프렌즈 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법 및 이를 이용한 데이터베이스 장치

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180064370A (ko) * 2015-09-30 2018-06-14 소니 주식회사 정보 처리 시스템 및 정보 처리 방법
KR20230049131A (ko) * 2015-09-30 2023-04-12 소니그룹주식회사 정보 처리 시스템 및 정보 처리 방법
US10051207B1 (en) 2015-11-12 2018-08-14 Sorenson Ip Holdings, Llc Captioning communication systems
US11509838B2 (en) 2015-11-12 2022-11-22 Sorenson Ip Holdings, Llc Captioning communication systems
US9374536B1 (en) 2015-11-12 2016-06-21 Captioncall, Llc Video captioning communication system, devices and related methods for captioning during a real-time video communication session
US9998686B2 (en) 2015-11-12 2018-06-12 Sorenson Ip Holdings, Llc Transcribing video communication sessions
US10972683B2 (en) 2015-11-12 2021-04-06 Sorenson Ip Holdings, Llc Captioning communication systems
US9525830B1 (en) 2015-11-12 2016-12-20 Captioncall Llc Captioning communication systems
KR20200045205A (ko) * 2018-10-22 2020-05-04 삼성에스디에스 주식회사 화상 회의 서비스 방법 및 이를 수행하기 위한 장치
CN111787267A (zh) * 2020-07-01 2020-10-16 广州科天视畅信息科技有限公司 会议视频字幕合成系统和方法
WO2022055705A1 (en) * 2020-09-09 2022-03-17 Arris Enterprises Llc An inclusive video-conference system and method
US11924582B2 (en) 2020-09-09 2024-03-05 Arris Enterprises Llc Inclusive video-conference system and method
KR102440894B1 (ko) * 2021-12-10 2022-09-06 주식회사 위아프렌즈 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법 및 이를 이용한 데이터베이스 장치
KR102428677B1 (ko) * 2021-12-10 2022-08-08 주식회사 위아프렌즈 수어 동영상에 자막을 추가하는 시스템
WO2023106522A1 (ko) * 2021-12-10 2023-06-15 주식회사 위아프렌즈 수어 동영상에 자막을 추가하는 시스템
WO2023106523A1 (ko) * 2021-12-10 2023-06-15 주식회사 위아프렌즈 수어 동영상에 자막을 추가하는 시스템용 데이터베이스 구축 방법 및 이를 이용한 데이터베이스 장치

Similar Documents

Publication Publication Date Title
KR20120073795A (ko) 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법
US20230245661A1 (en) Video conference captioning
AU2011200857B2 (en) Method and system for adding translation in a videoconference
EP2154885B1 (en) A caption display method and a video communication control device
JP5534813B2 (ja) 多言語会議を実現するシステム、方法、及び多地点制御装置
US7225224B2 (en) Teleconferencing server and teleconferencing system
US6771302B1 (en) Videoconference closed caption system and method
US20070285505A1 (en) Method and apparatus for video conferencing having dynamic layout based on keyword detection
US20050228676A1 (en) Audio video conversion apparatus and method, and audio video conversion program
US20120259924A1 (en) Method and apparatus for providing summary information in a live media session
CA2499097A1 (en) Sign language interpretation system and sign language interpretation method
CN110933485A (zh) 一种视频字幕生成方法、系统、装置和存储介质
US20180293230A1 (en) Multifunction simultaneous interpretation device
US20210312143A1 (en) Real-time call translation system and method
KR102299571B1 (ko) 장애인을 위한 동시통역 서비스 제공 시스템 및 그 방법
US8451317B2 (en) Indexing a data stream
CN114666454A (zh) 一种智能会议系统
KR102042247B1 (ko) 실시간 다자 통역 무선 송수신 시스템 및 그 방법
CN112511847A (zh) 视频图像叠加实时语音字幕的方法及装置
KR20200012104A (ko) 실시간 다자 통역 무선 이어셋 및 이를 이용한 송수신 방법
JPH0787472A (ja) テレビ会議システム
KR20120000755A (ko) 음성인식에 의한 정보를 제공하는 화상회의 장치 및 방법
JPH11272663A (ja) 議事録作成装置及び作成方法及び記録媒体
JP2004007482A (ja) 電話会議サーバおよび電話会議システム
CN113810653A (zh) 基于音视频的主讲跟踪多方网络会议方法和系统

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E601 Decision to refuse application