KR102011595B1 - 청각 장애인을 위한 소통 지원 장치 및 방법 - Google Patents

청각 장애인을 위한 소통 지원 장치 및 방법 Download PDF

Info

Publication number
KR102011595B1
KR102011595B1 KR1020180010447A KR20180010447A KR102011595B1 KR 102011595 B1 KR102011595 B1 KR 102011595B1 KR 1020180010447 A KR1020180010447 A KR 1020180010447A KR 20180010447 A KR20180010447 A KR 20180010447A KR 102011595 B1 KR102011595 B1 KR 102011595B1
Authority
KR
South Korea
Prior art keywords
data
emotion
text
sentences
text data
Prior art date
Application number
KR1020180010447A
Other languages
English (en)
Other versions
KR20190091642A (ko
Inventor
남윤영
노승민
사쟈드 무하마드
메흐무드 이르판
후세인 탄비어
아마드 자밀
무하마드 칸
Original Assignee
순천향대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 순천향대학교 산학협력단 filed Critical 순천향대학교 산학협력단
Priority to KR1020180010447A priority Critical patent/KR102011595B1/ko
Publication of KR20190091642A publication Critical patent/KR20190091642A/ko
Application granted granted Critical
Publication of KR102011595B1 publication Critical patent/KR102011595B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61FFILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
    • A61F11/00Methods or devices for treatment of the ears or hearing sense; Non-electric hearing aids; Methods or devices for enabling ear patients to achieve auditory perception through physiological senses other than hearing sense; Protective devices for the ears, carried on the body or in the hand
    • A61F11/04Methods or devices for enabling ear patients to achieve auditory perception through physiological senses other than hearing sense, e.g. through the touch sense
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Psychology (AREA)
  • Veterinary Medicine (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Vascular Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Otolaryngology (AREA)
  • Biophysics (AREA)
  • Physiology (AREA)
  • Neurology (AREA)
  • Artificial Intelligence (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 청각 장애인을 위한 소통 지원 장치 및 방법을 개시한다. 본 발명의 일 측면에 따른 청각 장애인을 위한 소통 지원 장치는, 출력되는 영상에 대응하는 오디오를 청각 장애인이 이해할 수 있도록 변환하여 출력함으로써 영상에 대한 청각 장애인의 이해를 돕고 소통을 지원할 수 있다.

Description

청각 장애인을 위한 소통 지원 장치 및 방법{DEVICE AND METHOD FOR COMMUNICATION FOR THE DEAF PERSON}
본 발명은 청각 장애인을 위한 소통 지원 장치 및 방법에 관한 것으로, 더욱 상세하게는 수신된 오디오 데이터를 변환하여 이와 매칭되는 영상 데이터를 함께 출력함으로써 청각 장애인이 영상 데이터에 대한 이해를 할 수 있도록 하는 청각 장애인을 위한 소통 지원 장치 및 방법에 관한 것이다.
종래의 멀티미디어 장치는 일반적인 사용자를 대상으로 비디오 및 오디오의 분석 작업이 이루어졌다.
하지만, 소리를 들을 수 없는 청각 장애인과 같은 계층의 사람들은 이러한 대부분의 비디오 및 실시간 영상 장면들에는 별도의 자막이 없기 때문에 사람들 간의 의사 소통, 비디오의 의미를 파악할 수 없다. 또한, 텍스트 정보가 없는 실시간 영상에 대해 이해를 하는 것은 매우 어렵다.
그리고, 장치에 입력된 비디오 및 영상에 자막이 있더라도, 모든 청각 장애인이 언어에 익숙하지 않으므로, 영상과 동기화된 자막을 읽고 의미를 파악하는 것은 어려울 수 있다.
한국등록특허 제10-0779117호(2007.11.27 공고)
본 발명은 상기와 같은 문제점을 해결하기 위해 제안된 것으로서, 출력되는 영상에 대응하는 오디오를 청각 장애인이 이해할 수 있도록 변환하여 출력함으로써 영상에 대한 청각 장애인의 이해를 돕고 소통을 지원할 수 있는 청각 장애인을 위한 소통 지원 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 일 실시예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명의 일 측면에 따른 청각 장애인을 위한 소통 지원 장치 및 방법은 다수의 입력 장치로부터 데이터를 수신하는 수신부; 상기 수신부가 수신한 데이터 중 오디오 데이터를 텍스트 데이터로 변환하는 음성 인식부; 상기 음성 인식부가 변환한 텍스트 데이터를 문장과 단어로 분할하여 수화 기호 및 영상 데이터와 매칭시키고, 텍스트 데이터의 감정을 계산하는 텍스트 처리부; 및 상기 오디오 데이터와 동기화된 자막을 영상 데이터와 함께 표시하는 디스플레이부;를 포함한다.
상기 음성 인식부는, 상기 오디오 데이터에서 음파를 획득하고, 상기 음파를 모음과 자음으로 세분화하여 이를 2진 배열로 변환하는 프런트 엔드 프로세서; 및 상기 변환된 2진 배열을 음향 모델, 어휘집, 언어 모델이 포함된 데이터베이스에서 검색하여 텍스트 데이터로 변환하는 백 엔드 프로세서;를 포함하는 것을 특징으로 한다.
상기 텍스트 처리부는, 상기 수신된 텍스트 데이터를 문장과 단어로 분리하고 이를 수화의 벤치 마크 데이터베이스에서 검색하여, 단어 또는 문장이 상기 수화의 벤치 마크 데이터베이스에서 대응하는 경우, 상기 수신된 텍스트를 수화 및 영상 데이터와 매칭시키는 매칭부; 및 상기 수신된 텍스트 데이터를 문장으로 분할하고 상기 분할된 문장이 주관적인지 여부를 검사하여, 문장이 주관적인 경우 상기 문장에 포함되는 단어에 대한 극성값을 감정 단어 사전 데이터베이스에서 검색하여 텍스트 데이터에 대한 감정을 계산하는 감정 계산부;를 포함하는 것을 특징으로 한다.
상기 다수의 입력 장치는, 카메라 스트림, 마이크로폰 스피커, 모바일 장치 중 어느 하나이고, 상기 데이터는, 영상 데이터 및 오디오 데이터를 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명의 다른 측면에 따른 청각 장애인을 위한 소통 지원 장치에서의 청각 장애인을 위한 소통 지원 방법은, 다수의 입력 장치로부터 데이터를 수신하는 단계; 상기 수신한 데이터 중 오디오 데이터를 텍스트 데이터로 변환하는 단계; 상기 변환한 텍스트 데이터를 문장과 단어로 분할하여 수화 기호 및 영상 데이터와 매칭시키고, 텍스트 데이터의 감정을 계산하는 단계; 및 상기 오디오 데이터와 동기화된 자막을 영상 데이터와 함께 표시하는 단계;를 포함한다.
상기 수신한 데이터 중 오디오 데이터를 텍스트 데이터로 변환하는 단계는, 상기 오디오 데이터에서 음파를 획득하고, 상기 음파를 모음과 자음으로 세분화하여 이를 2진 배열로 변환하는 단계; 및 상기 변환된 2진 배열을 음향 모델, 어휘집, 언어 모델이 포함된 데이터베이스에서 검색하여 텍스트 데이터로 변환하는 단계;를 포함하는 것을 특징으로 한다.
상기 변환한 텍스트 데이터를 문장과 단어로 분할하여 수화 기호 및 영상 데이터와 매칭시키고, 텍스트 데이터의 감정을 계산하는 단계는, 상기 수신된 텍스트 데이터를 문장과 단어로 분리하고 이를 수화의 벤치 마크 데이터베이스에서 검색하여, 단어 또는 문장이 상기 수화의 벤치 마크 데이터베이스에서 대응하는 경우, 상기 수신된 텍스트를 수화 및 영상 데이터와 매칭시키는 단계; 및 상기 수신된 텍스트 데이터를 문장으로 분할하고 상기 분할된 문장이 주관적인지 여부를 검사하여, 문장이 주관적인 경우 상기 문장에 포함되는 단어에 대한 극성값을 감정 단어 사전 데이터베이스에서 검색하여 텍스트 데이터에 대한 검정을 계산하는 단계;를 포함하는 것을 특징으로 한다.
상기 다수의 입력 장치는, 카메라 스트림, 마이크로폰 스티커, 모바일 장치 중 어느 하나이고, 상기 데이터는, 영상 데이터 및 오디오 데이터를 포함하는 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 영상 데이터에 포함된 오디오 데이터를 다른 형태(수화 기호)로 나타내어 영상 데이터와 함께 출력함으로써 소리를 듣지 못하는 청각 장애인이 영상 데이터에 대한 이해를 쉽게 할 수 있는 효과가 있다.
또한, 텍스트에 대한 감정을 계산하여 출력함으로써 출력되는 영상에 대한 긍정 및/또는 부정의 느낌을 사용자가 알 수 있는 효과가 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 발명을 실시하기 위한 구체적인 내용들과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 발명의 전체적인 프레임워크를 도시한 도면,
도 2는 본 발명의 일 실시예에 따른 청각 장애인을 위한 소통 지원 장치의 개략적인 구성도,
도 3은 본 발명의 일 실시예에 따른 음성 인식부의 개략적인 구성을 도시한 도면,
도 4는 본 발명의 일 실시예에 따른 텍스트 처리부의 개략적인 기능 블록도,
도 5는 본 발명의 일 실시예에 따른 청각 장애인을 위한 소통 지원 방법의 개략적인 흐름도이다.
상술한 목적, 특징 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일 실시예를 상세히 설명하기로 한다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 “…부” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 전체적인 프레임워크를 도시한 도면이다.
도 1을 참조하면, 입력 데이터는 비디오 장치(V- I), 마이크로폰 스피커 및/또는 모바일 장치 등으로부터 획득된다. 이때, 비디오 장치는 실시간, 온라인/오프라인 비디오 장치일 수 있다. 오디오(∂)는 추출되어 음성 인식기(SR, 이하 본 실시예에 따른 설명에서는 음성 인식부)로 전달되며, 이를 아래의 수학식 1에 도시된 바와 같이 텍스트 T로 변환한다. 획득된 텍스트는 극성값(polarity score)이 계산되고, 아래의 수학식 2와 같이 화면에 디스플레이된다.
[수학식 1]
V- I -> ∂-> SR ( ∂ ) = T
[수학식 2]
T -> SA(T) = P
여기서, V- I, ∂, SR, T, SA, P는 입력 오디오, 오디오, 음성 인식기, 추출된 텍스트, 감정 분석 기능 및 텍스트의 극성을 나타낸다.
도 2는 본 발명의 일 실시예에 따른 청각 장애인을 위한 소통 지원 장치의 개략적인 구성도, 도 3은 본 발명의 일 실시예에 따른 음성 인식부의 개략적인 구성을 도시한 도면, 도 4는 본 발명의 일 실시예에 따른 텍스트 처리부의 개략적인 기능 블록도이다.
도 2를 참조하면, 본 실시예에 따른 청각 장애인을 위한 소통 지원 장치는 수신부(210), 음성 인식부(220), 텍스트 처리부(230) 및 디스플레이부(240)를 포함한다.
수신부(210)는 다수의 입력 장치로부터 데이터를 수신한다. 데이터는 영상 및/또는 오디오 데이터일 수 있다. 입력 장치는 온라인/오프라인 비디오 장치, 카메라 스트림 장치, 마이크로폰 스피커, 모바일 장치 등일 수 있다.
음성 인식부(220)는 수신부(210)가 수신한 데이터 중 오디오 데이터를 텍스트 데이터로 변환한다.
도 3을 참조하면, 음성 인식부(220)는 프런트 엔드 프로세서(Front End Processor : FEP)(310) 및 백 엔드 프로세서(Back End Processor : BEP)(320)를 포함한다.
프런트 엔드 프로세서(310)는 오디오 데이터에서 음파(sound waves)를 획득하고, 이러한 음파를 소리의 세그먼트(segments of sounds)라고 불리는 모음과 자음으로 세분화한다. 이후, 프런트 엔드 프로세서(310)는 아날로그 디지털 변환기를 이용하여 세분화된 모음과 자음을 2진 배열로 변환한다.
백 엔드 프로세서(320)는 변환된 2진 배열을 데이터베이스(250)에서 검색하여 텍스트 데이터로 변환한다. 이때, 데이터베이스(250)는 음향 모델(Acoustic model), 어휘집(Lexicon), 언어 모델(Language model)을 포함하는 데이터베이스(251)일 수 있다. 보다 구체적으로, 백 엔드 프로세서(320)는 음향 모델에서 이진수를 검색하여 음성 패턴을 얻으며, 이러한 음성 패턴을 어휘집 데이터베이스에서 단어 단위로 검색한다. 이후, 검색된 단어 단위의 음성 패턴은 각 단어의 발음을 언어 모델을 통해 결합하여 텍스트 형태로 원하는 출력을 얻는다.
텍스트 처리부(230)는 음성 인식부(220)가 변환한 텍스트 데이터를 문장과 단어로 분할하여 수화 기호 및 영상 데이터와 매칭시키고, 텍스트 데이터의 감정을 계산한다. 구체적으로 텍스트 처리부(230)는 도 4에 도시된 바와 같이, 매칭부(410) 및 감정 계산부(420)를 포함한다.
매칭부(410)는 수신된 텍스트 데이터를 문장과 단어로 분리하고 데이터베이스(250)에서 검색하여 단어 또는 문장이 데이터베이스(250)에서 대응하는 경우, 수신된 텍스트를 수화 및 영상 데이터와 매칭시킨다. 이때, 데이터베이스(250)는 수화의 벤치 마크 데이터베이스(American Sign Language : ASL)(253)일 수 있다.
감정 계산부(420)는 수신된 텍스트 데이터를 문장으로 분할하고, 분할된 문장이 주관적인지 여부를 계산한다. 감정 계산부(420)는 계산된 문장이 주관적인 경우 문장에 포함되는 단어에 대한 극성값(polarity score)을 데이터베이스(250)에 검색하여 텍스트 데이터에 대한 감정을 계산할 수 있다. 이때, 데이터베이스(250)는 감정 단어 사전 데이터베이스(252)일 수 있다. 한편, 비주관적인 문장인 경우 무시될 수 있다. 감정 계산부(420)는 계산된 문장이 주관적인 경우 문장에 포함되는 단어에 대한 극성값(polarity score)을 데이터베이스(250)에 검색하는 동안, 추가로 불필요한 항목(극성이 없는 기사와 단어 등)을 제거할 수도 있다. 계산된 모든 극성값은 데이터베이스(250)에 저장될 수 있다. 하나의 문장이 음성 인식부(220)로부터 완성되는 동안에 문장에 대한 극성값은 그래프의 형태로 후술하는 디스플레이부(240)의 화면상에 표시될 수 있다. 예컨대, 문장이 전체적으로 음의 극성을 가지면 빨간색, 긍정이면 녹색, 중립적인 의견을 가지면 파란색으로 그래프의 형태로 표시될 수 있다. 이처럼, 문장(텍스트)에 대한 감정을 계산하여 색으로 출력함으로써 출력되는 영상에 대한 긍정 및/또는 부정의 느낌을 사용자가 알 수 있는 효과가 있다.
디스플레이부(240)는 오디오 데이터와 동기화된 자막을 영상 데이터와 함께 표시한다. 이때, 동기화된 자막은 수화 기호일 수 있다. 또한, 디스플레이부(240)는 계산된 텍스트 데이터의 감정을 그래프 형태로 출력할 수 있다.
한편, 본 실시예를 설명함에 있어서, 각 구성요소들이 개별적으로 동작하는 것으로 설명하지만 이에 한하지 않으며, 제어부(미도시)에 의해 제어되어 유기적으로 동작할 수도 있다.
도 5는 본 발명의 일 실시예에 따른 청각 장애인을 위한 소통 지원 방법의 개략적인 흐름도이다.
도 5를 참조하면, 먼저, 청각 장애인을 위한 소통 지원 장치는 다수의 입력 장치로부터 데이터를 수신한다(S510).
이후, 수신한 데이터 중 오디오 데이터를 텍스트 데이터로 변환한다(S520).
다음으로, 변환한 텍스트 데이터를 문장과 단어로 분할하여 수화 기호 및 영상 데이터와 매칭시키고, 텍스트 데이터의 감정을 계산한다(S530).
마지막으로, 오디오 데이터와 동기화된 자막을 영상 데이터와 함께 디스플레이부의 화면에 표시한다(S540).
상술한 바와 같은 본 발명에 따르면, 영상 데이터에 포함된 오디오 데이터를 다른 형태(수화 기호)로 나타내어 영상 데이터와 함께 출력함으로써 소리를 듣지 못하는 청각 장애인이 영상 데이터에 대한 이해를 쉽게 할 수 있는 효과가 있다.
본 발명의 실시예에 따른 방법들은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는, 본 발명을 위한 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 명세서는 많은 특징을 포함하는 반면, 그러한 특징은 본 발명의 범위 또는 특허청구범위를 제한하는 것으로 해석되어서는 아니 된다. 또한, 본 명세서의 개별적인 실시예에서 설명된 특징들은 단일 실시예에서 결합되어 구현될 수 있다. 반대로, 본 명세서의 단일 실시예에서 설명된 다양한 특징들은 개별적으로 다양한 실시예에서 구현되거나, 적절히 결합되어 구현될 수 있다.
도면에서 동작들이 특정한 순서로 설명되었으나, 그러한 동작들이 도시된 바와 같은 특정한 순서로 수행되는 것으로 또는 일련의 연속된 순서, 또는 원하는 결과를 얻기 위해 모든 설명된 동작이 수행되는 것으로 이해되어서는 안 된다. 특정 환경에서 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 아울러, 상술한 실시예에서 다양한 시스템 구성요소의 구분은 모든 실시예에서 그러한 구분을 요구하지 않는 것으로 이해되어야 한다. 상술한 앱 구성요소 및 시스템은 일반적으로 단일 소프트웨어 제품 또는 멀티플 소프트웨어 제품에 패키지로 구현될 수 있다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것은 아니다.
210 : 수신부
220 : 음성 인식부
230 : 텍스트 처리부
240 : 디스플레이부
250 : 데이터베이스
310 : 프런트 엔드 프로세서
320 : 백 엔드 프로세서
410 : 매칭부
420 : 감정 계산부

Claims (8)

  1. 다수의 입력 장치로부터 데이터를 수신하는 수신부;
    상기 수신부가 수신한 데이터 중 오디오 데이터를 텍스트 데이터로 변환하는 음성 인식부;
    상기 음성 인식부가 변환한 텍스트 데이터를 문장과 단어로 분할하여 수화 기호 및 영상 데이터와 매칭시키고, 텍스트 데이터의 감정을 계산하는 텍스트 처리부; 및
    상기 오디오 데이터와 동기화된 자막을 영상 데이터와 함께 표시하는 디스플레이부;를 포함하고,
    상기 텍스트 처리부는,
    상기 수신된 텍스트 데이터를 문장과 단어로 분리하고 이를 수화의 벤치 마크 데이터베이스에서 검색하여, 단어 또는 문장이 상기 수화의 벤치 마크 데이터베이스에서 대응하는 경우, 상기 수신된 텍스트를 수화 및 영상 데이터와 매칭시키는 매칭부; 및
    상기 수신된 텍스트 데이터를 문장으로 분할하고 상기 분할된 문장이 주관적인지 여부를 검사하여, 문장이 주관적인 경우 상기 문장에 포함되는 단어에 대한 극성값을 감정 단어 사전 데이터베이스에서 검색하여 텍스트 데이터에 대한 감정을 계산하는 감정 계산부;를 포함하며,
    상기 감정 계산부는,
    하나의 문장이 음성 인식부로부터 완성되는 동안에 문장에 대한 극성값을 감정 단어 사전 데이터베이스에서 검색하여 문장(텍스트)에 대해 얻어진 감정을 계산해 색으로 출력하여 사용자가 출력되는 영상에 대한 감정을 느낄 수 있도록 하는 청각 장애인을 위한 소통 지원 장치.
  2. 제 1 항에 있어서,
    상기 음성 인식부는,
    상기 오디오 데이터에서 음파를 획득하고, 상기 음파를 모음과 자음으로 세분화하여 이를 2진 배열로 변환하는 프런트 엔드 프로세서; 및
    상기 변환된 2진 배열을 음향 모델, 어휘집, 언어 모델이 포함된 데이터베이스에서 검색하여 텍스트 데이터로 변환하는 백 엔드 프로세서;를 포함하는 것을 특징으로 하는 청각 장애인을 위한 소통 지원 장치.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 다수의 입력 장치는,
    카메라 스트림, 마이크로폰 스피커, 모바일 장치 중 어느 하나이고,
    상기 데이터는,
    영상 데이터 및 오디오 데이터를 포함하는 것을 특징으로 하는 청각 장애인을 위한 소통 지원 장치.
  5. 청각 장애인을 위한 소통 지원 장치에서의 청각 장애인을 위한 소통 지원 방법에 있어서,
    다수의 입력 장치로부터 데이터를 수신하는 단계;
    상기 수신한 데이터 중 오디오 데이터를 텍스트 데이터로 변환하는 단계;
    상기 변환한 텍스트 데이터를 문장과 단어로 분할하여 수화 기호 및 영상 데이터와 매칭시키고, 텍스트 데이터의 감정을 계산하는 단계; 및
    상기 오디오 데이터와 동기화된 자막을 영상 데이터와 함께 표시하는 단계;를 포함하고,
    상기 변환한 텍스트 데이터를 문장과 단어로 분할하여 수화 기호 및 영상 데이터와 매칭시키고, 텍스트 데이터의 감정을 계산하는 단계는,
    상기 수신된 텍스트 데이터를 문장과 단어로 분리하고 이를 수화의 벤치 마크 데이터베이스에서 검색하여, 단어 또는 문장이 상기 수화의 벤치 마크 데이터베이스에서 대응하는 경우, 상기 수신된 텍스트를 수화 및 영상 데이터와 매칭시키는 단계; 및
    상기 수신된 텍스트 데이터를 문장으로 분할하고 상기 분할된 문장이 주관적인지 여부를 검사하여, 문장이 주관적인 경우 상기 문장에 포함되는 단어에 대한 극성값을 감정 단어 사전 데이터베이스에서 검색하여 텍스트 데이터에 대한 감정을 계산하는 단계;를 포함하며,
    상기 텍스트 데이터에 대한 감정을 계산하는 단계는,
    하나의 문장이 음성 인식부로부터 완성되는 동안에 문장에 대한 극성값을 감정 단어 사전 데이터베이스에서 검색하여 문장(텍스트)에 대해 얻어진 감정을 계산해 색으로 출력하여 사용자가 출력되는 영상에 대한 감정을 느낄 수 있도록 하는 단계를 포함하는 청각 장애인을 위한 소통 지원 방법.
  6. 제 5 항에 있어서,
    상기 수신한 데이터 중 오디오 데이터를 텍스트 데이터로 변환하는 단계는,
    상기 오디오 데이터에서 음파를 획득하고, 상기 음파를 모음과 자음으로 세분화하여 이를 2진 배열로 변환하는 단계; 및
    상기 변환된 2진 배열을 음향 모델, 어휘집, 언어 모델이 포함된 데이터베이스에서 검색하여 텍스트 데이터로 변환하는 단계;를 포함하는 것을 특징으로 하는 청각 장애인을 위한 소통 지원 방법.
  7. 삭제
  8. 제 5 항에 있어서,
    상기 다수의 입력 장치는,
    카메라 스트림, 마이크로폰 스티커, 모바일 장치 중 어느 하나이고,
    상기 데이터는,
    영상 데이터 및 오디오 데이터를 포함하는 것을 특징으로 하는 청각 장애인을 위한 소통 지원 방법.

KR1020180010447A 2018-01-29 2018-01-29 청각 장애인을 위한 소통 지원 장치 및 방법 KR102011595B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180010447A KR102011595B1 (ko) 2018-01-29 2018-01-29 청각 장애인을 위한 소통 지원 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180010447A KR102011595B1 (ko) 2018-01-29 2018-01-29 청각 장애인을 위한 소통 지원 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190091642A KR20190091642A (ko) 2019-08-07
KR102011595B1 true KR102011595B1 (ko) 2019-08-14

Family

ID=67621566

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180010447A KR102011595B1 (ko) 2018-01-29 2018-01-29 청각 장애인을 위한 소통 지원 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102011595B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230021490A (ko) * 2021-08-05 2023-02-14 경북대학교 산학협력단 시각을 이용한 청각 보조 시스템 및 청각 보조 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100779117B1 (ko) 2006-10-11 2007-11-27 (주)아이젠데이타시스템 장애인 시청각 지원 시스템
KR20130032655A (ko) * 2011-09-23 2013-04-02 브로드밴드미디어주식회사 검색을 이용한 수화 방송 장치 및 방법
KR101765154B1 (ko) * 2015-04-14 2017-08-07 한국철도공사 음성을 사이버 수화로 제공하는 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230021490A (ko) * 2021-08-05 2023-02-14 경북대학교 산학협력단 시각을 이용한 청각 보조 시스템 및 청각 보조 방법
KR102648566B1 (ko) * 2021-08-05 2024-03-18 경북대학교 산학협력단 시각을 이용한 청각 보조 시스템 및 청각 보조 방법

Also Published As

Publication number Publication date
KR20190091642A (ko) 2019-08-07

Similar Documents

Publication Publication Date Title
CN110706536B (zh) 一种语音答题方法及装置
CN108305643B (zh) 情感信息的确定方法和装置
US20180047387A1 (en) System and method for generating accurate speech transcription from natural speech audio signals
JP2008309856A (ja) 音声認識装置及び会議システム
KR101904455B1 (ko) 학습자 적응형 외국어 학습 방법 및 이를 실행하는 장치
CN109102800A (zh) 一种确定歌词显示数据的方法和装置
JP2006337667A (ja) 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。
JP2002062891A (ja) 音素割当て方法
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
KR102011595B1 (ko) 청각 장애인을 위한 소통 지원 장치 및 방법
Vadapalli et al. Significance of word-terminal syllables for prediction of phrase breaks in text-to-speech systems for Indian languages.
JP4934090B2 (ja) 番組登場人物抽出装置及び番組登場人物抽出プログラム
KR20080018658A (ko) 사용자 선택구간에 대한 음성비교 시스템
KR102292477B1 (ko) 외국어 말하기 학습 서버 및 방법
Terbeh et al. Arabic speech analysis to identify factors posing pronunciation disorders and to assist learners with vocal disabilities
JP6656529B2 (ja) 外国語の会話訓練システム
JP6384681B2 (ja) 音声対話装置、音声対話システムおよび音声対話方法
CN110992984A (zh) 音频处理方法及装置、存储介质
Cahyaningtyas et al. Development of under-resourced Bahasa Indonesia speech corpus
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
JP2005241767A (ja) 音声認識装置
KR20140073768A (ko) 의미단위 및 원어민의 발음 데이터를 이용한 언어교육 학습장치 및 방법
KR20130065064A (ko) 음성인식정보를 수화정보로 자동변환시켜 제공하는 시스템
KR20160119931A (ko) Ucc 기반 모바일 다국어 언어학습 시스템 및 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right