KR102029980B1 - 대체 텍스트 생성 장치 및 그 방법 - Google Patents

대체 텍스트 생성 장치 및 그 방법 Download PDF

Info

Publication number
KR102029980B1
KR102029980B1 KR1020170110595A KR20170110595A KR102029980B1 KR 102029980 B1 KR102029980 B1 KR 102029980B1 KR 1020170110595 A KR1020170110595 A KR 1020170110595A KR 20170110595 A KR20170110595 A KR 20170110595A KR 102029980 B1 KR102029980 B1 KR 102029980B1
Authority
KR
South Korea
Prior art keywords
input
text
information
visual content
generating
Prior art date
Application number
KR1020170110595A
Other languages
English (en)
Other versions
KR20190024045A (ko
Inventor
이지수
김희권
유초롱
길연희
신희숙
지형근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170110595A priority Critical patent/KR102029980B1/ko
Priority to US15/695,370 priority patent/US20190065449A1/en
Publication of KR20190024045A publication Critical patent/KR20190024045A/ko
Application granted granted Critical
Publication of KR102029980B1 publication Critical patent/KR102029980B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/111Mathematical or scientific formatting; Subscripts; Superscripts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

대체 텍스트 생성방법이 개시된다. 이 방법은 입력된 비주얼 콘텐츠를 인식하는 단계; 상기 비주얼 콘텐츠의 인식결과에 대응하는 입력 정보를 생성하는 단계; 상기 입력 정보가 자동으로 입력되는 입력항목을 포함하도록 구성된 편집창을 생성하는 단계; 대체 텍스트 생성규칙과 상기 입력 정보를 기반으로 대체 텍스트를 자동으로 생성하는 단계; 및 상기 생성된 대체 텍스트를 상기 편집창 내의 텍스트 박스에 표시하는 단계를 포함한다.

Description

대체 텍스트 생성 장치 및 그 방법{APPARATUS AND METHOD OF GENERATING ALTERNATIVE TEXT}
본 발명은 대체텍스트 생성 방법 및 그 장치에 관한 것으로, 더욱 구체적으로, 디스플레이에 표시되는 비주얼 콘텐츠 정보를 인식하기 어려운 사용자들에게 상기 비주얼 콘텐츠 정보를 음성 정보로 변환하기 위한 대체 텍스트(alternative text)를 생성하는 대체 텍스트 생성 장치 및 그 방법에 관한 것이다.
현대 사회에서 대부분의 정보는 디스플레이, 인쇄물 등과 같은 시각 매체(visual medium)로부터 획득된다. 이러한 시각매체로부터 획득된 정보를 원활하게 인식할 수 없는 시각장애인 또는 노약자들은 대부분의 정보를 청각 매체를 이용하여 획득한다. 예를 들어 시각장애자와 노약자들은 웹페이지 또는 전자책과 같은 전자문서에 포함되는 텍스트 정보를 음성 정보로 변환하는 TTS(Text to Speech) 기능을 이용하여 정보를 획득한다.
그러나 이미지, 표, 그래프, 수식 등과 같은 비주얼 콘텐츠 정보는 텍스트 형식이 아니기 때문에, TTS 기능을 이용하여 음성 정보로 변환하는 것이 어렵다. 따라서, 이러한 비주얼 콘텐츠 정보를 음성 정보로 변환하기 위해, 비주얼 콘텐츠 정보를 텍스트(alternative text)로 변환하는 중간 과정이 요구된다. 이하, 비주얼 콘텐츠로부터 변환된 텍스트를 대체 텍스트라 지칭한다. 여기서, 대체 텍스트는 비주얼 콘텐츠 정보를 시각장애인과 노약자들이 이해할 수 있도록 설명해 주는 텍스트라 정의한다.
이러한 대체 텍스트는 프로그램으로 코딩된 해당 콘텐츠 내의 알트 태그(ALT TAG)에 기록된 값으로, 상기 알트 태그에 기록된 값은 TTS(Text to Speech) 기능을 구비한 청각 매체에 의해 음성 정보로 변환되고, 시각장애인 또는 노약자에게 제공된다. 이렇게 함으로써, 노약자 또는 시각장애인은 비주얼 콘텐츠 정보를 인식할 수 있다.
한편, 종래에는 편집자가 비주얼 콘텐츠를 시각적으로 분석하여 비주얼 콘텐츠를 설명하는 대체 텍스트를 직접 작성하여 매번 상기 알트 태그에 기록하기 때문에, 그에 따른 비용 및 작업 시간이 증가한다.
또한, 비주얼 콘텐츠에 대한 코딩 과정에서 대체 텍스트의 기록이 누락되거나 편집자의 개인 차이에 따라 비주얼 콘텐츠에 대한 부정확한 대체 텍스트가 기록되는 경우가 빈번하게 발생한다. 이러한 부정확한 대체 텍스트 기반의 음성 정보는 시각장애인들 또는 노약자들에게는 비주얼 콘텐츠의 정확한 인식을 방해하는 요소이다.
상술한 문제점을 해결하기 위한 본 발명의 목적은 비주얼 콘텐츠를 설명하는 대체 텍스트를 자동으로 생성하는 대체 텍스트 생성 장치 및 그 방법을 제공하는 데 있다.
상술한 목적을 달성하기 위한 본 발명의 일면에 따른 대체 텍스트 생성 방법은 입력된 비주얼 콘텐츠를 인식하는 단계; 상기 비주얼 콘텐츠의 인식결과에 대응하는 입력 정보를 생성하는 단계; 상기 입력 정보가 자동으로 입력되는 입력항목을 포함하도록 구성된 편집창을 생성하는 단계; 대체 텍스트 생성규칙과 상기 입력 정보를 기반으로 대체 텍스트를 자동으로 생성하는 단계; 및 상기 생성된 대체 텍스트를 상기 편집창 내의 텍스트 박스에 표시하는 단계를 포함한다.
본 발명의 다른 일면에 따른 대체 텍스트 생성장치는 대체 텍스트 생성규칙을 저장한 저장부; 입력된 비주얼 콘텐츠를 인식하고, 상기 비주얼 콘텐츠의 인식결과에 대응하는 입력 정보를 생성하는 비주얼 콘텐츠 인식부; 상기 입력 정보가 입력되는 입력 항목을 포함하도록 구성된 편집창을 생성하는 편집창 생성부; 및 상기 대체 텍스트 생성규칙을 참조하여, 상기 다수의 입력항목에 입력된 입력 정보를 기반으로 대체 텍스트를 자동으로 생성하여, 상기 편집창 내의 텍스트 박스에 표시하는 대체 텍스트 생성부를 포함한다.
본 발명에 따르면, 비주얼 콘텐츠를 대체 텍스트로 변환하기 위한 편집창을 생성하고, 상기 편집창에 입력되는 입력 정보에 따라 대체 텍스트를 자동으로 생성함으로써, 음성 정보로 변환하기 위한 대체 텍스트를 쉽고 빠르게 생성할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 대체 텍스트 생성 장치의 내부구성을 나타내는 블록도이다.
도 2는 도 1에 도시한 편집프로그램부의 블록도이다.
도 3 내지 6은 본 발명의 다양한 실시 예에 따른 대체 텍스트를 생성하기 위한 편집창을 도시한 도면들이다.
도 7은 도 2에 도시된 비주얼 콘텐츠 인식부가 원 그래프에서 인식하는 입력 정보의 예를 설명하는 도면이다.
도 8은 본 발명의 일 실시 예에 따른 병합구조를 갖는 표의 일 예를 나타낸 도면이다.
도 9는 본 발명의 일 실시 예에 따른 대체텍스트 생성방법을 도시한 순서도이다.
본 발명의 다양한 실시예는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나 이는 본 발명의 다양한 실시예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.
본 발명의 다양한 실시예에서 사용될 수 있는“포함한다” 또는 “포함할 수 있다” 등의 표현은 개시(disclosure)된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 발명의 다양한 실시예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 도면을 참조하여, 본 발명의 실시 예에 대해 상세히 기술한다.
도 1은 본 발명의 일 실시 예에 따른 대체 텍스트 생성 장치의 내부 구성을 개략적으로 도시한 블록도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 대체 텍스트 생성 장치(100)는 이미지, 표, 그래프, 수식 등과 같은 비주얼 콘텐츠 정보(이하, '비주얼 콘텐츠'라 함.)를 설명하는 대체 텍스트 정보(이하, '대체 텍스트'라 함)를 자동으로 생성하며, 이러한 대체 텍스트를 생성하는 중간 과정에서 편집자에게 편집창을 제공한다.
본 발명의 다른 실시 예에 따른 대체 텍스트 생성 장치(100)는 상기 편집창에 의해 생성된 상기 대체 텍스트를 음성 정보로 변환하고, 상기 음성 정보를 출력함으로써, 노약자 또는 시각장애인 등과 같은 사용자가 인지하기 어려운 비주얼 콘텐츠의 습득을 용이하게 한다.
이러한 대체 텍스트 생성 장치(100)는 컴퓨팅 장치일 수 있으며, 상기 컴퓨팅 장치는 인터넷 통신 및 이동통신이 가능한 통신 기능을 구비할 수 있다. 상기 컴퓨팅 장치는, 예를 들면, 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 비디오 전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 head-mounted-device(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 또는 스마트 와치(smart watch))중 적어도 하나를 포함할 수 있다.
상기 컴퓨팅 장치로 구현될 수 있는 대체 텍스트 생성 장치(100)는 입력부(110), 저장부(120), 메모리부(130), 표시부(140), 제어부(150), 편집프로그램부(160), 음성변환부(170) 및 음성 출력부(180)를 포함하도록 구성된다.
입력부(110)는 편집자에 의해 작성된 입력 정보가 입력되는 구성으로, 예를 들면, 키보드, 마우스, 터치패드 등과 같은 다양한 입력수단을 포함하도록 구성될 수 있다.
저장부(120)는 하드 디스크, 메모리 카드와 같은 저장매체로 구현될 수 있다. 저장부(120)에는 편집창을 생성하기 위한 편집프로그램과 같은 응용프로그램 및 상기 응용프로그램들이 수행되는 운영체계가 저장될 수 있다. 추가로, 저장부(120)에는 편집창 내의 입력항목들을 구성하기 위한 입력항목 생성규칙(121, 도 2에 도시함), 입력항목들에 입력되는 입력 정보를 기초로 대체 텍스트를 생성하기 위한 텍스트 생성규칙(123, 도 2에 도시함) 및 비주얼 콘텐츠 내의 구성요소들 또는 객체를 분석하기 위한 다양한 학습 데이터 등이 저장될 수 있다.
메모리부(130)는 상기 응용프로그램을 일시적으로 로딩(loading)하거나, 상기 응용프로그램의 실행에 따라 생성된 데이터의 일시적으로 저장하는 구성으로, 예를 들면, SDRAM(synchronous dynamic random access memory)과 같은 RAM(random access memory), ROM(read-only memory), NVRAM(non-volatile random access memory), EEPROM(electrically erasable programmable read-only memory), FLASH 메모리 등을 포함할 수 있다.
표시부(140)는 본 발명의 다양한 실시 예들에 따른 대체 텍스트를 생성하기 위한 편집창들을 화면에 표시한다. 이러한 표시부(140)는 화면에 표시된 편집창 내의 다양한 입력항목에 편집자가 작성한 입력 정보를 입력하기 위한 화면 인터페이스 기능을 구비할 수 있다. 이러한 화면 인터페이스 기능을 구현하기 위해, 표시부(140)는 표시패널과 터치 패널을 포함하도록 구성될 수 있다.
제어부(150)는 본 발명의 일 실시 예에 따른 대체 텍스트 생성 장치(100)의 전반적인 동작을 제어하는 구성으로, 입력부(110), 저장부(120), 메모리부(130), 표시부(140), 편집프로그램부(160), 음성 변환부(170) 및 음성 출력부(180)의 동작을 제어한다. 이러한 제어부(150)는 하나 이상의 범용 마이크로프로세서들, 디지털 신호 프로세서들(DSP들), 하드웨어 코어들, ASIC들(application specific integrated circuits), FPGA들(field programmable gate arrays), 그래픽 프로세서 또는 이들의 임의의 결합에 의해서 구현될 수 있다.
편집프로그램부(160)는 비주얼 콘텐츠에 대한 대체 텍스트를 생성 및 수정하기 위한 편집창을 생성하고, 편집창 내에 구성된 다양한 입력항목에 입력되는 입력 정보에 따라 대체 텍스트를 생성한다. 이러한 편집프로그램부(160)는 하드웨어 모듈로 구현되어 전술한 제어부(150) 내에 구비될 수도 있다. 또한, 편집프로그램부(160)는 응용프로그램으로 구현되어 전술한 저장부(120)에 저장되고, 제어부(150)의 제어에 따라 실행될 수 있다. 이러한 편집프로그램부(160)에 대한 설명은 도 2를 참조하여 상세히 설명한다.
음성 변환부(170)는 상기 편집창에 의해 생성된 대체 텍스트를 음성 정보로 변환한다. 대체 텍스를 음성 정보로 변환하는 기술은 다양하며, 예를 들면, 스크린리더 기술이 사용될 수 있다. 스크린리더 기술은 Jaws와 같은 PC형 스크린리더와 보이스몬, 웹톡스와 같은 웹스크린리더 방식을 포함할 수 있다. PC형 스크린리더는 전맹 시각장애인의 비주얼 콘텐츠에 대한 접근성을 지원하기 위해 사용되고, 웹스크린리더는 저시력시각장애인과 난독증과 같은 학습장애, 인지장애인과 노인, 다문화가족 등의 웹접근성을 지원하기 위해 사용된다. 대체 텍스를 음성 정보로 변환하는 또 다른 기술로 모바일폰에 사용되는 모바일기기형 스크린리더가 사용될 수도 있다.
음성 출력부(180)는 음성 변환부(170)에 의해 변환된 음성 정보를 출력하는 구성으로, 예를 들면, 스피커 등일 수 있다.
도 2는 도 1에 도시한 편집프로그랩부의 내부 구성을 개략적으로 나타낸 블록도이다.
도 2를 참조하면, 편집프로그램부(160)는 비주얼 콘텐츠 분석부(160A), 입력 정보 분류부(160B), 편집창 생성부(160C) 및 대체 텍스트 생성부(160E)를 포함한다.
비주얼 콘텐츠 인식부(160A)는 입력된 비주얼 콘텐츠를 분석하여, 비주얼 콘텐츠의 종류 및 비주얼 콘텐츠 내에 포함된 다양한 객체를 인식한다. 여기서, 객체는 이미지, 그래프, 표 또는 수식일 수 있다.
비주얼 콘텐츠 내에 포함된 다양한 객체를 인식하는 방법으로, OCR 프로그램과 같은 문자인식기술, 이미지 내의 객체를 인식하는 이미지 인식 기술(image recognition technique) 등이 이용될 수 있다. 이미지 인식 기술은 다양하며, 예를 들면, 색 공간(color space)을 활용한 thresholding methods, histogram-based methods, 영역별 색상 또는 밝기를 활용한 region growing mehods, split and merge methods, 픽셀과 인접 픽셀 간의 차이를 활용한 graph partitioning methods을 포함할 수 있다.
전자문서에 포함된 표 또는 수식과 같은 비주얼 콘텐츠의 경우, 전자문서에 포함된 태그 정보를 분석하여 표 또는 수식의 종류 및 특징을 인식할 수 있다. 여기서, 태그 정보는, HTML 태그 또는 해시태그(Hashtag)일 수 있으며, 이미지 또는 그래프를 지시하는 '<img>', 표를 지시하는 '<table>', 수식을 지시하는 '<math> 또는 <mathml>' 등을 예로 들 수 있다.
입력 정보 분류부(160B)는 상기 저장부(120)에 저장된 입력 정보 분류 규칙(121)을 참조하여, 상기 비주얼 콘텐츠 인식부(160A)에서 인식한 결과에 대응하는 다수의 입력 정보를 분류한다.
상기 입력 정보 분류 규칙(121)은 상기 다수의 입력 정보를 제1 입력 정보와 제2 입력 정보로 분류하기 위한 규칙일 수 있다. 구체적으로, 상기 제1 입력 정보는 상기 비주얼 콘텐츠에 대한 기본 정보를 포함하도록 구성되며, 제2 입력 정보는 상기 비주얼 콘텐츠에 대한 상세 정보를 포함하도록 구성될 수 있다.
상기 제1 입력 정보는, 상기 비주얼 콘텐츠의 종류 및 상기 비주얼 콘텐츠에 포함된 객체의 종류, 객체의 개수, 객체의 크기 등 상기 비주얼 콘텐츠를 개략적으로 설명하는 텍스트 형태의 정보일 수 있다.
상기 제2 입력 정보는, 예를 들면, 상기 비주얼 콘텐츠에 포함된 객체들 간의 관계, 객체의 위치, 객체의 형상 등과 같이, 비교적 상기 비주얼 콘텐츠를 정밀하게 설명할 수 있는 텍스트 형태의 정보 등일 수 있다. 이러한 제2 입력 정보는 "객체의 속성 정보"로 지칭할 수 있다.
상기 비주얼 콘텐츠가 이미지이고, 이미지 내에 다수의 사람이 존재하는 경우, 상기 제1 입력 정보는 비주얼 콘텐츠가 이미지임을 설명하는 텍스트 정보, 사람의 수 및 사람의 성별 등을 설명하는 텍스트 정보를 예로들 수 있고, 상기 제2 입력 정보는 이미지 내에서 사람이 점프를 하는 행동, 사람과 사람이 손을 잡고 있는 모습 등을 설명하는 텍스트 정보를 예로 들 수 있다.
상기 비주얼 콘텐츠가 그래프인 경우, 상기 제1 입력 정보는 그래프의 종류 등을 설명하는 텍스트 정보를 예로 들 수 있고, 상기 제2 입력 정보는 X축 속성 및 Y축 속성을 설명하는 텍스트 정보를 예로 들 수 있다.
상기 비주얼 콘텐츠가 표인 경우, 상기 제1 입력 정보는, 예를 들면, 표의 전체 크기, 표를 구성하는 헤더에 기록되는 정보 및 상기 헤더에 맵핑되는 셀에 기록되는 정보 등을 예로 들 수 있고, 제2 입력 정보는, 예를 들면, 표의 병합 구조를 설명하는 텍스트 정보 등일 수 있다.
상기 비주얼 콘텐츠가 수식인 경우, 상기 제1 입력 정보는, 예를 들면, 수식의 종류 및 수식에 포함된 사칙 연산 기호의 개수 등을 설명하는 텍스트 정보일 수 있고, 상기 제2 입력 정보는, 예를 들면, 상기 수식에 포함된 특수한 형식의 구성 성분, 예를 들면, 분수, 지수, 루트, 미지수 등을 설명하는 텍스트 정보일 수 있다.
도 2에서는 비주얼 콘텐츠 인식부(160A)와 입력 정보 분류부(160B)가 물리적으로 분리된 구조를 도시하고 있으나, 설계에 따라 입력 정보 분류부(160B)는 비주얼 콘텐츠 인식부(160A) 내에 포함되도록 구성될 수 있다.
편집창 생성부(160C)는 상기 입력 정보 분류부(160B)에 의해 분류된 다수의 입력 정보들이 자동으로 입력되는 입력항목을 포함하도록 구성된 편집창(160D)을 생성한다.
상기 생성된 편집창(160D)에 포함된 입력 항목은 상기 제1 입력 정보가 자동으로 입력되는 제1 입력 항목과 상기 제2 입력 정보가 자동으로 입력되는 제2 입력 항목을 포함한다.
대체 텍스트 생성부(160E)는 상기 저장부(120)에 사전 저장된 대체텍스트 생성규칙(123)을 참조하여, 상기 편집창(160D) 내의 입력항목들에 입력된 입력 정보를 기반으로 대체 텍스트를 자동으로 생성한다. 여기서, 대체텍스트 생성규칙(123)은 입력 정보와 문장을 구성하는 품사 사이의 연결관계를 정의한 규칙으로, 예를 들면, 임의의 입력항목에 입력되는 입력 정보는 상기 대체 텍스트 생성 규칙(123)에 의해 문장 내에서 제1 품사로 배치되고, 다른 임의의 입력항목에 입력되는 입력 정보는 문장 내에서 제2 품사에 배치될 수 있다.
대체 텍스트 생성부(160E)에 의해 생성된 대체 텍스트는 상기 편집창 내의 텍스트 박스에 표시될 수 있다. 상기 텍스트 박스에 표시된 대체 텍스트는 마우스, 키보드 등의 다양한 입력 수단을 통해 편집자에 의해 수정될 수 있다.
상기 텍스트 박스에 최초로 표시된 대체 텍스트 또는 상기 편집자에 의해 수정된 대체 텍스트는 도 1에 도시한 음성 변환부(170)에 의해 음성 정보로 변환되고, 음성 정보는 도 1에 도시한 음성 출력부(180)에 의해 출력된다. 이렇게 함으로써, 이미지, 표, 그래프, 수식 등과 같은 비주얼 콘텐츠의 인식이 어려운 사용자들에게 비주얼 콘텐츠의 내용을 효과적으로 전달할 수 있다. 또한, 비주얼 콘텐츠로부터 추출된 입력 정보 및 상기 대체 텍스트 생성 규칙에 따라 자동으로 생성된 대체 텍스트가 표시되는 편집창을 편집자에게 제공함으로써, 편집자는 상기 편집창에 표시된 대체 텍스트를 간단히 수정하는 작업을 통해 최종 대체 텍스트를 손쉽게 생성할 수 있다. 이는 편집자로 하여금 대체 텍스트를 매번 직접 작성하게 하는 불편함을 줄이고, 편집자의 개인적인 성향에 관계없이 정확하고 일관성 있는 대체 텍스트를 손쉽게 생성할 수 있게 한다.
도 3 내지 6은 본 발명의 다양한 실시 예에 따른 편집창을 도시한 도면들이다.
도 3을 참조하면, 비주얼 콘텐츠가 이미지인 경우에 생성되는 편집창(160D)은 실제 비주얼 콘텐츠의 크기보다 작은 크기의 비주얼 콘텐츠가 표시되는 박스(30), 비주얼 콘텐츠의 종류가 이미지임을 설명하는 입력 정보가 자동 또는 수동으로 입력되는 입력 항목(31), 비주얼 콘텐츠 내에 포함된 객체에 대한 입력 정보(이하, 객체 정보)가 자동으로 입력되는 입력 항목(33), 상기 객체 정보에 대한 상세 정보(이하, 객체 상세 정보)가 자동으로 입력되는 입력 항목(35), 및 상기 입력항목(31, 33 및 35)에 입력된 입력 정보와 텍스트 생성 규칙(123)을 기반으로 생성된 대체 텍스트가 자동으로 표시되는 텍스트 박스(37)를 포함한다.
도 3에서는 비주얼 콘텐츠가 이미지이므로, 입력 항목(31)에는 '이미지'가 자동으로 입력된다.
상기 객체 정보가 입력되는 입력 항목(33)은 다수의 항목을 포함하도록 구성될 수 있다.
상기 입력 항목(33)의 개수는 이미지에서 인식된 객체의 개수에 따라 결정될 수 있다. 수영복을 입은 남녀가 해변가에서 점프를 하고 있는 상황이 포함된 이미지를 가정할 때, 비주얼 콘텐츠 인식부(160A)는 이미지 인식 기술을 기반으로 분류된 3개의 객체를 인식할 수 있다. 분류된 3개의 객체는, 예를 들면, 수영복 입은 남자, 수영복 입은 여자 및 수영복 입은 남녀를 둘러싸는 배경으로 이루어질 수 있다. 이 경우, 상기 입력 항목(33)은 3개의 입력 항목으로 구성될 수 있으며, 3개의 입력 항목에는 수영복 입은 남자를 설명하는 텍스트 정보, 수영복 입은 여자를 설명하는 텍스트 정보 및 수영복을 입은 남녀를 둘러싸는 배경을 설명하는 텍스트 정보가 자동으로 입력될 수 있다.
상기 객체 상세 정보가 입력되는 입력 항목(35)도 다수의 입력 항목을 포함하도록 구성될 수 있다.
상기 객체 상세 정보는 객체들의 자세, 행동, 형태를 설명하는 텍스트 정보, 이미지 내에서 객체들의 위치를 설명하는 텍스트 정보, 객체들 간의 관계를 설명하는 텍스트 정보를 포함할 수 있다.
전술한 이미지의 예를 가정할 때, 상기 입력 항목(35)에는 수영복을 입은 남녀의 점프 동작을 설명하는 텍스트 정보, 수영복을 입은 남자와 여자가 서로 손을 잡고 있는 형상을 설명하는 텍스트 정보, 이미지 내에서 수영복을 입은 남자가 우측에 위치함을 설명하는 텍스트 정보, 이미지 내에서 수영복을 입은 여자가 좌측에 위치함을 설명하는 텍스트 정보, 이미지 내에서 위쪽 배경은 화창한 하늘을 설명하는 텍스트 정보 및 이미지 내에서 아래쪽 배경은 해변의 백사장을 설명하는 텍스트 정보가 각각 자동으로 입력될 수 있다.
대체 텍스트 박스(37)에는 상기 입력항목들(31, 33, 35)에 입력된 입력 정보들과 대체 텍스트 생성 규칙(123)을 기반으로 생성된 대체 텍스트가 자동으로 표시될 수 있다.
아래의 표1에는 도 3의 이미지로부터 생성된 대체 텍스트의 예이다.
비주얼 콘텐츠는 이미지이다.
이미지의 아래의 배경은 백사장이고, 그 위의 배경은 화창한 하늘이다.
이미지 내에서 좌측에는 수영복을 입은 여자가 점프하고 있으며, 우측에는 수영복을 입은 남자가 점프하고 있다.
수영복을 입은 남녀는 손을 잡고 있다
대체 텍스트 박스(37)에 최초로 표시되는 대체 텍스트는 마우스, 키보드 등과 같은 입력 수단을 통해 편집자에 의해 수정될 수 있다. 이렇게 함으로써, 어색한 대체 텍스트는 자연스러운 대체 텍스트로 변경될 수 있다. 이러한 수정 작업은 선택적일 수 있다. 따라서, 대체 텍스트 박스(37)에 최초로 표시되는 대체 텍스트가 그대로 사용될 수 있다.
대체 텍스트는 편집자의 선택에 따라 상기 입력항목들(31, 33, 35)에 입력된 모든 입력 정보를 기반으로 생성되거나 일부 입력 정보를 기반으로 생성될 수 있다. 예를 들면, 이미지의 상세한 설명을 원하지 않는 사용자에게는 입력 항목들(31, 33)에 입력되는 입력 정보만을 기반으로 대체 텍스트가 생성될 수 있다. 반대로, 이미지의 상세한 정보를 원하는 사용자에게는 입력 항목들(31, 33, 35)에 입력되는 모든 입력 정보들을 기반으로 대체 텍스트가 생성될 수 있다.
도 4를 참조하면, 비주얼 콘텐츠가 그래프인 경우에 생성되는 편집창(160D)은 실제 이미지 형태의 그래프보다 작은 크기를 갖는 그래프가 표시되는 박스(40), 비주얼 콘텐츠의 종류가 그래프임을 설명하는 텍스트 형태의 입력 정보가 자동 입력되는 입력 항목(41), 상기 그래프에 대한 간단한 정보(이하, 그래프 정보)가 자동으로 입력되는 입력 항목(43), 상기 그래프에 대한 상세 정보(이하, 그래프 상세 정보)가 자동으로 입력되는 입력 항목(45) 및 상기 입력항목(41, 43 및 45)에 입력된 입력 정보들과 상기 대체 텍스트 생성규칙(123)을 기반으로 생성된 대체 텍스트가 자동으로 표시되는 대체 텍스트 박스(47)를 포함하도록 구성된다.
상기 그래프 정보가 입력되는 입력 항목(43)에는 그래프의 종류를 설명하는 정보가 자동으로 입력될 수 있다. 예를 들면, 상기 입력 항목(43)에는 원 그래프, 점 그래프, 꺾은선 그래프 또는 막대 그래프임을 설명하는 그래프 정보가 자동으로 입력될 수 있다.
상기 그래프 상세 정보가 입력되는 입력 항목(45)에는 X축의 속성, Y축의 속성, 그래프의 개수 등을 설명하는 입력 정보가 입력될 수 있다.
다수의 영역으로 나누어진 원 그래프인 경우, 상기 입력 항목(45)에는 영역별 분포 각도를 퍼센트(%) 형태로 변환된 입력 정보가 입력될 수 있다. 예를 들면, 도 7에 도시된 바와 같이, A의 분포도가 180°로 표현되고, B와 C의 분포도가 각각 90°로 표현되는 원 그래프를 가정할 때, 비주얼 콘텐츠 인식부(160A)의 인식 결과에 따라 A의 분포도는 50%를 나타내는 입력 정보, B와 C의 분포도는 각각 25%를 나타내는 입력 정보로 변환되어 상기 입력 항목(45)에 입력될 수 있다.
대체 텍스트 박스(47)에는 상기 입력항목들(41, 43, 45)에 입력된 입력 정보들과 대체 텍스트 생성 규칙(123)을 기반으로 생성된 대체 텍스트가 자동으로 표시될 수 있다.
아래의 표2는 그래프의 종류가 막대 그래프이고, X축 속성이 과일이고, Y축 속성이 사람의 수인 경우를 가정할 때, 상기 대체 텍스트 박스(47)에 자동으로 표시될 수 있는 대체 텍스트의 예이다.
- 비주얼 콘텐트는 그래프이다.
- 그래프의 종류는 막대 그래프이다.
- X축은 과일을 나타내고, Y축은 사람의 수를 나타낸다.
- 사과에 대응하는 사람의 수는 7명, 오렌지에 대응하는 사람의 수는 4명, 바나나에 대응하는 사람의 수는 9명이다.
대체 텍스트 박스(47)에 최초로 표시되는 대체 텍스트는 편집자에 의해 수정될 수 있다. 위의 대체 텍스트에서, "사과에 대응하는 사람의 수는 7명, 오렌지에 대응하는 사람의 수는 4명, 바나나에 대응하는 사람의 수는 9명이다."라는 텍스트 문구는 어색하다.
이에, 편집자는 상기 텍스트 문구를 "사과를 선호하는 사람의 수는 7명, 오렌지를 선호하는 사람의 수는 4명, 바나나를 선호하는 사람의 수는 9명이다."로 직접 수정할 수 있다. 이렇게 함으로써, 어색한 대체 텍스트는 자연스러운 대체 텍스트로 변경될 수 있다. 물론, 편집자에 의한 수정 작업은 선택적일 수 있다.
도 5를 참조하면, 비주얼 콘텐츠가 표인 경우에 생성되는 편집창(160D)은 비주얼 콘텐츠가 표임을 설명하는 입력 정보가 자동으로 입력되는 입력항목(51), 표를 구성하는 입력 정보가 입력되는 입력항목(53), 상기 표를 구성하는 상세 입력 정보가 입력되는 입력 항목(55) 및 상기 입력항목(51, 53, 55)에 입력된 입력 정보를 기초로 생성된 대체 텍스트가 입력되는 텍스트 박스(57)를 포함한다.
상기 표를 구성하고 있는 입력 정보는, 예를 들면, HTML의 태그정보 <table>, <tr>, <th>, <td> 등일 수 있다.
비주얼 콘텐츠 인식부(160A)는 표를 구성하고 있는 정보, 즉, HTML의 태그정보 <table>, <tr>, <th>, <td> 등을 분석하여 표의 전체 크기, 제목을 설명하는 헤더 정보, 내용을 설명하는 셀 정보를 인식하고, 그 인식 결과를 텍스트 형태의 입력 정보로 변환하여 상기 입력 항목(53)에 입력할 수 있다. 여기서, 상기 헤더 정보는 행 헤더 정보 및 열 헤더 정보를 포함한다.
상기 표를 구성하는 상세 입력 정보가 입력되는 상기 입력 항목(55)에는 표의 병합구조가 반영된 입력 정보가 입력될 수 있다.
도 8은 본 발명의 일 실시 예에 따른 병합구조를 갖는 표의 일 예를 나타낸 도면이다.
도 8을 참조하면, 표(82)의 경우, 상위 헤더를 나타내는 'Fillrate'의 하위 헤더는 'MOperations/s' 및 'MPixels/s'가 병합된 구조이며, 다른 상위 헤더를 나타내는 'Memory'의 하위 헤더는 'Size(MB)' 및 'Bandwidth(GB/s)'가 병합된 구조이다.
상기 비주얼 콘텐츠 인식부(160A)는 표(82)에서 상기 하위 헤더(410)에 표시되는 헤더 정보를 표(84)의 하위 헤더(415)에 표시되는 헤더 정보로 변환하여 상기 입력 항목(55)에 입력할 수 있다.
즉, 상기 비주얼 콘텐츠 인식부(160A)는 병합된 구조에 따라 "Fillrate의 MOperations/s"와 같은 텍스트 형태의 입력 정보를 생성하여 상기 입력 항목(55)에 입력할 수 있다.
마찬가지로, 상기 비주얼 콘텐츠 인식부(160A)는 'Fillrate'와 'MPixels/s'의 병합 구조에 따라 "Fillrate의 MPixels/s"와 같은 텍스트 형태의 입력 정보를 생성하여 상기 입력 항목(55)에 입력할 수 있다.
또한, 상기 비주얼 콘텐츠 인식부(160A)는 표(82)에서 도면부호 420이 지시하는 헤더 정보를 표(84)에 도시된 도면부호 425와 같은 입력 정보를 생성하여 상기 입력 항목(55)에 입력할 수 있다.
이와 같이, HTML 태그 정보, 해시태그(Hashtag) 등을 활용하여 표에 대응하는 입력 정보를 자동으로 생성하고, 이러한 입력 정보를 기반으로 대체 텍스트를 생성함으로써 편집자가 표를 설명하는 대체 텍스트를 보다 편리하게 작성할 수 있다.
도 6을 참조하면, 비주얼 콘텐츠가 수식인 경우에 생성되는 편집창(160D)은 비주얼 콘텐츠의 종류가 수식임을 나타내는 입력 정보가 자동 또는 수동으로 입력되는 입력항목(61), 상기 수식에 대한 정보(이하, 수식 정보)가 자동 또는 수동으로 입력되는 다수의 입력항목들(63) 및 상기 수식 정보에 대한 상세 정보(이하, 수식 상세 정보)가 자동 또는 수동으로 입력되는 다수의 입력 항목들(65) 및 상기 입력 항목들(61, 63, 65)에 입력되는 입력 정보를 기반으로 자동으로 생성된 대체텍스트가 표시되는 텍스트 박스(67)를 포함한다.
상기 입력 항목들(63)에는 상기 비주얼 콘텐츠 인식부(160A)에 의해 인식된 등호, 부등호, 덧셈, 뺄셈, 곱셈, 나눗셈과 같은 연산 기호, 항의 개수를 설명하는 입력 정보가 입력될 수 있다.
상기 입력 항목들(65)에는 상기 비주얼 콘텐츠 인식부(160A)에 의해 인식된 분수, 지수 루트, 미지수 등과 같은 특수한 형식의 기호를 설명하는 입력 정보가 입력될 수 있다.
상기 텍스트 박스(67)에는 대체 텍스트 생성규칙(123)과 상기 입력 항목들(61, 63, 63)에 입력된 입력 정보를 기반으로 생성된 대체 텍스트가 표시된다.
상기 텍스트 박스(67)에 표시되는 대체 텍스트는 상기 입력 항목들(61, 63, 65)에 입력되는 입력 정보들 중에서 일부 입력 정보들만을 기반으로 생성될 수 있다. 예를 들면, 상기 텍스트 박스(67)에 표시되는 대체 텍스트는 도 6에 도시된 수식(60)이 방정식인지 부등식인지를 구분하는 정도에서 인지하고 싶은 경우, 상기 입력 항목들(61, 63)에 입력된 입력 정보를 기반으로 생성될 수 있다. 수식의 세부 내용을 모두 인지하고 싶은 경우, 상기 텍스트 박스(67)에 표시되는 대체 텍스트는 상기 입력 항목들(61, 63, 65)에 입력되는 모든 정보를 기반으로 생성될 수 있다. 즉, 연령 또는 지적 수준에 따라 사용자마다 원하는 대체 텍스트의 정보량은 다르게 설정될 수 있다.
아래는 상기 텍스트 생성 규칙(123)과 상기 입력 항목들(61, 63)에 입력된 입력 정보를 기반으로 상기 텍스트 박스(67)에 표시되는 대체 텍스트의 예이다.
- 비주얼 콘텐츠는 수식이다.
- 수식은 근의 공식을 나타내는 방정식
아래는 상기 텍스트 생성 규칙(123)과 상기 입력 항목들(61, 63, 63)에 입력된 모든 입력 정보를 기반으로 상기 텍스트 박스(67)에 표시되는 대체 텍스트의 예이다.
- 비주얼 콘텐츠는 수식이다.
- 수식은 근의 공식을 나타내는 방정식이다.
- 좌변은 한 개의 항, 우변은 분수로 이루어져 있고, 분자에는 루트가 있다.
한편, 전술한 실시예와 유사하게, 텍스트 박스(67)에 표시되는 대체 텍스트는 입력 수단을 통해 편집자에 의해 수정될 수 있다.
도 9는 본 발명의 일 실시 예에 따른 대체 텍스트 생성방법을 나타내는 순서도로서, 아래의 각 단계를 수행하는 주체는 도 1에 도시한 편집프로그램부(160)일 수 있다. 만일 편집프로그램부(160)가 도 1에 도시한 제어부(150) 내에 포함되도록 설계되는 경우, 아래의 각 단계를 수행하는 주체는 제어부(150)일 수 있다. 설명의 간략화를 위해, 도 1 내지 도 8을 참조하여 설명한 내용과 중복된 내용은 생략하거나 간략히 설명한다.
도 9를 참조하면, 먼저, 단계 S810에서, 비주얼 콘텐츠를 인식하는 과정이 수행된다. 비주얼 콘텐츠는 이미지, 그래프, 표 및 수식을 포함할 수 있다. 이러한 비주얼 콘텐츠를 인식하는 방법으로, 예를 들면, OCR 프로그램과 같은 문자인식기술, 이미지 인식 기술(image recognition technique)이 이용될 수 있다. 다른 예로, 상기 비주얼 콘텐츠에 포함된 HTML 태그 또는 해시태그(Hashtag)와 같은 태그 정보를 분석한 결과를 기반으로 상기 비주얼 콘텐츠를 인식할 수 있다.
이어, 단계 S820에서, 상기 비주얼 콘텐츠의 인식결과에 대응하는 입력 정보를 생성하는 과정이 수행된다. 비주얼 콘텐츠의 개략적인 내용을 설명하는 제1 입력 정보와 비주얼 콘텐츠의 상세한 내용을 설명하는 제2 입력 정보를 포함한다.
이어, 단계 S830에서, 상기 생성된 입력 정보를 도 3 내지 도 5에 도시된 바와 같은 편집창 내의 입력 항목에 자동으로 입력하는 과정이 수행된다. 상기 입력 항목은 상기 제1 입력 정보가 입력되는 제1 입력 항목과 상기 제2 입력 정보가 입력되는 제2 입력 항목을 포함한다.
이어, 단계 S840에서, 상기 입력 항목에 입력된 입력 정보와 대체 텍스트 생성 규칙(123)을 기반으로 대체 텍스트를 생성하는 과정이 수행된다. 대체 텍스트는 상기 제1 입력 정보를 기반으로 생성되는 제1 대체 텍스트와 상기 제1 및 제2 입력 정보를 모두 고려하여 생성되는 제2 대체 텍스트를 포함한다. 편집자의 선택에 따라 제1 및 제2 대체 텍스트 중 어느 하나의 대체 텍스트가 생성될 수 있다. 제1 대체 텍스트는 상기 비주얼 콘텐츠를 개략적으로 설명하는 텍스트이고, 제2 대체 텍스트는 상기 비주얼 콘텐츠를 상세하게 설명하는 텍스트이다. 상기 대체 텍스트 생성 규칙은 상기 입력 정보와 상기 대체 텍스트를 구성하는 품사 사이의 연결관계를 정의한 규칙으로서, 이러한 대체 텍스트 생성 규칙에 따라, 상기 입력 정보는 문장을 구성하도록 상기 대체 텍스트 내에서 적절한 품사 위치에 배치될 수 있다.
이어, 단계 S850에서, 상기 생성된 대체 텍스트는 도 3 내지 6에 도시된 편집창 내의 텍스트 박스에 표시되는 과정이 수행된다. 텍스트 박스에 표시된 대체 텍스트는 편집자에 의해 수정될 수 있다.
이어, 단계 S860에서, 상기 텍스트 박스에 최초 표시된 대체 텍스트 또는 편집자에 의해 수정된 대체 텍스트를 음성으로 변환하는 과정이 수행된다.
이후, 대체 텍스트로부터 변환된 음성은 스피커와 같은 오디오 출력 수단을 통해 비주얼 콘텐츠를 인지하기 어려운 노약자 또는 시각장애인에게 제공됨으로써, 대체 텍스트의 생성과 관련된 일련의 모든 과정은 종료된다.
이상에서 본 발명에 대하여 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 본 발명의 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (16)

  1. 객체를 포함하는 비주얼 콘텐츠를 인식하는 단계;
    상기 비주얼 콘텐츠의 인식결과에 대응하는 입력 정보를 생성하는 단계;
    상기 입력 정보에 포함된 상기 객체의 종류와 속성을 설명하는 텍스트가 자동으로 입력되는 입력항목을 포함하도록 구성된 편집창을 생성하는 단계;
    상기 입력항목에 입력된 텍스트와 문장을 구성하는 품사 사이의 연결관계를 정의한 대체 텍스트 생성규칙에 따라, 상기 입력항목에 입력된 텍스트를 문장 내 품사에 배치하여 대체 텍스트를 자동으로 생성하는 단계; 및
    상기 생성된 대체 텍스트를 상기 편집창 내의 텍스트 박스에 표시하는 단계
    를 포함하는 대체 텍스트 생성 방법.
  2. 삭제
  3. 제1항에서, 상기 입력 정보를 생성하는 단계는,
    상기 비주얼 콘텐츠의 인식결과에 따라 상기 비주얼 콘텐츠에 대한 기본 정보로 이루어진 제1 입력 정보를 생성하는 단계; 및
    상기 비주얼 콘텐츠에 대한 상세 정보를 포함하는 제2 입력 정보를 생성하는 단계를 포함하는 대체 텍스트 생성 방법.
  4. 제3항에서, 상기 편집창을 생성하는 단계는,
    상기 제1 입력 정보가 자동으로 입력되는 제1 입력 항목과 상기 제2 입력 정보가 자동으로 입력되는 제2 입력 항목을 포함하는 상기 편집창을 생성하는 단계인 것인 대체 텍스트 생성 방법.
  5. 제3항에서, 상기 제1 입력 정보는 상기 비주얼 콘텐츠로부터 인식된 객체의 종류를 설명하는 텍스트 정보이고, 상기 제2 입력 정보는 상기 객체의 속성 정보를 설명하는 텍스트 정보인 것인 대체 텍스트 생성 방법.
  6. 제3항에서, 상기 대체 텍스트를 자동으로 생성하는 단계는,
    상기 제1 입력 정보를 기반으로 상기 대체 텍스트를 생성하거나 상기 제1 및 제2 입력 정보를 모두 고려하여 상기 대체 텍스트를 생성하는 단계인 것인 대체 텍스트 생성 방법.
  7. 제5항에서, 상기 객체의 속성 정보는,
    객체들 간의 상대적 위치 및 객체들 간의 관계를 설명하는 텍스트 정보인 것인 대체 텍스트 생성 방법.
  8. 제1항에서, 상기 텍스트 박스에 표시된 대체 텍스트가 입력 수단을 통해 편집자에 의해 수정되는 단계; 및
    상기 수정된 대체 텍스트가 최종 대체 텍스트로 생성되는 단계를
    더 포함하는 것인 대체 텍스트 생성 방법.
  9. 제1항에서, 상기 인식하는 단계는,
    문자 인식 기술, 이미지 인식 기술 및 태그 정보 분석 중 어느 하나를 이용하여 상기 비주얼 콘텐츠를 인식하는 것인 대체 텍스트 생성 방법.
  10. 제9항에서, 상기 태그 정보는,
    HTML 태그 정보 또는 해시태그(Hashtag) 정보인 것인 대체 텍스트 생성 방법.
  11. 컴퓨팅 장치로 구현되는 대체 텍스트 생성장치에서,
    대체 텍스트 생성규칙을 저장한 저장부;
    객체를 포함하는 비주얼 콘텐츠를 인식하고, 상기 비주얼 콘텐츠의 인식결과에 대응하는 입력 정보를 생성하는 비주얼 콘텐츠 인식부;
    상기 입력 정보에 포함된 상기 객체의 종류와 속성을 설명하는 텍스트가 자동으로 입력되는 입력 항목을 포함하도록 구성된 편집창을 생성하는 편집창 생성부; 및
    상기 입력 항목에 입력된 텍스트와 문장을 구성하는 품사 사이의 연결관계를 정의한 상기 대체 텍스트 생성규칙을 참조하여, 상기 입력 항목에 입력된 텍스트를 문장 내의 품사에 배치하여 대체 텍스트를 자동으로 생성하여, 상기 편집창 내의 텍스트 박스에 표시하는 대체 텍스트 생성부
    를 포함하는 대체 텍스트 생성장치.
  12. 삭제
  13. 제11항에서, 상기 비주얼 콘텐츠 인식부는,
    문자인식기술, 이미지 인식 기술(image recognition technique) 및 테그 정보 분석 중 어느 하나를 이용하여 상기 비주얼 콘텐츠를 인식함을 특징으로 하는 대체 텍스트 생성장치.
  14. 제11항에서, 상기 비주얼 콘텐츠의 인식결과에 따라 생성된 입력 정보를 상기 비주얼 콘텐츠에 대한 기본 정보로 이루어진 제1 입력 정보와 상기 비주얼 콘텐츠에 대한 상세 정보를 포함하는 제2 입력 정보로 분류하는 입력 정보 분류부를 더 포함하는 것인 대체 텍스트 생성 장치.
  15. 제14항에서, 상기 편집창 생성부는,
    상기 제1 입력 정보가 입력되는 제1 입력 항목과 상기 제2 입력 정보가 입력되는 제2 입력 항목을 포함하도록 구성된 상기 편집창을 생성하는 것인 대체 텍스트 생성 장치.
  16. 제14항에서, 상기 대체 텍스트 생성부는,
    상기 제1 입력 정보를 기반으로 상기 대체 텍스트를 생성하거나 상기 제1 및 제2 입력 정보를 모두 고려하여 상기 대체 텍스트를 생성하는 것인 대체 텍스트 생성 장치.
KR1020170110595A 2017-08-31 2017-08-31 대체 텍스트 생성 장치 및 그 방법 KR102029980B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170110595A KR102029980B1 (ko) 2017-08-31 2017-08-31 대체 텍스트 생성 장치 및 그 방법
US15/695,370 US20190065449A1 (en) 2017-08-31 2017-09-05 Apparatus and method of generating alternative text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170110595A KR102029980B1 (ko) 2017-08-31 2017-08-31 대체 텍스트 생성 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20190024045A KR20190024045A (ko) 2019-03-08
KR102029980B1 true KR102029980B1 (ko) 2019-10-08

Family

ID=65437661

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170110595A KR102029980B1 (ko) 2017-08-31 2017-08-31 대체 텍스트 생성 장치 및 그 방법

Country Status (2)

Country Link
US (1) US20190065449A1 (ko)
KR (1) KR102029980B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210279577A1 (en) * 2020-03-04 2021-09-09 Seva Development, LLC Testing of Computing Processes Using Artificial Intelligence
JP7467999B2 (ja) * 2020-03-10 2024-04-16 セイコーエプソン株式会社 スキャンシステム、プログラム、およびスキャンシステムのスキャンデータ生成方法
US11445269B2 (en) * 2020-05-11 2022-09-13 Sony Interactive Entertainment Inc. Context sensitive ads
EP4337148A2 (en) * 2021-05-12 2024-03-20 Accessibe Ltd. Systems and methods for making websites accessible

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03172985A (ja) * 1989-12-01 1991-07-26 Toshiba Corp 不定形文書読取装置
US5594809A (en) * 1995-04-28 1997-01-14 Xerox Corporation Automatic training of character templates using a text line image, a text line transcription and a line image source model
US7137127B2 (en) * 2000-10-10 2006-11-14 Benjamin Slotznick Method of processing information embedded in a displayed object
US7162526B2 (en) * 2001-01-31 2007-01-09 International Business Machines Corporation Apparatus and methods for filtering content based on accessibility to a user
US7194411B2 (en) * 2001-02-26 2007-03-20 Benjamin Slotznick Method of displaying web pages to enable user access to text information that the user has difficulty reading
GB0110326D0 (en) * 2001-04-27 2001-06-20 Ibm Method and apparatus for interoperation between legacy software and screen reader programs
GB0230360D0 (en) * 2002-12-27 2003-02-05 Koninkl Philips Electronics Nv Object identifying method and apparatus
US7305129B2 (en) * 2003-01-29 2007-12-04 Microsoft Corporation Methods and apparatus for populating electronic forms from scanned documents
US9165478B2 (en) * 2003-04-18 2015-10-20 International Business Machines Corporation System and method to enable blind people to have access to information printed on a physical document
US20070055938A1 (en) * 2005-09-07 2007-03-08 Avaya Technology Corp. Server-based method for providing internet content to users with disabilities
JP5032798B2 (ja) * 2006-03-24 2012-09-26 富士フイルム株式会社 情報提供装置、情報提供システムおよび情報提供方法
US20090319927A1 (en) * 2008-06-21 2009-12-24 Microsoft Corporation Checking document rules and presenting contextual results
JP5159588B2 (ja) * 2008-12-05 2013-03-06 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
US9489131B2 (en) * 2009-02-05 2016-11-08 Apple Inc. Method of presenting a web page for accessibility browsing
FR2945642A1 (fr) * 2009-05-15 2010-11-19 Alcatel Lucent Gant et ecran tactile permettant de lire des informations par le toucher
US9124692B2 (en) * 2010-04-14 2015-09-01 Adesh Bhargava System and method for optimizing communication
EP2383970B1 (en) * 2010-04-30 2013-07-10 beyo GmbH Camera based method for text input and keyword detection
US8862985B2 (en) * 2012-06-08 2014-10-14 Freedom Scientific, Inc. Screen reader with customizable web page output
GB2513525A (en) * 2012-07-30 2014-11-05 Ibm Provision of alternative text for use in association with image data
US9785336B2 (en) * 2012-08-17 2017-10-10 Sas Institute Inc. Macro-enabled, verbally accessible graphical data visualizations for visually impaired users
CN103631506B (zh) * 2012-08-24 2018-09-04 腾讯科技(深圳)有限公司 基于终端的阅读方法及相应的终端
US20140092435A1 (en) * 2012-09-28 2014-04-03 International Business Machines Corporation Applying individual preferences to printed documents
KR102061044B1 (ko) * 2013-04-30 2020-01-02 삼성전자 주식회사 수화 번역 및 화면 해설 서비스 방법 및 시스템
US20150149534A1 (en) * 2013-11-25 2015-05-28 Contadd Limited Systems and methods for creating, displaying and managing content units
WO2015112755A1 (en) * 2014-01-22 2015-07-30 AI Squared Emphasizing a portion of the visible content elements of a markup language document
US20150242374A1 (en) * 2014-02-27 2015-08-27 Styla GmbH Automatic layout technology
JP6399872B2 (ja) * 2014-07-07 2018-10-03 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
US10467336B2 (en) * 2014-08-07 2019-11-05 John Romney Apparatus and method for processing citations within a document
US20160117301A1 (en) * 2014-10-23 2016-04-28 Fu-Chieh Chan Annotation sharing system and method
US20160132301A1 (en) * 2014-11-06 2016-05-12 Microsoft Technology Licensing, Llc Programmatic user interface generation based on display size
US10353721B2 (en) * 2016-03-15 2019-07-16 Sundeep Harshadbhai Patel Systems and methods for guided live help
US9607058B1 (en) * 2016-05-20 2017-03-28 BlackBox IP Corporation Systems and methods for managing documents associated with one or more patent applications
US10249044B2 (en) * 2016-12-30 2019-04-02 Facebook, Inc. Image segmentation with touch interaction
US10346135B2 (en) * 2017-01-27 2019-07-09 Desmos, Inc. Internet-enabled audio-visual graphing calculator

Also Published As

Publication number Publication date
US20190065449A1 (en) 2019-02-28
KR20190024045A (ko) 2019-03-08

Similar Documents

Publication Publication Date Title
KR102029980B1 (ko) 대체 텍스트 생성 장치 및 그 방법
US7913191B2 (en) Common input/output interface for application programs
CN107807968B (zh) 基于贝叶斯网络的问答装置、方法及存储介质
US20160275067A1 (en) Domain-based generation of communications media content layout
Kanvinde et al. IDEAL: a dyslexic-friendly ebook reader
Günther et al. Semantic transparency is not invisibility: A computational model of perceptually-grounded conceptual combination in word processing
US20220012437A1 (en) Translating method using visually represented elements, and device therefor
US11989956B2 (en) Dynamic head for object detection
CN107204027A (zh) 图像处理装置、显示装置、动画生成方法以及动画显示方法
US20230177266A1 (en) Sentence extracting device and sentence extracting method
JP7082333B2 (ja) 設問自動生成プログラム及び設問自動生成装置
CN110442868A (zh) 文本处理方法、装置及电子设备
KR102075382B1 (ko) 시각장애인을 위한 콘텐츠 제공 장치 및 그 제공 방법
JP6529698B2 (ja) データ分析装置およびデータ分析方法
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及系统
WO2020036011A1 (ja) 情報処理装置、情報処理方法、および、プログラム
KR102313272B1 (ko) 증강 현실 기반 실시간 음성 번역 서비스 제공 방법, 장치 및 시스템
KR20230093754A (ko) 전자 의무 기록을 구성하는 텍스트의 분석과 관련된 전처리를 수행하는 전자 장치
KR20220055977A (ko) 전자 장치 및 그 제어 방법
JP7144795B2 (ja) 和文字変換プログラム及び和文字変換装置
Bangari et al. Communication Decipher: Text to Speech and Hand Gesture to Speech Conversion
CN111626023A (zh) 可视化图表高亮与注释的自动生成方法、装置及系统
JP2020160974A (ja) 情報処理装置、情報処理方法及びプログラム
Szwoch Recognition, understanding and aestheticization of freehand drawing flowcharts
US20240256767A1 (en) Analyzing data records through natural language

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant