KR102029980B1

KR102029980B1 - 대체 텍스트 생성 장치 및 그 방법

Info

Publication number: KR102029980B1
Application number: KR1020170110595A
Authority: KR
Inventors: 이지수; 김희권; 유초롱; 길연희; 신희숙; 지형근
Original assignee: 한국전자통신연구원
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2019-10-08
Also published as: US20190065449A1; KR20190024045A

Abstract

대체 텍스트 생성방법이 개시된다. 이 방법은 입력된 비주얼 콘텐츠를 인식하는 단계; 상기 비주얼 콘텐츠의 인식결과에 대응하는 입력 정보를 생성하는 단계; 상기 입력 정보가 자동으로 입력되는 입력항목을 포함하도록 구성된 편집창을 생성하는 단계; 대체 텍스트 생성규칙과 상기 입력 정보를 기반으로 대체 텍스트를 자동으로 생성하는 단계; 및 상기 생성된 대체 텍스트를 상기 편집창 내의 텍스트 박스에 표시하는 단계를 포함한다.

Description

대체 텍스트 생성 장치 및 그 방법{APPARATUS AND METHOD OF GENERATING ALTERNATIVE TEXT}

본 발명은 대체텍스트 생성 방법 및 그 장치에 관한 것으로, 더욱 구체적으로, 디스플레이에 표시되는 비주얼 콘텐츠 정보를 인식하기 어려운 사용자들에게 상기 비주얼 콘텐츠 정보를 음성 정보로 변환하기 위한 대체 텍스트(alternative text)를 생성하는 대체 텍스트 생성 장치 및 그 방법에 관한 것이다.

현대 사회에서 대부분의 정보는 디스플레이, 인쇄물 등과 같은 시각 매체(visual medium)로부터 획득된다. 이러한 시각매체로부터 획득된 정보를 원활하게 인식할 수 없는 시각장애인 또는 노약자들은 대부분의 정보를 청각 매체를 이용하여 획득한다. 예를 들어 시각장애자와 노약자들은 웹페이지 또는 전자책과 같은 전자문서에 포함되는 텍스트 정보를 음성 정보로 변환하는 TTS(Text to Speech) 기능을 이용하여 정보를 획득한다.

그러나 이미지, 표, 그래프, 수식 등과 같은 비주얼 콘텐츠 정보는 텍스트 형식이 아니기 때문에, TTS 기능을 이용하여 음성 정보로 변환하는 것이 어렵다. 따라서, 이러한 비주얼 콘텐츠 정보를 음성 정보로 변환하기 위해, 비주얼 콘텐츠 정보를 텍스트(alternative text)로 변환하는 중간 과정이 요구된다. 이하, 비주얼 콘텐츠로부터 변환된 텍스트를 대체 텍스트라 지칭한다. 여기서, 대체 텍스트는 비주얼 콘텐츠 정보를 시각장애인과 노약자들이 이해할 수 있도록 설명해 주는 텍스트라 정의한다.

이러한 대체 텍스트는 프로그램으로 코딩된 해당 콘텐츠 내의 알트 태그(ALT TAG)에 기록된 값으로, 상기 알트 태그에 기록된 값은 TTS(Text to Speech) 기능을 구비한 청각 매체에 의해 음성 정보로 변환되고, 시각장애인 또는 노약자에게 제공된다. 이렇게 함으로써, 노약자 또는 시각장애인은 비주얼 콘텐츠 정보를 인식할 수 있다.

한편, 종래에는 편집자가 비주얼 콘텐츠를 시각적으로 분석하여 비주얼 콘텐츠를 설명하는 대체 텍스트를 직접 작성하여 매번 상기 알트 태그에 기록하기 때문에, 그에 따른 비용 및 작업 시간이 증가한다.

또한, 비주얼 콘텐츠에 대한 코딩 과정에서 대체 텍스트의 기록이 누락되거나 편집자의 개인 차이에 따라 비주얼 콘텐츠에 대한 부정확한 대체 텍스트가 기록되는 경우가 빈번하게 발생한다. 이러한 부정확한 대체 텍스트 기반의 음성 정보는 시각장애인들 또는 노약자들에게는 비주얼 콘텐츠의 정확한 인식을 방해하는 요소이다.

상술한 문제점을 해결하기 위한 본 발명의 목적은 비주얼 콘텐츠를 설명하는 대체 텍스트를 자동으로 생성하는 대체 텍스트 생성 장치 및 그 방법을 제공하는 데 있다.

상술한 목적을 달성하기 위한 본 발명의 일면에 따른 대체 텍스트 생성 방법은 입력된 비주얼 콘텐츠를 인식하는 단계; 상기 비주얼 콘텐츠의 인식결과에 대응하는 입력 정보를 생성하는 단계; 상기 입력 정보가 자동으로 입력되는 입력항목을 포함하도록 구성된 편집창을 생성하는 단계; 대체 텍스트 생성규칙과 상기 입력 정보를 기반으로 대체 텍스트를 자동으로 생성하는 단계; 및 상기 생성된 대체 텍스트를 상기 편집창 내의 텍스트 박스에 표시하는 단계를 포함한다.

본 발명의 다른 일면에 따른 대체 텍스트 생성장치는 대체 텍스트 생성규칙을 저장한 저장부; 입력된 비주얼 콘텐츠를 인식하고, 상기 비주얼 콘텐츠의 인식결과에 대응하는 입력 정보를 생성하는 비주얼 콘텐츠 인식부; 상기 입력 정보가 입력되는 입력 항목을 포함하도록 구성된 편집창을 생성하는 편집창 생성부; 및 상기 대체 텍스트 생성규칙을 참조하여, 상기 다수의 입력항목에 입력된 입력 정보를 기반으로 대체 텍스트를 자동으로 생성하여, 상기 편집창 내의 텍스트 박스에 표시하는 대체 텍스트 생성부를 포함한다.

본 발명에 따르면, 비주얼 콘텐츠를 대체 텍스트로 변환하기 위한 편집창을 생성하고, 상기 편집창에 입력되는 입력 정보에 따라 대체 텍스트를 자동으로 생성함으로써, 음성 정보로 변환하기 위한 대체 텍스트를 쉽고 빠르게 생성할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 대체 텍스트 생성 장치의 내부구성을 나타내는 블록도이다.
도 2는 도 1에 도시한 편집프로그램부의 블록도이다.
도 3 내지 6은 본 발명의 다양한 실시 예에 따른 대체 텍스트를 생성하기 위한 편집창을 도시한 도면들이다.
도 7은 도 2에 도시된 비주얼 콘텐츠 인식부가 원 그래프에서 인식하는 입력 정보의 예를 설명하는 도면이다.
도 8은 본 발명의 일 실시 예에 따른 병합구조를 갖는 표의 일 예를 나타낸 도면이다.
도 9는 본 발명의 일 실시 예에 따른 대체텍스트 생성방법을 도시한 순서도이다.

본 발명의 다양한 실시예는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나 이는 본 발명의 다양한 실시예를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 다양한 실시예의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.

본 발명의 다양한 실시예에서 사용될 수 있는“포함한다” 또는 “포함할 수 있다” 등의 표현은 개시(disclosure)된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 발명의 다양한 실시예에서, "포함하다" 또는 "가지다" 등의 용어는 명세서에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 도면을 참조하여, 본 발명의 실시 예에 대해 상세히 기술한다.

도 1은 본 발명의 일 실시 예에 따른 대체 텍스트 생성 장치의 내부 구성을 개략적으로 도시한 블록도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 대체 텍스트 생성 장치(100)는 이미지, 표, 그래프, 수식 등과 같은 비주얼 콘텐츠 정보(이하, '비주얼 콘텐츠'라 함.)를 설명하는 대체 텍스트 정보(이하, '대체 텍스트'라 함)를 자동으로 생성하며, 이러한 대체 텍스트를 생성하는 중간 과정에서 편집자에게 편집창을 제공한다.

본 발명의 다른 실시 예에 따른 대체 텍스트 생성 장치(100)는 상기 편집창에 의해 생성된 상기 대체 텍스트를 음성 정보로 변환하고, 상기 음성 정보를 출력함으로써, 노약자 또는 시각장애인 등과 같은 사용자가 인지하기 어려운 비주얼 콘텐츠의 습득을 용이하게 한다.

이러한 대체 텍스트 생성 장치(100)는 컴퓨팅 장치일 수 있으며, 상기 컴퓨팅 장치는 인터넷 통신 및 이동통신이 가능한 통신 기능을 구비할 수 있다. 상기 컴퓨팅 장치는, 예를 들면, 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 비디오 전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 head-mounted-device(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 또는 스마트 와치(smart watch))중 적어도 하나를 포함할 수 있다.

상기 컴퓨팅 장치로 구현될 수 있는 대체 텍스트 생성 장치(100)는 입력부(110), 저장부(120), 메모리부(130), 표시부(140), 제어부(150), 편집프로그램부(160), 음성변환부(170) 및 음성 출력부(180)를 포함하도록 구성된다.

입력부(110)는 편집자에 의해 작성된 입력 정보가 입력되는 구성으로, 예를 들면, 키보드, 마우스, 터치패드 등과 같은 다양한 입력수단을 포함하도록 구성될 수 있다.

저장부(120)는 하드 디스크, 메모리 카드와 같은 저장매체로 구현될 수 있다. 저장부(120)에는 편집창을 생성하기 위한 편집프로그램과 같은 응용프로그램 및 상기 응용프로그램들이 수행되는 운영체계가 저장될 수 있다. 추가로, 저장부(120)에는 편집창 내의 입력항목들을 구성하기 위한 입력항목 생성규칙(121, 도 2에 도시함), 입력항목들에 입력되는 입력 정보를 기초로 대체 텍스트를 생성하기 위한 텍스트 생성규칙(123, 도 2에 도시함) 및 비주얼 콘텐츠 내의 구성요소들 또는 객체를 분석하기 위한 다양한 학습 데이터 등이 저장될 수 있다.

메모리부(130)는 상기 응용프로그램을 일시적으로 로딩(loading)하거나, 상기 응용프로그램의 실행에 따라 생성된 데이터의 일시적으로 저장하는 구성으로, 예를 들면, SDRAM(synchronous dynamic random access memory)과 같은 RAM(random access memory), ROM(read-only memory), NVRAM(non-volatile random access memory), EEPROM(electrically erasable programmable read-only memory), FLASH 메모리 등을 포함할 수 있다.

표시부(140)는 본 발명의 다양한 실시 예들에 따른 대체 텍스트를 생성하기 위한 편집창들을 화면에 표시한다. 이러한 표시부(140)는 화면에 표시된 편집창 내의 다양한 입력항목에 편집자가 작성한 입력 정보를 입력하기 위한 화면 인터페이스 기능을 구비할 수 있다. 이러한 화면 인터페이스 기능을 구현하기 위해, 표시부(140)는 표시패널과 터치 패널을 포함하도록 구성될 수 있다.

제어부(150)는 본 발명의 일 실시 예에 따른 대체 텍스트 생성 장치(100)의 전반적인 동작을 제어하는 구성으로, 입력부(110), 저장부(120), 메모리부(130), 표시부(140), 편집프로그램부(160), 음성 변환부(170) 및 음성 출력부(180)의 동작을 제어한다. 이러한 제어부(150)는 하나 이상의 범용 마이크로프로세서들, 디지털 신호 프로세서들(DSP들), 하드웨어 코어들, ASIC들(application specific integrated circuits), FPGA들(field programmable gate arrays), 그래픽 프로세서 또는 이들의 임의의 결합에 의해서 구현될 수 있다.

편집프로그램부(160)는 비주얼 콘텐츠에 대한 대체 텍스트를 생성 및 수정하기 위한 편집창을 생성하고, 편집창 내에 구성된 다양한 입력항목에 입력되는 입력 정보에 따라 대체 텍스트를 생성한다. 이러한 편집프로그램부(160)는 하드웨어 모듈로 구현되어 전술한 제어부(150) 내에 구비될 수도 있다. 또한, 편집프로그램부(160)는 응용프로그램으로 구현되어 전술한 저장부(120)에 저장되고, 제어부(150)의 제어에 따라 실행될 수 있다. 이러한 편집프로그램부(160)에 대한 설명은 도 2를 참조하여 상세히 설명한다.

음성 변환부(170)는 상기 편집창에 의해 생성된 대체 텍스트를 음성 정보로 변환한다. 대체 텍스를 음성 정보로 변환하는 기술은 다양하며, 예를 들면, 스크린리더 기술이 사용될 수 있다. 스크린리더 기술은 Jaws와 같은 PC형 스크린리더와 보이스몬, 웹톡스와 같은 웹스크린리더 방식을 포함할 수 있다. PC형 스크린리더는 전맹 시각장애인의 비주얼 콘텐츠에 대한 접근성을 지원하기 위해 사용되고, 웹스크린리더는 저시력시각장애인과 난독증과 같은 학습장애, 인지장애인과 노인, 다문화가족 등의 웹접근성을 지원하기 위해 사용된다. 대체 텍스를 음성 정보로 변환하는 또 다른 기술로 모바일폰에 사용되는 모바일기기형 스크린리더가 사용될 수도 있다.

음성 출력부(180)는 음성 변환부(170)에 의해 변환된 음성 정보를 출력하는 구성으로, 예를 들면, 스피커 등일 수 있다.

도 2는 도 1에 도시한 편집프로그랩부의 내부 구성을 개략적으로 나타낸 블록도이다.

도 2를 참조하면, 편집프로그램부(160)는 비주얼 콘텐츠 분석부(160A), 입력 정보 분류부(160B), 편집창 생성부(160C) 및 대체 텍스트 생성부(160E)를 포함한다.

비주얼 콘텐츠 인식부(160A)는 입력된 비주얼 콘텐츠를 분석하여, 비주얼 콘텐츠의 종류 및 비주얼 콘텐츠 내에 포함된 다양한 객체를 인식한다. 여기서, 객체는 이미지, 그래프, 표 또는 수식일 수 있다.

비주얼 콘텐츠 내에 포함된 다양한 객체를 인식하는 방법으로, OCR 프로그램과 같은 문자인식기술, 이미지 내의 객체를 인식하는 이미지 인식 기술(image recognition technique) 등이 이용될 수 있다. 이미지 인식 기술은 다양하며, 예를 들면, 색 공간(color space)을 활용한 thresholding methods, histogram-based methods, 영역별 색상 또는 밝기를 활용한 region growing mehods, split and merge methods, 픽셀과 인접 픽셀 간의 차이를 활용한 graph partitioning methods을 포함할 수 있다.

전자문서에 포함된 표 또는 수식과 같은 비주얼 콘텐츠의 경우, 전자문서에 포함된 태그 정보를 분석하여 표 또는 수식의 종류 및 특징을 인식할 수 있다. 여기서, 태그 정보는, HTML 태그 또는 해시태그(Hashtag)일 수 있으며, 이미지 또는 그래프를 지시하는 '<img>', 표를 지시하는 '<table>', 수식을 지시하는 '<math> 또는 <mathml>' 등을 예로 들 수 있다.

입력 정보 분류부(160B)는 상기 저장부(120)에 저장된 입력 정보 분류 규칙(121)을 참조하여, 상기 비주얼 콘텐츠 인식부(160A)에서 인식한 결과에 대응하는 다수의 입력 정보를 분류한다.

상기 입력 정보 분류 규칙(121)은 상기 다수의 입력 정보를 제1 입력 정보와 제2 입력 정보로 분류하기 위한 규칙일 수 있다. 구체적으로, 상기 제1 입력 정보는 상기 비주얼 콘텐츠에 대한 기본 정보를 포함하도록 구성되며, 제2 입력 정보는 상기 비주얼 콘텐츠에 대한 상세 정보를 포함하도록 구성될 수 있다.

상기 제1 입력 정보는, 상기 비주얼 콘텐츠의 종류 및 상기 비주얼 콘텐츠에 포함된 객체의 종류, 객체의 개수, 객체의 크기 등 상기 비주얼 콘텐츠를 개략적으로 설명하는 텍스트 형태의 정보일 수 있다.

상기 제2 입력 정보는, 예를 들면, 상기 비주얼 콘텐츠에 포함된 객체들 간의 관계, 객체의 위치, 객체의 형상 등과 같이, 비교적 상기 비주얼 콘텐츠를 정밀하게 설명할 수 있는 텍스트 형태의 정보 등일 수 있다. 이러한 제2 입력 정보는 "객체의 속성 정보"로 지칭할 수 있다.

상기 비주얼 콘텐츠가 이미지이고, 이미지 내에 다수의 사람이 존재하는 경우, 상기 제1 입력 정보는 비주얼 콘텐츠가 이미지임을 설명하는 텍스트 정보, 사람의 수 및 사람의 성별 등을 설명하는 텍스트 정보를 예로들 수 있고, 상기 제2 입력 정보는 이미지 내에서 사람이 점프를 하는 행동, 사람과 사람이 손을 잡고 있는 모습 등을 설명하는 텍스트 정보를 예로 들 수 있다.

상기 비주얼 콘텐츠가 그래프인 경우, 상기 제1 입력 정보는 그래프의 종류 등을 설명하는 텍스트 정보를 예로 들 수 있고, 상기 제2 입력 정보는 X축 속성 및 Y축 속성을 설명하는 텍스트 정보를 예로 들 수 있다.

상기 비주얼 콘텐츠가 표인 경우, 상기 제1 입력 정보는, 예를 들면, 표의 전체 크기, 표를 구성하는 헤더에 기록되는 정보 및 상기 헤더에 맵핑되는 셀에 기록되는 정보 등을 예로 들 수 있고, 제2 입력 정보는, 예를 들면, 표의 병합 구조를 설명하는 텍스트 정보 등일 수 있다.

상기 비주얼 콘텐츠가 수식인 경우, 상기 제1 입력 정보는, 예를 들면, 수식의 종류 및 수식에 포함된 사칙 연산 기호의 개수 등을 설명하는 텍스트 정보일 수 있고, 상기 제2 입력 정보는, 예를 들면, 상기 수식에 포함된 특수한 형식의 구성 성분, 예를 들면, 분수, 지수, 루트, 미지수 등을 설명하는 텍스트 정보일 수 있다.

도 2에서는 비주얼 콘텐츠 인식부(160A)와 입력 정보 분류부(160B)가 물리적으로 분리된 구조를 도시하고 있으나, 설계에 따라 입력 정보 분류부(160B)는 비주얼 콘텐츠 인식부(160A) 내에 포함되도록 구성될 수 있다.

편집창 생성부(160C)는 상기 입력 정보 분류부(160B)에 의해 분류된 다수의 입력 정보들이 자동으로 입력되는 입력항목을 포함하도록 구성된 편집창(160D)을 생성한다.

상기 생성된 편집창(160D)에 포함된 입력 항목은 상기 제1 입력 정보가 자동으로 입력되는 제1 입력 항목과 상기 제2 입력 정보가 자동으로 입력되는 제2 입력 항목을 포함한다.

대체 텍스트 생성부(160E)는 상기 저장부(120)에 사전 저장된 대체텍스트 생성규칙(123)을 참조하여, 상기 편집창(160D) 내의 입력항목들에 입력된 입력 정보를 기반으로 대체 텍스트를 자동으로 생성한다. 여기서, 대체텍스트 생성규칙(123)은 입력 정보와 문장을 구성하는 품사 사이의 연결관계를 정의한 규칙으로, 예를 들면, 임의의 입력항목에 입력되는 입력 정보는 상기 대체 텍스트 생성 규칙(123)에 의해 문장 내에서 제1 품사로 배치되고, 다른 임의의 입력항목에 입력되는 입력 정보는 문장 내에서 제2 품사에 배치될 수 있다.

대체 텍스트 생성부(160E)에 의해 생성된 대체 텍스트는 상기 편집창 내의 텍스트 박스에 표시될 수 있다. 상기 텍스트 박스에 표시된 대체 텍스트는 마우스, 키보드 등의 다양한 입력 수단을 통해 편집자에 의해 수정될 수 있다.

상기 텍스트 박스에 최초로 표시된 대체 텍스트 또는 상기 편집자에 의해 수정된 대체 텍스트는 도 1에 도시한 음성 변환부(170)에 의해 음성 정보로 변환되고, 음성 정보는 도 1에 도시한 음성 출력부(180)에 의해 출력된다. 이렇게 함으로써, 이미지, 표, 그래프, 수식 등과 같은 비주얼 콘텐츠의 인식이 어려운 사용자들에게 비주얼 콘텐츠의 내용을 효과적으로 전달할 수 있다. 또한, 비주얼 콘텐츠로부터 추출된 입력 정보 및 상기 대체 텍스트 생성 규칙에 따라 자동으로 생성된 대체 텍스트가 표시되는 편집창을 편집자에게 제공함으로써, 편집자는 상기 편집창에 표시된 대체 텍스트를 간단히 수정하는 작업을 통해 최종 대체 텍스트를 손쉽게 생성할 수 있다. 이는 편집자로 하여금 대체 텍스트를 매번 직접 작성하게 하는 불편함을 줄이고, 편집자의 개인적인 성향에 관계없이 정확하고 일관성 있는 대체 텍스트를 손쉽게 생성할 수 있게 한다.

도 3 내지 6은 본 발명의 다양한 실시 예에 따른 편집창을 도시한 도면들이다.

도 3을 참조하면, 비주얼 콘텐츠가 이미지인 경우에 생성되는 편집창(160D)은 실제 비주얼 콘텐츠의 크기보다 작은 크기의 비주얼 콘텐츠가 표시되는 박스(30), 비주얼 콘텐츠의 종류가 이미지임을 설명하는 입력 정보가 자동 또는 수동으로 입력되는 입력 항목(31), 비주얼 콘텐츠 내에 포함된 객체에 대한 입력 정보(이하, 객체 정보)가 자동으로 입력되는 입력 항목(33), 상기 객체 정보에 대한 상세 정보(이하, 객체 상세 정보)가 자동으로 입력되는 입력 항목(35), 및 상기 입력항목(31, 33 및 35)에 입력된 입력 정보와 텍스트 생성 규칙(123)을 기반으로 생성된 대체 텍스트가 자동으로 표시되는 텍스트 박스(37)를 포함한다.

도 3에서는 비주얼 콘텐츠가 이미지이므로, 입력 항목(31)에는 '이미지'가 자동으로 입력된다.

상기 객체 정보가 입력되는 입력 항목(33)은 다수의 항목을 포함하도록 구성될 수 있다.

상기 입력 항목(33)의 개수는 이미지에서 인식된 객체의 개수에 따라 결정될 수 있다. 수영복을 입은 남녀가 해변가에서 점프를 하고 있는 상황이 포함된 이미지를 가정할 때, 비주얼 콘텐츠 인식부(160A)는 이미지 인식 기술을 기반으로 분류된 3개의 객체를 인식할 수 있다. 분류된 3개의 객체는, 예를 들면, 수영복 입은 남자, 수영복 입은 여자 및 수영복 입은 남녀를 둘러싸는 배경으로 이루어질 수 있다. 이 경우, 상기 입력 항목(33)은 3개의 입력 항목으로 구성될 수 있으며, 3개의 입력 항목에는 수영복 입은 남자를 설명하는 텍스트 정보, 수영복 입은 여자를 설명하는 텍스트 정보 및 수영복을 입은 남녀를 둘러싸는 배경을 설명하는 텍스트 정보가 자동으로 입력될 수 있다.

상기 객체 상세 정보가 입력되는 입력 항목(35)도 다수의 입력 항목을 포함하도록 구성될 수 있다.

상기 객체 상세 정보는 객체들의 자세, 행동, 형태를 설명하는 텍스트 정보, 이미지 내에서 객체들의 위치를 설명하는 텍스트 정보, 객체들 간의 관계를 설명하는 텍스트 정보를 포함할 수 있다.

전술한 이미지의 예를 가정할 때, 상기 입력 항목(35)에는 수영복을 입은 남녀의 점프 동작을 설명하는 텍스트 정보, 수영복을 입은 남자와 여자가 서로 손을 잡고 있는 형상을 설명하는 텍스트 정보, 이미지 내에서 수영복을 입은 남자가 우측에 위치함을 설명하는 텍스트 정보, 이미지 내에서 수영복을 입은 여자가 좌측에 위치함을 설명하는 텍스트 정보, 이미지 내에서 위쪽 배경은 화창한 하늘을 설명하는 텍스트 정보 및 이미지 내에서 아래쪽 배경은 해변의 백사장을 설명하는 텍스트 정보가 각각 자동으로 입력될 수 있다.

대체 텍스트 박스(37)에는 상기 입력항목들(31, 33, 35)에 입력된 입력 정보들과 대체 텍스트 생성 규칙(123)을 기반으로 생성된 대체 텍스트가 자동으로 표시될 수 있다.

아래의 표1에는 도 3의 이미지로부터 생성된 대체 텍스트의 예이다.

비주얼 콘텐츠는 이미지이다.
이미지의 아래의 배경은 백사장이고, 그 위의 배경은 화창한 하늘이다.
이미지 내에서 좌측에는 수영복을 입은 여자가 점프하고 있으며, 우측에는 수영복을 입은 남자가 점프하고 있다.
수영복을 입은 남녀는 손을 잡고 있다

대체 텍스트 박스(37)에 최초로 표시되는 대체 텍스트는 마우스, 키보드 등과 같은 입력 수단을 통해 편집자에 의해 수정될 수 있다. 이렇게 함으로써, 어색한 대체 텍스트는 자연스러운 대체 텍스트로 변경될 수 있다. 이러한 수정 작업은 선택적일 수 있다. 따라서, 대체 텍스트 박스(37)에 최초로 표시되는 대체 텍스트가 그대로 사용될 수 있다.

대체 텍스트는 편집자의 선택에 따라 상기 입력항목들(31, 33, 35)에 입력된 모든 입력 정보를 기반으로 생성되거나 일부 입력 정보를 기반으로 생성될 수 있다. 예를 들면, 이미지의 상세한 설명을 원하지 않는 사용자에게는 입력 항목들(31, 33)에 입력되는 입력 정보만을 기반으로 대체 텍스트가 생성될 수 있다. 반대로, 이미지의 상세한 정보를 원하는 사용자에게는 입력 항목들(31, 33, 35)에 입력되는 모든 입력 정보들을 기반으로 대체 텍스트가 생성될 수 있다.

도 4를 참조하면, 비주얼 콘텐츠가 그래프인 경우에 생성되는 편집창(160D)은 실제 이미지 형태의 그래프보다 작은 크기를 갖는 그래프가 표시되는 박스(40), 비주얼 콘텐츠의 종류가 그래프임을 설명하는 텍스트 형태의 입력 정보가 자동 입력되는 입력 항목(41), 상기 그래프에 대한 간단한 정보(이하, 그래프 정보)가 자동으로 입력되는 입력 항목(43), 상기 그래프에 대한 상세 정보(이하, 그래프 상세 정보)가 자동으로 입력되는 입력 항목(45) 및 상기 입력항목(41, 43 및 45)에 입력된 입력 정보들과 상기 대체 텍스트 생성규칙(123)을 기반으로 생성된 대체 텍스트가 자동으로 표시되는 대체 텍스트 박스(47)를 포함하도록 구성된다.

상기 그래프 정보가 입력되는 입력 항목(43)에는 그래프의 종류를 설명하는 정보가 자동으로 입력될 수 있다. 예를 들면, 상기 입력 항목(43)에는 원 그래프, 점 그래프, 꺾은선 그래프 또는 막대 그래프임을 설명하는 그래프 정보가 자동으로 입력될 수 있다.

상기 그래프 상세 정보가 입력되는 입력 항목(45)에는 X축의 속성, Y축의 속성, 그래프의 개수 등을 설명하는 입력 정보가 입력될 수 있다.

다수의 영역으로 나누어진 원 그래프인 경우, 상기 입력 항목(45)에는 영역별 분포 각도를 퍼센트(%) 형태로 변환된 입력 정보가 입력될 수 있다. 예를 들면, 도 7에 도시된 바와 같이, A의 분포도가 180°로 표현되고, B와 C의 분포도가 각각 90°로 표현되는 원 그래프를 가정할 때, 비주얼 콘텐츠 인식부(160A)의 인식 결과에 따라 A의 분포도는 50%를 나타내는 입력 정보, B와 C의 분포도는 각각 25%를 나타내는 입력 정보로 변환되어 상기 입력 항목(45)에 입력될 수 있다.

대체 텍스트 박스(47)에는 상기 입력항목들(41, 43, 45)에 입력된 입력 정보들과 대체 텍스트 생성 규칙(123)을 기반으로 생성된 대체 텍스트가 자동으로 표시될 수 있다.

아래의 표2는 그래프의 종류가 막대 그래프이고, X축 속성이 과일이고, Y축 속성이 사람의 수인 경우를 가정할 때, 상기 대체 텍스트 박스(47)에 자동으로 표시될 수 있는 대체 텍스트의 예이다.

- 비주얼 콘텐트는 그래프이다.
- 그래프의 종류는 막대 그래프이다.
- X축은 과일을 나타내고, Y축은 사람의 수를 나타낸다.
- 사과에 대응하는 사람의 수는 7명, 오렌지에 대응하는 사람의 수는 4명, 바나나에 대응하는 사람의 수는 9명이다.

대체 텍스트 박스(47)에 최초로 표시되는 대체 텍스트는 편집자에 의해 수정될 수 있다. 위의 대체 텍스트에서, "사과에 대응하는 사람의 수는 7명, 오렌지에 대응하는 사람의 수는 4명, 바나나에 대응하는 사람의 수는 9명이다."라는 텍스트 문구는 어색하다.

이에, 편집자는 상기 텍스트 문구를 "사과를 선호하는 사람의 수는 7명, 오렌지를 선호하는 사람의 수는 4명, 바나나를 선호하는 사람의 수는 9명이다."로 직접 수정할 수 있다. 이렇게 함으로써, 어색한 대체 텍스트는 자연스러운 대체 텍스트로 변경될 수 있다. 물론, 편집자에 의한 수정 작업은 선택적일 수 있다.

도 5를 참조하면, 비주얼 콘텐츠가 표인 경우에 생성되는 편집창(160D)은 비주얼 콘텐츠가 표임을 설명하는 입력 정보가 자동으로 입력되는 입력항목(51), 표를 구성하는 입력 정보가 입력되는 입력항목(53), 상기 표를 구성하는 상세 입력 정보가 입력되는 입력 항목(55) 및 상기 입력항목(51, 53, 55)에 입력된 입력 정보를 기초로 생성된 대체 텍스트가 입력되는 텍스트 박스(57)를 포함한다.

상기 표를 구성하고 있는 입력 정보는, 예를 들면, HTML의 태그정보 <table>, <tr>, <th>, <td> 등일 수 있다.

비주얼 콘텐츠 인식부(160A)는 표를 구성하고 있는 정보, 즉, HTML의 태그정보 <table>, <tr>, <th>, <td> 등을 분석하여 표의 전체 크기, 제목을 설명하는 헤더 정보, 내용을 설명하는 셀 정보를 인식하고, 그 인식 결과를 텍스트 형태의 입력 정보로 변환하여 상기 입력 항목(53)에 입력할 수 있다. 여기서, 상기 헤더 정보는 행 헤더 정보 및 열 헤더 정보를 포함한다.

상기 표를 구성하는 상세 입력 정보가 입력되는 상기 입력 항목(55)에는 표의 병합구조가 반영된 입력 정보가 입력될 수 있다.

도 8은 본 발명의 일 실시 예에 따른 병합구조를 갖는 표의 일 예를 나타낸 도면이다.

도 8을 참조하면, 표(82)의 경우, 상위 헤더를 나타내는 'Fillrate'의 하위 헤더는 'MOperations/s' 및 'MPixels/s'가 병합된 구조이며, 다른 상위 헤더를 나타내는 'Memory'의 하위 헤더는 'Size(MB)' 및 'Bandwidth(GB/s)'가 병합된 구조이다.

상기 비주얼 콘텐츠 인식부(160A)는 표(82)에서 상기 하위 헤더(410)에 표시되는 헤더 정보를 표(84)의 하위 헤더(415)에 표시되는 헤더 정보로 변환하여 상기 입력 항목(55)에 입력할 수 있다.

즉, 상기 비주얼 콘텐츠 인식부(160A)는 병합된 구조에 따라 "Fillrate의 MOperations/s"와 같은 텍스트 형태의 입력 정보를 생성하여 상기 입력 항목(55)에 입력할 수 있다.

마찬가지로, 상기 비주얼 콘텐츠 인식부(160A)는 'Fillrate'와 'MPixels/s'의 병합 구조에 따라 "Fillrate의 MPixels/s"와 같은 텍스트 형태의 입력 정보를 생성하여 상기 입력 항목(55)에 입력할 수 있다.

또한, 상기 비주얼 콘텐츠 인식부(160A)는 표(82)에서 도면부호 420이 지시하는 헤더 정보를 표(84)에 도시된 도면부호 425와 같은 입력 정보를 생성하여 상기 입력 항목(55)에 입력할 수 있다.

이와 같이, HTML 태그 정보, 해시태그(Hashtag) 등을 활용하여 표에 대응하는 입력 정보를 자동으로 생성하고, 이러한 입력 정보를 기반으로 대체 텍스트를 생성함으로써 편집자가 표를 설명하는 대체 텍스트를 보다 편리하게 작성할 수 있다.

도 6을 참조하면, 비주얼 콘텐츠가 수식인 경우에 생성되는 편집창(160D)은 비주얼 콘텐츠의 종류가 수식임을 나타내는 입력 정보가 자동 또는 수동으로 입력되는 입력항목(61), 상기 수식에 대한 정보(이하, 수식 정보)가 자동 또는 수동으로 입력되는 다수의 입력항목들(63) 및 상기 수식 정보에 대한 상세 정보(이하, 수식 상세 정보)가 자동 또는 수동으로 입력되는 다수의 입력 항목들(65) 및 상기 입력 항목들(61, 63, 65)에 입력되는 입력 정보를 기반으로 자동으로 생성된 대체텍스트가 표시되는 텍스트 박스(67)를 포함한다.

상기 입력 항목들(63)에는 상기 비주얼 콘텐츠 인식부(160A)에 의해 인식된 등호, 부등호, 덧셈, 뺄셈, 곱셈, 나눗셈과 같은 연산 기호, 항의 개수를 설명하는 입력 정보가 입력될 수 있다.

상기 입력 항목들(65)에는 상기 비주얼 콘텐츠 인식부(160A)에 의해 인식된 분수, 지수 루트, 미지수 등과 같은 특수한 형식의 기호를 설명하는 입력 정보가 입력될 수 있다.

상기 텍스트 박스(67)에는 대체 텍스트 생성규칙(123)과 상기 입력 항목들(61, 63, 63)에 입력된 입력 정보를 기반으로 생성된 대체 텍스트가 표시된다.

상기 텍스트 박스(67)에 표시되는 대체 텍스트는 상기 입력 항목들(61, 63, 65)에 입력되는 입력 정보들 중에서 일부 입력 정보들만을 기반으로 생성될 수 있다. 예를 들면, 상기 텍스트 박스(67)에 표시되는 대체 텍스트는 도 6에 도시된 수식(60)이 방정식인지 부등식인지를 구분하는 정도에서 인지하고 싶은 경우, 상기 입력 항목들(61, 63)에 입력된 입력 정보를 기반으로 생성될 수 있다. 수식의 세부 내용을 모두 인지하고 싶은 경우, 상기 텍스트 박스(67)에 표시되는 대체 텍스트는 상기 입력 항목들(61, 63, 65)에 입력되는 모든 정보를 기반으로 생성될 수 있다. 즉, 연령 또는 지적 수준에 따라 사용자마다 원하는 대체 텍스트의 정보량은 다르게 설정될 수 있다.

아래는 상기 텍스트 생성 규칙(123)과 상기 입력 항목들(61, 63)에 입력된 입력 정보를 기반으로 상기 텍스트 박스(67)에 표시되는 대체 텍스트의 예이다.

- 비주얼 콘텐츠는 수식이다.
- 수식은 근의 공식을 나타내는 방정식

아래는 상기 텍스트 생성 규칙(123)과 상기 입력 항목들(61, 63, 63)에 입력된 모든 입력 정보를 기반으로 상기 텍스트 박스(67)에 표시되는 대체 텍스트의 예이다.

- 비주얼 콘텐츠는 수식이다.
- 수식은 근의 공식을 나타내는 방정식이다.
- 좌변은 한 개의 항, 우변은 분수로 이루어져 있고, 분자에는 루트가 있다.

한편, 전술한 실시예와 유사하게, 텍스트 박스(67)에 표시되는 대체 텍스트는 입력 수단을 통해 편집자에 의해 수정될 수 있다.

도 9는 본 발명의 일 실시 예에 따른 대체 텍스트 생성방법을 나타내는 순서도로서, 아래의 각 단계를 수행하는 주체는 도 1에 도시한 편집프로그램부(160)일 수 있다. 만일 편집프로그램부(160)가 도 1에 도시한 제어부(150) 내에 포함되도록 설계되는 경우, 아래의 각 단계를 수행하는 주체는 제어부(150)일 수 있다. 설명의 간략화를 위해, 도 1 내지 도 8을 참조하여 설명한 내용과 중복된 내용은 생략하거나 간략히 설명한다.

도 9를 참조하면, 먼저, 단계 S810에서, 비주얼 콘텐츠를 인식하는 과정이 수행된다. 비주얼 콘텐츠는 이미지, 그래프, 표 및 수식을 포함할 수 있다. 이러한 비주얼 콘텐츠를 인식하는 방법으로, 예를 들면, OCR 프로그램과 같은 문자인식기술, 이미지 인식 기술(image recognition technique)이 이용될 수 있다. 다른 예로, 상기 비주얼 콘텐츠에 포함된 HTML 태그 또는 해시태그(Hashtag)와 같은 태그 정보를 분석한 결과를 기반으로 상기 비주얼 콘텐츠를 인식할 수 있다.

이어, 단계 S820에서, 상기 비주얼 콘텐츠의 인식결과에 대응하는 입력 정보를 생성하는 과정이 수행된다. 비주얼 콘텐츠의 개략적인 내용을 설명하는 제1 입력 정보와 비주얼 콘텐츠의 상세한 내용을 설명하는 제2 입력 정보를 포함한다.

이어, 단계 S830에서, 상기 생성된 입력 정보를 도 3 내지 도 5에 도시된 바와 같은 편집창 내의 입력 항목에 자동으로 입력하는 과정이 수행된다. 상기 입력 항목은 상기 제1 입력 정보가 입력되는 제1 입력 항목과 상기 제2 입력 정보가 입력되는 제2 입력 항목을 포함한다.

이어, 단계 S840에서, 상기 입력 항목에 입력된 입력 정보와 대체 텍스트 생성 규칙(123)을 기반으로 대체 텍스트를 생성하는 과정이 수행된다. 대체 텍스트는 상기 제1 입력 정보를 기반으로 생성되는 제1 대체 텍스트와 상기 제1 및 제2 입력 정보를 모두 고려하여 생성되는 제2 대체 텍스트를 포함한다. 편집자의 선택에 따라 제1 및 제2 대체 텍스트 중 어느 하나의 대체 텍스트가 생성될 수 있다. 제1 대체 텍스트는 상기 비주얼 콘텐츠를 개략적으로 설명하는 텍스트이고, 제2 대체 텍스트는 상기 비주얼 콘텐츠를 상세하게 설명하는 텍스트이다. 상기 대체 텍스트 생성 규칙은 상기 입력 정보와 상기 대체 텍스트를 구성하는 품사 사이의 연결관계를 정의한 규칙으로서, 이러한 대체 텍스트 생성 규칙에 따라, 상기 입력 정보는 문장을 구성하도록 상기 대체 텍스트 내에서 적절한 품사 위치에 배치될 수 있다.

이어, 단계 S850에서, 상기 생성된 대체 텍스트는 도 3 내지 6에 도시된 편집창 내의 텍스트 박스에 표시되는 과정이 수행된다. 텍스트 박스에 표시된 대체 텍스트는 편집자에 의해 수정될 수 있다.

이어, 단계 S860에서, 상기 텍스트 박스에 최초 표시된 대체 텍스트 또는 편집자에 의해 수정된 대체 텍스트를 음성으로 변환하는 과정이 수행된다.

이후, 대체 텍스트로부터 변환된 음성은 스피커와 같은 오디오 출력 수단을 통해 비주얼 콘텐츠를 인지하기 어려운 노약자 또는 시각장애인에게 제공됨으로써, 대체 텍스트의 생성과 관련된 일련의 모든 과정은 종료된다.

이상에서 본 발명에 대하여 실시예를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 발명의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 본 발명의 실시예에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

객체를 포함하는 비주얼 콘텐츠를 인식하는 단계;
상기 비주얼 콘텐츠의 인식결과에 대응하는 입력 정보를 생성하는 단계;
상기 입력 정보에 포함된 상기 객체의 종류와 속성을 설명하는 텍스트가 자동으로 입력되는 입력항목을 포함하도록 구성된 편집창을 생성하는 단계;
상기 입력항목에 입력된 텍스트와 문장을 구성하는 품사 사이의 연결관계를 정의한 대체 텍스트 생성규칙에 따라, 상기 입력항목에 입력된 텍스트를 문장 내 품사에 배치하여 대체 텍스트를 자동으로 생성하는 단계; 및
상기 생성된 대체 텍스트를 상기 편집창 내의 텍스트 박스에 표시하는 단계
를 포함하는 대체 텍스트 생성 방법.
삭제
제1항에서, 상기 입력 정보를 생성하는 단계는,
상기 비주얼 콘텐츠의 인식결과에 따라 상기 비주얼 콘텐츠에 대한 기본 정보로 이루어진 제1 입력 정보를 생성하는 단계; 및
상기 비주얼 콘텐츠에 대한 상세 정보를 포함하는 제2 입력 정보를 생성하는 단계를 포함하는 대체 텍스트 생성 방법.
제3항에서, 상기 편집창을 생성하는 단계는,
상기 제1 입력 정보가 자동으로 입력되는 제1 입력 항목과 상기 제2 입력 정보가 자동으로 입력되는 제2 입력 항목을 포함하는 상기 편집창을 생성하는 단계인 것인 대체 텍스트 생성 방법.
제3항에서, 상기 제1 입력 정보는 상기 비주얼 콘텐츠로부터 인식된 객체의 종류를 설명하는 텍스트 정보이고, 상기 제2 입력 정보는 상기 객체의 속성 정보를 설명하는 텍스트 정보인 것인 대체 텍스트 생성 방법.
제3항에서, 상기 대체 텍스트를 자동으로 생성하는 단계는,
상기 제1 입력 정보를 기반으로 상기 대체 텍스트를 생성하거나 상기 제1 및 제2 입력 정보를 모두 고려하여 상기 대체 텍스트를 생성하는 단계인 것인 대체 텍스트 생성 방법.
제5항에서, 상기 객체의 속성 정보는,
객체들 간의 상대적 위치 및 객체들 간의 관계를 설명하는 텍스트 정보인 것인 대체 텍스트 생성 방법.
제1항에서, 상기 텍스트 박스에 표시된 대체 텍스트가 입력 수단을 통해 편집자에 의해 수정되는 단계; 및
상기 수정된 대체 텍스트가 최종 대체 텍스트로 생성되는 단계를
더 포함하는 것인 대체 텍스트 생성 방법.
제1항에서, 상기 인식하는 단계는,
문자 인식 기술, 이미지 인식 기술 및 태그 정보 분석 중 어느 하나를 이용하여 상기 비주얼 콘텐츠를 인식하는 것인 대체 텍스트 생성 방법.
제9항에서, 상기 태그 정보는,
HTML 태그 정보 또는 해시태그(Hashtag) 정보인 것인 대체 텍스트 생성 방법.
컴퓨팅 장치로 구현되는 대체 텍스트 생성장치에서,
대체 텍스트 생성규칙을 저장한 저장부;
객체를 포함하는 비주얼 콘텐츠를 인식하고, 상기 비주얼 콘텐츠의 인식결과에 대응하는 입력 정보를 생성하는 비주얼 콘텐츠 인식부;
상기 입력 정보에 포함된 상기 객체의 종류와 속성을 설명하는 텍스트가 자동으로 입력되는 입력 항목을 포함하도록 구성된 편집창을 생성하는 편집창 생성부; 및
상기 입력 항목에 입력된 텍스트와 문장을 구성하는 품사 사이의 연결관계를 정의한 상기 대체 텍스트 생성규칙을 참조하여, 상기 입력 항목에 입력된 텍스트를 문장 내의 품사에 배치하여 대체 텍스트를 자동으로 생성하여, 상기 편집창 내의 텍스트 박스에 표시하는 대체 텍스트 생성부
를 포함하는 대체 텍스트 생성장치.
삭제
제11항에서, 상기 비주얼 콘텐츠 인식부는,
문자인식기술, 이미지 인식 기술(image recognition technique) 및 테그 정보 분석 중 어느 하나를 이용하여 상기 비주얼 콘텐츠를 인식함을 특징으로 하는 대체 텍스트 생성장치.
제11항에서, 상기 비주얼 콘텐츠의 인식결과에 따라 생성된 입력 정보를 상기 비주얼 콘텐츠에 대한 기본 정보로 이루어진 제1 입력 정보와 상기 비주얼 콘텐츠에 대한 상세 정보를 포함하는 제2 입력 정보로 분류하는 입력 정보 분류부를 더 포함하는 것인 대체 텍스트 생성 장치.
제14항에서, 상기 편집창 생성부는,
상기 제1 입력 정보가 입력되는 제1 입력 항목과 상기 제2 입력 정보가 입력되는 제2 입력 항목을 포함하도록 구성된 상기 편집창을 생성하는 것인 대체 텍스트 생성 장치.
제14항에서, 상기 대체 텍스트 생성부는,
상기 제1 입력 정보를 기반으로 상기 대체 텍스트를 생성하거나 상기 제1 및 제2 입력 정보를 모두 고려하여 상기 대체 텍스트를 생성하는 것인 대체 텍스트 생성 장치.