KR102659218B1

KR102659218B1 - 인공지능에 기반하여 이미지를 html로 변환하는 시스템

Info

Publication number: KR102659218B1
Application number: KR1020230189797A
Authority: KR
Inventors: 임미선
Original assignee: 주식회사 인시퀀스
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-04-19

Abstract

본 발명은 지형, 교통량, 이동량 등과 같은 정보를 포함하는 빅데이터에 기반하여 실질적인 생활권을 설정하고, 설정된 실질 생활권을 기준으로 하는 개발 계획을 수립하는 빅데이터에 기반한 지역 생활권 분석 시스템에 관한 것이다.

Description

인공지능에 기반하여 이미지를 HTML로 변환하는 시스템{System for converting images to HTML based on artificial intelligence}

본 발명은 인공지능에 기반하여 이미지를 html로 변환하는 시스템에 관한 것으로, 더욱 상세하게는 시각장애인이나 저시력자 등과 같이 이미지를 인식하기 어려운 사용자들의 웹 접근성을 개선시키기 위해, 인공지능을 이용하여 이미지를 HTML(Hyper Text Markup Language) 기반의 대체 텍스트로 자동으로 변환하는 인공지능에 기반하여 이미지를 html로 변환하는 시스템에 관한 것이다.

디지털 정보에 의지해서 살아가고 있는 편리한 세상에서 디지털화된 서비스를 스스로 이용할수 있는 사용자와 장애, 신체의 노화로 인해 디지털 서비스에서 소외되는 문제는 개인적인 노력으로 극복할 수 없는 한계가 있다.

정보통신기술의 발전과 비대면 환경의 급속한 전환으로 인해, 정보격차(digital divide)는 단순한 서 비스 이용 정도의 차이에서 오는 불편함을 넘어, 사회·경제·문화적 수준, 나아가 삶의 질에 불평등을 초래하게 되었으며, 이에 정부는 국민의 정보화수준을 증진시키기 위한 다양한 노력을 이어오고 있다.

장애인과 고령자를 비롯하여 어떠한 사용자든 어떠한 기술 및 이용 환경에서도 전문적인 능력 없이도 정보통신서비스가 제공하는 모든 정보를 동등하게 이용할 수 있도록 보장하는 정보통신 접근성이 중요한 요소이다.

그 중 웹접근성(web accessibility)은 장애인, 고령자, 어린이 등 누구나 웹사이트에서 제공하는 정보를 비장애인과 동등하게 접근하고 이용할 수 있도록 보장하는 것을 의미한다. 웹사이트는 그림이나 사진들을 제공할 때 눈으로 볼 수 없는 경우를 대비하여 그림이나 사진을 대신할 수 있는 설명을 텍스트로 제공해야 하며, 동영상이나 오디오의 경우 청각장애인을 위한 음성정보를 문자로 제공해야 한다. 또한, 웹사이트는 마우스를 사용할 수 없는 사용자를 위하여 키보드만으로도 모든 콘텐츠에 접근하여 이용할 수 있도록 해야 하며, 움직임이 느린 사용자를 위해 시간조절기능을 제공해야 한다.

한편, 종래에는 이러한 웹 접근성을 준수하기 위해 이미지에 들어가 있는 텍스트를 수작업으로 일일이 타이핑해야되는 불편함이 있었으며, 더욱이 시각적 취약계층에 대한 사회적 인식 및 웹 접근성 준수 기술에 대한 이해도가 부족하여 이에 대한 운영, 유지에 대한 관심이 미흡한 실정이다.

한편, 전술한 배경 기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

한국등록특허 제10-2428985호

본 발명의 일측면은 시각장애인이나 저시력자 등과 같이 이미지를 인식하기 어려운 사용자들의 웹 접근성을 개선시키기 위해, 인공지능을 이용하여 이미지를 HTML(Hyper Text Markup Language) 기반의 대체 텍스트로 자동으로 변환하는 인공지능에 기반하여 이미지를 html로 변환하는 시스템을 제공한다.

본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따른 인공지능에 기반하여 이미지를 HTML로 변환하는 시스템은, 시각장애인이나 저시력자 등과 같이 이미지를 인식하기 어려운 사용자들의 웹 접근성을 개선시키기 위해, 인공지능을 이용하여 이미지를 HTML(Hyper Text Markup Language) 기반의 대체 텍스트로 자동으로 변환한다.

상기 인공지능에 기반하여 이미지를 HTML로 변환하는 시스템은,

이미지를 분석하여 이미지에 포함된 텍스트를 인식하는 텍스트 인식부;

이미지를 분석하여 텍스트를 제외한 나머지 객체들을 구분하고, 구분된 객체들 각각에 대한 키워드를 생성하는 키워드 추출부;

상기 텍스트 인식부에서 인식된 텍스트 및 상기 키워드 추출부에서 생성된 키워드를 HTML 표준 규약에 따른 대체 텍스트로 변환하는 변환부를 포함한다.

상기 키워드 추출부는,

하기 수학식을 이용하여 구분된 객체별로 분류지수를 산출하여, 산출된 분류지수를 미리 저장된 복수의 키워드 후보군에 포함된 단어마다 설정된 분류점수와 비교하여, 분류지수와 가장 근사한 분류점수를 갖는 단어를 해당 객체의 키워드로 설정한다.

[수학식]

여기서, C는 분류지수, w_r은 구분된 객체의 종류별로 상이하게 설정되는 제1 가중치, c_o는 이미지에서 분류지수 산출이 요구되는 객체를 구성하는 픽셀의 평균 색상값, c_a는 이미지에서 분류지수 산출이 요구되는 객체를 제외한 나머지 픽셀들의 평균 색상값, w_o는 분류지수 산출이 요구되는 객체가 이미지에서 차지하는 영역의 비율에 비례하여 설정되는 제2 가중치값, d는 분류지수 산출이 요구되는 객체의 무게중심과 이미지의 무게중심 간의 이격거리이며, 색상값은 컬러코드별로 상이하게 부여되는 것을 특징으로 한다.

상술한 본 발명의 일측면에 따르면, 시각적으로 취약한 계층의 웹 접근성을 크게 개선하여 품질을 높혀 디지털 정보의 활용도를 높여줄 수 있으며 정보 활용의 차별성을 극복할 수 있다.

또한, 정보 취약계층을 위한 웹 접근성 국가표준 모든 항목을 준수하며 이를 뛰어넘는 품질을 구현하여 실제 사용자의 접근성 및 편의성을 대폭 개선할 수 있다.

도 1은 본 발명의 일 실시예에 따른 인공지능에 기반하여 이미지를 HTML로 변환하는 시스템의 개략적인 구성이 도시된 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

본 발명에 따른 인공지능에 기반하여 이미지를 HTML로 변환하는 시스템은, 시각장애인이나 저시력자 등과 같이 이미지를 인식하기 어려운 사용자들의 웹 접근성을 개선시키기 위해, 인공지능을 이용하여 이미지를 HTML(Hyper Text Markup Language) 기반의 대체 텍스트로 자동으로 변환하는 것을 목적으로 한다.

특히, 본 발명에 따른 인공지능에 기반하여 이미지를 HTML로 변환하는 시스템은, 한국형 웹 콘텐츠 접근성 지침들 중 이미지 콘텐츠 인식 용이성 개선을 자동화하는 것을 목적으로 하며, 구체적으로는 텍스트가 아닌 콘텐츠는 그 의미나 용도를 이해할 수 있도록 대체 텍스트를 제공해야 되는 지침과, 텍스트 콘텐츠와 배경 간의 명도 대비 지침을 준수하기 위한 자동화 기술을 제공한다.

이를 위해, 본 발명의 일 실시예에 따른 인공지능에 기반하여 이미지를 HTML로 변환하는 시스템은, 텍스트 인식부(110), 키워드 추출부(120), 변환부(130) 및 보정부(140)를 포함한다.

텍스트 인식부(110)는 이미지를 분석하여 이미지에 포함된 텍스트를 인식한다. 예를 들어, 텍스트 인식부(110)는 광학 문자 인식(OCR) 기술을 이용하여 이미지에 포함된 텍스트를 인식할 수 있으나, 이에 한정되는 것은 아니며 기 공지된 다양한 문자 인식 기술 중 하나를 이용하여 텍스트를 인식할 수 있다.

키워드 추출부(120)는 이미지를 분석하여 텍스트를 제외한 나머지 객체들을 구분하고, 구분된 객체들 각각에 대한 키워드를 생성한다. 즉, 키워드 추출부(120)는 이미지에 포함된 객체의 특징을 설명하거나 나타내기 위한 단어를 설정한다.

이를 위해, 일 실시예에서, 키워드 추출부는 하기 수학식 1을 이용하여 이미지로부터 구분된 객체별로 분류지수를 산출한다.

[수학식 1]

또한, 분류지수 산출이 요구되는 객체의 무게중심과 이미지의 무게중심 간의 이격거리라 함은, 분류지수 산출이 요구되는 객체의 무게중심에 대응되는 픽셀로부터 이미지의 무게중심에 대응되는 픽셀까지 최단거리로 이동하기 위한 픽셀 개수로 정의되며, 예컨대 분류지수 산출이 요구되는 객체의 무게중심에 대응되는 픽셀에서 이미지의 무게중심에 대응되는 픽셀까지 최단거리로 35픽셀이 소요되면, d는 35로 설정될 수 있다.

이와 같이, 키워드 추출부는 상술한 수학식 1을 이용하여 산출된 분류지수를 미리 저장된 복수의 키워드 후보군에 포함된 단어마다 설정된 분류점수와 비교하여, 분류지수와 가장 근사한 분류점수를 갖는 단어를 해당 객체의 키워드로 설정한다.

또는, 키워드 추출부는 산출된 분류지수를 미리 저장된 복수의 키워드 후보군에 포함된 단어마다 설정된 분류점수와 비교하여, 분류지수와 가장 근사한 상위 n개의 단어를 해당 객체의 키워드들로 설정할 수도 있다.

다른 실시예에서, 텍스트 추출부 및 키워드 추출부는 통합된 기능을 수행할 수 있으며, 이러한 경우 통합된 두 구성(이하 분석부라 정의함)은 이미지 인식 및 분류를 위한 AI 기반 알고리즘(예: TensorFlow, PyTorch)을 사용하여 이미지 대체 텍스트를 생성할 수 있다.

이를 위해, 분석부는 텍스트 형태의 데이터가 갖는 의미를 이해하거나 추정하기 위해, Word2Vec 알고리즘으로 학습 데이터를 학습하여 입력 데이터에 대하여 문맥 정보를 추출하는 신경망을 구축할 수 있다.

Word2Vec 알고리즘은 신경망 언어 모델(NNLM : Neural Network Language Model)을 포함할 수 있다. 신경망 언어 모델은 기본적으로 Input Layer, Projection Layer, Hidden Layer, Output Layer로 이루어진 Neural Network이다. 신경망 언어 모델은 단어를 벡터화하는 방법에 사용되는 것이다. 신경망 언어 모델은 공지된 기술이므로 보다 자세한 설명은 생략하기로 한다.

Word2vec 알고리즘은, 텍스트마이닝을 위한 것으로, 각 단어 간의 앞, 뒤 관계를 보고 근접도를 정하는 알고리즘이다. Word2vec 알고리즘은 비지도 학습 알고리즘이다. Word2vec 알고리즘은 이름이 나타내는 바와 같이 단어의 의미를 벡터형태로 표현하는 계량기법일 수 있다. Word2vec 알고리즘은 각 단어를 200차원 정도의 공간에서 백터로 표현할 수 있다. Word2vec 알고리즘을 이용하면, 각 단어마다 단어에 해당하는 벡터를 구할 수 있다.

Word2vec 알고리즘은 종래의 다른 알고리즘에 비해 자연어 처리 분야에서 비약적인 정밀도 향상을 가능하게 할 수 있다. Word2vec은 입력한 말뭉치의 문장에 있는 단어와 인접 단어의 관계를 이용해 단어의 의미를 학습할 수 있다. Word2vec 알고리즘은 인공 신경망에 근거한 것으로, 같은 맥락을 지닌 단어는 가까운 의미를 지니고 있다는 전제에서 출발한다. Word2vec 알고리즘은 텍스트 문서를 통해 학습을 진행하며, 한 단어에 대해 근처(전후 5 내지 10 단어 정도)에 출현하는 다른 단어들을 관련 단어로서 인공 신경망에 학습시킨다. 연관된 의미의 단어들은 문서상에서 가까운 곳에 출현할 가능성이 높기 때문에 학습을 반복해 나가는 과정에서 두 단어는 점차 가까운 벡터를 지닐 수 있다.

Word2vec 알고리즘의 학습 방법은 CBOW(Continuous Bag Of Words) 방식과 skip-gram 방식이 있다. CBOW 방식은 주변 단어가 만드는 맥락을 이용해 타겟 단어를 예측하는 것이다. skip-gram 방식은 한 단어를 기준으로 주변에 올 수 있는 단어를 예측하는 것이다. 대규모 데이터셋에서는 skip-gram 방식이 더 정확한 것으로 알려져 있다.

따라서, 본 발명의 실시 예에서는 skip-gram 방식을 이용한 Word2vec 알고리즘을 사용한다. 예컨대, Word2vec 알고리즘을 통해 학습이 잘 완료되면, 고차원 공간에서 비슷한 단어는 근처에 위치할 수 있다. 상술한 바와 같은 Word2vec 알고리즘에 따르면 학습 문서 내 주위 단어의 분포가 가까운 단어일수록 산출되는 벡터값은 유사해질 수 있으며, 산출된 벡터값이 비슷한 단어는 유사한 것으로 간주할 수 있다. Word2vec 알고리즘은 공지된 기술이므로 벡터값 계산과 관련한 보다 상세한 설명은 생략하기로 한다.

분석부는 신경망에 수집된 데이터를 입력하여 문맥 정보를 나타내는 평가 결과 벡터 값을 추출할 수 있다.

분석부는 평가 결과 벡터 값과 복수의 기준 벡터 값 각각의 유사도를 산출하고, 복수의 기준벡터 값 중 평가 결과 벡터 값과의 유사도가 가장 높은 기준 벡터 값을 추출할 수 있다. 이때, 유사도 산출 방법에는 유클리디안 거리(Euclidean distance), 코사인 유사도(Cosine similarity), 타니모토 계수(Tanimoto coeffieient) 등이 채택될 수 있다.

분석부는 평가 결과 벡터 값과의 유사도가 가장 높은 기준 벡터 값에 해당하는 단어를 인식된 텍스트에 대응되는 단어로 추출할 수 있다.

또한, 분석부는 인공 신경망을 학습시킬 수 있고, 학습이 완료된 인공 신경망을 이용할 수도 있다. 프로세서는 메모리에 저장된 인공 신경망을 학습시키거나 실행할 수 있고, 메모리는 학습 완료된 인공 신경망을 저장할 수 있다. 인공 신경망을 학습시키는 전자 장치와 이용하는 전자 장치는 동일할 수 있지만 별개일 수도 있다. 인공지능은 인간의 뇌의 기능을 일부 구현한 컴퓨터 시스템으로, 스스로 학습하고 추측하고 판단할 수 있다. 학습을 진행할수록 답을 추출할 확률이 높아질 수 있다. 인공지능은 학습과 그것을 이용한 요소 기술들로 구성될 수 있다. 인공지능의 학습은 입력 데이터를 바탕으로 특징을 분류와 학습을 하는 알고리즘 기술이고, 요소 기술들은 학습 알고리즘을 이용하여 인간의 뇌의 기능을 일부 구현하는 기술일 수 있다.

인공지능은 확률적으로 여러 답이 나올 수 있는 문제에 접근하기 쉬운 기술로써 어떠한 입력 데이터에 따르는 최적의 주기와 방법, 계획 등을 논리적이고 확률적으로 추론할 수 있다. 인공지능의 추론 기술은 입력 데이터를 판단하고 최적화 예측, 지식과 확률 기반 추론, 선호 기반 계획 등을 포함할 수 있다.

인공신경망은 기계학습 분야의 학습 알고리즘 중 하나로 뇌의 뉴런과 시냅스의 연결을 프로그램으로 구현한 것이다. 인공신경망은 프로그램으로 신경망의 구조를 만든 다음 학습시켜 원하는 기능을 가지게 할 수 있다. 오차가 존재할 수 있지만 거대한 데이터를 바탕으로 학습하여 입력 데이터를 가지고 적절한 출력 데이터를 출력할 수 있다. 통계적으로 좋은 결과를 얻었던 출력 데이터를 획득할 수 있고 인간의 추론과 유사하다는 장점이 있다.

분석부는 빅데이터를 기반으로 구축된 인공지능 알고리즘을 이용하여 학습에 요구되는 질의/메트릭 데이터셋을 구축할 수 있고, 이를 위해 미리 학습된 다수의 인공 신경망을 포함할 수 있다.

본 발명에 따른 시스템은 기계 학습 알고리즘의 수행을 위하여 미리 학습된 다수의 인공 신경망을 포함할 수 있다. 기계 학습으로 입력 데이터를 바탕으로 출력 데이터를 출력하고 이것의 결과를 이용해 스스로 학습할 수도 있고 이로 인해 스스로 데이터 처리 능력이 향상될 수 있다. 인공 신경망은 입력 데이터를 바탕으로 특징을 추출하고 규칙성을 추측하여 결과데이터를 출력할 수 있고 이러한 과정이 쌓일수록 결과 데이터의 신뢰도가 높아지게 된다.

본 실시예에서 인공 신경망은 텍스트로 인식된 객체의 형태, 길이, 개수, 고저차 중 적어도 하나 이상의 특징 데이터로부터 텍스트 데이터를 출력하는 알고리즘일 수 있다. 인공 신경망은 빅데이터를 그대로 입력 데이터로 하거나 불필요한 데이터를 정리하는 처리 과정을 거친 후 입력 데이터로 하여 최상의 출력 데이터를 추론할 수 있다.

인공지능 기계 학습 모델은 학습 종류에 따라 Super Viser Learning(지도학습), UnSuper Viser Learning(비지도 학습), Semisupervised learning(반지도 학습), Reinforcement Learning(강화 학습) 등이 있다. 그리고 기계 학습 알고리즘으로 Decision Tree(의사 결정 트리), K-Nearest Neightbor, Artificial Neural Network(인공 신경망), Support Vector Machine, Ensemble Learning, Gradient Descent(기울기 하강법), Na

ve Bayes Classifier, Hidden Markov Model, K-Means Clustering 등이 사용될 수 있다.

인공 신경망은 입력 데이터에 포함될 수 있는 여러 입력 값들에 대해 미리 학습된 상태일 수 있다. 인공 신경망은 학습방식 중 하나인 reinforcement learning(강화 학습)에 따라 학습되는 인공 신경망일 수 있다. 강화 학습은 보수와 제한을 설정하여 점차 올바른 결과를 획득할 확률을 올려가는 방식이다. 인공 신경망은 Convelutional Neural Network(CNN, 합성곱 신경망)이나 Recurrent Neural Network(RNN, 순환 신경망)에 기반하여 모델링될 수도 있다.

이와 같이, 분석부는 빅데이터 및 인공 신경망을 이용하여 텍스트 데이터가 갖는 의미를 추정할 수 있다.

변환부(130)는 텍스트 인식부에서 인식된 텍스트 및 상기 키워드 추출부에서 생성된 키워드를 HTML 표준 규약에 따른 대체 텍스트로 변환한다.

변환부(130)는 앞선 과정에서 추출된 텍스트 및 키워드를 HTML 태그의 종류에 따라 분류하여, 분류된 태그별로 HTML문을 생성할 수 있다.

다른 실시예에서, 변환부는 자연어 처리(NLP) 기술을 활용하여 페이지 내용 요약, SEO 키워드 추출, 표 제목 생성 등을 구현하여 Transformer 기반의 NLP 모델(예: BERT, GPT)을 학습시키고 웹 서비스와 연동할 수도 있다.

보정부(140)는 텍스트 콘텐츠의 명도 대비 지침을 준수하기 위해, 이미지의 명도대비를 개선할 수 있다.

일 실시예에서, 도 2에 도시된 바와 같이 보정부는 텍스트 인식부(110)를 통해 텍스트 영역을 감지하고, 감지된 텍스트 영역별로 텍스트의 색상과 배경 색상을 추출할 수 있다.

이때, 보정부는 텍스트 색상과 배경 색상의 명도 대비가 3:1 미만인 경우 부적합, 텍스트 색상과 배경 색상의 명도 대비가 3:1이상 4.5:1 미만인 경우 확인 필요, 텍스트 색상과 배경 색상의 명도 대비가 4.5:1 이상인 경우 이상 없음으로 판단할 수 있으며, 부적합 및 확인 필요로 판단된 텍스트 영역의 명도비가 4.5:1 이상이 되도록 텍스트의 색상을 자동으로 변환할 수 있다.

이후, 보정부는 자동 변환된 영역에서 이상이 발생했는지 여부를 관리자로부터 피드백 받기 위해, 자동 변환된 이미지를 출력하고 출력된 이미지를 확인한 관리자에게 질문정보를 전송하거나 표시하여, 관리자로부터 입력되는 피드백정보를 수신할 수 있다.

이후, 보정부는 하기 수학식 2를 이용하여 피드백정보로부터 변환된 이미지의 평점을 산출할 수 있다.

[수학식 2]

여기서, p는 변환된 이미지에 대한 평점, nw는 피드백정보를 구성하는 단어들 중 미리 설정된 키워드 사전에 등록된 단어들 중 어느 하나와 일치하는 단어의 개수, v_i는 nw에 각각에 대한 임베딩 벡터의 크기값, t는 이미지의 타깃 연령대의 수에 반비례하여 설정되는 가중치, con은 텍스트 색상과 배경 색상의 명도 대비의 크기에 비례하여 설정되는 가중치이다.

예컨대, 이미지 1이 10대층을 타깃으로만 하는 경우, 해당 이미지 1의 c값이 제1 가중치로 설정된다면, 20대, 30대, 40대층을 타깃으로 한 이미지 2의 c값은 상술한 제1 가중치보다 작은 제2 가중치로 설정된다.

이와 같이, 관리자들의 설문조사 결과에 기초하여 자동 변환된 이미지의 평점을 산출하고, 산출된 평점이 미리 설정된 기준값 이하인 경우 1차 변환된 이미지를 2차로 변환함으로써 더욱 가시성 있는 텍스트 보정 기술을 제공할 수 있다.

이와 같은, 본 발명에 따른 기술은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 공간으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

110: 텍스트 인식부
120: 키워드 추출부
130: 변환부
140: 보정부

Claims

시각장애인이나 저시력자 등과 같이 이미지를 인식하기 어려운 사용자들의 웹 접근성을 개선시키기 위해, 인공지능을 이용하여 이미지를 HTML(Hyper Text Markup Language) 기반의 대체 텍스트로 자동으로 변환하는, 인공지능에 기반하여 이미지를 HTML로 변환하는 시스템에 있어서,
상기 인공지능에 기반하여 이미지를 HTML로 변환하는 시스템은,
이미지를 분석하여 이미지에 포함된 텍스트를 인식하는 텍스트 인식부;
이미지를 분석하여 텍스트를 제외한 나머지 객체들을 구분하고, 구분된 객체들 각각에 대한 키워드를 생성하는 키워드 추출부;
상기 텍스트 인식부에서 인식된 텍스트 및 상기 키워드 추출부에서 생성된 키워드를 HTML 표준 규약에 따른 대체 텍스트로 변환하는 변환부를 포함하고,
상기 키워드 추출부는,
하기 수학식을 이용하여 구분된 객체별로 분류지수를 산출하여, 산출된 분류지수를 미리 저장된 복수의 키워드 후보군에 포함된 단어마다 설정된 분류점수와 비교하여, 분류지수와 가장 근사한 분류점수를 갖는 단어를 해당 객체의 키워드로 설정하는, 인공지능에 기반하여 이미지를 HTML로 변환하는 시스템.

[수학식]

여기서, C는 분류지수, w_r은 구분된 객체의 종류별로 상이하게 설정되는 제1 가중치, c_o는 이미지에서 분류지수 산출이 요구되는 객체를 구성하는 픽셀의 평균 색상값, c_a는 이미지에서 분류지수 산출이 요구되는 객체를 제외한 나머지 픽셀들의 평균 색상값, w_o는 분류지수 산출이 요구되는 객체가 이미지에서 차지하는 영역의 비율에 비례하여 설정되는 제2 가중치값, d는 분류지수 산출이 요구되는 객체의 무게중심과 이미지의 무게중심 간의 이격거리이며, 색상값은 컬러코드별로 상이하게 부여되는 것을 특징으로 한다.
삭제
삭제