KR20070115908A - 인공 지능을 이용한 외부 어플리케이션 사용자인터페이스로부터의 정보의 지능형 임포테이션 - Google Patents

인공 지능을 이용한 외부 어플리케이션 사용자인터페이스로부터의 정보의 지능형 임포테이션 Download PDF

Info

Publication number
KR20070115908A
KR20070115908A KR1020077019479A KR20077019479A KR20070115908A KR 20070115908 A KR20070115908 A KR 20070115908A KR 1020077019479 A KR1020077019479 A KR 1020077019479A KR 20077019479 A KR20077019479 A KR 20077019479A KR 20070115908 A KR20070115908 A KR 20070115908A
Authority
KR
South Korea
Prior art keywords
representation
selected data
data
raster
graphical
Prior art date
Application number
KR1020077019479A
Other languages
English (en)
Inventor
웨슬리 에프. 포츠
브라이언 쥐 앤더슨
제이슨 엘. 로저스
후마윤 에이치. 칸
스콧 티. 알. 쿤스
Original Assignee
퍼셉티브 소프트웨어 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퍼셉티브 소프트웨어 인코포레이티드 filed Critical 퍼셉티브 소프트웨어 인코포레이티드
Publication of KR20070115908A publication Critical patent/KR20070115908A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Nitrogen And Oxygen Or Sulfur-Condensed Heterocyclic Ring Systems (AREA)
  • Information Transfer Systems (AREA)

Abstract

외부 어플리케이션 사용자 인터페이스로부터 정보의 지능형 임포테이션을 위한 프로세스는 외부 어플리케이션에 디스플레이되는 스크린의 미리 정해진 영역으로부터 래스터 데이터의 추출; 문자 래스터 데이터의 어플리케이션과 후보 문자를 생성하기 위한 각각의 래스터, 특징 및 벡터 인공 지능 신경 회로망에 입력으로서 문자 래스터 데이터로 유도된 특징 데이터 세트 및 벡터 데이터 셋트; 후보 문자로부터 문자 래스터 데이터에 의해 표현되는 문자를 확인하는 보우팅 프로세스를 사용; 신경 회로망에 의해 키로서 인식되는 잔여 문자의 집합; 및 저장될 수 있고 그후 외부 어플리케이션에서 디스플레이되는 스크린과 연관되어 검색될 수 있는 외부 데이터 파일을 가진 키의 조합을 포함한다.
래스터 데이터, 인공 신경 회로망, 특징 프로세싱, 벡터 프로세싱

Description

인공 지능을 이용한 외부 어플리케이션 사용자 인터페이스로부터의 정보의 지능형 임포테이션{INTELLEGENT IMPORTATION OF INFORMATION FROM FOREIGN APPLICATION USER INTERFACE USING ARTIFICAL INTELLEGNECE}
관련된 출원에 대한 교차 참조
본 출원은 2005년 2월 22일에 제출된 "인공 지능을 이용한 외부 어플리케이션 사용자 인터페이스로부터의 정보의 지능형 임포테이션"이라는 명칭으로 출원된 미합중국 가출원 제60/655,065호와 2006년 2월 21일에 "인공 지능을 이용한 외부 어플리케이션 사용자 인터페이스로부터 정보의 지능형 임포테이션"이라는 명칭의 미합중국 출원에 기초해서 우선권을 주장한다.
발명의 배경
본 발명은 문서 관리를 통합하고 인공 신경 회로망(artificial neural network)의 사용자 인터페이스를 통해 분리된 절차에서 "외부의(foreign)" 또는 관계가 없는 어플리케이션(application, 응용 소프트웨어)의 사용자 인터페이스를 가지는 시스템 상관성(functionality)을 이미지화하기 위한 프로세서에 관한 것이다.
모든 종류의 비즈니스는 고용인, 고객, 공급자, 서비스 제공업자, 재고품, 보고서, 청구서(billing), 지불금액(payment) 등에 과한 기록을 보존하는 것이 필 요한다. 이러한 기록들을 보존하기 위해 대부분의 기업은 달력 및 재무 기능과 함께 전형적으로 데이터베이스 관리 기능을 포함하는 비즈니스 어플리케이션 소프트웨어를 사용한다. 전통적인 타입의 데이터베이스 기록에 부가해서, 주문, 송장, 대차표, 수표, 사진, 도표, 입찰, 계약 및 포기서 등과 같은 지원 문서들의 기록을 보존하는 것이 필요하다. 현존하는 많은 비즈니스 어플리케이션들은 종이로 된 복사본이 저장되어야 하는 필요성으로 인해 이러한 지원 문서들의 디지털화된 복사본을 액세스하거나 관리하기 위한 탑재된(bulit-in, 빌트 인) 기능을 가지고 있지 않다. 현재 사용되고 있는 비즈니스 어플리케이션이 이미지 관리 기능을 추가하도록 수정하는 것이 바람직하지 않고 소프트웨어의 계약 조항에도 반할 수 있다. 대안으로, 빌트인 이미지 관리 기능을 가진 새로운 소프트웨어를 설치하고 직원들이 이를 사용할 수 있도록 하는 것에 관련된 비용과 혼란은 엄청날 수 있다. 이러한 이유로 인해 현재 존재하는 비즈니스 어플리케이션에 "이미지 인에이블(image enable)"을 위한 기술들이 개발되고 있다.
현재 데스크탑 컴퓨터와 운영체계(operating system)는 멀티태스킹 기능을 가지고 있다. 즉, 여러 개의 프로그램을 동시에 실행하거나, 적어도 여러 개의 프로그램을 동시에 열고 빨리 액세스할 수 있다. 따라서 통상적으로 이용 가능한 컴퓨터에서 비즈니스 어플리케이션과 이미지 관리 프로그램을 동시에 실행하는 것이 가능하다. 이미지 관리 프로그램이 지원하는 저장된 디지털 이미지문서에 액세스하는 하는 동안 비즈니스 어플리케이션은 비즈니스 기록들은 비즈니스 기록을 처리한다. 이미지 활성화의 목적은 비즈니스 기록과 이러한 기록과 관련된 특별한 이미지 파일 사이에 편리한 링크를 제공하는 것이다.
비즈니스 기록의 요소를 이미지에 링크시키는 것은 때때로 비즈니스 기록의 특정 데이터 필드의 내용을 디지털 이미지의 파일 이름에 맞추는 것을 포함한다. 가령, 기록에 적당한 데이터 필드로서 나타나는 고객 계좌 번호, 송장 번호, 주소나 전화번호, 사회 보장 번호 또는 그와 유사한 것들이 관련된 이미지들에 키(key)로서 사용될 수 있다. 이미지 관리 소프트웨어는 커서를 문자열의 시작 부분에 위치 시키거나 열을 하이라이팅 함으로써, 데이터 필드의 내용은 자동으로 선택된다. 이미지 관리 소프트웨어는 특정한 키스트록(keystroke) 조합이나 툴바나 태스크 바에 아이콘에 마우스 클릭에 의해 활성화되고, 지원 문서의 스캔된 이미지는 데이터 필드 그리고 스크린 상에 데이터 필드의 위치와 같은 가능한 다른 정보의 내용과 함께 저장된다. 링크를 시키는 소프트웨어는 디스플레이 버퍼로부터 데이터 필드의 내용을 읽거나 컴퓨터 디스플레이에 출력되는 것으로서 데이터를 수신하여 데이터 필드의 내용을 획득한다. 지원 문서의 이미지는 관련 기록이 적당한 데이터 필드의 변수를 선택하고 그리고나서 데이터 필드 변수가 관련된 이미지 파일을 검색하고 그 이미지를 디스플레이하는 이미지 관리 프로그램을 활성화에 의해 디스플레이 될 때 리콜된다. 이러한 이미지 인에이블 기술을 위한 프로세스는 여기에 참조 문서로 포함된 미합중국 특허 5,586,240호에 자세하게 기술되어 있다.
텍스트 문자는 아스키 코드 ASCⅡ와 같은 표준 양식에 의해 전형적으로 인코드 되기 때문에, 상기에서 설명된 이미지 인에이블 프로세스는 텍스트 기반으로된 비즈니스 어플리케이션에 적당한다. 그러나 어떤 어플리케이션은 전적으로 그래픽 포맷으로 되어 있지는 않지만 약간의 그래픽을 포함하고 텍스트 포맷으로 데이터를 디스플레이하여 출력하지 않는다. 이것은 때때로 래스터(raster) 된 "스크린을 페인팅하기(painting the screen)"이나 다양한 종류의 그래픽을 가진 수많은 선택된 포인트 사이즈와 색으로 택스트를 묘사하는 픽셀 포맷 데이터로 언급된다. 이러한 디스플레이를 가진 비즈니스 어플리케이션들은 이미지 인에이블을 위한 전통적인 프로세스에 적합하지 않다.
본 발명은 정보를 호스트 어플리케이션으로부터 두 개의 다른 어플리케이션 사이에 이미지나 문서를 링크시키기 위해 저장될 수 있는 데이터로 변환하기 위한 크게 향상된 수단을 제공한다. 본 발명을 구현하는 기술은 래스터라이즈된 텍스트 포맷과 호스트 어플리케이션의 작동에 영향을 주지 않는 ASCⅡ가 아닌 것으로 디스플레이 되는 호스트 어플리케이션에 데이터와 관련된 외부 이미지와 문서들을 인에이블하는 주 호스트에 적용될 수 있다.
본 발명은 컴퓨터 시스템에서 프로세스 경계를 걸쳐서 데이터를 획득하는 방법에 관한 것이다. 본 발명은 어플리케이션 프로그램의 동작에 영향을 미치지 않고 레스터 표현으로 데이터를 디스플레이하고 하나 또는 그 이상의 인공 신경 회로망을 이용하여 래스터 데이터를 ASCⅡ 텍스트 데이터와 같은 다른 형태로 변환하는 어플리케이션으로부터 선택된 데이터를 추출하기 위한 지능형 임포테이션 프로세스에 관계되어 있다.
지능형 임포테이션 프로세스는 데이터가 추출되는 데이터 레코더(data record)와 같은 어플리케이션에 의해 디스플레이되는 스크린의 하나 또는 그 이상의 영역 선택에 의한 특정한 어플리케이션을 위해 셋업된다. 가령, 상기 영역은 이러한 데이터 레코드의 데이터 필드에 대응되고 이미지 관리 시스템에서 이미지와 같은 호스트 어플리케이션에 무관한 파일들과 관계된 키로서 사용될 수 있다. 선택된 스크린 영역의 좌표는 그 프로세스에 의해 저장된다. 실질적인 데이터 레코드을 차지하는 텍스트 데이터는 래스터라이즈나 픽셀 포맷으로 디스플레이 된다. 지능형 임포테이션 프로세스는 래스터라이즈된 텍스트 데이터로 디스플레이된 문자를 분리하거나 분할하고 하나 또는 그 이상의 인공 신경 회로망을 사용하여 문자들을 인식하도록 조작된다. 상기 절차가 한번 조작되고 셋업 되면, 어플리케이션의 동작에 영향을 미치지 않고 호스트 어플리케이션에 의해 디스플레이되는 추출되고 인식되는 래스터라이즈된 데이터를 기초로 해서 동작을 수행하는 것이 사용될 수 있다. 본 발명에서, 상기 절차는 특정 데이터 레코드과 관련된 이미지의 저장과 검색을 인에이블함으로써 호스트 어플리케이션을 "이미지 인에이블(image enable)" 하기 위해 사용된다. 본 발명은 주로 키를 이미지 파일과 결합시키는 견지에서 설명되는 반면에, 호스트 어플리케이션과 무관한 다른 타입의 파일들은 가령 음성 파일, 영상 클립 그리고 심지어 외부 텍스트 파일들과 같은 데이터 레코드와 결합을 위해서 조정되어(keyed) 질 수 있다. 이러한 타입의 데이터 파일들은 호스트 어플리케이션은 그러한 파일들로부터 데이터를 직접적으로 렌더링, 즉, 이러한 외부 데이터 파일로부터 데이터를 디스플레이하거나 재생하지 않는다는 점에서 호스트 어플리케이션과는 무관한 것으로 간주 되어진다. 이러한 다른 타입의 데이터는 이미지 파일과 기능적으로 동일하게 간주되고 본 발명에 의해 포함되도록 의도되어 있다.
일반적으로, 상기 발명은 세 가지 프로세싱 방법과 그 세 개를 활용하는 세 개의 국면(phase)으로 분할될 수 있다. 상기 세 가지 프로세싱 방법은 래스터 프로세싱, 특징(feature) 프로세싱, 및 벡터 프로세싱을 포함한다. 상기 세 가지 국면은 훈련 국면, 테스팅 국면, 및 생산 국면을 포함한다. 인공 지능 알고리즘과 데이터 구조를 이용하여 데이터는 어플리케이션에 의해 디스플레이되는 래스터 표현에 기초해서 어플리케이션이나 프로그램으로부터 추출된다. 인공 지능의 사용과 래스터 표현이 미리 처리되고 후에 처리되는 것에 의한 수단은 본 발명의 중요한 부분이다.
본 발명의 훈련 국면(training pahse)에서, 인공 신경 회로망은 다른 입력 세트를 동일한 데이터 값으로 인식하도록 조절되고 래스터 입력은 그것을 다른 신경 회로망에 의해 작동할 수 있는 입력 세트로 변경하도록 처리된다. 훈련 국면은 각 래스터 영역이 표현하는 데이터의 지식을 포함하는 훈련 로직을 많이 실시하여 이루어진다. 인공 신경 회로망이 각 가능한 데이터 출력을 생성하는 스코어에 기초해서, 회로망에서 결정 포인트가 정확한 답에 더 가까운 회로망으로 옮겨지도록 조절된다. 이 프로세스는 "피드 포워드(feed-forward)" 와 "역 전파(back-propagation)" 로 불린다.
이미지의 래스터 표현의 선처리(pre-processing)는 인공 신경 회로망에 의해 인식되는 영역을 격리하는 것으로 시작한다. 이러한 경우에 그것은 한번에 하나의 데이터 아이템이 될 것이다. 구두점 표시나 비 영어권 문자와 같은 다른 심벌이 사용되는 경우라 할지라도, 전형적인 데이터 아이템은 픽셀이나 문자 숫자 겸용 문자(alphanumeric character)의 래스터 표현이다. 영역이 일단 한번 나눠지면 어플리케이션에서 배경 노이즈로부터 관심 픽셀을 분리하는 문턱 알고리즘(thresholdring algorithm)에 의해 실행된다. 이러한 단계의 결과는 인식되는 영역의 바이너리 래스터 표현이다. 문턱(threshold) 단계에 잇따라, 분할 루프가 초기화된다. 훈련 국면에서, 아이템 훈련 설정에서, 단지 하나의 데이터 아이템이 인공 신경 회로망을 훈련하기 위해 한번에 묘사되기 때문에 이 프로세싱은 제한된다.
이 점에서 분할된 래스터 표현은 저장되고, 본사본이 변화하는 입력을 세 개의 프로세싱 방법과 관련된 다른 인공 신경 회로망에 공급하는 다른 방법에서 래스터 데이터를 처리하도록 만들어진다. 첫 번째 회로망은 래스터 인공 신경 회로망이다. 래스터 데이터가 이러한 입력을 만족하도록 합성하기 위해서, 그것은 비 큐빅(bi-cubic) 보간법을 사용하여 일반적인 사이즈로 스케일되어야 한다. 즉, 관심 래스터 데이터의 픽셀 그리드(grid)는 소위 비 큐빅 보간법을 사용하여 치수로 젤 수 있게 표준 사이즈로 스케일되어야 한다. 비 큐빅 보간법은 디지털 이미지를 확대하고 줄이기 위한 일반적인 기술이다. 본 발명에서 선택되는 두 표준 사이즈는 인공 신경 회로망을 프로세싱하는 래스터에 256입력 회로망과 144 입력 회로망에 각각 대응되는 16×16과 12×12 픽셀이다. 이러한 것들은 래스터 인공 신경 회로망에 입력 가능한 2개의 실시예이고, 청구항에 의해 정의된 발명의 범위을 제한하는 의도는 아니다. 비 큐빅 보간법을 수행하는 동안 바이너리 래스터 데이터는 256레벨 그레이스케일 데이터로 변환된다. 그 데이터는 0 그레이스케일 값이 -1과 동일하고 256 그레이스케일 값이 1과 동일한 -1과 1사이에서 변환된다.
그리고나서 피드포워드와 역전파 뿐만 아니라, 각 데이터 아이템은 프로세스되고 훈련 로직이 수행된다. 이 프로세스에서 결정 포인트나 뉴런(neuron) 가중치가 변경되는 비율은 프로세스가 입력 셋을 가로질러 인식 기능의 가장 가까운 근사치를 캡쳐하는 로컬 최소치에 가까워지도록 조절된다. 평균 제곱의 에러(mean squared error)가 증가한다면, 결정 포인트나 뉴런 가중치가 변경되는 양은 줄어들 것이다. 반대로, 평균 제곱의 에러가 감소한다면, 각각의 후 전달에서 결정 포인트나 뉴런 가중치가 조절되는 양은 증가할 것이다. 이러한 회로망은 사용되고 있는 다른 회로망 타입과는 독립적으로 훈련된다.
데이터 아이템의 분할된 래스터 표현의 복사본은 두 번째 프로세싱 방법인 특징에 기초한 프로세싱(feature based processing)을 위해 사용된다. 이때 데이터는 입력을 위해서 인공 신경 회로망에 기초한 특징으로 변경된다. 첫째, 이미지는 50 바이 50 픽셀 래스터 표현으로 스케일되고 골격화(skelectonize) 된다, 그리고 계단 제거 알고리즘(staircase removal algorithm)은 패턴을 삭제하여 폰트 독립형이나 수직 및 수평의 히스토그램, 종결 지역 및 삽입 지역으로서 그러한 문자 "특징(feature)"을 위해 분석될 수 있는 일관된 표현으로 사용된다(입력을 제한하기 위해 9×9 이미지 그리드에 기초). 래스터 네트워크에서 동일한 방법으로, 이러한 특징들은 래스터 케이스로서 동일한 피드포워드, 역전파 방법에서 문자들을 인식하기 위해 훈련되는 인공 신경 회로망에 입력으로 변환된다.
세 번째 프로세싱 방법은 데이터 아이템의 분할된 래스터 표현을 복사함으로 시작하는 벡터에 기초한 프로세싱이다. 이때 데이터는 벡터 표현으로 변환되고 상승하는 사인파는 푸리에 변환을 이용하여 계산된다. 일반적으로, 문자의 가공되지 않은 윤곽은 실행 길이의 진폭과 윤관의 세그먼트, 가령 각 30 세그먼트, 방향을 가지는 벡터 시퀀스로 이루어진다. 처음 30 개의 푸리에 계수는 변환, 회전, 및 스케일 고정으로 처리될 것이고 그리고나서 벡터 인공 신경 회로망 인식 시스템용 입력으로 사용될 것이다. 그 다음으로, 이러한 입력은 동일한 선 입력, 후 전달 방법에서 문자를 래스터와 특성에 기초한 케이스로 인식하는 인공 신경 회로망에 입력된다.
일단 훈련 국면이 완료되면(그것은 위에서 언급된 각 엔진들은 정확하게 훈련 설정을 확인하고 수용 가능한 평균 제곱 에러를 가진다), 각 엔진은 훈련 세트셋에 포함되지 않는 데이터 아이템의 테스팅 세트을 통해 실행된다.어떤 문자들에 대한 인식 비율과 성공 비율에 기초해서 보우팅 구조(voting sturcture)는 래스터, 특징 및 벡터 프로세스의 출력을 수신하도록 설정된다.
이러한 방법으로 다른 프로세스로부터 데이터를 추출하기 위해서, 스크린이 습득 되어진다. 사용자는 데이터가 어플리케이션에서 찾아질 수 있는 영역 뿐만 아니라 데이터가 추출되는 어플리케이션을 확인해야 한다. 어플리케이션에서 영역이 일단 분리되면, 인식 프로세스는 초기화 될 수 있다. 이러한 영역의 래스터 표현은 어플리케이션으로부터 추출되고 영역 근처의 박스와 같은 이질적인 픽셀을 제거하고 그것을 바이너리 래스터 표현으로 변환하는 문턱(thresholdring) 방법을 통해 실행된다. 그리고나서 인식 루프는 초기화된다. 전형적으로, 선택된 래스터 표현은 인식되고 호스트 어플리케이션과 무관한 이미지나 문서와 관련된 데이터 아이템이나 문자열을 포함한다. 첫 번째 데이터 아이템은 전체 영역의 수직 히스토그램에 따라 가장 근사적인 점에서 분할되고 래스터 표현은 훈련 국면에서 확인된 인공 신경 회로망의 경우와 각각에서 인식을 위해 아웃라인된 방법을 통해 처리된다. 다른 네트워크의 출력 벡터는 수동 구성 셋팅을 기초해서 비교되고 결정(vote)은 가장 유사한 문자가 선택되어 진다. 만약 보우팅 신뢰(voting confidence)가 미리 정해w진 레벨 이하로 떨어진다면 래스터 표현은 그 영역에 다시 위치되고 새로운 세그먼테이션 포인트(segmentation point)는 수직 히스토그램에 기초해서 선택되고 프로세스는 가능한 최대 래스터 비율이 초과되거나 수용가능한 이식이 발생할 때까지 반복된다. 이러한 국면은 문서 관리 시스템에 의해 사용되는 어플리케이션의 래스터 영역을 데이터로 변환하는 선처리(pre-processing), 인식 및 후처리(post processing) 단계에서 사용한다.
본 발명의 목적과 이점은 다음의 설명에 의해 더욱 명백해 질 것이다. 실례 및 예제를 통해 본 발명의 실시예를 확실하게 하는 설명된 도면과
도면은 이 상세한 설명의 부분을 이루고 본 발명의 대표적인 실시예를 포함하고 다양한 목적과 특성을 나타낸다.
도 1은 본 발명을 구체화하는 외부 어플리케이션 사용자 인터페이스로부터 정보의 지능형 임포테이션을 위한 프로세서의 작동 환경의 주요 구성을 나타내는 간략화된 블럭 다이어그램이다.
도 2는 본 발명의 지능형 임포테이션 시스템의 주요 기능적인 동작을 나타내는 간략화된 플로우 다이어그램이다.
도 3은 본 발명의 지능형 임포테이션 프로세스의 주요 기능적이 동작을 나타내는 블럭 다이어그램이다.
도 4a 및 4b는 본 발명의 프로세스에서 주요 단계를 나타내는 플로우 다이어그램이다.
도 5는 본 발명의 프로세스에서 후 처리(post-processing) 단계를 나타내는 플로우 다이어그램이다.
도 6은 본 발명에서 훈련이나 인식을 위한 인공 신경 회로망에 입력으로 사용될 수 있는 10×10 픽셀 매트리스에 나타난 대문자 "i"의 래스터 다이어그램이다.
도 7은 본 발명에서 훈련이나 인식을 위한 인공 신경 회로망에 적용되는 계수를 생성하는 프리에 변환을 사용하는 절차용으로 대문자 "i"의 다이어그램이다.
도 8a은 본 발명에서 훈련이나 인식을 위한 인공 신경 회로망에 입력으로 적용될 수 있는 도 6에 나타난 대문자 "i"의 수직 다이어그램이다.
도 8b는 본 발명에서 훈련이나 인식을 위한 인공 신경 회로망에 입력으로 적용될 수 있는 도 6에 나타난 대문자 "i"의 수평 다이어그램이다.
요구되는 바와 같이, 본 발명의 상세한 실시예가 이하에 개시되어 있다; 그러나, 개시된 실시예는 단순히 발명의 대표적인 실시예일 뿐이고 발명은 다양한 형 태로 실시 가능함을 이해하여야 한다. 그러므로 여기에 개시된 특정된 구조나 기능적인 설명은 본 발명을 제한하는 것으로 해석되는 것이 아니라, 청구항을 위한 근거와 본 기술분야에서 숙련된 자가 다양한 형태로 본 발명을 실질적으로 적정하게 상세한 구조로 실시할 수 있도록 가르치기 위한 대표적인 근거로서 해석된다.
보다 상세하게 도면을 참조하면, 참조번호 1은 일반적으로 사용자 인터페이스나 인공 지능을 사용하는 외부 또는 호스트 어플리케이션 3의 래스터 디스플레이 2(도 1)로부터 정보의 지능형 임포테이션을 위한 절차(process)를 나타낸다. 프로세스 1은 많은 솔루션에 어플리케이션으로 될 수 있는 잠재성을 가지고 있고 본 발명에서는 이미지 파일과 같은 외부 파일을 호스트 어플리케이션에 의해 래스트라이즈된 폰으로 디스플레이되는 데이터로 입력하는(keying) 호스트 어플리케이션을 이미지 인에이블하는 것에 사용된다. 호스트 어플리케이션 3은 가령 오라클 파이낸셜(Oracle Fanancials, Oracle Corporation of Redwood Shores, CA, www.oracle.com)과 같은 많은 소프트웨어 어플리케이션 중 어떤 것이라도 좋다. 프로세서 1은 이미지 4를 저장하거나 검색하기 위한 분리된 이미지 관리 시스템 5와 협력하거나 내부의 이미지 관리 시스템과 일체가 될 수 있다. 아래에 상세하게 설명되는 것과 같이, 프로세스 1은 텍스트 문자나 심벌을 인식하도록 훈련되어야 하고 특정 호스트 어플리케이션 3 용으로 설정되어야 한다.
호스트 어플리케이션 3은 독립형의 어플리케이션이나 클라이언트/서버 타입의 소프트웨어가 될 수 있다. 호스트 어플리케이션 3, 즉 그것에 관한 클라이언트 구성은 배경에서 프로세스 1과 함께 운영될 것이다. 도 2와 관련해서, 단계 10에서 사용자는 호스트 어플리케이션 3에 데이터 레코드에 접근한다(access). 만약 사용자가 미리 저장된 이미지 4를 보거나 이미지를 저장할 필요가 있다면, 디스플레이 2에서 키스트록 조합이나 아이콘이나 버튼을 마이스 클릭함으로써, 단계 12에서 사용자는 지능형 임포테이션 (Ⅱ) 프로세스 1를 활성화한다. 프로세스 1은 단계 14에서 디스플레이 2의 미리 지정된 디스플레이 영역으로부터 현재의 래스터 데이터를 복사한다. 단계 16에서, 프로세스 1은 저장된 이미지 4와 미리 관련된 키를 형성하거나 이미지 관리 시스템 5에 의해 저장된 이미지와 관련된 래스터 데이터로부터 문자 데이터를 추출한다. 프로세스 1은 하나 또는 그 이상의 아래에서 보다 상세하게 설명되는 인공 신경 회로망 18, 19 및 20(도 3)을 사용해 래스터 데이터로부터 문자 데이터를 추출한다. 단계 22에서, 프로세스 1은 키를 단계 24에서 이미지 4를 저장하거나 검색하고 단계 26에서 이미지의 디스플레이를 야기시키는 이미지 관리 시스템5으로 통과시킨다.
도 3은 본 발명의 지능형 임포테이션 프로세스 1의 핵심 추출 프로세싱 구성 28을 나타낸 것이다. 핵심 구성요소 28은 인공 신경 회로망 18-20을 포함한다. 일반적으로, 본 발명에서 사용되는 인공 신경 회로망은 다양한 데이터 패턴을 인식하도록 훈련될 수 있는 그러한 방법으로 서로 연결되는 균등화에 의해 정의되는 가상의 뉴런 시스템이다. 래스터 데이터 패턴은 동일한 래스터 패턴과 관계있는 유일한 데이터 세트를 생성하는 수많은 방법으로 분석될 수 있다. 그러한 공지의 패턴용 세트는 상기 패턴을 인식하기 위한 네트워크를 훈련(train)하기 위한 신경 회로망에 입력으로 적용된다. 그 후에, 알려지지 않은 래스터 데이터 패턴을 위한 데이터 셋은 인식(recognition)을 위한 회로망의 입력에 적용될 수 있다.
본 발명은 래스터 패턴 데이터를 분석하거나 프로세싱하는 세 가지의 방법을 포함하고 각각의 방법에 쓰이는 인공 신경 회로망을 제공한다. 첫 번째 방법은 문자 픽셀과 각 픽셀의 바이너리 색(검정 또는 흰색)의 직교 좌표를 분석한다. 이것을 위해서는 래스터 신경 회로망 18이 사용된다. 도 6은 대문자(upper case) "i"와 같은 문자의 래스터 패턴 32을 나타낸 것이다. 두 번째 프로세싱 방법은 래스터 패턴 32의 일정한 특징을 분석하고 특징 신경 회로망 19를 이용한다. 도 8a 및 8b는 각각 특징 신경 회로망의 입력이 될 수 있는 도 6에 보인 래스터 패턴 32의 수직 히스토그램 34 및 수평 히스토그램 36을 나타낸 것이다. 세 번째 프로세싱 방법은 벡터 프로세싱이고 역시 대문자(upper case) "i" , 문자 40의 윤곽 38을 묘사한 벡터를 분석하기 위한 벡터 신경 회로망 20을 이용한다.
신경 회로망 18-20은 신경 회로망의 보편적인 것이고 멀티 레이어(layer) 피드 포워드 퍼셉트론(feed forward peceptron)으로 공지된 타입이다. 바람직한 신경 회로망 18-20은 하나의 입력 레이어, 두 개의 숨겨진 레이어, 및 하나의 출력 레이어를 포함한다. 도시된 회로망 18-20의 레이어 노드나 가상 신경 컨텐트(content)는 각각 144, 94, 70 및 94가 될 수 있지만, 본 발명에서는 그러한 노드 콘텐트로 제한하는 의도는 아니다. 이러한 일반적인 신경 회로망에 대한 보다 더 깊은 이해는 참고 문헌으로 여기에서 함께 통합된 미국 특허 등록번호 4,918,618을 통해 얻을 수 있다.
도 3으로 돌아가서, 미리 지정된 디스플레이 영역으로부터 래스터 데이터 44 는 신경 회로망 18-20의 입력으로 어플리케이션에 앞서 공통 선 처리(pre-preprocessing) 동작46에 입력된다. 일반적으로 공통 선 처리 동작 46은 래스터 데이터를 개개의 문자로 분할하는 것이고 표준 크기와 상태에서 래스터 데이터 40을 넘겨주는(render) 것이다. 이러한 공통 선 처리 단계 46은 초기 분할 뿐만 아니라 바이너리 칼라, 크기 조절, 디-스큐잉(de-skewing), 윤곽화(skeletonization)로의 변환을 포함한다. 더욱 구체화한 선 처리 동작 48, 49 및 50은 각각의 신경 회로망 18-20에 적합하고 유용한 래스터 데이터로부터 데이터 셋을 유도하기 위한 래스터 패턴 32에 입력된다. 특정 선처리 동작 48-50은 결과 데이터 세트가 입력되는 신경회로망 18-20에 따라 다르다. 래스터 신경 회로망 18을 위해서, 래스터 선 처리 동작 48은 래스터 신경 회로망 18의 입력으로 적용되는 표준 크기 픽셀 매트릭스 범위 내에서 래스터 패턴 32의 검은 픽셀(도6에서 "X"로 표시된) 의 좌표를 유도한다. 도 6-8b에 나타낸 픽셀 매트릭스는 10 바이 10 픽셀 어레이지만, 이것은 단지 증명하기 위한 목적이다; 실제의 매트릭스 사이즈는 해당 특정 신경 회로망에 적합하도록 조절될 수 있다. 특징 신경 회로망 19를 위해서, 특징 프로세싱 단계는 수직 및 수평 히스토그램 34, 36에서 검은 픽셀의 컬럼(column) 및 로우(row) 계산에 의해 입력 데이터 셋을 특징 신경 회로망에서의 입력으로 형성한다. 마지막으로, 벡터 신경 회로망 20을 위해서, 입력 데이터 세트는 래스터 패턴 32나 그와 같은 변화에 의해 형성되는 문자 40의 윤곽을 묘사하는 벡터에 적용되는 푸리에 변환으로부터 초래된 첫 번째 30과 같은 푸리에 계수 세트에 의해 유도된 벡터 전 처리 단계에 의해 형성된다.
신경 회로망 18-20은 알파뉴메릭(alphanumeric) 문자와 특정한 구두점 심벌을 인식하도록 훈련된다. 각각의 전처리 단계 48-50에 의해 제공되는 데이터 세트를 처리하는 것으로부터, 각 신경 회로망 18-20의 출력은 후보 문자(candidate characters)의 집합, 각 후보 문자는 수치적 확률, 예를 들면 3개의 후보 문자, 신호대 오리지널 래스터 문자 44에서 존재 가능한 외래 픽셀을 계산하는 각 후보 문자에 적용되는 노이즈 값(SN, Sigal to Noise)이다. 래스터, 특징, 및 벡터 신경 회로망 18, 19 및 20과 관련된 후처리 단계 54, 55, 및 56은 특정 경계(thresholds)에 대하서 계산된다. 만약 후보 문자 값이 경계 테스트(threshold test)에 실패한다면, 다른 프로세싱 기준(criteria)을 이용하여 도 3에 나타낸 재시도 라인 58에 의해 표시된 것과 같이 재시도가 수행된다. 경계 테스트의 실체를 야기할 수 있는 하나의 가능한 문제는 부정확한 세그먼테이션(segmentation)이다. 이것을 극복하기 위해서 적응성이 래스터 패턴 분할 절차에 이용되고 제한된 수의 재시도가 확률과 후보 문자에 대한 신호대 잡음 지수를 향상시키기 위해 시도된다.
일단 확률과 신호대 잡음 지수에 대한 경계 테스트를 통화하면, 후처리 단계 54-56은 가장 좋은 후보 문자, 신호대 잡음지수 및 확률 스코어뿐만 아니라 선행하는 문자로부터 변경되지 않는 문자 매트릭스의 높이, 폭 및 거리를 추출한다. 가장 좋은 후보 문자의 부가적인 후처리는 문자 매트릭스(픽셀에서 전 범위에 걸쳐)로부터 후보 문자의 경우를 결정하고 문자의 문맥으로부터 대문자(upper case) “i"(I) 및 소문자(lower case) "L"(l)와 같은 모호한 문자를 구별하는 것에 이용된다. 후처리 단계 54-56의 각각의 결과는 최종 결과 62를 결정하는 보우팅 프로세 스(voting process) 60에 입력된다. 요약하면, 프로세스 1의 데이터 추출 구성 28은 래스터 데이터 44에서 표현되는(represented) 각 문자에서 가장 좋은 추출을 하기 위한 세 개의 효율적인 병렬 추출 프로세스-래스터 프로세싱, 66, 특징 프로세싱 67, 및 벡터 프로세싱 68-를 채용하고, 결과물 62를 결정하기 위해서 후보 문자들을 선택한다. 결과물 62는 이미지 관리 시스템 5에서 이미지 4와 관계되거나 될 수 있는 키를 형성한다.
도 4a, 4b, 그리고 5는 지능형 임포테이션 프로세스 1의 구성 단계을 도 2보다 상세하게 나타낸 것이다. 도 4a를 참조하면, 사용자는 데이터 레코드와 같이 미리 설정된 어플리케이션에서 스크린에 접근하고 키스트로크(keystroke) 조합을 동작하거나 특정 아이콘을 클릭하여 프로세스 1을 활성화하는 함으로서 단계 72의 호스트 어플리케이션 3에서 키에 기초해서 이미지의 색인을 초기화한다. 이것은 프로세스 1이 단계 14에서 호스트 어플리케이션 사용자 인터페이스(UI)나 디스플레이 2의 미리 결정된 주요 영역으로부터 래스터 데이터 44를 추출하도록 한다. 이것은 디스플레이 버퍼(미도시)의 미리 지정된 직교 좌표에 저장된 현재의 픽셀 데이터를 읽고 저장하도록 하는 프로세스 1에 의해 행해진다. 추출된 래스터 데이터 44는 래스터 영역이 색이나 그레이스케일에서 렌더(render)되는지 여부를 결정하기 위해 단계 74에서 체크된다. 만약 래스터 영역이 색상 내에 있다면, 그것은 256 레벨 그레이스케일로 단계 75에서 변경된다. 단계 78에서, 그레이스케일 래스터 데이터는 모든 보통의 색상은 배경이라는 가정 하에 “바이너리 색상(binary color)”, 즉, 흰색과 검은색으로 경계되어 진다. 단계 74, 76, 및 78 모두의 목적은 선택된 래스 터 영역이 어떠한 색깔의 조합이라도 레스터 데이터를 신경 회로망 18-20에의 입력을 간단하게 하기 위해서 흰색 배경에 검은색 텍스트로 변경한다. 선택된 래스터 영역으로부터 래스터 데이터는 그리고 나서 래스터 영역의 데이터를 개개의 디스플레이되는 문자로 분리하기(separate) 위해서 단계 80에서 분할된다(segmented).
세그먼테이션(segmentation) 80이후, 래스터 프로세싱, 특징 프로세싱, 및 벡터 프로세싱에 의해 표현되는 다른 그래픽 기준(criteria)에 따라 래스터 영역 내에 알려지지 않은 문자를 묘사하는 각각의 데이터 세트를 유도하기 위해서, 각 문자를 위한 래스터 데이터는 도 3에서 프로세싱 구성 28과 관련하여 묘사된, 래스터, 특징, 및 벡터 선처리 단계 82, 83, 84로 입력된다. 이렇게 유도된 데이터 세트는 단계 88에서 래스터 신경 회로망 18, 단계 89에서 특징 신경 회로망 19,단계 90에서 벡터 신경 회로망 20으로의 입력으로 입력된다. 도 3의 후처리 구성 54, 55, 56과 보우팅 절차(voting procedure) 60을 포함하는 의해 것에 의해 설명된 것과 같이, 신경 회로망 단계 88-90의 출력은 각각의 후처리 단계 92(도 4b)에 입력된다.
도 5는 후처리 단계 92를 보다 상세하게 묘사한다. 단계 100에서, 스케일되지 않은 문자의 높이가 결정된다. 이것은 어떠한 선 처리에 앞선 오리지널 래스터 영역으로부터의 문자 높이다. 단계 100에서의 처리 후, 단계 102에서, 배경에서 어떠한 외부 픽셀의 수가 불확실하거나 "의심스러운" 문자를 넘겨 주는 정도인지 여부를 결정하기 위해서 문자 블럭에 사용되는 신호대 잡음 지수가 체크된다. 만약 그렇다면, 상기 문자는 단계 104에서 별표(asterisk)와 같은 지정된 의심스러운 문 자로 대체된다. 만약 상기 문자가 의심스러운 문자가 아니라면, 단계 106에서 문자 높이가 선처리된 문자의 최대 높이의 2 픽셀 범위 이내인지 여부를 결정함으로써 대문자 검증 체크가 이루어진다. 그렇지 않다면, 문자는 단계 108에서 소문자 버전으로 변경된다. 이러한 테스트 106/108은 특히 대문자(upper case character) : C, O, S, U, V, W, X 및 Z의 경우에 중요하다. 다소 유사한 소문자 검증 체크 110은 문자 높이가 최대 높이의 1 픽셀 범위 이내인지를 결정한다. 만약 그렇다면, 상기 문자는 단계 112에서 소문자 버전으로 변경된다. 단계 110과 112는 특히 소문자(lower case character) : c, o, s, u, v, w, x, 및 z 에 적용되는 경우 중요하다. 분석중인 문자는 테스트 114에서 (내부 문자 스페이스(inter-character space)에 반대되는) 내부 단어 스페이스(inter-word space)로서 인식된다면, 키 시퀀스에서 스페이스는 단계 116에서 추가된다. 후처리 단계 100-116은 래스터 영역에서 감지된 텍스트의 각 문자용으로 단계 118에서 모두 반복된다.
단계 120, 122, 124는 애매한 문자들 "1", "I", 및 "l"사이에서 특징적인 것들을 다룬다: 즉, 이러한 문자들이 오리지널 래스터 영역에서 발생하는 문맥에 기초하는, 숫자 "1"(one), 대문자 "i"("eye"), 및 소문자 "L"("EL). 한 번의 변환 단계 120에서, 모든 독립적인 것들은 대문자 "i"로 변한다. 대문자 "i" 변환 단계 122에서, 다음에 나열되는 어떠한 조건이라도 적용된다면: 상기 문자가 단어의 첫번재 문자라면; 또는 스페이스가 상기 문자에 앞에 있다면; 또는 두 개의 대문자나 다른 대문자 및 스페이스가 상기 문자에 있다면; 각 소문자 "L"은 대문자 "i"로 변한다. 소문자 "L" 변환 단계 124에서, 상기 문자 앞에 소문자가 선행된다면, 각 대 문자 "i"는 소문자 "L"로 변하게 된다.
도 4b로 돌아와서, 테스트 128에 의해 결정된 것과 같이, 래스터 영역에서 인식되는 더 많은 문자가 있다면, 인식되고 후처리된 문자 또는 의심스러운 문자는 단계 130에서 저장된다. 래스터 데이터의 먼저 처리된 비율은 제거되고/되거나 세그먼테이션(segmentation) 80이 단계 132에서 래스터 영역의 나머지에서 수행된다. 후처리 92 결과는 오리지널 세그먼테이선 80이 부정확하고, 그로 인해 래스터 영역에서 표현되는 일련의 문자들 사이에서 분할선을 찾기 위해서 재분할에서 더 많은 시도가 행해진다는 것을 나타낸다. 주어진 래스터 영역에 대해서 모든 래스터 데이터가 처리될 때, 테스트 128에 나타난 것과 같이, 이식되는 문자열은 이미지 관리 시스템 5에서 이미지에 대한 키로서 단계 134에서 저장된다. 만약 인식된 키가 하나 또는 그 이상의 의심스럽거나 인식하지 못하는 문자를 포함한다면, 프로세서 1은 불완전한 키의 제안된 확인을 검증할지 또는 지정된 래스터 영역의 문자 내용(character content)에서 하나의 키로서 타이프 할지 사용자의 개입을 요구하는 메시지를 디스플레이한다.
호스트 어플리케이션 3의 접근된 스크린(accessed screen)이나 기록이 스크린의 부가 영역을 차지하는 더 많은 키를 포함한다면, 프로세스 1은 초기화 단계 72(도 4a)로 돌아간다. 그렇지 않으면, 이미지 관리 시스템 5의 이미지 데이터베이스는 단계 138에서 상기 이미지 또는 상기 키나 미리 지정된 래스터 영역으로부터 유도된 키와 관련된 이미지에 대해서 질문받고 단계 140에서 디스플레이된다. 도 2의 참조에서 묘사된 것과 같이, 이미지는 지정된 영역으로 들어서는 특정 텍스트와 관련이 있을 수도 있고, 도 4a, 4b, 및 5에 나타낸 것들과 유사한 단계을 사용하여 이미지 관리 시스템 5에 저장될 수도 있다.
본 발명에서 사용된 몇몇 용어를 보다 잘 이해하기 위해서, 용어집이 아래와 같이 제공된다:
용어집
인공 신경 회로망 ( Artificial Neural Network , ANN ) : 신경 회로망은 인간의 뇌 동작에 가까운 프로그램과 데이터 구조의 시스템이다. 신경 회로망은 대개 병렬로 많은 수의 프로세서 동작(processor operating)을 포함하고, 각 프로세서는 그것 자신의 작은 지식(knowledge) 영역과 로컬 메모리에 있는 데이터에 접근한다. 전형적으로, 신경 회로망은 처음에 "훈련(trained)" 되거나 많은 양의 데이터가 입력되고 데이터 관계(가령, "어머니는 그녀의 딸보다 나이가 더 많다)에 대해 규칙을 정한다. 그리고나서 하나의 프로그램은 회로망에게 외부 자극(예를 들면, 회로망과 상호 작용하는 사용자 컴퓨터로부터 입력)에 반응해서 동작하도록 지시하거나 그 자신(외부에 접근하는 제한된 범위 내)의 활동을 초기화할 수 있다.
결정을 함에 있어서, 신경 회로망은 경사 기반 훈련(gradient-based training), 퍼지 로직, 유전 알고리즘(genetic algorithm), 및 베이시안 방법(Bayesian method)를 포함하는 몇 가지 규칙을 사용한다. 신경 회로망은 더 깊은 레이어를 가지는 더 복잡한 회로망이을 가진 경우 때때로 지식 레이어(knowldege layer)라는 용어로 묘사된다. 피드포워드(feedforward) 시스템에서, 데이터에 대한 학습되어진 관계는 더 높은 인식 레이어에 "피드 포워드(feed forward)" 할 수 있 다. 신경 회로망은 역시 임시적인 개념을 학습할 수 있고 신호 처리 및 시간 시리즈 분석에서 광범위하게 사용될 수 있다.
비-큐빅 보간법(Bi-cubic interpolation) : 수학의 한 부류인 수치해석에서 비큐빅 보간법은 2차원에서 가장 일반적인 보간법의 하나이다. 이 방법으로, (x,y)점에서 함수 f의 f(x,y)값은 사각 그리드(4×4 어레이)에서 가장 가까운 15개의 픽셀의 가중치 평균을 구함으로써 계산된다.
바이너리 : 바이너리는 단지 0과 1, 2개의 값만이 존재하는 넘버링 스킴(numbering scheme)이다. 상기 용어는 정확하게 2개의 상태가 존재하는 인코딩/디코딩 시스템에서도 역시 언급된다. 디지털 데이터 메모리, 저장장치, 프로세싱. 및 통신에서, 0과 1 값은 때때로 "로우" 와 "하이"로 각각 불린다.
푸리에 변환(Furiere trnasforms) : 조셉 푸리에(Joseph Fourier)의 이름을 딴 푸리에 변환은 사인파 기반 함수로 나타낸 함수를 재표현한 적분 변환이다. 즉, 사인파 함수에 어떤 계수("진폭", amplitude)를 곱하여 합이나 적분으로 나타내는 것이다.
그레이스케일(Grayscale) :계산함에 있어서, 그레이스케일이나 그레이스케일 디지털 이미지는 각 픽셀 값이 하나의 샘플인 이미지이다. 비록 대체로 샘플은 어떠한 칼라의 농도(shade)로서 디스플레이 되거나, 심지어 다른 강도로 다양한 색으로 코드 될 수 있지만, 디스플레이되는 이러한 종류의 이미지는 전형적으로 가장 약한 명암(intensity)인 검정에서 가장 강한 흰색까지 변화하면서 회색의 명암 구성되어 있다. 그레이스케일 이미지들은 검정 및 흰색의 이미지로부터 구분되고, 검 정 및 흰색의 이미지 컴퓨터 이미지의 배경에서 검은색과 흰색의 단지 두 색을 가진 이미지이다; 그레이스케일 이미지들은 사이에 많은 농도의 그레이가 있다.
히스토그램 : 히스토그램은 통계학에서 사용되는 특화된 그래프나 플롯이다. 가장 일반적인 형태로, 독립변수는 수평축으로 정해지고 종속 변수(일반적으로 백분율)는 수직축으로 정해진다. 독립변수는 연속적인 범위의 값보다는 유한한 이산 값(가령, 5)을 취한다. 종속변수는 연속 범위를 채울 수 있다.
래스터 데이터(Raster data) : 래스터 그래픽스(raster graphics)는 주어진 공간에서 샘플 세트로 만들어지거나 캡쳐된(가령, 사진에서 스캐닝을 함으로써)디지털 이미지이다. 래스터는 디스플레이 공간상 x와 y 좌표 격자이다. (그리고 삼차원 이미지에서는, z 좌표.) 래스터 이미지 파일은 이러한 좌표 중 어떤 것이 흑백이나 칼라 값에서 밝아지는지를 확인한다. 래스터 파일은 디스플레이 그리드에 직접적으로 표시되기 때문에 때때로 비트맵으로 언급된다.
세그먼테이션(Segmentation) : 이미지 분석에서, 세그먼테이션은 어떤 기준에 따라 디지털 이미지의 구획선을 (픽셀 집합으로 이루어진) 다중 영역으로 분할하는 것이다. 세그먼테이션의 목적은 이미지에서 묘사된 관심 영역을 확실하게 위치시키는 것이다. 세그먼테이션은 컴퓨터 시각(computer vision) 문제로서 이해될 수도 있을 것이다. 불행하게도, 많은 중요한 세그먼테이션 알고리즘은 이 문제를 풀기에 너무 단순하다: 이러한 알고리즘들은 예측능력, 일반화, 및 효율성으로 이러한 제한을 보상한다.
벡터 데이터 : 벡터 그래픽스나 기하학적 모델링(geometric modeling)은 컴 퓨터 그래픽스에서 이미지를 표현하기 위해서 점, 직선, 곡선, 및 정다각형과 같은 기하학적 프리머티브를 사용한다. 이것은 픽셀(도트, dot)의 집합으로서 이미지를 표현하는 래스터 그래픽스와는 대조적으로 사용된다.
본 발명은 문자 인식에 쓰이는 인경 신경 회로망의 입력으로 사용하기 위한 래스터 데이터에 의해 표현되는 문자를 묘사하는 독특한 데이터 집합을 유도하기 위한 특별한 기술을 기술하고, 이러한 기술은 여기에서 발명의 바람직한 실시예로서 제공된다. 그러나, 독특한 데이터 셋을 유도하기 위한 다른 공지의 기술이 존재하고 본 발명에서 유익하게 채용될 수 있음이 예견될 수 있다. 그러므로, 본 발명의 어떠한 형태들이 여기에서 나타나고 묘사되는 반면, 본 발명이 여기서 묘사되거나 나타내어진 특정 형태나 정렬로 제한되는 것이 아니라는 것을 알 수 있다.

Claims (24)

  1. 선택된 데이터를 그것의 그래픽 표현으로 디스플레이하는 어플리케이션 프로그램으로부터 상기 선택된 데이터를 추출하기 위한 지능형 임포테이션 방법으로서,
    상기 추출은 어플리케이션 프로그램의 동작에 영향을 미치지 않고 사용자가 그것과 상호 작용하지 않고,
    (a) 상기 어플리케이션 프로그램에 의해 디스플레이되는 선택된 데이터의 그래픽 표현을 포함하는 디스플레이 데이터를 그것의 실행 동안 검색되도록 야기하는 단계;
    (b) 상기 데이터를 임시로 저장하는 단계;
    (c) 그래픽 표현으로부터 상기 선택된 데이터를 인식하도록 훈련된 인공 신경 회로망을 통해 상기 디스플레이 데이터를 프로세싱하는 단계; 및
    (d) 비 그래픽 포맷에서 상기 그래픽 표현으로부터 상기 선택된 데이터를 저장하는 단계;를 포함하는 지능형 임포테이션 방법.
  2. 제 1항에 있어서,
    (a) 상기 선택된 데이터를 외부 데이터 파일로부터 데이터를 직접 렌더링할 수 없는 외부 어플리케이션 프로그램에 외부 파일과 연결시키는 단계;
    (b) 상기 외부 데이터 파일을 저장하는 단계;
    (c) 그 후에, (1) 상기 선택된 데이터의 그래픽 표현을 포함하는 상기 어플 리케이션 프로그램에 의해 디스플레이되는 스크린을 선택하는 단계;
    (2) 상기 선택된 데이터를 그것에 의하여 인식하는 상기 인공 신경 회로망을 통하여 상기 선택된 데이터의 상기 그래픽 표현을 포함하는 상기 디스플레이 데이터를 프로세싱하는 단계:에 의해,
    상기 어플리케이션 프로그램의 실행 동안 저장된 외부 파일을 검색하는 단계;
    (d) 상기 선택된 데이터와 관련된 상기 저장된 외부 데이터 파일을 검색하ㄴ는 단계; 및
    (e) 상기 외부 데이터 파일의 데이터를 렌더링하는 단계;를 포함하는 지능형 임포테이션 방법.
  3. 제 1항에 있어서,
    (a) 상기 선택된 데이터의 상기 그래픽 표현은 상기선택된 데이터의 래스터 표현을 포함하고,
    (b) 상기 인공 신경 회로망은 그것에 대한 상기 래스터 표현으로부터 상기 선택된 데이터를 인식하도록 훈련되는 지능형 임포테이션 방법.
  4. 제 1항에 있어서,
    (a) 상기 선택된 데이터의 상기 그래픽 표현은 상기 선택된 데이터의 레스터 표현을 포함하고,
    (b) 상기 래스터 표현은 그것의 벡터 표현으로 처리되고,
    (c) 상기 인공 신경 회로망은 상기 그것에 대한 상기 래스터 표현의 상기 벡터 표현으로부터 상기 선택된 데이터를 인식하도록 훈련되는 지능형 임포테이션 방법.
  5. 제 1항에 있어서,
    (a) 상기 선택된 데이터의 상기 그래픽 표현은 상기 선택된 데이터의 래스터 표현을 포함하고;
    (b) 상기 래스터 표현은 그것의 벡터 표현으로 처리되고;
    (c) 상기 벡터 표현은 상기 벡터 표현과 관련된 푸리에 계수 집합을 생성하기 위해 푸리에 변환에 의해 처리되고;
    (d) 상기 인공 신경 회로망은 상기 선택된 데이터의 래스터 표현의 벡터 표현과 관련된 상기 푸리에 계수로부터 상기 선택된 데이터를 인식하도록 훈련되는
    지능형 임포테이션 방법.
  6. 제 1항에 있어서,
    (a) 상기 선택된 데이터의 그래픽 표현은 상기 선택된 데이터의 래스터 표현을 포함하고;
    (b) 상기 래스터 표현의 일련의 그래픽 특징들은 그것으로부터 추출되고;
    (c) 상기 인공 신경 회로망은 상기 래스터 표현의 상기 그래픽 특징의 세트 로부터 선택된 데이터를 인식하도록 훈련되는 지능형 임포테이션 방법.
  7. 제 1항에 있어서,
    (a) 상기 그래픽 특징들은 선택된 방향에서 상기 선택된 데이터의 상기 래스터 표현의 픽셀 카운트 리스트에 의해 형성되는 히스토그램을 포함하는 지능형 임포테이션 방법.
  8. 제 1항에 있어서,
    (a) 상기 그래픽 특징들은 상기 선택된 데이터의 상기 래스터 표현의 문자 스트로크의 끝 지점의 일련의 직교 좌표를 포함하는 지능형 임포테이션 방법.
  9. 제 1항에 있어서,
    (a) 상기 그래픽 특징은 상기 선택된 데이터의 상기 래스터 표현의 문자 스토로크 위치 교점의 일련의 직교 좌표를 포함하는 지능형 임포테이션 방법.
  10. 제 1항에 있어서,
    상기 선택된 데이터의 그래픽 표현은 상기 선택된 데이터의 첫 번째 표현을 구성하고,
    (a) 상기 첫 번째 표현으로부터 상기 선택된 데이터의 두 번째 표현을 유도하는 단계; 및
    (b) 상기 첫 번째 및 두 번째 표현으로부터 상기 선택된 데이터를 각각 인식하도록 훈련된 첫 번째 및 두 번째 인공 신경 회로망을 통해 상기 선택된 데이터의 첫 번째 및 두 번째 표현을 프로세싱하는 단계; 를 포함하는 지능형 임포테이션 방법.
  11. 제 10항에 있어서,
    (a) 상기 그래픽 표현으로부터 상기 선택된 데이터를 추출하는 것에서 정확성을 증가시키고 그것에 의한 보우팅 절차(voting procedure)에 상기 첫 번째 및 두 번째 신경 회로망의 출력을 적용하는 단계를 포함하는 지능형 임포테이션 방법.
  12. 선택된 데이터를 그것의 그래픽 표현으로 디스플레이 하는 어플리케이션 프로그램으로부터 선택된 데이터를 추출하기 위한 지능형 임포테이션 방법으로,
    상기 추출은 상기 어플리케이션 프로그램의 동작에 영향을 미치지 않고 사용자가 그것과 상호작용 없이 발생하고,
    (a) 검색되기 위해서 그것의 실행동작 동안 상기 어플리케이션 프로그램에 의해 디스플레이되는 상기 선택된 데이터의 그래픽 표현인 상기 선택된 데이터의 첫 번째 표현을 포함하는 디스플레이 데이터를 야기하는 단계;
    (b) 상기 그것의 첫 번째 표현으로부터 상기 선택된 데이터의 두 번째 표현을 유도하는 단계;
    (c) 상기 디스플레이 데이터의 상기 첫 번째 및 두 번째 표현을 임시로 저장 하는 단계;
    (d) 상기 그것의 첫 번째 및 두 번째 표현으로부터 상기 선택된 데이터가 인식되도록 훈련된 첫 번째 인공 신경 회로망과 두 번째 인공 신경 회로망을 통해 상기 디스플레이 데이터의 첫 번째 및 두 번째 표현을 프로세싱하는 단계;
    (e) 상기 그것의 그래픽 표현의 첫 번째 및 두 번째 표현으로부터 상기 선택된 데이터를 집합적으로 확인하고 첫 번째 및 두 번째 신경 회로망의 출력을 그것에 의한 보우팅 절차에 입력하는 단계;
    (f) 상기 보우팅 절차로부터 인식된 상기 선택된 데이터를 저장하는 단계;
    (g) 상기 외부 데이터 파일로부터 데이터를 직접 렌더링하지 못하는 상기 어플리케이션 프로그램과 무관한 외부 데이터 파일과 상기 선택된 데이터를 결합시는 단계;
    (h) 상기 디스플레이 가능한 데이터 파일을 저장하는 단계;
    (i) 그 후에, 상기 어플리케이션 프로그램의 실행 동안 상기 저장된 외부 데이터 파일을 다음의 단계로 검색하는 단계;
    (1) 상기 선택된 데이터의 그래픽 표현인 상기 선택된 데이터의 첫 번째 표현을 포함하는 상기 어플리케이션 프로그램에 의해 디스플레이 되는 스크린을 선택하고,
    (2) 상기 그것의 첫 번째 표현으로부터 상기 선택된 데이터의 상기 두 번째 표현을 유도하고,
    (3) 상기 첫 번째 및 두 번째 인공 신경 회로망을 통해 상기 선택된 데이터를 각각 첫 번째 및 두 번째 표현으로 프로세싱하고,
    (4) 상기 그것의 그래픽 표현의 첫 번째 및 두 번째 표현으로부터 상기 선택된 데이터를 집합적으로 확인하고 상기 첫 번째 및 두 번째 신경회로망의 출력을 보우팅 절차에 입력하는 단계;
    (j) 상기 선택된 데이터와 관련된 상기 저장된 외부 데이터 파일을 검색하는 단계; 및
    (k) 상기 외부 데이터 파일의 데이터를 렌더링하는 단계;를 포함하는 지능형 임포테이션 방법.
  13. 실행되는 동안 사용자 인터페이스의 디스플레이를 실질적으로 완전히 픽셀 래스터 패턴으로 제공하고 상기 외부 데이터 파일에서 데이터를 직접 렌더링할 수 없는 어플리케이션 프로그램에 외부 데이터 파일을 링크시키기 위한 지능형 임포테이션 방법에서,
    상기 링크는 상기 어플리케이션의 동작에 영향을 미치지 않고 사용자가 그것과 관계된 상호작용 없이 발생하고,
    (a) 그것의 실행 동안 상기 어플리케이션 프로그램에 의해 디스플레이되는 상기 선택된 데이터의 그래픽 표현을 포함하는 디스플레이 데이터를 야기하는 단계;
    (b) 상기 디스플레이 데이터를 저장하는 단계
    (c) 그것의 그래픽 표현으로부터 상기 선택된 데이터를 인식하도록 훈련된 인공 신경 회로망을 통해 상기 디스플레이 데이터를 프로세싱하는 단계; 및
    (d) 비 그래픽 포맷에서 상기 그것의 그래픽 표현으로부터 인식된 상기 선택된 데이터를 저장하는 단계;를 포함하는 지능형 임포테이션 방법..
  14. 제 13항에 있어서,
    (a) 외부 데이터 파일로부터 데이터를 직접 렌더링하지 못하는 상기 어플리케이션 프로그램과 무관한 외부 데이터 파일을 상기 선택된 데이터와 결합시키는 단계;
    (b) 상기 외부 데이터 파일을 저장하는 단계;
    (c) 그 후에, 상기 어플리케이션 프로그램의 실행 동안 상기 저장된 외부 데이터 파일을 다음의 단계로 검색하는 단계;
    (1) 상기 선택된 데이터의 그래픽 표현을 포함하는 상기 어플리케이션 프로그램에 의해 디스플레이 되는 스크린을 선택하고,
    (2) 상기 선택된 데이터를 인식하는 상기 인공 신경 회로망을 통해 상기 선택된 데이터의 그래픽 표현을 포함하는 상기 디스플레이 데이터를 프로세싱하는 단계;
    (d) 상기 선택된 데이터와 관련된 결합된 상기 저장된 외부 데이터 파일을 검색하는 단계; 및
    (e) 상기 외부 데이터 파일의 데이터를 렌더링하는 단계;를 포함하는 지능형 임포테이션 방법.
  15. 제 13항에 있어서,
    (a) 상기 선택된 데이터의 상기 그래픽 표현은 상기 선태된 데이터의 래스터 표현을 포함하고;
    (b) 상기 인공 신경 회로망은 상기 그것의 래스터 표현으로부터 상기 선택된 데이터를 인식하도록 훈련된 지능형 임포테이션 방법.
  16. 제 1항에 있어서,
    (a) 상기 선택된 데이터의 상기 그래픽 표현은 상기 선택된 데이터의 래스터 표현을 포함하고;
    (b) 상기 래스터 표현은 그것의 벡터 표현으로 프로세스되고;
    (c) 상기 인공 신경 회로망은 상기 그것의 래스터 표현의 벡터 표현으로부터 상기 선택된 데이터를 인식하도록 훈련된 지능형 임포테이션 방법.
  17. 제 13항에 있어서,
    (a) 상기 선택된 데이터의 상기 그래픽 표현은 상기 선택된 데이터의 래스터 표현을 포함하고;
    (b) 상기 래스터 표현은 그것의 벡터 표현으로 프로세스되고;
    (c) 상기 벡터 표현은 상기 벡터 표현과 관련된 푸리에 계수 집합을 생성하기 위해 푸리에 변환에 의해 처리되고;
    (d) 상기 인공 신경 회로망은 상기 선택된 데이터의 래스터 표현의 상기 벡터 표현과 관련된 상기 푸리에 계수 집합으로부터 상기 선택된 선택된 데이터를 인식하도록 훈련되는; 지능형 임포테이션 방법.
  18. 제 13항에 있어서,
    (a) 상기 선택된 데이터의 상기 그래픽 표현은 상기 선택된 데이터의 래스터 표현을 포함하고;
    (b) 상기 래스터 표현의 일련의 그래픽 특징은 그것으로부터 추출되고 ;
    (c) 상기 인공 신경 회로망은 상기 그것의 래스터 표현의 상기 일련의 그래픽 특징으로부터 상기 선택된 데이터를 인식하도록 훈련되는 지능형 임포테이션 방법.
  19. 제 13항에 있어서,
    (a) 상기 그래픽 특징들은 선택된 방향에서 상기 선택된 데이터의 상기 래스터 표현의 픽셀 카운트 리스트에 의해 형성되는 히스토그램을 포함하는 지능형 임포테이션 방법.
  20. 제 13항에 있어서,
    (a) 상기 그래픽 특징들은 상기 선택된 데이터의 상기 래스터 표현의 문자 스트로크의 끝 지점의 일련의 직교 좌표를 포함하는 지능형 임포테이션 방법.
  21. 제 13항에 있어서,
    (a) 상기 그래픽 특징은 상기 선택된 데이터의 상기 래스터 표현의 문자 스토로크 위치 교점의 일련의 직교 좌표를 포함하는 지능형 임포테이션 방법.
  22. 제 13항에 있어서,
    상기 선택된 데이터의 그래픽 표현은 상기 선택된 데이터의 첫 번째 표현을 구성하고,
    (a) 상기 첫 번째 표현으로부터 상기 선택된 데이터의 두 번째 표현을 유도하는 단계; 및
    (b) 상기 첫 번째 및 두 번째 표현으로부터 상기 선택된 데이터를 각각 인식하도록 훈련된 첫 번째 및 두 번째 인공 신경 회로망을 통해 상기 선택된 데이터의 첫 번째 및 두 번째 표현을 프로세싱하는 단계; 를 포함하는 지능형 임포테이션 방법.
  23. 제 22항에 있어서,
    (a) 상기 그래픽 표현으로부터 상기 선택된 데이터를 추출하는 것에서 정확성을 증가시키고 그것에 의한 보우팅 절차(voting procedure)에 상기 첫 번째 및 두 번째 신경 회로망의 출력을 적용하는 단계를 포함하는 지능형 임포테이션 방법.
  24. 실행되는 동안 사용자 인터페이스 디스플레이를 전적으로 픽셀 래스터 표현으로 제공하고, 외부 데이터 파일에서 데이터를 직접 렌더링하지 못하는 어플리케이션 프로그램에 외부 데이터를 링크시키기 위한 지능형 임포테이션 방법으로,
    상기 링크는 상기 어플리케이션 프로그램의 동작에 영향을 미치지 않고 사용자가 그것과 상호작용 없이 발생하고,
    (a) 검색되기 위해서 그것의 실행 동안 상기 어플리케이션 프로그램에 의해 상기 선택된 데이터의 그래픽 표현인 상기 선택된 데이터의 첫 번째 표현을 포함하는 디스플레이 데이터를 야기하는 단계;
    (b) 상기 그것의 첫 번째 표현으로부터 상기 선택된 데이터의 두 번째 표현을 유도하는 단계;
    (c) 상기 디스플레이 데이터의 상기 첫 번째 및 두 번째 표현을 임시로 저장하는 단계;
    (d) 상기 그것의 첫 번째 및 두 번째 표현으로부터 상기 선택된 데이터가 인식되도록 훈련된 첫 번째 인공 신경 회로망과 두 번째 인공 신경 회로망을 통해 상기 디스플레이 데이터의 첫 번째 및 두 번째 표현을 프로세싱하는 단계;
    (e) 상기 그것의 그래픽 표현의 첫 번째 및 두 번째 표현으로부터 상기 선택된 데이터를 집합적으로 확인하고 첫 번째 및 두 번째 신경 회로망의 출력을 그것에 의한 보우팅 절차에 입력하는 단계;
    (f) 상기 보우팅 절차로부터 인식된 상기 선택된 데이터를 저장하는 단계;
    (g) 상기 외부 데이터 파일로부터 데이터를 직접 렌더링하지 못하는 상기 어 플리케이션 프로그램과 무관한 외부 데이터 파일과 상기 선택된 데이터를 결합시는 단계;
    (h) 상기 디스플레이 가능한 데이터 파일을 저장하는 단계;
    (i) 그 후에, 상기 어플리케이션 프로그램의 실행 동안 상기 저장된 외부 데이터 파일을 다음의 단계로 검색하는 단계;
    (1) 상기 선택된 데이터의 그래픽 표현인 상기 선택된 데이터의 첫 번째 표현을 포함하는 상기 어플리케이션 프로그램에 의해 디스플레이 되는 스크린을 선택하고,
    (2) 상기 그것의 첫 번째 표현으로부터 상기 선택된 데이터의 상기 두 번째 표현을 유도하고,
    (3) 상기 첫 번째 및 두 번째 인공 신경 회로망을 통해 상기 선택된 데이터를 각각 첫 번째 및 두 번째 표현으로 프로세싱하고,
    (4) 상기 그것의 그래픽 표현의 첫 번째 및 두 번째 표현으로부터 상기 선택된 데이터를 집합적으로 확인하고 상기 첫 번째 및 두 번째 신경 회로망의 출력을 보우팅 절차에 입력하는 단계;
    (j) 상기 선택된 데이터와 관련된 상기 저장된 외부 데이터 파일을 검색하는 단계; 및
    (k) 상기 외부 데이터 파일의 데이터를 렌더링하는 단계;를 포함하는 지능형 임포테이션 방법.
KR1020077019479A 2005-02-22 2006-02-22 인공 지능을 이용한 외부 어플리케이션 사용자인터페이스로부터의 정보의 지능형 임포테이션 KR20070115908A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US65506505P 2005-02-22 2005-02-22
US60/655,065 2005-02-22
US11/358,436 US7653244B2 (en) 2005-02-22 2006-02-21 Intelligent importation of information from foreign applications user interface
US11/358,436 2006-02-21

Publications (1)

Publication Number Publication Date
KR20070115908A true KR20070115908A (ko) 2007-12-06

Family

ID=36927963

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077019479A KR20070115908A (ko) 2005-02-22 2006-02-22 인공 지능을 이용한 외부 어플리케이션 사용자인터페이스로부터의 정보의 지능형 임포테이션

Country Status (10)

Country Link
US (1) US7653244B2 (ko)
EP (1) EP1854051B1 (ko)
JP (1) JP2008537198A (ko)
KR (1) KR20070115908A (ko)
AT (1) ATE553448T1 (ko)
CA (1) CA2598686C (ko)
DK (1) DK1854051T3 (ko)
HK (1) HK1108958A1 (ko)
MX (1) MX2007010180A (ko)
WO (1) WO2006091626A2 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4553241B2 (ja) * 2004-07-20 2010-09-29 株式会社リコー 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
US20100254606A1 (en) * 2005-12-08 2010-10-07 Abbyy Software Ltd Method of recognizing text information from a vector/raster image
WO2008133951A2 (en) * 2007-04-24 2008-11-06 Massachusetts Institute Of Technology Method and apparatus for image processing
US10685223B2 (en) 2008-01-18 2020-06-16 Mitek Systems, Inc. Systems and methods for mobile image capture and content processing of driver's licenses
US9292737B2 (en) 2008-01-18 2016-03-22 Mitek Systems, Inc. Systems and methods for classifying payment documents during mobile image processing
US8983170B2 (en) * 2008-01-18 2015-03-17 Mitek Systems, Inc. Systems and methods for developing and verifying image processing standards for mobile deposit
US10528925B2 (en) 2008-01-18 2020-01-07 Mitek Systems, Inc. Systems and methods for mobile automated clearing house enrollment
US9842331B2 (en) 2008-01-18 2017-12-12 Mitek Systems, Inc. Systems and methods for mobile image capture and processing of checks
US10891475B2 (en) 2010-05-12 2021-01-12 Mitek Systems, Inc. Systems and methods for enrollment and identity management using mobile imaging
US8954184B2 (en) * 2011-01-19 2015-02-10 Tokyo Electron Limited Tool performance by linking spectroscopic information with tool operational parameters and material measurement information
US8533182B1 (en) * 2012-05-31 2013-09-10 David P. Charboneau Apparatuses, systems, and methods for efficient graph pattern matching and querying
US9536139B2 (en) 2013-03-15 2017-01-03 Mitek Systems, Inc. Systems and methods for assessing standards for mobile image quality
JP6515438B2 (ja) * 2014-03-27 2019-05-22 日本電気株式会社 重要度算出装置、重要度算出装置方法、及び重要度算出装置システム
US10970646B2 (en) 2015-10-01 2021-04-06 Google Llc Action suggestions for user-selected content
US10055390B2 (en) * 2015-11-18 2018-08-21 Google Llc Simulated hyperlinks on a mobile device based on user intent and a centered selection of text
US9843657B1 (en) * 2016-10-27 2017-12-12 W. Jason Guzek Mobile computing/communicating attachment device
US10592751B2 (en) * 2017-02-03 2020-03-17 Fuji Xerox Co., Ltd. Method and system to generate targeted captions and summarize long, continuous media files
US10783394B2 (en) * 2017-06-20 2020-09-22 Nvidia Corporation Equivariant landmark transformation for landmark localization
US11461702B2 (en) 2018-12-04 2022-10-04 Bank Of America Corporation Method and system for fairness in artificial intelligence based decision making engines
US11393272B2 (en) 2019-09-25 2022-07-19 Mitek Systems, Inc. Systems and methods for updating an image registry for use in fraud detection related to financial documents
RU2726185C1 (ru) * 2020-01-21 2020-07-09 Общество с ограниченной ответстсвенностью «Аби Продакшн» Детектирование и идентификация объектов на изображениях
US11475174B2 (en) 2021-03-09 2022-10-18 Togal.Ai Inc. Methods and apparatus for artificial intelligence conversion of a two-dimensional reference into an actionable interface
US11797733B2 (en) 2021-03-09 2023-10-24 Togal.Ai Inc Artificial intelligence determination of building metrics for code compliance
US11481704B2 (en) 2021-03-09 2022-10-25 Togal.Ai Inc. Methods and apparatus for artificial intelligence conversion of change orders into an actionable interface

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4553206A (en) 1983-10-03 1985-11-12 Wang Laboratories, Inc. Image storage and retrieval
US4817050A (en) 1985-11-22 1989-03-28 Kabushiki Kaisha Toshiba Database system
US4819156A (en) 1986-06-13 1989-04-04 International Business Machines Corporation Database index journaling for enhanced recovery
JPS6482275A (en) 1987-09-25 1989-03-28 Minolta Camera Kk Digital image processor
US5208905A (en) 1987-11-16 1993-05-04 Canon Kabushiki Kaisha Document processing apparatus
US5025483A (en) 1987-12-18 1991-06-18 International Business Machines Corporation System for scanning documents without loss of image data
JPH0636182B2 (ja) 1988-02-06 1994-05-11 大日本スクリーン製造株式会社 画像ファイリング・検索方法および装置
WO1991006057A1 (en) 1989-10-20 1991-05-02 Hitachi, Ltd. Image display/processing method of formatted document and apparatus therefor
US5133024A (en) * 1989-10-24 1992-07-21 Horst Froessl Image data bank system with selective conversion
US5022091A (en) 1990-02-28 1991-06-04 Hughes Aircraft Company Image processing technique
JPH0512345A (ja) * 1991-06-28 1993-01-22 Toshiba Corp 画像記憶装置
US5337370A (en) * 1992-02-28 1994-08-09 Environmental Research Institute Of Michigan Character recognition method employing non-character recognizer
US5586240A (en) * 1992-03-11 1996-12-17 Genesis Software, Inc. Image generation and retrieval system integrated with arbitrary application using layered interface
US5442715A (en) * 1992-04-06 1995-08-15 Eastman Kodak Company Method and apparatus for cursive script recognition
US5521985A (en) * 1992-08-13 1996-05-28 International Business Machines Corporation Apparatus for recognizing machine generated or handprinted text
US5475768A (en) * 1993-04-29 1995-12-12 Canon Inc. High accuracy optical character recognition using neural networks with centroid dithering
WO1994027251A1 (en) * 1993-05-18 1994-11-24 Massachusetts Institute Of Technology Automated reading system and method
JPH0756956A (ja) * 1993-07-22 1995-03-03 Xerox Corp 人間の作成したイメージに基づくデータアクセス方法
JP2673871B2 (ja) * 1993-08-26 1997-11-05 日本アイ・ビー・エム株式会社 ニューラル・ネットワークによるパターン認識方法及び装置
US5884296A (en) * 1995-03-13 1999-03-16 Minolta Co., Ltd. Network and image area attribute discriminating device and method for use with said neural network
US5835633A (en) * 1995-11-20 1998-11-10 International Business Machines Corporation Concurrent two-stage multi-network optical character recognition system
JPH09270902A (ja) * 1996-01-31 1997-10-14 Ricoh Co Ltd 画像ファイリング方法および画像ファイリング装置
US7653600B2 (en) * 1997-05-30 2010-01-26 Capital Security Systems, Inc. Automated document cashing system
US6446119B1 (en) * 1997-08-07 2002-09-03 Laslo Olah System and method for monitoring computer usage
US6985643B1 (en) * 1998-04-30 2006-01-10 Anoto Group Ab Device and method for recording hand-written information
JP3756719B2 (ja) * 2000-01-20 2006-03-15 理想科学工業株式会社 文書修飾装置及び画像処理装置
US20040181815A1 (en) * 2001-11-19 2004-09-16 Hull Jonathan J. Printer with radio or television program extraction and formating
US7016529B2 (en) * 2002-03-15 2006-03-21 Microsoft Corporation System and method facilitating pattern recognition

Also Published As

Publication number Publication date
MX2007010180A (es) 2008-01-11
DK1854051T3 (da) 2012-07-16
JP2008537198A (ja) 2008-09-11
ATE553448T1 (de) 2012-04-15
US7653244B2 (en) 2010-01-26
US20070009155A1 (en) 2007-01-11
WO2006091626A3 (en) 2009-04-23
EP1854051B1 (en) 2012-04-11
HK1108958A1 (en) 2008-05-23
EP1854051A2 (en) 2007-11-14
EP1854051A4 (en) 2010-07-14
CA2598686A1 (en) 2006-08-31
CA2598686C (en) 2014-12-09
WO2006091626A2 (en) 2006-08-31

Similar Documents

Publication Publication Date Title
KR20070115908A (ko) 인공 지능을 이용한 외부 어플리케이션 사용자인터페이스로부터의 정보의 지능형 임포테이션
US11176443B1 (en) Application control and text detection from application screen images
CN107194400B (zh) 一种财务报销全票据图片识别处理方法
Sarika et al. CNN based optical character recognition and applications
RU2640322C2 (ru) Способы и системы эффективного автоматического распознавания символов
JP3913985B2 (ja) 文書画像中の基本成分に基づく文字列抽出装置および方法
jean Plamondon Progress in automatic signature verification
Akinbade et al. An adaptive thresholding algorithm-based optical character recognition system for information extraction in complex images
Jiang et al. Baidu Meizu deep learning competition: Arithmetic operation recognition using end-to-end learning OCR technologies
Dhanikonda et al. An efficient deep learning model with interrelated tagging prototype with segmentation for telugu optical character recognition
CN118135584A (zh) 一种基于深度学习的手写表单自动识别方法和系统
Sharma et al. Primitive feature-based optical character recognition of the Devanagari script
KR20190085584A (ko) 인공지능기반 휴대용 디스플레이 시스템과 연계된 문자래스터 매핑시스템
Raj et al. Grantha script recognition from ancient palm leaves using histogram of orientation shape context
Chooi et al. Handwritten character recognition using convolutional neural network
Choudhary et al. A neural approach to cursive handwritten character recognition using features extracted from binarization technique
Edan Cuneiform symbols recognition based on k-means and neural network
CN115601843A (zh) 基于双流网络的多模态签名笔迹鉴别系统及方法
Yamina et al. Printed Arabic optical character recognition using support vector machine
Jia et al. Grayscale-projection based optimal character segmentation for camera-captured faint text recognition
Siranjeevi et al. Enhancing Hand Script Digitization using Deep Learning
Hijam et al. Convolutional neural network based Meitei Mayek handwritten character recognition
Hu et al. Recognizing character-matching CAPTCHA using convolutional neural networks with triple loss
Pornpanomchai et al. Printed Thai character recognition by genetic algorithm
US12033408B1 (en) Continual text recognition using prompt-guided knowledge distillation

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right