KR20120103436A - 화상 처리 장치, 비일시적인 컴퓨터 판독 가능한 매체, 및 화상 처리 방법 - Google Patents
화상 처리 장치, 비일시적인 컴퓨터 판독 가능한 매체, 및 화상 처리 방법 Download PDFInfo
- Publication number
- KR20120103436A KR20120103436A KR1020120002271A KR20120002271A KR20120103436A KR 20120103436 A KR20120103436 A KR 20120103436A KR 1020120002271 A KR1020120002271 A KR 1020120002271A KR 20120002271 A KR20120002271 A KR 20120002271A KR 20120103436 A KR20120103436 A KR 20120103436A
- Authority
- KR
- South Korea
- Prior art keywords
- language
- string
- character
- original
- unit
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00326—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
- H04N1/00328—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
- H04N1/00331—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/387—Composing, repositioning or otherwise geometrically modifying originals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00405—Output means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00501—Tailoring a user interface [UI] to specific requirements
- H04N1/00509—Personalising for a particular user or group of users, e.g. a workgroup or company
- H04N1/00514—Personalising for a particular user or group of users, e.g. a workgroup or company for individual users
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00795—Reading arrangements
- H04N1/00798—Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity
- H04N1/00801—Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity according to characteristics of the original
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00795—Reading arrangements
- H04N1/00798—Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity
- H04N1/00811—Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity according to user specified instructions, e.g. user selection of reading mode
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/44—Secrecy systems
- H04N1/4406—Restricting access, e.g. according to user identity
- H04N1/4426—Restricting access, e.g. according to user identity involving separate means, e.g. a server, a magnetic card
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0094—Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
Abstract
본 발명의 화상 처리 장치는 제 1 언어와 제 1 언어와는 다른 제 2 언어를 등록하는 등록 수단, 원고를 판독해서 얻어진 판독 정보로부터 하나 이상의 문자열을 추출하는 문자열 추출 수단, 문자열 추출 수단에 의해 추출된 하나 이상의 문자열에 의거하여, 원고의 특징 문자열을 생성하는 복수의 특징 문자열 생성 수단, 및 등록된 제 1 언어와 제 2 언어의 조합에 의거하여, 특징 문자열의 생성에 사용되는 특징 문자열 생성 수단을 전환하는 전환 수단을 포함한다.
Description
본 발명은 화상 처리 장치, 비일시적인 컴퓨터 판독 가능한 매체, 및 화상 처리 방법에 관한 것이다.
일본국 특개2006-72892호 공보는, 미리 기억부에 보존한 키 데이터를 조합시켜 생성한 파일명 후보를 터치 패널에 표시시키고, 유저가, 터치 패널에 표시된 파일명 후보로부터 판독하여 전자 파일에 적합한 파일명을 선택하는 화상 처리 장치를 개시한다.
일본국 특개2004-140551호 공보는, 송신 원고의 소정 영역에 기록되어 있는 도형 문자를 판독하여 파일명을 작성하는 네트워크 화상 통신 장치를 개시한다.
본 발명의 몇몇 측면의 이점은 원고의 독자(reader)가 이해 가능한 특징 문자열을 생성 가능한 화상 처리 장치를 제공하는 것이다.
본 발명의 제 1 측면에 따르면, 제 1 언어와 제 1 언어와는 다른 제 2 언어를 등록하는 등록 수단; 원고를 판독해서 얻어진 판독 정보로부터 하나 이상의 문자열을 추출하는 문자열 추출 수단; 문자열 추출 수단에 의해 추출된 하나 이상의 문자열에 의거하여, 원고의 특징 문자열을 생성하는 복수의 특징 문자열 생성 수단; 및 등록된 제 1 언어와 제 2 언어의 조합에 의거하여, 특징 문자열의 생성에 사용되는 특징 문자열 생성 수단을 전환하는 전환 수단을 포함하는 화상 처리 장치를 제공한다.
본 발명의 제 2 측면은, 제 1 언어는 원고의 독자가 인식 가능한 독자 언어이고, 제 2 언어는 원고에 출현하는 문자열에 의거하여 결정되는 원고 언어인 제 1 측면에 따른 화상 처리 장치를 제공한다.
본 발명의 제 3 측면은, 독자 언어는 원고의 독자의 식별 정보에 의거하여 결정되는 것이고, 원고 정보는 원고에 출현하는 비율이 가장 큰 언어인 제 2 측면에 따른 화상 처리 장치를 제공한다.
본 발명의 제 4 측면은, 복수의 특징 문자열 생성 수단은, 제 1 언어와 제 2 언어의 조합에 의거하여, 추출된 하나 이상의 문자열로부터, 원고의 특징 문자열을 구성하는 하나 이상의 구성 요소를 선택하기 위한 처리를 행하는 복수의 선택 수단; 및 선택 수단에 의해 선택된 구성 요소를 이용하여 특징 문자열을 결정하기 위한 처리를 행하는 복수의 특징 문자열 결정 수단을 포함하고, 전환 수단은, 제 1 언어와 제 2 언어의 조합에 의거하여, 특징 문자열의 생성에 사용되는 선택 수단을 전환하고, 특징 문자열의 생성에 사용되는 특징 문자열 결정 수단을 전환하는 제 1 측면에 따른 화상 처리 장치를 제공한다.
본 발명의 제 5 측면은, 복수의 특징 문자열 생성 수단은, 제 1 언어와 제 2 언어의 조합에 의거하여, 문자열 추출 수단에 의해 추출된 문자열 중 하나 이상을 변환하는 복수의 변환 수단; 및 변환 수단에 의해 변환된 문자열을 이용하여 특징 문자열을 결정하기 위한 처리를 행하는 복수의 특징 문자열 결정 수단을 포함하고, 전환 수단은, 제 1 언어와 제 2 언어의 조합에 의거하여, 복수의 변환 수단을 전환하고, 특징 문자열의 생성에 사용되는 복수의 특징 문자열 결정 수단을 전환하는 제 1 측면에 따른 화상 처리 장치를 제공한다.
본 발명의 제 6 측면은, 복수의 특징 문자열 생성 수단은, 제 1 언어와 제 2 언어의 조합에 의거하여, 추출된 하나 이상의 문자열로부터, 원고의 특징 문자열의 하나 이상의 구성 요소를 선택하기 위한 처리를 행하는 복수의 선택 수단; 제 1 언어와 제 2 언어의 조합에 의거하여, 선택 수단에 의해 선택된 문자열의 하나 이상을 변환하는 복수의 변환 수단; 및 변환 수단에 의해 변환된 구성 요소를 이용하여 특징 문자열을 결정하기 위한 처리를 행하는 복수의 특징 문자열 결정 수단을 포함하고, 전환 수단은, 제 1 언어와 제 2 언어의 조합에 의거하여, 특징 문자열의 생성에 사용되는 선택 수단을 전환하고, 특징 문자열의 생성에 사용되는 변환 수단을 전환하고, 특징 문자열의 생성에 사용되는 특징 문자열 결정 수단을 전환하는 제 1 측면에 따른 화상 처리 장치를 제공한다.
본 발명의 제 7 측면은, 복수의 선택 수단 중 하나는, 추출된 하나 이상의 문자열의 원고에서의 출현 빈도에 의거하여 구성 요소를 선택하기 위한 처리를 행하는 제 4 측면 또는 제 6 측면에 따른 화상 처리 장치를 제공한다.
본 발명의 제 8 측면은, 복수의 선택 수단 중 하나는, 추출된 문자열 중 적어도 하나의 소정의 위치 및 규모인 제 1 문자열에 대해서, 제 1 문자열 이외의 다른 추출된 문자열보다, 추출된 문자열로부터 구성 요소를 선택하는 지표가 되는 가중 계수를 소정 값 높게 설정하는 제 4 측면 또는 제 6 측면에 따른 화상 처리 장치를 제공한다.
본 발명의 제 9 측면은, 복수의 선택 수단 중 하나는, 원고 내에 배치되어 원고를 구성하며 문자열과는 상이한 배치 요소에 대응하는 제 2 문자열을, 구성 요소로서 선택하기 위한 처리를 행하는 제 4 측면 또는 제 6 측면에 따른 화상 처리 장치를 제공한다.
본 발명의 제 10 측면은, 복수의 선택 수단 중 하나는, 추출된 문자열 중 제 1 언어인 제 3 문자열에 대해서, 제 3 문자열 이외의 다른 추출된 문자열보다, 추출된 문자열로부터 구성 요소를 선택하는 지표가 되는 가중 계수를 소정 값 높게 설정하는 제 4 측면 또는 제 6 측면에 따른 화상 처리 장치를 제공한다.
본 발명의 제 11 측면은, 복수의 변환 수단 중 하나는, 추출된 문자열의 하나 이상을, 제 1 언어로 번역하는 제 5 측면 또는 제 6 측면에 따른 화상 처리 장치를 제공한다.
본 발명의 제 12 측면은, 복수의 변환 수단 중 하나는, 추출된 문자열의 하나 이상을, 하나 이상의 문자열의 발음을 표기하는 문자열로 변환하는 제 5 측면 또는 제 6 측면에 따른 화상 처리 장치를 제공한다.
본 발명의 제 13 측면은, 복수의 변환 수단 중 하나는, 추출된 문자열의 하나 이상의 문자 코드를, 대응하는 문자열의 다른 문자 코드로 변환하는 제 5 측면 또는 제 6 측면에 따른 화상 처리 장치를 제공한다.
본 발명의 제 14 측면에 따르면, 제 1 언어와 제 1 언어와는 다른 제 2 언어를 등록하는 스텝; 원고를 판독해서 얻어진 판독 정보로부터 하나 이상의 문자열을 추출하는 스텝; 등록된 제 1 언어와 제 2 언어의 조합에 의거하여, 특징 문자열의 생성에 사용되는 특징 문자열 생성 수단을 전환하는 스텝; 및 추출된 하나 이상의 문자열에 의거하여, 전환된 특징 문자열 생성 수단을 이용하여, 원고의 특징 문자열을 생성하는 스텝을 포함하는 화상 처리 프로세스를 컴퓨터에 실행시키는 프로그램을 저장한 비일시적인 컴퓨터 판독 가능한 매체를 제공한다.
본 발명의 제 15 측면에 따르면, 제 1 언어와 제 1 언어와는 다른 제 2 언어를 등록하는 스텝; 원고를 판독해서 얻어진 판독 정보로부터 하나 이상의 문자열을 추출하는 스텝; 추출된 하나 이상의 문자열에 의거하여, 원고의 특징 문자열을 생성하는 스텝; 및 등록된 제 1 언어와 제 2 언어의 조합에 의거하여, 특징 문자열의 생성에 사용되는 특징 문자열 생성 수단을 전환하는 스텝을 포함하는 화상 처리 방법을 제공한다.
본 발명의 제 1 내지 제 3 측면에 따르면, 원고의 독자가 이해 가능한 특징 문자열을 생성 가능한 화상 처리 장치를 제공할 수 있다.
본 발명의 제 4 측면에 따르면, 본 발명의 제 1 내지 제 3 측면에 의해 달성되는 이점에 더해서, 원고의 독자가 인식 가능한 언어와 원고의 언어의 조합에 의거하여, 특징 문자열의 구성 요소를 선택할 수 있다.
본 발명의 제 5 측면에 따르면, 본 발명의 제 1 내지 제 3 측면에 의해 달성되는 이점에 더해서, 원고의 독자가 인식 가능한 언어와 원고의 언어의 조합에 의거하여, 변환된 특징 문자열을 생성할 수 있다.
본 발명의 제 6 측면에 따르면, 본 발명의 제 1 내지 제 3 측면에 의해 달성되는 이점에 더해서, 원고의 독자가 인식 가능한 언어와 원고의 언어의 조합에 의거하여, 선택된 특징 문자열의 구성 요소를 변환할 수 있다.
본 발명의 제 7 측면에 따르면, 본 발명의 제 4 또는 제 6 측면에 의해 달성되는 이점에 더해서, 원고에 있어서 출현 빈도가 높은 문자열을 포함하는 특징 문자열을 생성할 수 있다.
본 발명의 제 8 측면에 따르면, 본 발명의 제 4 또는 제 6 측면에 의해 달성되는 이점에 더해서, 원고에 있어서 다른 문자열보다 눈에 띄는 문자열을 포함하는 특징 문자열을 생성할 수 있다.
본 발명의 제 9 측면에 따르면, 본 발명의 제 4 또는 제 6 측면에 의해 달성되는 이점에 더해서, 원고에 문자열이 포함되지 않을 경우 또는 인식 불능인 문자열만을 포함할 경우에도 특징 문자열을 생성할 수 있다.
본 발명의 제 10 측면에 따르면, 본 발명의 제 4 또는 제 6 측면에 의해 달성되는 이점에 더해서, 후속 처리 내용을 삭감할 수 있다.
본 발명의 제 11 측면에 따르면, 본 발명의 제 5 또는 제 6 측면에 의해 달성되는 이점에 더해서, 원고의 독자가 인식 가능한 언어로 번역된 특징 문자열을 생성할 수 있다.
본 발명의 제 12 측면에 따르면, 본 발명의 제 5 또는 제 6 측면에 의해 달성되는 이점에 더해서, 원고의 독자의 환경에 있어서 인식 가능한 특징 문자열을 생성할 수 있다.
본 발명의 제 13 측면에 따르면, 본 발명의 제 5 또는 제 6 측면에 의해 달성되는 이점에 더해서, 원고의 독자의 환경에 있어서 인식 가능한 특징 문자열을 생성할 수 있다.
본 발명의 제 14 측면에 따르면, 원고의 독자가 이해 가능한 특징 문자열을 생성 가능한 비일시적인 컴퓨터 판독 가능한 매체를 제공할 수 있다.
본 발명의 제 15 측면에 따르면, 원고의 독자가 이해 가능한 특징 문자열을 생성 가능한 화상 처리 방법을 제공할 수 있다.
도 1은 본 발명의 실시형태에 따른 화상 처리 장치의 하드웨어 구성을 나타낸 도면.
도 2는 도 1에 나타낸 화상 처리 장치에 있어서 동작하는 처리 프로그램을 나타낸 도면.
도 3은 도 2에 나타낸 특징 문자열 생성부의 구성을 나타낸 도면.
도 4는 도 2에 나타낸 추출 문자열 관리부에 저장된 문자열 리스트를 나타낸 도면.
도 5는 전환 테이블을 나타낸 도면.
도 6은 처리 프로그램의 처리의 흐름을 나타낸 플로차트.
도 7은 본 실시형태에 따른 화상 처리 장치에서 처리 대상인 원고의 예 및 문자열의 추출 결과의 예를 나타낸 도면.
도 8은 도 7에 나타낸 원고의 독자 언어가 일본어일 경우의 특징 문자열 생성부의 처리를 나타낸 도면.
도 9는 도 7에 나타낸 원고의 독자 언어가 중국어일 경우의 특징 문자열 생성부의 처리를 나타낸 도면.
도 10은 도 7에 나타낸 원고의 독자 언어가 한국어일 경우의 특징 문자열 생성부의 처리를 나타낸 도면.
도 11은 도 7에 나타낸 원고의 독자 언어가 중국어일 경우의 특징 문자열 생성부의 처리를 나타낸 도면.
도 2는 도 1에 나타낸 화상 처리 장치에 있어서 동작하는 처리 프로그램을 나타낸 도면.
도 3은 도 2에 나타낸 특징 문자열 생성부의 구성을 나타낸 도면.
도 4는 도 2에 나타낸 추출 문자열 관리부에 저장된 문자열 리스트를 나타낸 도면.
도 5는 전환 테이블을 나타낸 도면.
도 6은 처리 프로그램의 처리의 흐름을 나타낸 플로차트.
도 7은 본 실시형태에 따른 화상 처리 장치에서 처리 대상인 원고의 예 및 문자열의 추출 결과의 예를 나타낸 도면.
도 8은 도 7에 나타낸 원고의 독자 언어가 일본어일 경우의 특징 문자열 생성부의 처리를 나타낸 도면.
도 9는 도 7에 나타낸 원고의 독자 언어가 중국어일 경우의 특징 문자열 생성부의 처리를 나타낸 도면.
도 10은 도 7에 나타낸 원고의 독자 언어가 한국어일 경우의 특징 문자열 생성부의 처리를 나타낸 도면.
도 11은 도 7에 나타낸 원고의 독자 언어가 중국어일 경우의 특징 문자열 생성부의 처리를 나타낸 도면.
본 발명의 실시형태를 첨부된 도면에 의거하여 상세하게 설명한다.
도 1은 본 실시형태에 따른 화상 처리 장치(2)의 하드웨어 구성을 나타낸 도면이다.
도 1에 나타낸 바와 같이, 화상 처리 장치(2)는, CPU 등의 연산부(212) 및 메모리 등의 기억부(214) 등을 포함하는 제어 장치(21), 통신 장치(22), 기록 장치(24), 유저 인터페이스 장치(UI 장치)(25), 인쇄 장치(26), 및 화상 판독 장치(27)를 포함한다.
UI 장치(25)는, LCD(Liquid Crystal Display) 표시 장치 혹은 CRT(Cathode Ray Tube) 표시 장치 등의 표시 장치, 키보드, 및 터치 패널을 포함한다.
인쇄 장치(26)는, 예를 들면 프린터이며, 문자 데이터 또는 화상 데이터를 용지 등의 기록 매체에 인쇄한다.
화상 판독 장치(27)는, 예를 들면 스캐너이며, 원고 등의 기록 매체로부터 화상을 판독하고, 예를 들면 이 화상을 비트 맵 형식의 판독 정보로 변환한다.
즉, 화상 처리 장치(2)는, 정보 처리 및 다른 화상 처리 장치 또는 단말과의 통신이 가능한 컴퓨터로서의 하드웨어 구성 부분을 갖고 있다.
후술하는 도면에 있어서, 실질적으로 동일한 구성 부분 및 처리에는 동일한 부호가 부여된다.
본 실시형태에 있어서, 화상 처리 장치(2)는 인쇄 장치(26) 및 화상 판독 장치(27)를 포함한다고 했지만, 화상 처리 장치는, 인쇄 장치 및 화상 판독 장치를 포함하지 않는, 예를 들면 PC여도 된다. 이 경우, 화상 처리 장치는 화상 판독 장치에 LAN(Local Area Network) 등을 통해 접속되어 있어도 된다.
도 2는, 도 1에 나타낸 화상 처리 장치(2)에 있어서 동작하는 처리 프로그램(3)의 구성을 나타낸 도면이다.
도 2에 나타낸 바와 같이, 처리 프로그램(3)은 원고 판독 정보 접수부(302), 배치 해석부(304), 문자 인식부(306), 형태소 해석부(308), 문자열 추출부(310), 추출 문자열 관리부(312), 독자 언어 등록부(320), 원고 언어 등록부(322), 언어 조합 판정부(324), 전환부(326), 및 특징 문자열 생성부(40)를 포함한다.
처리 프로그램(3)은, 기억 매체(240)(도 1)를 통해 화상 처리 장치(2)에 공급되며, 기억부(214)에 로드되고, 화상 처리 장치(2)에 인스톨된 OS(도시 생략) 상에서, 화상 처리 장치(2)의 하드웨어 자원을 구체적으로 이용해서 실행된다.
본 실시형태에 있어서는, 처리 프로그램(3)의 기능은, 소프트웨어에 의해 실현된다고 하고 있지만, 처리 프로그램(3)의 기능의 전부 또는 일부는 FPGA(Field Programmable Gate Array) 등의 하드웨어에 의해 실현되어도 된다.
도 3은 도 2에 나타낸 특징 문자열 생성부(40)의 구성을 나타낸 도면이다.
여기에서, "특징 문자열"이란, 유저가 원고를 식별하는데 이용되는 문자열이며, 예를 들면 원고를 전자 데이터(전자 파일)로 변환했을 경우에, 그 전자 데이터 또는 그 전자 데이터를 보관하는 패스 폴더(디렉토리)의 이름이다.
도 3에 나타낸 바와 같이, 특징 문자열 생성부(40)는 구성 요소 선택부(42), 구성 요소 변환부(44), 및 특징 문자열 결정부(46)를 포함한다.
구성 요소 선택부(42)는 출현 빈도 우선 선택부(420), 독자 언어 우선 선택부(422), 복합 문자열 우선 선택부(424), 위치/규모 우선 선택부(426), 배치 요소 우선 선택부(428), 및 수동 선택부(430)를 포함한다.
구성 요소 변환부(44)는 번역부(440), 발음 표기부(442), 문자 코드 변환부(444), 무변환부(446), 및 수동 변환부(448)를 포함한다.
특징 문자열 결정부(46)는 접속 기호 삽입 결합부(460), 선두 문자 변환 결합부(462), 무변환 결합부(464), 순서 변경 결합부(466), 및 수동 결합부(468)를 포함한다.
이하, 특징 문자열 생성부(40)를 구성하는 구성 요소 선택부(42), 구성 요소 변환부(44), 및 특징 문자열 결정부(46)를, "특징 문자열 생성 수단"이라고 총칭할 경우도 있다.
마찬가지로, 구성 요소 선택부(42)를 구성하는 출현 빈도 우선 선택부(420), 독자 언어 우선 선택부(422), 복합 문자열 우선 선택부(424), 위치/규모 우선 선택부(426), 배치 요소 우선 선택부(428), 및 수동 선택부(430); 구성 요소 변환부(44)를 구성하는 번역부(440), 발음 표기부(442), 문자 코드 변환부(444), 무변환부(446), 및 수동 변환부(448); 및 특징 문자열 결정부(46)를 구성하는 접속 기호 삽입 결합부(460), 선두 문자 변환 결합부(462), 무변환 결합부(464), 순서 변경 결합부(466), 및 수동 결합부(468)를, "특징 문자열 생성 수단"이라고 총칭할 경우가 있다.
처리 프로그램(3)(도 2)에 있어서, 원고 판독 정보 접수부(302)는, 화상 판독 장치(27)로부터 얻어진 판독 정보(원고 판독 정보)를 접수하고, 접수한 원고 판독 정보를, 배치 해석부(304)에 의한 처리를 위해 제공 가능하게 저장한다.
배치 해석부(304)는, 원고 판독 정보를 해석하여, 원고에 포함되는 문자, 표, 및 사진 등의 자연화, CG(Computer Graphics), 또는 회화를 분류(오브젝트 분류)하고, 분류된 오브젝트(문자, 표, 및 사진 등의 자연화, CG, 또는 회화 등. 이하 "배치 요소"라고 칭함)의 영역을 특정하고, 배치 요소와 위치 정보를 대응시킨다.
배치 해석부(304)는, 해석 결과를 나타내는 정보를 배치 정보로서, 문자 인식부(306) 및 특징 문자열 생성부(40)에 대하여 출력한다.
여기에서, 배치 정보는, 원고 판독 정보에 대응하는 원고에 있어서, 어느 위치에 어느 만큼의 규모로 어느 오브젝트가 포함되는지를 나타내는 정보이다.
이 "배치 정보"는 배치 요소의 위치를 나타낸 위치 정보와, 배치 요소의 규모(치수 또는 면적)를 나타내는 규모 정보를 포함한다.
여기에서, 위치 정보는 위치 좌표 등의 절대적인 위치를 나타내는 것이어도 되고, 다른 문자열에 대한 상대적인 위치 관계를 나타낸 것이어도 된다.
마찬가지로, 규모 정보는 폰트 또는 점유 면적 등의, 그 배치 요소의 절대적인 규모를 나타내는 것이어도 되고, 다른 배치 요소에 대한 상대적인 규모를 나타내는 것이어도 되고, 혹은 배치 요소의 규모의 평균치와의 차이를 나타내는 것이어도 된다.
배치 해석부(304)에 의한 배치 요소의 분류는, 예를 들면 원고에 배치되는 각종의 선, 테두리선, 및 괴선 또는 색 정보의 검출과, 에지 검출 및 패턴 매칭에 의해 행해진다. 그러나, 분류는 이들 방법에 한정되지 않는다.
문자 인식부(306)는, 배치 정보로부터 문자가 기재된 영역을 특정하고, 그 영역(문자 영역)에 대해서, 예를 들면 OCR(Optical Character Recognition : 광학 문자 인식) 기능을 사용함으로써, 문자 인식을 행한다.
여기에서, 문자 인식이란, 판독에 의해 얻어진 문자의 화상 데이터를, 미리 기억된 패턴과 조합함으로써, 그 문자를 특정해서, 문자 데이터를 생성하는 것을 의미한다.
또한, 문자 인식부(306)는 생성된 문자 데이터를 형태소 해석부(308)에 대하여 출력한다.
여기에서, 문자 데이터(및 후술하는 문자열)는, 예를 들면 시프트(shift) JIS 코드, ASCII(American Standard Code for Information Interchange) 코드, 또는 Unicode 등의 문자 코드로 표현될 수 있다.
여기에서, 문자 코드란, 컴퓨터 등의 전자 매체에 있어서, 문자를 화상 등의 도형 데이터로서 취급하지 않고, 텍스트 데이터로서 취급할 경우에, 문자 및 문장을 표현하기 위한 코드(대응 관계를 나타낸 것)이다.
형태소 해석부(308)는, 문자 인식부(306)에 의해 인식된 문자 데이터에 대하여 형태소 해석 처리를 행함으로써, 문자 데이터가 나타낸 문장을 형태소(문자열)로 분할하고, 분할된 형태소에 대하여 속성 정보를 부여한다.
또한, 형태소 해석부(308)는, 속성 정보가 부여된 문자열의 그룹(문자열 그룹)을, 문자열 추출부(310)에 대하여 출력한다.
여기에서, 형태소 해석이란, 미리 기억되어 있는 문법의 규칙에 관한 정보 및 단어가 등록된 사전에 의거하여, 문장을 형태소(의미를 가지는 최소의 언어 단위)인 문자열로 분할하고, 분할된 형태소(문자열)의 품사를 판별하는 처리를 의미한다.
이 형태소 해석의 처리에 있어서, 문자열의 언어도 판별(예를 들면, 그 문자열이 일본어인지 영어인지 중국어인지 한국어인지 또는 그 밖의 언어인지가 판별)된다.
이 형태소 해석의 처리에 있어서, 어떤 문자열이 복합 문자열인지의 여부가 판별된다.
여기에서, 복합 문자열이란, 복수의 단어를 포함하는 문자열이다.
예를 들면, 문자열 "시장 규모"는 2개의 단어 "시장" 및 "규모"를 포함하므로, 복합 문자열이라고 판단된다.
속성 정보란, 그 문자열의 품사(명사, 동사 등) 및 문자열의 언어 등, 문자열의 속성을 나타내는 정보이며, 그 문자열의 품사를 나타내는 문자열 품사 정보 및 그 문자열의 언어를 나타내는 문자열 언어 정보를 포함한다.
문자열이 복합 문자열일 경우, 속성 정보는 문자열이 복합 문자열이라는 취지를 나타내는 정보(복합 문자열 정보)를 포함한다.
문자열 추출부(310)는, 형태소 해석부(308)로부터 입력된 문자열 그룹으로부터, 미리 정해진 특정한 속성 정보가 부여된 문자열을 추출한다.
문자열 추출부(310)는, 추출한 문자열을 미리 정해진 기준에 의거하여 순서를 부여하고, 그 순서에 의거하여 열거한다.
문자열 추출부(310)는, 열거한 문자열의 리스트(문자열 리스트)를 추출 문자열 관리부(312)에 대하여 출력한다.
추출 문자열 관리부(312)는, 문자열 추출부(310)로부터의 문자열 리스트를 저장하며, 특징 문자열 생성부(40)에서의 처리를 위해 제공 가능하게 관리한다.
도 4는 도 2에 나타낸 추출 문자열 관리부(312)에 저장되는 문자열 리스트를 나타낸 도면이다.
도 4에 나타낸 바와 같이, 문자열 리스트는 문자열, 그 각 문자열의 출현 빈도의 순위, 출현 빈도, 및 속성 정보를 포함한다. 속성 정보는 문자열 품사 정보, 문자열 언어 정보, 및 복합 문자열 정보를 포함한다.
도 4의 예에 있어서, 문자열 "fukugouki"에 대해서는, 순위가 1위이며, 출현 빈도는 5이고, 품사가 "명사"이고, 언어가 "일본어"이고, 문자열이 복합 문자열이 아니다.
문자열 "FujiXerox"에 대해서는, 순위가 3위이며, 출현 빈도가 3이고, 품사가 "명사"이고, 언어가 "영어"이고, 문자열이 복합 문자열이다.
문자열 추출부(310)(도 2)는, 예를 들면 명사를 나타내는 문자열 품사 정보를 포함하는 속성 정보가 부여된 문자열을, 문자열 그룹으로부터 추출해도 된다.
예를 들면, 문자열 추출부(310)는, 문자열이 원고에 있어서 출현하는 빈도(출현 빈도)가 가장 높은 문자열로부터 순서대로, 문자열을 열거해도 된다.
여기에서, 문자열 추출부(310)는, 출현 빈도가 소정 수 이하의 문자열 또는 출현 빈도의 순위가 소정 순위보다 낮은 문자열에 대해서는, 열거하지 않고 생략해도 된다.
또한, 문자열 추출부(310)는, 문자열을 열거할 때에, 각 문자열의 출현 빈도 또는 순위에 따른 가중을 나타내는 가중 계수를 문자열에 부여해도 된다.
예를 들면, 문자열 "fukugouki"의 출현 빈도가 가장 높고, 문자열 "hanbai"의 출현 빈도가 2번째로 높고, 문자열 "denpyo"의 출현 빈도가 3번째로 높을 경우, 문자열 추출부(310)는, 문자열 "fukugouki"에 가중 계수 10.0을 부여하고, 문자열 "hanbai"에 가중 계수 8.0을 부여하고, 문자열 "denpyo"에 가중 계수 6.0을 부여해도 된다.
문자열 추출부(310)는, 문법 규칙에 의거하여 문자열을 열거해도 되고, 미리 규정된 단어의 속성에 의거하여 문자열을 열거해도 된다.
예를 들면, 문자열 추출부(310)는, 보통 명사 또는 고유 명사 등의 명사의 종류에 의거하여 문자열을 열거해도 되고, 문장에 있어서 주어가 되는 문자열을 상위에 열거해도 된다.
문자열 추출부(310)가 문자열을 순서 부여하기 위한 기준은, 후술하는 전환부(326)에 의해 변경되어도 된다.
독자 언어 등록부(320)는, 원고의 독자가 인식 가능한 언어(독자 언어)를 등록하고, 등록된 독자 언어를 나타내는 정보(독자 언어 정보)를, 언어 조합 판정부(324)에 대하여 출력한다.
예를 들면, 원고의 독자가 일본어를 인식 가능할 경우, 독자 언어는 일본어이다. 원고의 독자가 중국어를 인식 가능할 경우, 독자 언어는 중국어이다.
독자 언어 등록부(320)는, 예를 들면 사용자가 UI 장치(25)를 조작함으로써 얻어진 독자 언어 정보를 UI 장치(25)로부터 받아들임으로써, 독자 언어를 등록해도 된다.
독자 언어 등록부(320)는, 사용자가 UI 장치(25)를 조작하지 않고, 독자 언어를 등록해도 된다.
예를 들면, 독자 언어 등록부(320)는, 독자의 식별 정보와 독자 언어를 대응시킨 독자 언어 테이블을 미리 기억하고, 그 독자 언어 테이블과, 식별 카드 판독 장치(도시 생략)가 독자의 식별 카드를 판독함으로써 얻어진 독자의 식별 정보를 조합시킴으로써, 독자 언어를 등록하게 해도 된다.
또한, 원고의 독자와 화상 처리 장치(2)의 사용자가 같을 경우 등, 독자의 환경에 화상 처리 장치(2)가 설치되어 있을 경우에는, 화상 처리 장치(2)가 미리 독자 언어 정보를 기억하고, 기억된 독자 언어 정보에 의거하여 독자 언어를 등록하게 해도 된다. 원고에 그 원고의 독자의 이름이 기재되어 있을 경우 등, 원고에 독자의 식별 정보가 미리 임베드되어 있을 경우에는, 임베드된 독자의 식별 정보를, 문자 인식부(306)가 문자 인식함으로써 독자의 식별 정보에 대응하는 문자열을 얻고, 독자 언어 등록부(320)가, 얻어진 독자의 식별 정보에 대응하는 문자열과 독자 언어 테이블을 조합시킴으로써, 독자 언어를 등록하게 해도 된다.
독자 언어 등록부(320)는, 복수의 독자가 그 원고를 읽을 경우를 위해, 독자 언어를 복수 등록해도 된다.
원고 언어 등록부(322)는, 원고의 언어(원고 언어)를 등록하고, 등록된 원고 언어를 나타내는 정보(원고 언어 정보)를, 언어 조합 판정부(324)에 대하여 출력한다.
예를 들면, 원고에 출현하는 문자열 중, 언어가 일본어인 문자열의 비율이 가장 클 경우, 원고 언어는 일본어이며, 언어가 중국어인 문자열의 비율이 가장 클 경우, 원고 언어는 중국어이다.
원고 언어 등록부(322)는, 예를 들면 사용자가 UI 장치(25)를 조작함으로써 얻어진 원고 언어 정보를 UI 장치(25)로부터 받아들임으로써, 원고 언어를 등록해도 된다.
원고 언어 등록부(322)는, 사용자가 UI 장치(25)를 조작하지 않고, 원고 언어를 등록해도 된다.
예를 들면, 형태소 해석부(308)가 원고에 출현하는 문자열의 언어를 판별하고, 원고 언어 등록부(322)가, 어느 언어의 문자열이 출현하는 비율이 가장 큰지를 판단함으로써, 원고 언어를 등록해도 된다.
언어 조합 판정부(324)는, 독자 언어 등록부(320)로부터의 독자 언어 정보와 원고 언어 등록부(322)로부터의 원고 언어 정보에 의거하여, 독자 언어와 원고 언어의 조합을 판정한다.
언어 조합 판정부(324)는, 독자 언어와 원고 언어의 조합을 나타내는 정보(언어 조합 정보)를 전환부(326)에 대하여 출력한다.
전환부(326)는, 언어 조합 판정부(324)로부터의 언어 조합 정보에 의거하여, 특징 문자열 생성부(40)에 있어서 특징 문자열을 생성시키기 위해서 사용되는 특징 문자열 생성 수단을 전환한다.
구체적으로는, 전환부(326)는 언어 조합 정보와 전환 테이블(도 5를 참조하여 후술함)에 의거하여, 특징 문자열 생성부(40)의 구성 요소 선택부(42), 구성 요소 변환부(44), 및 특징 문자열 결정부(46)를 제어해서, 특징 문자열을 생성하는데 이용되는 특징 문자열 생성 수단을 전환한다.
도 5는 전환 테이블을 나타낸 도면이다.
전환 테이블은, 특징 문자열을 생성하는데 이용되는 특징 문자열 생성부(40)의 구성 요소 선택부(42), 구성 요소 변환부(44), 및 특징 문자열 결정부(46)의 특징 문자열 생성 수단과 언어 조합 사이의 대응 관계를 나타낸다.
이 전환 테이블은 화상 처리 장치(2)에 미리 기억되어 있어도 되고, 사용자가 UI 장치(25)를 조작함으로써, 적당하게 수정되어도 된다.
예를 들면, 도 5에 나타낸 예에 있어서, 전환부(326)는, 독자 언어가 일본어이고 원고 언어가 일본어인 조합일 경우(사례 (a)), 특징 문자열 생성부(40)의 구성 요소 선택부(42)를 출현 빈도 우선 선택부(420)와 복합 문자열 우선 선택부(424)로 전환하며, 구성 요소 변환부(44)를 무변환부(446)로 전환하고, 특징 문자열 결정부(46)를 접속 기호 삽입 결합부(460)로 전환한다.
도 5에 나타낸 예에 있어서, 전환부(326)는, 독자 언어가 중국어이고 원고 언어가 일본어인 조합일 경우(사례 (b)), 특징 문자열 생성부(40)의 구성 요소 선택부(42)를 출현 빈도 우선 선택부(420)로 전환하며, 구성 요소 변환부(44)를 번역부(440)로 전환하고, 특징 문자열 결정부(46)를 접속 기호 삽입 결합부(460)로 전환한다.
또한, 도 5의 사례 (a), (e), (f), 및 (g)와 같이, 전환부(326)는, 구성 요소 선택부(42)에 있어서 복수의 특징 문자열 생성 수단을 사용하도록, 특징 문자열 생성부(40)를 제어해도 된다.
마찬가지로, 전환부(326)는, 도 5의 사례 (c) 및 (f)와 같이, 구성 요소 변환부(44)에 있어서 복수의 특징 문자열 생성 수단을 사용하도록 특징 문자열 생성부(40)를 제어해도 되고, 도 5의 사례 (e)와 같이, 특징 문자열 결정부(46)에 있어서 복수의 특징 문자열 생성 수단을 사용하도록 특징 문자열 생성부(40)를 제어해도 된다.
특징 문자열 생성부(40)(도 2 및 도 3)는, 전환부(326)에 의해 특징 문자열의 생성에 사용되는 특징 문자열 생성 수단을 전환할 수 있으며, 전환된 특징 문자열 생성 수단을 사용하여, 특징 문자열을 생성한다.
구성 요소 선택부(42)는, 추출 문자열 관리부(312)로부터 문자열 리스트를 취출하고, 문자열 리스트에 포함되는 문자열로부터, 특징 문자열의 구성 요소가 되는 문자열(이하, 간단히 "구성 요소"라고 칭함)을 하나 이상 선택하고, 선택한 구성 요소를 구성 요소 변환부(44)에 대하여 출력한다.
구체적으로는, 구성 요소 선택부(42)는, 구성 요소 선택부(42)의 특징 문자열 생성 수단 중 전환부(326)에 의해 설정된 하나 이상의 특징 문자열 생성 수단을 이용함으로써 문자열에 부여된 가중 계수가 가장 큰 것으로부터 순서대로, 소정 수(구성 요소 수에 대응)의 문자열을 선택한다.
구성 요소 선택부(42)가 선택하는 문자열의 수는, 언어의 조합에 상관없이 일정해도 되고, 또는 언어의 조합에 따라 적당하게 전환되어도 된다.
구성 요소 선택부(42)는, 선택한 구성 요소 중, 구성 요소 변환부(44)에 있어서 전환된 특징 문자열 생성 수단에 의해 변환될 수 없는 구성 요소가 있을 경우(예를 들면 구성 요소가 특수한 중국어일 경우)에, 그 변환할 수 없는 구성 요소 대신에, 선택되지 않은 문자열 중에서 가중 계수가 가장 큰 문자열을 구성 요소로서 선택해도 된다.
출현 빈도 우선 선택부(420)는, 문자열 리스트에 포함되는 문자열에 대하여, 출현 빈도가 가장 높은 문자열로부터 순서대로 높은 가중 계수를 부여한다.
예를 들면, 문자열 "fukugouki"의 출현 빈도가 가장 높고, 문자열 "hanbai"의 출현 빈도가 2번째로 높고, 문자열 "denpyo"의 출현 빈도가 3번째로 높을 경우, 출현 빈도 우선 선택부(420)는, 문자열 "fukugouki"에 가중 계수 10.0을 부여하고, 문자열 "hanbai"에 가중 계수 8.0을 부여하고, 문자열 "denpyo"에 가중 계수 6.0을 부여한다.
출현 빈도 우선 선택부(420)는, 문자열의 출현 빈도의 순위 대신에, 문자열의 출현 빈도(출현 수)에 의거하여, 문자열에 가중 계수를 부여해도 된다.
문자열 추출부(310)가 가중 계수를 부여할 경우에는, 출현 빈도 우선 선택부(420)는, 문자열 추출부(310)에 의해 부여된 가중 계수를, 소정의 기준에 의거하여 변경해도 된다.
출현 빈도 우선 선택부(420)가 가중 계수를 부여하는 기준은, 언어의 조합에 관계없이 일정해도 되고, 언어의 조합에 따라 적당하게 전환되어도 된다.
독자 언어 우선 선택부(422)는, 문자열 리스트에 포함되는 문자열 중에서, 독자 언어와 동일한 언어를 나타내는 문자열 언어 정보가 부여된 문자열이 존재할 경우에는, 그 문자열의 가중 계수를, 소정 값 증가시킨다.
예를 들면, 독자 언어 우선 선택부(422)는, 독자 언어와 동일한 언어를 나타내는 문자열 언어 정보가 부여된 문자열의 가중 계수를 소정 값 승산(예를 들면, 가중 계수를 2배)해도 되고, 소정 값 가산(예를 들면, 가중 계수에 2.0 가산)해도 된다.
독자 언어 우선 선택부(422)는, 문자열이 독자 언어와 동일한 언어가 아닐 경우, 예를 들면 독자 언어가 영어이며 원고 언어가 일본어일 경우, 영어를 카타카나 문자로 표시한 문자열(예를 들면, 영어 "program"의 카타카나 표현인 문자열 "proguram")을 영어로서 처리해도 된다.
복합 문자열 우선 선택부(424)는, 문자열 리스트에 포함되는 각 문자열 중에서, 복합 문자열을 나타내는 복합 문자열 정보가 부여된 문자열이 존재할 경우에는, 그 문자열의 가중 계수를, 소정 값 증가시킨다.
예를 들면, 복합 문자열 우선 선택부(424)는, 복합 문자열 정보가 부여된 문자열의 가중 계수를 소정 값 승산(예를 들면, 5배)해도 되고, 소정 값 가산(예를 들면, 5.0 가산)해도 된다.
복합 문자열의 가중 계수가, 복합 문자열을 구성하는 문자열의 가중 계수 이상일 경우, 복합 문자열 우선 선택부(424)는, 복합 문자열의 문자열을, 구성 요소로서 선택되지 않도록 삭제해도 된다.
위치/규모 우선 선택부(426)는, 원고에 있어서 소정의 위치에 존재하는 문자열 또는 소정의 규모인 문자열의 가중 계수를, 독자 언어 우선 선택부(422)와 마찬가지로, 소정 값 증가시킨다.
예를 들면, 위치/규모 우선 선택부(426)는, 문자열의 위치가, 세로 방향이 원고의 소정의 위치보다 위이며, 가로 방향이 원고의 중앙으로부터 소정 범위 이내일 경우에, 그 문자열의 가중 계수를 소정 값 증가시킨다.
예를 들면, 위치/규모 우선 선택부(426)는, 문자열의 규모가 소정 값 이상일 경우에, 그 문자열의 가중 계수를 소정 값 증가시킨다.
위치/규모 우선 선택부(426)는 문자열의 위치 또는 규모에 따라 단계적으로 가중 계수를 증가시켜도 된다.
배치 요소 우선 선택부(428)는, 배치 해석부(304)에 의해 원고에 소정의 배치 요소가 포함된다고 판단되었을 경우에, 그 배치 요소를 나타내는 문자열(배치 요소 문자열)을 선택하고, 배치 요소 문자열에 소정의 가중 계수를 부여한다.
예를 들면, 배치 요소 우선 선택부(428)는, 원고에 배치 요소 "사진"이 포함될 경우, (문자열 추출부(310)에 의해 문자열 "사진"이 추출되지 않았을 경우에도) 배치 요소 문자열 "사진"을 선택하여 소정의 가중 계수를 부여한다.
배치 요소 우선 선택부(428)가 배치 요소에 대해서 부여할 가중 계수 및 가중 계수를 부여할 배치 요소를 결정하는 기준은, 언어의 조합에 관계없이 일정해도 되고, 언어의 조합에 따라 적당하게 전환되어도 된다.
배치 요소 문자열은 독자 언어의 문자열이어도 된다.
수동 선택부(430)는, UI 장치(25)에 대하여, 사용자에게 구성 요소를 선택시키는 취지의 표시를 시켜, 사용자가 UI 장치(25)를 조작해서 선택(또는 입력)된 문자열을 받아들인다.
수동 선택부(430)는, 문자열 리스트에 없는 문자열을 사용자가 입력할 수 있도록, UI 장치(25)를 제어해도 된다. 이 경우, 수동 선택부(430)는, 독자 언어의 문자열을 사용자가 입력할 수 있도록, UI 장치(25)를 제어해도 된다.
독자 언어 우선 선택부(422), 복합 문자열 우선 선택부(424), 및 위치/규모 우선 선택부(426)가 가중 계수를 소정 값 증가시키는 기준은, 언어의 조합에 관계없이 일정해도 되고, 언어의 조합에 따라 적당하게 전환되어도 된다.
상기 실시형태에 있어서는, 출현 빈도 우선 선택부(420)가 문자열에 부여한 가중 계수를, 독자 언어 우선 선택부(422), 복합 문자열 우선 선택부(424), 및 위치/규모 우선 선택부(426)가 증가시킨다고 했지만, 독자 언어 우선 선택부(422), 복합 문자열 우선 선택부(424), 및 위치/규모 우선 선택부(426)는 출현 빈도 우선 선택부(420)와는 독립되게 처리해도 된다.
즉, 예를 들면 독자 언어의 문자열의 수가 구성 요소 수 이상 존재할 경우에는, 독자 언어 우선 선택부(422)는, 출현 빈도에 관계없이 독자 언어의 문자열만을 구성 요소로서 선택해도 된다.
예를 들면, 독자 언어의 문자열 수가 구성 요소 수 미만일 경우에는, 독자 언어 우선 선택부(422)는, 존재한 독자 언어의 문자열에 최대의 가중 계수를 부여해서 구성 요소로서 선택하고, 나머지의 구성 요소에 대해서는, 출현 빈도 우선 선택부(420)가 선택하게 해도 된다.
구성 요소 변환부(44)는, 구성 요소 선택부(42)에 의해 선택된 구성 요소를, 구성 요소 변환부(44)의 특징 문자열 생성 수단 중 전환부(326)에 의해 전환된 하나 이상의 특징 문자열 생성 수단을 이용하여, 변환한다.
구성 요소 변환부(44)는, 변환된 각 구성 요소를, 특징 문자열 결정부(46)에 대하여 출력한다.
번역부(440)는, 예를 들면 미리 기억된 번역 사전을 이용하여, 구성 요소를 독자 언어로 번역한다.
여기에서, 번역 사전은, 원고 언어를 독자 언어로 번역하기 위해서 사용되는 정보(데이터베이스)이며, 원고 언어의 문자열과, 그 원고 언어의 문자열에 대응하는(그 원고 언어와 동일한 의미임) 독자 언어의 문자열을, 서로 대응시켜서 기억하고 있다.
예를 들면, 독자 언어가 영어이며 원고 언어가 일본어이며, 선택된 구성 요소가 "goukei"이며, 번역 사전에 있어서 일본어의 문자열 "goukei"가 영어의 문자열 "total"이 대응시켜져 있을 경우, 번역부(440)는 구성 요소 "goukei"를 "total"로 번역한다.
발음 표기부(442)는, 예를 들면 미리 기억된 발음 사전을 이용하여, 구성 요소의 발음을, 예를 들면 구문(歐文) 문자(영수 문자 및 소정의 기호) 등을 표현하는 소정의 문자 코드(발음 문자 코드)로 변환하고, 그 구성 요소를 그 문자 코드에 의해 표현되는 문자로 표기한다.
여기에서, 발음 문자 코드란, ASCII 등의, 문자를 1바이트(컴퓨터가 취급하는 최소 단위)로 표현하는 문자 코드이다.
여기에서, 발음 사전은, 원고 언어를 발음 문자 코드에 대응하는 발음으로 표기하기 위해서 사용되는 정보(데이터베이스)이며, 원고 언어의 문자열과, 그 원고 언어의 문자열에 대응하는 발음을 발음 문자 코드를 이용하여 서로 대응시켜서 표기하는 문자열을 기억하고 있다.
예를 들면, 선택된 구성 요소가 "goukei"일 경우, 발음 표기부(442)는 그 구성 요소 "goukei"를 로마자(구문 문자)의 "goukei"라고 표기한다.
문자 코드 변환부(444)는, 예를 들면 미리 기억된 변환 테이블을 이용하여, 구성 요소를 표현하는 문자 코드를, 독자의 환경에서 인식할 수 있는, 대응하는 다른 문자 코드로 변환하고, 변환된 문자 코드에 의해 표현된 문자로 구성 요소를 표기한다.
여기에서, 변환 테이블은, 예를 들면 구성 요소가 한자일 경우에, 그 한자의 중국어, 일본어 및 한국어에 있어서의 문자 코드(의미가 같지만 표기가 다른 한자를 표기하는데 이용되는 문자 코드)의 대응 관계를 나타낸다.
예를 들면, 변환 테이블은, 한자를, 중국어이면 Big5의 문자 코드에 의해 표현한 것과, 일본어이면 시프트 JIS에 의해 표현한 것과의 대응 관계를 나타낸다.
또한, 변환 테이블은, 구성 요소로서의 문자열의 문자 코드와, 그 문자열에 대응하는, Unicode 등의 전세계의 언어의 문자열을 통일해서 표현하는 문자 코드 사이의 대응 관계를 나타낸다.
무변환부(446)는, 예를 들면 독자 언어와 원고 언어가 같을 경우에, 구성 요소에 대하여 아무런 변환 처리를 하지 않고, 구성 요소를 특징 문자열 결정부(46)에 대하여 출력한다.
수동 변환부(448)는, UI 장치(25)에 대하여, 사용자에게 구성 요소를 변환시키는 취지의 표시를 시키고, 사용자가 UI 장치(25)를 조작해서 변환된 문자열을 구성 요소로서 받아들이고, 그 구성 요소를 특징 문자열 결정부(46)에 대하여 출력한다.
특징 문자열 결정부(46)는, 구성 요소 변환부(44)에 의해 변환된 구성 요소(무변환부(446)에 의해 변환되지 않은 구성 요소도 포함함)를, 특징 문자열 결정부(46)의 특징 문자열 생성 수단 중 전환부(326)에 의해 설정된 하나 이상의 특징 문자열 생성 수단을 이용하여 결합함으로써, 특징 문자열을 결정한다.
특징 문자열 결정부(46)는, 결정한 특징 문자열을, UI 장치(25)에 표시시키기 위한 처리를 행한다.
특징 문자열 결정부(46)는, 결정한 특징 문자열을 UI 장치(25)에 표시시킬 때에, UI 장치(25)를 통해 사용자가 특징 문자열을 수정할 수 있게 처리해도 된다.
순서 변경 결합부(466)는, 독자 언어와 원고 언어의 조합에 의거하여, 변환된 구성 요소의 순서를 독자 언어의 문법에 맞춘 순서로 재배치하고, 재배치한 순서로 각 구성 요소를 결합하는 처리를 행한다.
예를 들면, 순서 변경 결합부(466)는, 형태소 해석 처리를 이용하여, 변환된 구성 요소의 순서를 독자 언어의 문법에 맞춘 순서로 재배치한다.
순서 변경 결합부(466)를 사용하지 않을 경우, 특징 문자열에 있어서의 구성 요소의 순서는, 구성 요소 선택부(42)에 의해 선택된 순서(즉, 가중 계수가 큰 순서)와 같아도 된다.
접속 기호 삽입 결합부(460)는, 변환된 구성 요소를 결합할 때에, 구성 요소 사이에 "_"(언더 바) 등의 접속 기호를 삽입하는 처리를 행한다.
선두 문자 변환 결합부(462)는, 변환된 구성 요소를 결합할 때에, 각 구성 요소의 선두 문자를 그 선두 문자에 대응하는 문자로 변환하는 처리를 행한다.
예를 들면, 변환된 구성 요소가 구문일 경우, 선두 문자 변환 결합부(462)는, 각 구성 요소의 선두 문자를 소문자로부터 대문자로 변환한다.
무변환 결합부(464)는, 변환된 구성 요소를 결합할 때에, 구성 요소에 대하여 아무런 변환 처리를 하지 않고, 구성 요소를 결합하기 위한 처리를 행한다.
수동 결합부(468)는, UI 장치(25)에 대하여, 사용자에게, 각 구성 요소 사이에 임의의 기호를 삽입시켜서 임의의 순서로 구성 요소를 결합시키는 취지의 표시를 시켜, 사용자가 UI 장치(25)를 조작해서 결정된 문자열을 특징 문자열로서 결정한다.
도 5에 나타낸 예에 있어서의 특징 문자열 생성부(40)의 처리를, 각 사례에 관하여 설명한다.
원고 언어가 일본어이며, 독자 언어가 일본어, 중국어 및 한국어일 경우(도 5의 사례 (a) ~ (d))에 대해서는, 도 7 ~ 도 11을 이용해서 구체적으로 후술한다.
독자 언어가 영어이며 원고 언어가 일본어일 경우(사례 (e)), 전환부(326)에 의해, 구성 요소 선택부(42)는 출현 빈도 우선 선택부(420)와 독자 언어 우선 선택부(422)로 전환되고, 구성 요소 변환부(44)는 번역부(440)로 전환되고, 특징 문자열 결정부(46)는 선두 문자 변환 결합부(462)와 순서 변경 결합부(466)로 전환된다.
출현 빈도 우선 선택부(420)는, 문자열 리스트에 포함되는 각 문자열에 대하여, 출현 빈도가 높은 문자열로부터 순서대로 높은 가중 계수를 부여한다.
독자 언어 우선 선택부(422)는, 독자 언어로서의 영어의 문자열이 문자열 리스트에 존재할 경우, 출현 빈도 우선 선택부(420)에 의해 영어의 문자열에 대하여 부여된 가중 계수를 소정 값 증가시킨다.
구성 요소 선택부(42)는, 상술한 처리를 통해 가중 계수가 부여된 문자열 중, 가중 계수가 가장 큰 것으로부터 순서대로, 소정의 구성 요소 수에 대응하는 문자열을, 구성 요소로서 선택한다.
번역부(440)는, 구성 요소 선택부(42)에 의해 선택된 구성 요소를, 일본어로부터 영어로 번역한다.
번역부(440)는, 언어가 원래 영어인 구성 요소에 대해서는, 번역을 하지 않아도 된다.
선두 문자 변환 결합부(462)는, 영어로 번역된 각 구성 요소의 선두 문자를 소문자로부터 대문자로 변환한다.
순서 변경 결합부(466)는, 영어로 번역된 구성 요소를, 영어의 문법에 맞춘 순서로 배치한다.
특징 문자열 결정부(46)는, 선두 문자가 대문자로 변환되며, 영어의 문법에 맞춰 배치된 각 구성 요소를 결합하여, 특징 문자열을 결정한다.
독자 언어가 일본어이고 원고 언어가 중국어일 경우(사례 (f)), 전환부(326)에 의해, 구성 요소 선택부(42)는 출현 빈도 우선 선택부(420)와 위치/규모 우선 선택부(426)로 전환되고, 구성 요소 변환부(44)는 문자 코드 변환부(444)와 발음 표기부(442)로 전환되고, 특징 문자열 결정부(46)는 접속 기호 삽입 결합부(460)로 전환된다.
출현 빈도 우선 선택부(420)는, 문자열 리스트에 포함되는 각 문자열에 대하여, 출현 빈도가 높은 문자열로부터 순서대로 높은 가중 계수를 부여한다.
위치/규모 우선 선택부(426)는, 문자열의 위치가, 세로 방향이 원고의 소정 위치보다 위이며, 가로 방향이 원고의 중앙으로부터 소정 범위 이내일 경우이며, 문자열의 규모가 소정 값 이상일 경우에, 그 문자열에 부여된 가중 계수를 소정 값 증가시킨다.
구성 요소 선택부(42)는, 상술한 처리에 의해 가중 계수가 부여된 문자열 중, 가중 계수가 큰 것으로부터 순서대로, 소정의 구성 요소 수에 대응하는 문자열을, 구성 요소로서 선택한다.
문자 코드 변환부(444)는, 중국어의 문자 코드로 표현된 구성 요소의 문자 코드를 일본어의 문자 코드로 변환하고, 변환된 문자 코드로 표현된 문자로 구성 요소를 표기한다.
발음 표기부(442)는, 일본어의 문자 코드가 없는 구성 요소에 대하여, 중국어의 구성 요소의 발음을 발음 문자 코드로 변환하고, 그 구성 요소를 발음 문자 코드로 표현되는 문자로서 표기한다.
접속 기호 삽입 결합부(460)는, 구성 요소 선택부(42)에 의해 선택된 순서(즉, 가중 계수가 큰 순서)로 나열된 변환된 구성 요소를, 이들 간에 접속 기호를 삽입해서 결합하고, 특징 문자열을 결정한다.
독자 언어가 일본어이고 원고 언어가 언어 X(어느 언어인지 인식 불능)일 경우(사례 (g)), 전환부(326)에 의해, 구성 요소 선택부(42)는 배치 요소 우선 선택부(420)와 수동 선택부(430)로 전환되고, 구성 요소 변환부(44)는 수동 변환부(448)로 전환되고, 특징 문자열 결정부(46)는 수동 결합부(468)로 전환된다.
배치 요소 우선 선택부(428)는, 원고에 소정의 배치 요소(예를 들면, 사진)가 포함될 경우에, 배치 요소 문자열(예를 들면, 문자열 "사진")을 선택하고, 배치 요소 문자열에 소정의 가중 계수를 부여한다.
수동 선택부(430)는, 사용자가 문자열을 입력할 수 있도록, UI 장치(25)를 제어한다.
구성 요소 선택부(42)는, 배치 요소 우선 선택부(420)에 의해 선택된 문자열(배치 요소 문자열)과, UI 장치(25)에 대한 조작 결과로서 수동 선택부(430)가 받아들인 문자열을, 구성 요소로서 선택한다.
수동 변환부(448)는, UI 장치(25)에 대하여, 사용자에게 구성 요소를 변환시키는 취지의 표시를 시켜, 사용자가 UI 장치(25)를 조작해서 변환된 문자열을 구성 요소로서 받아들인다.
사용자는, 구성 요소 선택부(42)에 의해 선택된 구성 요소가 독자 언어로 표현되어 있을 경우, UI 장치(25)를 조작해서 변환 처리를 행할 필요는 없다.
수동 결합부(468)는, UI 장치(25)에 대하여, 사용자에게, 각 구성 요소 사이에 기호를 삽입시켜 임의의 순서로 결합시키는 취지의 표시를 시켜, 사용자가 UI 장치(25)를 조작해서 결정된 문자열을 특징 문자열로서 결정한다.
도 6은 처리 프로그램(3)의 처리를 나타내는 플로차트(S10)이다.
스텝 100(S100)에 있어서, 독자 언어 등록부(320)는 독자 언어를 등록한다.
스텝 102(S102)에 있어서, 원고 언어 등록부(322)는 원고 언어를 등록한다.
스텝 104(S104)에 있어서, 원고 판독 정보 접수부(302)는 화상 판독 장치(27)로부터 얻어진 원고 판독 정보를 접수한다.
스텝 106(S106)에 있어서, 배치 해석부(304)는, 원고 판독 정보를 해석해서, 배치 요소 각각의 원고에 있어서의 영역을 특정하여, 배치 정보를 생성한다.
스텝 108(S108)에 있어서, 문자 인식부(306)는, 배치 정보로부터 특정한 문자 영역에 대해서, 문자 인식을 행하여, 문자 데이터를 생성한다.
스텝 110(S110)에 있어서, 형태소 해석부(308)는, 문자 인식부(306)에 의해 인식된 문자 데이터에 대하여 형태소 해석 처리를 행하고, 형태소(문자열)에 대하여 속성 정보를 부여한다.
스텝 112(S112)에 있어서, 문자열 추출부(310)는, 형태소 해석부(308)로부터 받아들인 문자열 그룹으로부터, 미리 정해진 특정의 속성 정보가 부여된 문자열을 추출한다.
스텝 114(S114)에 있어서, 전환부(326)는, 언어 조합 정보에 의거하여, 특징 문자열 생성부(40)에 있어서 특징 문자열을 생성하는데 이용되는 특징 문자열 생성 수단을 전환한다.
스텝 116(S116)에 있어서, 구성 요소 선택부(42)는, 문자열 리스트에 포함되는 문자열에, 전환부(326)에 의해 설정된 하나 이상의 특징 문자열 생성 수단을 사용해서 가중 계수를 부여하고, 부여된 가중 계수가 가장 큰 문자열로부터 순서대로, 구성 요소 수에 대응하는 문자열을, 구성 요소로서 선택한다.
스텝 118(S118)에 있어서, 구성 요소 변환부(44)는, 선택된 구성 요소를, 구성 요소 변환부(44)의 특징 문자열 생성 수단 중 전환부(326)에 의해 설정된 하나 이상의 특징 문자열 생성 수단을 이용하여 변환한다.
스텝 120(S120)에 있어서, 특징 문자열 결정부(46)는, 변환된 구성 요소를, 특징 문자열 결정부(46)의 특징 문자열 생성 수단 중 전환부(326)에 의해 설정된 하나 이상의 특징 문자열 생성 수단을 이용하여 결합함으로써, 특징 문자열을 결정한다.
이하, 본 실시형태에 따른 화상 처리 장치(2)의 처리를, 구체적으로 예를 들어 설명한다.
도 7은, 본 실시형태에 따른 화상 처리 장치(2)의 처리 대상인 원고의 예 및 문자열의 추출 결과의 예를 나타낸 도면이며, 도 7의 (a)는 원고의 예를 나타내고, 도 7의 (b)는 문자열의 추출 결과의 예를 나타낸다.
도 7의 (a)에 나타낸 원고는 주로 일본어로 기재되어 있으므로, 원고 언어는 일본어이다.
이 원고에 의거하여 문자열 추출부(310)의 처리에 의해, 도 7의 (b)에 나타낸 바와 동일한 순서로 문자열이 추출된다.
도 8은, 도 7에 나타낸 원고에 대해서 독자 언어가 일본어일 경우의 특징 문자열 생성부(40)의 처리의 흐름을 나타낸 도면이다.
도 8에 나타낸 사례는 도 5에 나타낸 사례 (a)에 대응한다.
본 사례에 있어서는, 전환부(326)에 의해, 구성 요소 선택부(42)는 출현 빈도 우선 선택부(420)와 복합 문자열 우선 선택부(424)로 전환되고, 구성 요소 변환부(44)는 무변환부(446)로 전환되고, 특징 문자열 결정부(46)는 접속 기호 삽입 결합부(460)로 전환된다.
출현 빈도 우선 선택부(420)는, 도 7의 (b)에 나타낸 문자열에 대하여, 도 8에 나타낸 바와 같이, 출현 빈도가 가장 높은 문자열로부터 순서대로 높은 가중 계수를 부여한다.
복합 문자열 우선 선택부(424)는, 복합 문자열인 "fujixerox"와 "hanbaikingaku"에 대해서, 도 8에 나타낸 바와 같이 가중 계수를 5배로 한다.
문자열 "hanbai"의 가중 계수는 9.0이며, 문자열 "kingaku"의 가중 계수는 6.0이지만, 이것보다 가중 계수가 큰 복합 문자열 "hanbaikingaku"에 문자열 "hanbai" 및 "kingaku"가 포함되므로, 문자열 "hanbai" 및 "kingaku"는 삭제된다.
구성 요소 선택부(42)는, 구성 요소 수가 4일 경우, 가중 계수가 큰 상위 4개의 문자열 "fujixerox", "hanbaikingaku", "fukugouki"" 및 "denpyo"를, 구성 요소로서 선택한다.
무변환부(446)는, 구성 요소 "fujixerox", "hanbaikingaku", "fukugouki", 및 "denpyo"에 대하여, 변환 처리를 행하지 않는다.
접속 기호 삽입 결합부(460)는, 구성 요소의 사이에 접속 기호 "_"를 삽입하며, 구성 요소를 결합하여, 도 8에 나타낸 특징 문자열을 생성한다.
여기에서, 문자열 "fujixerox_hanbaikingaku_fukugouki_denpyo"가, 독자 언어가 중국어 및 한국어의 독자가 갖는 PC에 표시될 경우, 일본어의 문자 코드가 그 PC 등에 설정되어 있지 않은 경우가 많다. 따라서, 올바르게 표시되지 않고, 소위 문자 변화(character corruption)가 생긴다.
도 9는, 도 7에 나타낸 원고에 대해서 독자 언어가 중국어일 경우의 특징 문자열 생성부(40)의 처리의 흐름을 나타낸 도면이다.
도 9에 나타낸 사례는 도 5에 나타낸 사례 (b)에 대응한다.
본 사례에 있어서는, 전환부(326)에 의해, 구성 요소 선택부(42)는 출현 빈도 우선 선택부(420)로 전환되고, 구성 요소 변환부(44)는 번역부(440)로 전환되고, 특징 문자열 결정부(46)는 접속 기호 삽입 결합부(460)로 전환된다.
출현 빈도 우선 선택부(420)는, 도 7의 (b)에 나타낸 문자열에 대하여, 도 9에 나타낸 바와 같이 출현 빈도가 가장 높은 문자열로부터 순서대로 높은 가중 계수를 부여한다.
구성 요소 선택부(42)는, 구성 요소 수가 4일 경우, 가중 계수가 큰 상위 4개의 문자열 "fukugouki"", "hanbai", "denpyo", 및 "fujixerox"를 구성 요소로서 선택한다.
번역부(440)는 구성 요소 "fukugouki"", "hanbai", "denpyo", 및 "fujixerox"를 중국어로 번역한다.
접속 기호 삽입 결합부(460)는, 번역된 구성 요소 사이에 접속 기호 "_"를 삽입하며, 구성 요소를 결합하여, 도 9에 나타낸 특징 문자열을 생성한다.
도 10은, 도 7에 나타낸 원고에 대해서 독자 언어가 한국어일 경우의 특징 문자열 생성부(40)의 처리의 흐름을 나타낸 도면이다.
도 10에 나타낸 사례는 도 5에 나타낸 사례 (d)에 대응한다.
본 사례에 있어서는, 전환부(326)에 의해, 구성 요소 선택부(42)는 출현 빈도 우선 선택부(420)로 전환되고, 구성 요소 변환부(44)는 발음 표기부(442)로 전환되고, 특징 문자열 결정부(46)는 선두 문자 변환 결합부(462)로 전환된다.
출현 빈도 우선 선택부(420)는, 도 7의 (b)에 나타낸 문자열에 대하여, 도 10에 나타낸 바와 같이 출현 빈도가 가장 높은 문자열로부터 순서대로 높은 가중 계수를 부여한다.
구성 요소 선택부(42)는, 구성 요소 수가 4일 경우, 가중 계수가 큰 상위 4개의 문자열 "fukugouki"", "hanbai", "denpyo", 및 "fujixerox"를 구성 요소로서 선택한다.
발음 표기부(442)는 구성 요소 "fukugouki"", "hanbai", "denpyo", 및 "fujixerox"에 대해서, 도 10에 나타낸 바와 같이 이들 발음을 표기하는 문자(로마자)로 변환한다.
선두 문자 변환 결합부(462)는, 변환된 구성 요소의 선두 문자를 대문자로 변환한 뒤에, 구성 요소를 결합하여, 도 10에 나타낸 특징 문자열을 생성한다.
도 11은, 도 7에 나타낸 원고에 대해서 독자 언어가 중국어일 경우의 특징 문자열 생성부(40)의 처리의 흐름을 나타낸 도면이다.
도 11에 나타낸 사례는 도 5에 나타낸 사례 (c)에 대응한다.
본 사례에 있어서는, 전환부(326)에 의해, 구성 요소 선택부(42)는 출현 빈도 우선 선택부(420)로 전환되고, 구성 요소 변환부(44)는 발음 표기부(442)와 문자 코드 변환부(444)로 전환되고, 특징 문자열 결정부(46)는 접속 기호 삽입 결합부(460)로 전환된다.
출현 빈도 우선 선택부(420)는, 도 7의 (b)에 나타낸 문자열에 대하여, 도 11에 나타낸 바와 같이 출현 빈도가 가장 높은 문자열로부터 순서대로 높은 가중 계수를 부여한다.
구성 요소 선택부(42)는, 구성 요소 수가 4일 경우, 가중 계수가 큰 상위 4개의 문자열 "fukugouki"", "hanbai", "denpyo", 및 "fujixerox"를 구성 요소로서 선택한다.
문자 코드 변환부(444)는, 도 11에 나타낸 바와 같이 구성 요소의 한자를 표현하는 문자 코드(예를 들면, 시프트 JIS)를, 중국어의 대응하는 문자 코드(예를 들면, Big5)로 변환하고, 변환된 문자 코드에 의해 표현된 문자로 구성 요소를 표기한다.
발음 표기부(442)는, 중국어의 대응하는 한자의 문자 코드가 없는 문자열 "Xerox"에 대해서, 도 11에 나타낸 바와 같이 이들 발음을 표기하는 문자로 변환한다.
접속 기호 삽입 결합부(460)는, 변환된 구성 요소 사이에 접속 기호 "_"를 삽입하고, 각 구성 요소를 결합하여, 도 11에 나타낸 특징 문자열을 생성한다.
본 발명의 전술한 예시적인 실시형태의 기재는 예시 및 설명을 위해 제공된 것이다. 전적으로 그러하다거나 본 발명을 정확히 개시한 형태로 제한하고자 함은 아니다. 분명하게는, 많은 변경 및 변형이 당업자에게 자명하다. 실시형태들은 본 발명의 원리 및 그 실제 적용을 최선으로 설명하기 위해 선택 및 기재된 것이며, 따라서 본 발명에는 다양한 실시형태 및 고안된 실사용에 적합한 다양한 변경이 있음을 다른 당업자는 이해할 수 있을 것이다. 본 발명의 범주는 다음의 특허청구범위 및 그에 동등한 것에 의해 규정되게 된다.
2???화상 처리 장치
3???처리 프로그램
302???원고 판독 정보 접수부
304???배치 해석부
306???문자 인식부
308???형태소 해석부
310???문자열 추출부
312???추출 문자열 관리부
320???독자 언어 등록부
322???원고 언어 등록부
324???언어 조합 판정부
326???전환부
40???특징 문자열 생성부
42???구성 요소 선택부
420???출현 빈도 우선 선택부
422???독자 언어 우선 선택부
424???복합 문자열 우선 선택부
426???위치/규모 우선 선택부
428???배치 요소 우선 선택부
430???수동 선택부
44???구성 요소 변환부
440???번역부
442???발음 표기부
444???문자 코드 변환부
446???무변환부
448???수동 변환부
46???특징 문자열 결정부
460???접속 기호 삽입 결합부
462???선두 문자 변환 결합부
464???무변환 결합부
466???순서 변경 결합부
468???수동 결합부
3???처리 프로그램
302???원고 판독 정보 접수부
304???배치 해석부
306???문자 인식부
308???형태소 해석부
310???문자열 추출부
312???추출 문자열 관리부
320???독자 언어 등록부
322???원고 언어 등록부
324???언어 조합 판정부
326???전환부
40???특징 문자열 생성부
42???구성 요소 선택부
420???출현 빈도 우선 선택부
422???독자 언어 우선 선택부
424???복합 문자열 우선 선택부
426???위치/규모 우선 선택부
428???배치 요소 우선 선택부
430???수동 선택부
44???구성 요소 변환부
440???번역부
442???발음 표기부
444???문자 코드 변환부
446???무변환부
448???수동 변환부
46???특징 문자열 결정부
460???접속 기호 삽입 결합부
462???선두 문자 변환 결합부
464???무변환 결합부
466???순서 변경 결합부
468???수동 결합부
Claims (15)
- 제 1 언어와 상기 제 1 언어와는 다른 제 2 언어를 등록하는 등록 수단;
원고를 판독해서 얻어진 판독 정보로부터 하나 이상의 문자열을 추출하는 문자열 추출 수단;
상기 문자열 추출 수단에 의해 추출된 하나 이상의 문자열에 의거하여, 상기 원고의 특징 문자열을 생성하는 복수의 특징 문자열 생성 수단; 및
상기 등록된 제 1 언어와 제 2 언어의 조합에 의거하여, 상기 특징 문자열의 생성에 사용되는 상기 특징 문자열 생성 수단을 전환하는 전환 수단을 포함하는 화상 처리 장치. - 제 1 항에 있어서,
상기 제 1 언어는 원고의 독자(reader)가 인식 가능한 독자 언어이고, 상기 제 2 언어는 원고에 출현하는 상기 문자열에 의거하여 결정되는 원고 언어인 화상 처리 장치. - 제 2 항에 있어서,
상기 독자 언어는 상기 원고의 독자의 식별 정보에 의거하여 결정되는 것이고, 상기 원고 정보는 상기 원고에 출현하는 비율이 가장 큰 언어인 화상 처리 장치. - 제 1 항에 있어서,
상기 복수의 특징 문자열 생성 수단은,
상기 제 1 언어와 상기 제 2 언어의 조합에 의거하여, 상기 추출된 하나 이상의 문자열로부터, 상기 원고의 특징 문자열을 구성하는 하나 이상의 구성 요소를 선택하기 위한 처리를 행하는 복수의 선택 수단; 및
상기 선택 수단에 의해 선택된 구성 요소를 이용하여 특징 문자열을 결정하기 위한 처리를 행하는 복수의 특징 문자열 결정 수단을 포함하고,
상기 전환 수단은, 상기 제 1 언어와 상기 제 2 언어의 조합에 의거하여, 상기 특징 문자열의 생성에 사용되는 상기 선택 수단을 전환하고, 상기 특징 문자열의 생성에 사용되는 상기 특징 문자열 결정 수단을 전환하는 화상 처리 장치. - 제 1 항에 있어서,
상기 복수의 특징 문자열 생성 수단은,
상기 제 1 언어와 상기 제 2 언어의 조합에 의거하여, 상기 문자열 추출 수단에 의해 추출된 문자열 중 하나 이상을 변환하는 복수의 변환 수단; 및
상기 변환 수단에 의해 변환된 문자열을 이용하여 특징 문자열을 결정하기 위한 처리를 행하는 복수의 특징 문자열 결정 수단을 포함하고,
상기 전환 수단은, 상기 제 1 언어와 상기 제 2 언어의 조합에 의거하여, 상기 복수의 변환 수단을 전환하고, 특징 문자열의 생성에 사용되는 상기 복수의 특징 문자열 결정 수단을 전환하는 화상 처리 장치. - 제 1 항에 있어서,
상기 복수의 특징 문자열 생성 수단은,
상기 제 1 언어와 상기 제 2 언어의 조합에 의거하여, 상기 추출된 하나 이상의 문자열로부터, 상기 원고의 특징 문자열의 하나 이상의 구성 요소를 선택하기 위한 처리를 행하는 복수의 선택 수단;
상기 제 1 언어와 상기 제 2 언어의 조합에 의거하여, 상기 선택 수단에 의해 선택된 문자열의 하나 이상을 변환하는 복수의 변환 수단; 및
상기 변환 수단에 의해 변환된 구성 요소를 이용하여 특징 문자열을 결정하기 위한 처리를 행하는 복수의 특징 문자열 결정 수단을 포함하고,
상기 전환 수단은, 상기 제 1 언어와 상기 제 2 언어의 조합에 의거하여, 상기 특징 문자열의 생성에 사용되는 상기 선택 수단을 전환하고, 상기 특징 문자열의 생성에 사용되는 상기 변환 수단을 전환하고, 상기 특징 문자열의 생성에 사용되는 상기 특징 문자열 결정 수단을 전환하는 화상 처리 장치. - 제 4 항 또는 제 6 항에 있어서,
상기 복수의 선택 수단 중 하나는, 상기 추출된 하나 이상의 문자열의 상기 원고에서의 출현 빈도에 의거하여 구성 요소를 선택하기 위한 처리를 행하는 화상 처리 장치. - 제 4 항 또는 제 6 항에 있어서,
상기 복수의 선택 수단 중 하나는, 상기 추출된 문자열 중 적어도 하나의 소정의 위치 및 규모인 제 1 문자열에 대해서, 상기 제 1 문자열 이외의 다른 상기 추출된 문자열보다, 상기 추출된 문자열로부터 구성 요소를 선택하는 지표가 되는 가중 계수를 소정 값 높게 설정하는 화상 처리 장치. - 제 4 항 또는 제 6 항에 있어서,
상기 복수의 선택 수단 중 하나는, 원고 내에 배치되어 원고를 구성하며 상기 문자열과는 상이한 배치 요소에 대응하는 제 2 문자열을, 구성 요소로서 선택하기 위한 처리를 행하는 화상 처리 장치. - 제 4 항 또는 제 6 항에 있어서,
상기 복수의 선택 수단 중 하나는, 상기 추출된 문자열 중 상기 제 1 언어인 제 3 문자열에 대해서, 상기 제 3 문자열 이외의 다른 상기 추출된 문자열보다, 상기 추출된 문자열로부터 구성 요소를 선택하는 지표가 되는 가중 계수를 소정 값 높게 설정하는 화상 처리 장치. - 제 5 항 또는 제 6 항에 있어서,
상기 복수의 변환 수단 중 하나는, 상기 추출된 문자열의 하나 이상을, 상기 제 1 언어로 번역하는 화상 처리 장치. - 제 5 항 또는 제 6 항에 있어서,
상기 복수의 변환 수단 중 하나는, 상기 추출된 문자열의 하나 이상을, 상기 하나 이상의 문자열의 발음을 표기하는 문자열로 변환하는 화상 처리 장치. - 제 5 항 또는 제 6 항에 있어서,
상기 복수의 변환 수단 중 하나는, 상기 추출된 문자열의 하나 이상의 문자 코드를, 대응하는 문자열의 다른 문자 코드로 변환하는 화상 처리 장치. - 제 1 언어와 상기 제 1 언어와는 다른 제 2 언어를 등록하는 스텝;
원고를 판독해서 얻어진 판독 정보로부터 하나 이상의 문자열을 추출하는 스텝;
상기 등록된 제 1 언어와 제 2 언어의 조합에 의거하여, 특징 문자열의 생성에 사용되는 특징 문자열 생성 수단을 전환하는 스텝; 및
추출된 상기 하나 이상의 문자열에 의거하여, 상기 전환된 특징 문자열 생성 수단을 이용하여, 상기 원고의 특징 문자열을 생성하는 스텝을 포함하는 화상 처리 프로세스를 컴퓨터에 실행시키는 프로그램을 저장한 비일시적인 컴퓨터 판독 가능한 매체. - 제 1 언어와 상기 제 1 언어와는 다른 제 2 언어를 등록하는 스텝;
원고를 판독해서 얻어진 판독 정보로부터 하나 이상의 문자열을 추출하는 스텝;
추출된 상기 하나 이상의 문자열에 의거하여, 상기 원고의 특징 문자열을 생성하는 스텝; 및
상기 등록된 제 1 언어와 제 2 언어의 조합에 의거하여, 상기 특징 문자열의 생성에 사용되는 특징 문자열 생성 수단을 전환하는 스텝을 포함하는 화상 처리 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011053976A JP2012190314A (ja) | 2011-03-11 | 2011-03-11 | 画像処理装置およびプログラム |
JPJP-P-2011-053976 | 2011-03-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120103436A true KR20120103436A (ko) | 2012-09-19 |
KR101598789B1 KR101598789B1 (ko) | 2016-03-02 |
Family
ID=46795648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020120002271A KR101598789B1 (ko) | 2011-03-11 | 2012-01-09 | 화상 처리 장치, 비일시적인 컴퓨터 판독 가능한 매체, 및 화상 처리 방법 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20120230590A1 (ko) |
JP (1) | JP2012190314A (ko) |
KR (1) | KR101598789B1 (ko) |
CN (1) | CN102685347B (ko) |
AU (1) | AU2011265574B2 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6121126B2 (ja) * | 2012-09-28 | 2017-04-26 | 株式会社Pfu | 帳票出力装置、帳票出力方法、および、プログラム |
US10290036B1 (en) * | 2013-12-04 | 2019-05-14 | Amazon Technologies, Inc. | Smart categorization of artwork |
CN105808246A (zh) * | 2016-03-01 | 2016-07-27 | 宇龙计算机通信科技(深圳)有限公司 | 桌面图标文件夹的名称切换方法、装置及电子设备 |
US11277443B2 (en) * | 2019-10-22 | 2022-03-15 | International Business Machines Corporation | Detection of phishing internet link |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5001633A (en) * | 1988-09-02 | 1991-03-19 | Sharp Kabushiki Kaisha | Computer assisted language translating machine with sentence extracting function |
US6487533B2 (en) * | 1997-07-03 | 2002-11-26 | Avaya Technology Corporation | Unified messaging system with automatic language identification for text-to-speech conversion |
JP2010103694A (ja) * | 2008-10-22 | 2010-05-06 | Seiko Precision Inc | 翻訳機能付きカメラ、及びテキストの表示方法 |
KR20110021439A (ko) * | 2009-08-26 | 2011-03-04 | 삼성전자주식회사 | 음성 스트림 변환 장치 및 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01279368A (ja) * | 1988-04-30 | 1989-11-09 | Sharp Corp | キャラクタデータの転送方式 |
JP3768105B2 (ja) * | 2001-01-29 | 2006-04-19 | 株式会社東芝 | 翻訳装置、翻訳方法並びに翻訳プログラム |
EP1916609A1 (en) * | 2006-10-26 | 2008-04-30 | Hierodiction Software GmbH | Text analysis, transliteration and translation method and apparatus for hieroglyphic, hieratic, and demotic texts from Ancient Egyptian |
CN101350870A (zh) * | 2007-07-18 | 2009-01-21 | 英华达(上海)电子有限公司 | 一种图文转换的方法、移动终端和ocr服务器 |
-
2011
- 2011-03-11 JP JP2011053976A patent/JP2012190314A/ja not_active Withdrawn
- 2011-11-02 US US13/287,524 patent/US20120230590A1/en not_active Abandoned
- 2011-12-23 AU AU2011265574A patent/AU2011265574B2/en active Active
-
2012
- 2012-01-09 KR KR1020120002271A patent/KR101598789B1/ko active IP Right Grant
- 2012-02-09 CN CN201210028590.XA patent/CN102685347B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5001633A (en) * | 1988-09-02 | 1991-03-19 | Sharp Kabushiki Kaisha | Computer assisted language translating machine with sentence extracting function |
US6487533B2 (en) * | 1997-07-03 | 2002-11-26 | Avaya Technology Corporation | Unified messaging system with automatic language identification for text-to-speech conversion |
JP2010103694A (ja) * | 2008-10-22 | 2010-05-06 | Seiko Precision Inc | 翻訳機能付きカメラ、及びテキストの表示方法 |
KR20110021439A (ko) * | 2009-08-26 | 2011-03-04 | 삼성전자주식회사 | 음성 스트림 변환 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN102685347A (zh) | 2012-09-19 |
AU2011265574B2 (en) | 2013-04-18 |
CN102685347B (zh) | 2016-05-25 |
AU2011265574A1 (en) | 2012-09-27 |
US20120230590A1 (en) | 2012-09-13 |
KR101598789B1 (ko) | 2016-03-02 |
JP2012190314A (ja) | 2012-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2437152C2 (ru) | Устройство обработки изображений, способ и компьютерная программа обработки изображений | |
US8396294B2 (en) | Image processing device, image processing method, and program and recording medium thereof | |
US5889888A (en) | Method and apparatus for immediate response handwriting recognition system that handles multiple character sets | |
US6539116B2 (en) | Information processing apparatus and method, and computer readable memory therefor | |
US20060217959A1 (en) | Translation processing method, document processing device and storage medium storing program | |
JPH05233630A (ja) | 日本語又は中国語を記載する方法 | |
US9881001B2 (en) | Image processing device, image processing method and non-transitory computer readable recording medium | |
KR20120103436A (ko) | 화상 처리 장치, 비일시적인 컴퓨터 판독 가능한 매체, 및 화상 처리 방법 | |
JP5790082B2 (ja) | 文書認識装置、文書認識方法、プログラム及び記憶媒体 | |
CN104424166B (zh) | 文本处理装置和文本显示系统 | |
Lu | Computers and Chinese writing systems | |
CN109445900B (zh) | 用于图片显示的翻译方法和装置 | |
JP7098897B2 (ja) | 画像処理装置、プログラム及び画像データ | |
JP2013152564A (ja) | 文書処理装置及び文書処理方法 | |
JP2006252164A (ja) | 中国語文書処理装置 | |
JP2014106729A (ja) | 情報処理装置及びプログラム | |
JP5721052B2 (ja) | 画像処理装置およびプログラム | |
JP2008065594A (ja) | 文書変換装置及びコンピュータのプログラム | |
JP2002245470A (ja) | 言語特定装置及び翻訳装置及び言語特定方法 | |
JP2019036333A (ja) | 文章処理装置、文章表示システム、情報処理装置、プログラム | |
Engström | Internationalisation and Localisation Problems in the Chinese and Arabic Scripts | |
Kuiken | Current Developments in Chinese Word-Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
X091 | Application refused [patent] | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190201 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20200205 Year of fee payment: 5 |