KR20090068380A

KR20090068380A - 개선된 이동 통신 단말

Info

Publication number: KR20090068380A
Application number: KR1020097010450A
Authority: KR
Inventors: 콩 치아오 왕; 하오 왕; 잉 페이 리우
Original assignee: 노키아 코포레이션
Priority date: 2006-10-24
Filing date: 2007-09-12
Publication date: 2009-06-26
Also published as: JP2010509794A; US20080094496A1; CN101529447A; EP2092464A1; WO2008050187A1

Abstract

이동 통신 단말이 장착된 카메라가 카메라 뷰가 디스플레이되는 동안의 이미지 기록 모드에서 사용된다. 안내 패턴이 뷰파인더 모드에서 디스플레이되어 사용자가 상기 카메라 뷰를 조절하는 것을 용이하게 한다. 카메라 뷰가 정적인 상태에 있는가가 결정되며 카메라 뷰의 이미지를 기록하는 것이 수행된다. 그러면, 사진 엘리먼트들의 어레이를 포함하는 서브-이미지가 기록된 이미지로부터, 디스플레이되고 있는 상기 안내 패턴에 대응하는 기록된 이미지 내에서의 위치에서, 추출되는 것이 수행되며 그 추출된 서브-이미지 상에 광학 문자 인식 프로세스가 실행된다. 이 OCR 프로세스는 디스플레이되는 심볼들의 시퀀스의 결과를 산출한다.

Description

개선된 이동 통신 단말 {Improved Mobile Communication terminal}

개시된 실시예들은 이동 통신 단말 및 기록된 이미지 내의 텍스트를 인식하는 것과 연관하여 이동 통신 단말을 제어하는 방법에 관련된다.

통신 기기들은 음성 대화들과 같은 좁은 대역의 아날로그 신호들만을 나를 수 있는 지난 수십 년 동안의 다소 구식의 전화기에서 임의의 유형의 미디어를 나타내는 많은 양의 데이터를 나를 수 있는 오늘날의 멀티미디어 이동 기기들로 발전되었다. 예를 들면, GSM, GPRS, EDGE, UMTS 또는 CDMA2000 유형의 시스템에서의 전화기는 음성 또는 음악과 같은 오디오 데이터에 추가하여 정지 이미지와 동영상 이미지, 즉, 비디오 스트림의 양자를 기록, 운송 및 디스플레이할 수 있다.

또한, 세계화는 사람들이 자신의 매일의 생활에서 여러 언어들을 능동적으로 또는 수동적으로 이용하도록 한다. 그러므로 언어 번역 또는 사전을 간단하게 살펴보는 것은 많은 상황에서 공통적이지만 중요한 절차이다. 예를 들면, 사람들은 외국어로 된 신문이나 잡지를 볼 때에 새롭고 모르는 단어들에 종종 마주치며 또는 사람들은 외국 언어 속의 단어가 자신의 모국어에서 어떤 단어에 대응하는가를 알지 못한다.

카메라가 장착된 이동 전화기들에 집적된 광학 문자 인식 (optical character recognition (OCR)) 기반의 애플리케이션들은 결과적으로 근래 몇 년 동안에 나타났다. 전형적으로 그런 애플리케이션들은 텍스트 일부의 스냅샷을 찍는 것을 수반하며, 그리고 그 디지털 이미지를 그 단말이나 또는 통신 네트워크를 경유하여 상기 단말로 연결된 서버에서 동작하는 인식 엔진으로 공급한다.

OCR 기능을 구비한 현재의 단말들의 문제는 사용자로 하여금 상기 인식 엔진에 의해 번역될 대상인 단어 또는 구절을 어떻게 쉽게 확인하거나 가리킬 수 있게 하는가 이다. 전형적으로, 종래 기술에서의 해결책들은 다양한 선택 동작들을 포함하며 타겟인 단어 또는 구절의 이미지를 실제로 기록하는 동작을 개시하게 하는 사용자 인터페이스와의 다소 복잡한 상호 작용들을 사용자가 수행하도록 하는 것을 수반한다. 말할 필요도 없이, 이는 사용자 친화적인 것이 아니며 사용자들이 상기 단말의 인식 기능들을 이용하는 것을 종종 단념시킨다.

본 발명의 목적은 상기에서 설명된 것과 같은 종래 기술의 통신 단말에 관련된 결점들을 극복하는 것이다.

상기 목적은 첨부된 청구항들에 따른 방법, 통신 단말 및 컴퓨터 프로그램에 의해 달성된다.

그러므로, 본 발명의 첫 번째 모습에 따라, 이동 통신 단말이 카메라 뷰 (view)가 디스플레이되는 이미지 기록 모드에 있을 때에, 사용자가 상기 카메라 뷰를 조정하기 용이하도록 구성된 안내 패턴을 디스플레이하고, 상기 카메라 뷰가 정적인 상태에 있는가를 탐지하고, 정적인 상태에 있는 것으로 탐지된 상기 카메라 뷰의 이미지를 기록하고, 상기 기록된 이미지에서 사진 엘리먼트 (picture element)들의 어레이를 포함하는 서브-이미지를 추출하며 [디스플레이되고 있는 상기 안내 패턴과 대응하는 상기 기록된 이미지 내에 상기 서브-이미지가 위치함], 상기 추출된 서브-이미지 상에 광학 문자 인식 프로세스를 실행하여 심볼들의 시퀀스를 산출하고 그리고 상기 인식된 심볼들의 시퀀스를 디스플레이함으로써 이동 통신 단말이 제어된다.

상기 카메라 뷰가 정적인 상태에 있는가를 탐지하는 것은 공간적인 변화들을 탐지하는 것과 특정 시간 간격 동안에 상기 카메라 뷰 내에서 공간적인 변화들이 없음을 탐지하는 것을 포함한다.

더 나아가, 상기 카메라 뷰가 정적인 상태에 있는가를 탐지하는 것은 핸드-헬드 흔들림 모델을 나타내는 알고리즘을 프로세스하는 것을 포함한다. 이런 점에서, 상기 정적인 상태에 있는 것으로 탐지된 상기 카메라 뷰의 이미지를 기록하기 전에, 상기 핸드-헬드 흔들림 모델은 공간적인 변화들을 탐지하는 것과 특정 시간 간격들 동안에 상기 카메라 뷰 내에서 공간적인 변화가 없다는 것을 탐지하는 것을 포함하는 트레이닝 시퀀스에 의해 결정된다.

상기 방법은, 상기 카메라 뷰의 이미지를 기록하기 이전에, 상기 서브-이미지의 추출이 미리 결정된 공간적인 스케일 (scale)을 가지는 추출된 서브-이미지의 결과를 낳도록 상기 카메라 뷰를 줌하는 것을 더 포함할 수 있을 것이다.

또한, 상기 이미지 기록 모드는, 상기 카메라 뷰를 디스플레이하는 동안에는 제1 공간적인 이미지 스케일이 사용되며, 상기 정적인 상태에 있는 것으로 탐지된 상기 카메라 뷰의 이미지를 기록하는 동안에는 제2 공간적인 이미지 스케일이 사용되도록 한다.

다른 말로 하면, 직관적인 "클릭하지 않는 (non-click)" 사용자 인터페이스 해결책이 타겟인 인식될 단어 또는 구절을 마이닝 (mining)하는 즉, 가리키고 기록하도록 제시된다.

이 "클릭하지 않는" 해결책의 한가지 원칙은, 종래 기술의 해결책에서는 전형적인, 스냅샷 사진들이 단말 상에서 키나 또는 유사한 것을 누르는 것과 같은 사용자 동작에 의해 만들어질 때에, 보통 발생하는 손 흔들림 (hand shaking)이 그 다음의 OCR 프로세스의 결과들을 손상시킬 수 있다는 것을 인식하는 것을 기반으로 한다. 또한, 사진을 찍을 때에 발생하는 전형적인 중지 (pause)는 많은 애플리케이션들에서의 단어 또는 구절 마이닝에는 편리하지 않다.

한 모습에 따르면, 카메라 움직임 (movement) 정보가 상기 마이닝 동작을 수행하는데 있어서 활용된다는 점에서 이 문제는 완화된다.

카메라 뷰를 디스플레이하는 동안에, 즉, "뷰파인더 (viewfinder)" 프로세스 동안에, 카메라가, 예를 들면, 디스플레이의 중심 영역에서 카메라가 보고 있는 디스플레이된 뷰의 특정 위치 내에 커서가 디스플레이된다. 그러면 상기 카메라 뷰는, 보통은 사용자의 손에 의해, 예를 들면 신문, 잡지, 메뉴 등의 일부에 위치한 상기 커서 포인트가 타겟 단어/구절로 가도록 이동된다. 그러면 상기 카메라는 짧은 시간 구간, 보통은 수백 마이크로 초 동안에 다소 정적인 방식으로 고정되어 유지된다. 그러면 이 짧은 정지는 탐지되고 이전의 움직임 상태들을 기반으로 하여 현재 뷰의 기록, 타겟에서의 서브-이미지의 추출, 기록된 이미지 데이터 인식 및 인식된 단어 또는 구절의 디스플레이 및 번역과 같은 어떤 다른 연속적인 프로세싱을 포함하는 프로세싱을 시작하는가의 여부에 대한 결정이 내려진다.

그런 방법의 이점은 사용의 느낌을 부드럽게 한다는 것이며, 그리고 스타일러스와 같은 특수한 수단으로 타겟을 가리키는 명시적인 동작 또는 타겟인 단어 또는 구절을 가리키기 위해 조이스틱을 동작시키지 않기 때문에 단어 마이닝을 수행하는데 있어서 효율을 제공한다는 것이다. 사용자들이 뷰파인더 내에 있는 타겟 단어를 찾을 때에 그 단어를 더 명확하게 보기 위해 잠시 중지하는 것이 보통이기 때문에, 상기 타겟에 대한 뷰를 짧게 정지하는 것은 사용자의 관점으로 보면 매우 자연스러운 동작이다.

설계자의 입장에서, 카메라 뷰를 디스플레이하는 동안에 (즉, "뷰파인더" 프로세스 동안에), 탐지된 이미지 프레임은 보통은 기록된 이미지 프레임보다 더 작은 크기를 가지기 때문에, 움직임을 탐지하는 것은 매우 빨리 실행될 수 있으며 그래서 상기 단말의 사용자가 알아챌 수 없을 것이다. 다음의 프로세싱, 즉, 추출, OCR, 단어 연관 및 번역과 같은 가능한 후 프로세싱 (post processing)은 더 시간이 많이 걸릴 수 있을 것이다. 그러나, 그런 프로세싱은 타겟이 겨냥되고 (즉, 짧은 정지가 정적인 상태에 있는 것으로 탐지될 때에) 그리고 상기 프로세싱이 이 짧은 정지 동안에 실행될 수 있을 때에만 시작된다. 그러므로, 사용자는 불편한 어떤 지연도 겪지 않을 것이다.

타겟을 겨냥할 때에 작지만 불가피한 손의 흔들림이 존재한다면 핸드-헬드 흔들림 (hand-held shaking) 모델을 이용하여 정적인 상태를 틀리게 탐지하는 것을 피함으로써 강건함이 개선될 수 있다.

또한, 상기 방법은 상기 인식된 심볼들의 시퀀스를 프로세스하는 단계를 더 포함할 수 있을 것이며, 상기 프로세스하는 단계는 적어도 단어들의 제1 데이터베이스에 액세스하는 것을 포함하는 번역 프로세스를 구비한다. 상기 번역 프로세스는 정확한 번역, 퍼지 (fuzzy) 번역 및 단어 단위 (word-by-word) 번역의 세 단계 절차 중의 적어도 하나의 단계를 포함할 수 있을 것이다.

그런 경우들에서, 제1 데이터베이스는 복합 아이템들을 나타내는 단어들을 포함할 수 있을 것이며, 제2 데이터베이스는 상기 제1 데이터베이스 내의 복합 아이템들의 성분들을 나타내는 단어들을 포함할 수 있을 것이다.

즉, 그런 애플리케이션의 한 예는 레스토랑 메뉴 아이템들을 인식하는 것이다. 이는 외국 여행자들을 위한 이동 기기들의, 스스로를 돕는 탁월한 특징이다. 메뉴 아이템들의 스냅샷을 기록하여 그 단말의 디스플레이 상에서의 즉각적인 번역을 얻음으로써 상기 애플리케이션은 여행자들이 선택한 음식이 무엇인지 즉시 그 여행자들에게 알려줄 수 있다.

물론, 상이한 실시예들이 레스토랑 메뉴 애플리케이션 외의 의약 용어들 번역, 회사 이름과 회사 주소 번역과 같은 다른 많은 분야에서 이용 가능하다. 예를 들면, 의약품들의 주요 성분들은 응급 사태의 경우에 의약품의 종류를 이해하기 위해 목록화될 수 있으며 도시의 주요 지역들과 도로들의 데이터베이스가 구축되어 회사의 위치를 확인하기 위해 사용될 수 있다.

퍼지 번역의 도입이 카메라 OCR 정밀도의 한계를 보상하며 그리고 성분 정보는 더 이해가 빠른 번역을 제공하기 때문에, 그런 애플리케이션의 이점들은 늘 변경되는 그리고 다소 불가능한 포괄적인 메뉴 아이템 데이터베이스를 다루는 개선된 방식을 포함한다.

다중-데이터베이스-다중-카테고리-번역의 구조가 개방되고 팽창된 데이터 소스로부터의 번역과 데이터 마이닝에 대한 범용의 해결책을 제공한다는 것에 유의함으로써 다른 이점들이 발견될 수 있다. 번역 데이터베이스로부터 정확하게 부합되는 (matched) 기록이 전혀 발견되지 않는다고 해도, 타겟 아이템 (번역될 단어들, 구절)에 대한 표시와 배경 지식을 줄 수 있는 보조 데이터베이스는 사용자를 위해 매우 유용하다.

더 나아가, 실시예들이 "지능적인 (intelligent) 사용자 인터페이스"의 모습으로 실현될 수 있을 것이라는 이점도 또한 있다. 사용자들은 구현의 상세한 점에는 신경을 쓸 필요가 없으며 혼동될 수도 있을 기술적인 문제들을 인식하지 않을 것이며, 그래서 사용자들은 쉬운 작동과 친절한 출력 정보를 느끼기만 하는 것이 보통일 것이다.

다른 모습에서, 단말 및 컴퓨터 프로그램이 제공되며, 그 단말과 프로그램의 기능과 이점들은 상기에서 설명된 것과 같은 방법에 대응한다.

도 1은 일 실시예에 따른 이동 통신 단말의 기능적인 블록도를 개략적으로 도시한 것이다.

도 2a는 방법의 흐름도이다.

도 2b는 카메라 뷰의 정적인 상태를 탐지하는 것을 설명하는 상태도이다.

도 3은 방법의 흐름도이다.

도 1은 전화기 (100) 모습의 이동 통신 단말의 블록도를 보여준다. 상기 단말 (100)은 트랜시버 (120)를 경유하여 안테나 (122)에 연결된 프로세싱 유닛 (110), 메모리 유닛 (112), 마이크 (114), 키보드 (105), 스피커 (116) 및 카메라 (118)를 포함한다. 상기 프로세싱 유닛 (110)은 디스플레이 (107)에 또한 연결된다.

상기 전화기 (100)의 서로 다른 블록들의 특정한 기능들에 관해서 상세한 설명은 제시되지 않을 것이다. 그러나, 간단하게, 본 발명이 속한 기술분야에서 통상의 지식을 가진 자가 실현할 수 있는 것과 같이, 상기 프로세싱 유닛 (110)은 기능적인 블록들의 전반적인 기능을 제어하여 키보드 (105)로부터 입력을, 마이크 (114)를 통해서 오디오 정보를, 카메라 (118)를 통해서 이미지들을 수신할 수 있으며, 적절하게 인코드되고 변조된 데이터를 안테나 (122)와 트랜시버 (120)를 통하여 수신한다. 또한 상기 프로세싱 유닛 (110)은 스피커 (116)를 통해서 음성의 모습으로, 디스플레이 (107)를 통해 이미지들의 모습으로 그리고 트랜시버 (120)과 안테나 (122)를 통해 적절하게 인코드되고 변조된 데이터의 모습으로 된 출력을 제공할 수 있다.

상기 단말 (100)은 무선 인터페이스 (124)를 경유하여 전형적으로 통신 네트 워크 (126)와 연결된다. 당업자가 실현할 수 있을 것과 같이, 도 1에서 도시된 상기 네트워크 (126)는 이동 네트워크, 인터넷과 같은 고정된 데이터 통신 네트워크를 포함하는 하나 또는 그 이상의 상호 연결된 어떤 네트워크들을 나타낼 수 있을 것이다. "일반적인" 통신 엔티티 (128)가 상기 네트워크 (126)에 연결되어 있는 것으로 도시진다. 이는 상기 단말 (100)이 상기 네트워크 (126)와 연결된 다른 단말들 및 데이터 서버들을 포함하는 어떤 엔티티와도 통신할 수 있을 것이라는 것을 설명하는 것이다.

도 2a의 흐름도 및 도 2b의 상태도를 참조하여 한가지 방법이 설명될 것이다. 그 방법은, 예를 들면 도 1에 있는 단말 (100)의 메모리 (112)와 CPU (110)에서와 같은, 메모리에 저장되어 CPU에서 실행되는 소프트웨어 단계들로서 구현되는 것이 바람직하다.

뷰파인더 시작 단계 (201) 동안에 시작되는 뷰파인더 모드에서, 이미지 샘플링 레이트는 보통 160x120 픽셀의 프레임 크기에 초당 보통 15 프레임에서 수행되며 그 샘플링 레이트는 프레임 당 약 60 마이크로 초인 것이 보통이다. 60 마이크로 초는 보통의 인간인 사용자의 전형적인 반응 시간보다는 아주 짧기 때문에, 상기 샘플링 레이트는 매 5 프레임들에서 하나의 프레임으로 다운-샘플된다. 그로 인해서 디스플레이 주파수는 초당 15 프레임이며, 이는 인간인 사용자에게는 본질적으로 연속적인 것으로 보인다. 이 단계 동안에, 사용자는 텍스트가 상기 뷰파인더 내에서 보이도록, 즉, 보통은 단말 디스플레이 상으로 카메라를 겨냥한다. 계산하기 위한 전력을 절약하고 노이즈를 평탄하게 하기 위해, 모든 프레임에서는 아니지 만 보통은 매 300 마이크로 초마다 한번씩 상기 뷰파인더 내에서의 뷰 (view)의 움직임을 탐지하는 것이 수행된다. 타겟에 겨냥할 때에 사용자를 돕기 위해, 뷰파인더 모드 동안에 보통은 뷰파인더의 뷰의 중앙에 안내 패턴이 디스플레이된다.

그러면 카메라의 줌 동작이 줌 단계 (203)에서 수행된다. 상기 카메라 설정들은 자동적인 디지털 줌 파라미터들을 조절함으로써 설정된다. 상기 자동적인 디지털 줌의 목적은 상기 뷰파인더 프레임에서의 적절한 타겟 크기를 얻는 것이다. 디지털 줌 기능과 광학 줌 기능의 양자를 구비한 카메라 단말에 대해, OCR을 위한 양호한 품질의 이미지를 얻기 위해 사용자가 줌 파라미터들을 교차 조절 (cross-adjust)하는 것은 어렵다. 그러므로, 지능적인 디지털 줌 파라미터 추정의 이용되며, 이는 작은 범위 내에서의 캡쳐 거리를 제한하고 뷰파인더 내의 타겟의 적절한 크기를 보장한다. 최종 사용자는 이미지를 선명하게 하기 위해 광학 줌을 시동할 필요가 있을 뿐이다.

카메라의 움직임 탐지 (205)는 당 업계에서 알려진 적절한 움직임 트래킹/탐지 알고리즘을 이용하여 실현된다. 간략함을 위해, 상기 뷰파인더 내에서 상기 안내 패턴이 디스플레이되는 위치에 근접한 영역만이 탐지된다. 움직임 탐지 알고리즘은 많은 인간 사용자들에게는 불가피한 손의 작은 흔들림을 감수하는 (tolerant) 것이 바람직하다. 그러므로, 그런 손 흔들림으로 인한 잘못된 탐지를 피하기 위해 핸드-헬드 흔들림 모델이 도입된다. 상기 핸드-헬드 흔들림 모델은, 예를 들면, 핸드-헬드 흔들림 움직임 및 검색 단계 동안의 (즉, 잠재적인 타켓 텍스트들을 가로지르는 스캔 움직임 동안의) 실제 움직임의 두 종류의 샘플들을 수집하는, 전부터 확립되었던 전형적인 것이다. 상기 두 종류의 통계적인 분류는 학습 스테이지 내로 내장될 수 있으며, 그럼으로써 본 발명이 동작하는 동안에 빠른 결정 트리 (fast decision tree)를 이용하는 것을 가능하게 한다.

상기 뷰가 정적인 상태 (static state)인가 아닌가의 여부가 결정 단계 (207)에서 결정되며, 이는 도 2b에서의 상태 천이도에 의해 도시된 것과 같은 상태 머신을 이용하여 구현된다. 상기 상태 쌍들 (이전, 현재)에서 0은 움직이는 상태를 의미하며 1은 정적인 상태를 의미한다. 즉, (이전, 현재)=(0,0)의 상태는 상기 뷰가 움직이는 것으로 탐지된 후에 계속해서 움직이는 상태인 경우의 상태이며, (이전, 현재)=(1,1) 상태는 상기 뷰가 정적인 것으로 탐지된 이후에 정적인 상태에 계속해서 있는 경우인 상태이고, (이전, 현재)=(1,0)의 상태는 상기 뷰가 정적인 것으로 탐지되었던 이후에 움직이고 있는 것으로 탐지된 경우의 상태이며, 그리고 (이전, 현재)=(0,1)의 상태는 상기 뷰가 움직이고 있는 것으로 탐지되었던 후에 정적인 것으로 탐지된 경우의 상태이다.

카메라가 움직여서 상대적으로 긴 시간동안, 예를 들면, 수백 마이크로 초 동안 타겟에 초점을 맞추는 상황인 진입 상태 (0,1)에서, 계속되는 프로세싱이 시작될 것이다. 상기 카메라가 더 오랜 시간동안 움직이지 않고 있으면, 카메라가 다시 움직여져서 다른 타겟에 정지하기까지는 프로세싱의 시작이 다시 반복되지 않을 것이다. 상태-기반의 결정은 불필요한 프로세싱을 효과적으로 회피하며 (문자 크기가 하위 경계의 한계에 근접하면 OCR은 입력 이미지의 작은 변화에 보통은 민감하며, 그래서, 유사한 이미지들을 겹쳐지게 인식하는 것이 사용자를 혼동하게 하는 불안정한 결과를 초래할 수 있을 것이다), 그리고, 동적인 인식 및 연속적인 번역을 안정되도록 만든다.

(이전, 현재)=(0, 1)로 결정 단계 (207)에서 결정되면, 자동적인 객체 (object) 추출의 프로세싱이 기록 단계 (209)에서 시작된다. 여기에서 추출은 상기 기록된 이미지로부터 번역될 타겟 텍스트로 구성된다. 타겟의 위치에 관해서 알게 되기 이전에 상기 안내 패턴의 위치가 이미 제공되었기 때문에, 연결-컴포넌트-기반 (connect-component-based)의 알고리즘이 객체 탐지 및 분할 (segmentation)에 적용된다. 상기 타겟이 분리된 단어라면, 레이아웃 분석을 하여 그 단어의 정확한 블록을 얻으며, 그렇지 않다면 상대적인 영역 (예를 들면, 분할되지 않은 중국 문자들의 선 (line))이 추출될 것이다.

그러면, 추출된 타겟 텍스트가 단계 211에서 OCR 프로세스에게 제공된다. 상기 OCR 프로세싱은 몇몇의 서로 다른 절차들 및 고려 사항들을 구비한다. 예를 들면, 중국어에서 영어로의 번역에서, 문자들의 어떤 조합이 번역될 올바른 유닛 (단어/구절)을 구성할 수 있는가를 식별하는 것에 종종 문제가 있다. 그러므로, 이용 가능한 레이아웃 정보가 없다면, OCR 이후에 언어적인 분석이 사용되어야만 한다. 병행하는 문자들의 가능한 조합을 찾기 위해 문맥 감지 및 언어학적인 규칙들을 이용하여 규칙 기반의 단어 연관이 사용될 수 있을 것이다. 상기 안내 패턴에 가장 근접한 위치인 올바른 조합이, 의도된 타겟 텍스트로서 선택되는 것이 보통이다.

그러면, 상기 인식된 텍스트는 후 처리 (post processing) 절차 (213)로 제공되며, 이는 도 3의 흐름도를 참조하여 예시될 것이다. 후 처리의 예는 첫 번째 언어로 쓰여진 레스토랑 메뉴 아이템이 두 번째 언어로 번역되는, 예를 들면 중국어로 쓰여진 메뉴 아이템을 포함하는 중국어 메뉴가 영어로 번역되는 것이다. 음식 메뉴 데이터베이스와 성분 (ingredient) 데이터베이스의 두 가지 데이터베이스들이 사용되며, 상기 번역은 정확한 번역 단계, 퍼지 번역 단계 및 성분 번역 단계를 포함하는 3 단계의 번역 절차를 이용하여 수행된다. 상기 데이터베이스들은 상기 단말 내에 구성된 메모리 수단에서 실현되는 것이 보통이지만, 상기 단말이 통신하는 네트워크에 연결된 다른 엔티티들 내에서도 또한 실현될 수 있을 것이다.

상기 음식 메뉴 데이터베이스는 음식들의 중국어 이름과 영어 이름으로 구성된 주요 데이터베이스이다. 그 데이터베이스는 중국어 음식 이름을 찾아서 정확한 영어 번역을 인출하기 위해 사용된다. 상기 성분 데이터베이스는 음식 내에 포함된 닭, 소고기, 어류 등과 같은 몇몇의 주요한 재료들을 포함한다. 그 데이터베이스는 음식 내의 성분(들)을 검사하기 위해 사용된다. 상기 데이터베이스 내의 정보를 기반으로, 번역의 결과 퍼지 번역 동안에 정확한 음식 이름을 제공하는데 비록 실패하더라도, 관심의 대상인 음식의 성분(들)에 대한 힌트를 사용자들에게 여전히 줄 수 있다. 예를 들면, 중국어로

인 음식 이름이 정확한 번역 및 퍼지 번역의 어느 것에 의해서도 음식 메뉴 데이터베이스에서 찾아질 수 없다고 가정하면, 그것은 성분 데이터베이스 내의 성분들과 자동적으로 비교될 것이다. 성분 데이터베이스에서, potato와 steak 단어가 발견될 수 있으며 그러면 이 음식은 potato와 steak를 포함할 수 있다는 것이 사용자에게 통보될 것이다.

그러므로, 도 3을 참조하면, 번역의 3가지 분류의 번역은 첫 번째 번역 단계 (301)에서의 정확한 번역, 두 번째 번역 단계 (307)에서의 퍼지 번역 및 세 번째 번역 단계 (313)에서의 성분 번역을 포함한다. 정확한 번역은 번역될 단어들이 상기 음식 메뉴 데이터베이스 내의 단어들과 정확하게 같아야 한다는 것을 의미한다. 퍼지 번역은 상기 단어들이 상기 음식 메뉴 데이터베이스 내의 단어들과 유사하지만 완전하게 같지는 않다는 것을 의미한다. 성분 번역은 어떤 종류의 성분들이 상기 음식에 있는가를 확인하기 위해 상기 단어들이 상기 성분 데이터베이스 내에서 단어 단위 (word-by-word)로 번역된다는 것을 의미한다. 상기의 세 분류의 번역은 우선 순위 순서로 수행된다. 정확한 번역이 처음 수행되며, 그 결과는 첫 번째 판단 단계 (303)에서 검사되어 아무 결과도 발견되지 않았다면, 퍼지 번역이 수행될 것이다. 마지막으로, 두 번째 판단 단계 (309) 다음에, 여전히 아무 결과도 발견되지 않는다면, 단어 단위의 성분 번역이 최종 동작에서 수행된다. 판단 단계들 (303, 309, 315)의 어디에서도 성공적인 번역이 수행되었다는 것이 발견되지 않으면, 그 결과를 디스플레이하는 각 단계 (305, 311, 317)이 수행된다. 세 번째 판단 단계 (315)에서, 어떤 번역도 발견되지 않았다고 판단하는 경우, 디스플레이 단계 (319)에서 실패 메시지가 디스플레이된다.

퍼지 번역에서의 중요한 문제는 퍼지 단어들을 어떻게 판단해야 하는가에 관한 질문이다. 데이터베이스 내에서의 질의 단어들과 기록들 간의 거리를 계산하기 위해 사용되는 거리 함수가 여기에서 도입된다. 주로, 그런 함수는 두 부분들, 즉 단어들 길이의 차이 및 부합된 문자들의 개수를 계산한다. 유사한 단어들은 거의 동일한 길이를 가져야 하기 때문에, 단어들 길이의 차이는 가장 중요한 인자이며 가중치 w₁으로 주어지고, 이는 부합된 문자들의 개수의 가중치 w₂의 3배로 설정될 수 있을 것이다. 그러므로, 상기 거리 Dist는 다음과 같이 표현된다.

w₁ = 3*w₂

L₁ = 첫 번째 단어들의 길이.

L₂ = 두 번째 단어들의 길이.

Matched = 부합된 문자들의 개수.

라고 가정하면,

w₁에 대해 주어진 값은 300이며, w₂에 대해 주어진 값은 100이며, 두 단어들이 유사한가의 여부를 판단하기 위해 80의 문턱값 (threshold)이 사용될 수 있다. 상기 거리가 80보다 더 크면, 상기 두 단어들은 유사하지 않다. 그 거리가 0이며, 상기 두 단어들은 완전하게 동일하다. 그러므로, 번역될 단어와 음식 메뉴 데이터베이스 내의 단어들 사이의 모든 거리들이 80보다 더 크면, 성분 번역이 사용된다. 데이터베이스 내의 한 단어와 번역될 단어 사이의 거리가 0인 거리가 존재하면, 정확한 번역이 사용된다. 그렇지 않으면, 퍼지 번역 모드가 선택된다.

비록 상기 예가 레스토랑 메뉴 항목들을 번역하는 것을 이용하더라도, 본 발명은 물론 많은 다른 분야들에서 이용 가능하다.

즉, 거리 표시들, 레스토랑 이름 표시들 등을 포함하는 어떤 관련된 타겟 텍스트 상에서의 애플리케이션이 가능하다. 특히 사용자 관점으로부터의 간략함 때문에 이미지로부터 텍스트를 자동적으로 추출하기 위한 '클릭하지 않는 (non-click)' 개념이 유용하다.

사용의 분야들의 예들은 의약 용어들, 회사 이름 및 회사 주소 번역들을 포함한다. 예를 들면, 의약품들의 주요 성분들은 응급 사태의 경우에 의약품의 종류를 이해하기 위해 목록화될 수 있으며 도시의 주요 지역들과 도로들의 데이터베이스가 구축되어 회사의 위치를 확인하기 위해 사용될 수 있다.

다른 양호한 사용의 경우는 수퍼마켓과 같은 상점에서의 제품/상품 검색을 수행하기 위한 것이다. 사용자들은 어떤 상품들의 브랜드/로고/규격을 스캔할 수 있으며 특정한 데이터 검색/번역이 상기에서 설명된 것과 같이 수행될 수 있다.

더 나아가, 보통의 사전이 상기 인식된 텍스트를 번역하기 위해 사용될 수 있다. 그러면 다중-레벨 번역 모델이 첫 번째 언어로부터 두 번째 언어로의 단어 번역을 위한 공통의 사전과 함께 동작한다. 실제, 본 발명은 번역과 연관되어 유용한 것으로만 간주되어서는 안되며, "컴포넌트-기반 검색 (component-based search)" 방법의 유형으로서 보여질 수 있을 것이며, 그 방법을 위한 입력 방법이 상기에서 설명된 예들과 같이 OCR-기반일 수 있을 것이다. 상기 컴포넌트-기반의 부합 (match) 방법은 어떤 특정한 데이터베이스 검색을 위해서도 사용될 수 있으 며; 정확한 부합이 이용 가능하지 않으면, 퍼지 부합 및 키워드/성분 검색이 사용될 것이다.

Claims

카메라 뷰 (view)가 디스플레이되는 이미지 기록 모드에 있는 이동 통신 단말을 제어하는 방법으로서,

- 사용자가 상기 카메라 뷰를 조정하기 용이하도록 구성된 안내 패턴을 디스플레이하는 단계;

- 상기 카메라 뷰가 정적인 상태 (static state)에 있는가를 탐지하는 단계;

- 정적인 상태에 있는 것으로 탐지된 상기 카메라 뷰의 이미지를 기록하는 단계;

- 상기 기록된 이미지에서 사진 엘리먼트들 (picture elements)의 어레이를 포함하는 서브-이미지를 추출하는 단계로서, 디스플레이되고 있는 상기 안내 패턴과 대응하는 상기 기록된 이미지 내에 상기 서브-이미지가 위치하는, 추출 단계;

- 상기 추출된 서브-이미지 상에 광학 문자 인식 프로세스를 실행하여 심볼들의 시퀀스를 산출하는 단계; 및

- 상기 인식된 심볼들의 시퀀스를 디스플레이하는 단계;를 포함하는, 이동 통신 단말 제어 방법.
제1항에 있어서,

상기 카메라 뷰가 정적인 상태에 있는가를 탐지하는 것은 공간적인 변화들을 탐지하는 것과 특정 시간 간격 동안에 상기 카메라 뷰 내에서 공간적인 변화들이 없음을 탐지하는 것을 포함하는, 이동 통신 단말 제어 방법.
제1항 또는 제2항에 있어서,

상기 카메라 뷰가 정적인 상태에 있는가를 탐지하는 것은 핸드-헬드 흔들림 모델을 나타내는 알고리즘을 프로세스하는 것을 포함하는, 이동 통신 단말 제어 방법.
제3항에 있어서,

상기 정적인 상태에 있는 것으로 탐지된 상기 카메라 뷰의 이미지를 기록하기 전에, 상기 핸드-헬드 흔들림 모델은 공간적인 변화들을 탐지하는 것과 특정 시간 간격들 동안에 상기 카메라 뷰 내에서 공간적인 변화가 없다는 것을 탐지하는 것을 포함하는 트레이닝 시퀀스에 의해 결정되는, 이동 통신 단말 제어 방법.
제1항 내지 제4항 중의 어느 한 항에 있어서, 상기 방법은,

상기 카메라 뷰의 이미지를 기록하기 이전에,

- 상기 서브-이미지의 추출이 미리 결정된 공간적인 스케일 (scale)을 가지는 추출된 서브-이미지의 결과를 낳도록 상기 카메라 뷰를 줌하는 단계;를 더 포함하는, 이동 통신 단말 제어 방법.
제1항 내지 제5항 중의 어느 한 항에 있어서,

상기 이미지 기록 모드는,

상기 카메라 뷰를 디스플레이하는 동안에는 제1 공간적인 이미지 스케일이 사용되며,

상기 정적인 상태에 있는 것으로 탐지된 상기 카메라 뷰의 이미지를 기록하는 동안에는 제2 공간적인 이미지 스케일이 사용되도록 하는 것인, 이동 통신 단말 제어 방법.
제1항 내지 제6항 중의 어느 한 항에 있어서, 상기 방법은,

- 상기 인식된 심볼들의 시퀀스를 프로세스하는 단계;를 더 포함하며,

상기 프로세스하는 단계는 적어도 단어들의 제1 데이터베이스에 액세스하는 것을 포함하는 번역 프로세스를 구비하는, 이동 통신 단말 제어 방법.
제7항에 있어서,

상기 번역 프로세스는 정확한 번역, 퍼지 (fuzzy) 번역 및 단어 단위 (word-by-word) 번역의 세 단계 절차 중의 적어도 하나의 단계를 포함하는, 이동 통신 단말 제어 방법.
제8항에 있어서,

제1 데이터베이스는 복합 아이템들을 나타내는 단어들을 포함하며 제2 데이터베이스는 상기 제1 데이터베이스 내의 복합 아이템들의 성분 (ingredient)들을 나타내는 단어들을 포함하는, 이동 통신 단말 제어 방법.
제9항에 있어서,

상기 번역 프로세스는 레스토랑 메뉴 단어들의 번역을 포함하는, 이동 통신 단말 제어 방법.
제어 수단; 및

카메라;를 포함하는 이동 통신 단말로서,

카메라 뷰가 디스플레이되는 동안의 이미지 기록 모드에서 상기 제어 수단과 카메라는,

- 사용자가 상기 카메라 뷰를 조정하기 용이하도록 구성된 안내 패턴을 디스플레이하고;

- 상기 카메라 뷰가 정적인 상태에 있는가를 탐지하고;

- 정적인 상태에 있는 것으로 탐지된 상기 카메라 뷰의 이미지를 기록하고;

- 상기 기록된 이미지에서 사진 엘리먼트들 (picture element)의 어레이를 포함하는 서브-이미지를 추출하고 [디스플레이되고 있는 상기 안내 패턴과 대응하는 상기 기록된 이미지 내에 상기 서브-이미지가 위치함];

- 상기 추출된 서브-이미지 상에 광학 문자 인식 프로세스를 실행하여 심볼들의 시퀀스를 산출하며; 그리고

- 상기 인식된 심볼들의 시퀀스를 디스플레이할 수 있도록 구성된, 이동 통 신 단말.
실행되면 제1항 내지 제10항 중의 어느 한 항의 방법을 실행하는 소프트웨어 명령어들을 포함하는, 컴퓨터 프로그램.