KR101440887B1 - 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치 - Google Patents

영상 및 음성 정보를 이용한 명함 인식 방법 및 장치 Download PDF

Info

Publication number
KR101440887B1
KR101440887B1 KR1020110141700A KR20110141700A KR101440887B1 KR 101440887 B1 KR101440887 B1 KR 101440887B1 KR 1020110141700 A KR1020110141700 A KR 1020110141700A KR 20110141700 A KR20110141700 A KR 20110141700A KR 101440887 B1 KR101440887 B1 KR 101440887B1
Authority
KR
South Korea
Prior art keywords
based text
image
information
voice
item
Prior art date
Application number
KR1020110141700A
Other languages
English (en)
Other versions
KR20130073709A (ko
Inventor
길진세
장기숭
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020110141700A priority Critical patent/KR101440887B1/ko
Publication of KR20130073709A publication Critical patent/KR20130073709A/ko
Application granted granted Critical
Publication of KR101440887B1 publication Critical patent/KR101440887B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

영상 정보 및 음성 정보로부터 명함에 기재된 개인 정보를 인식하기 위한 명함 인식 방법 및 장치가 개시된다. 명함 인식 방법은 적어도 하나의 항목으로 이루어진 명함 소지자의 개인 정보를 포함하는 명함을 촬영하여 영상 정보를 획득하고, 사용자로 하여금 명함에 포함된 개인 정보를 읽도록 유도하여 음성 정보를 획득하는 영상 및 음성 정보 획득 단계, 획득된 영상 정보에 소정의 영상 인식 기법을 적용하여 영상 정보에 포함된 텍스트를 인식함으로써 영상 기반 텍스트를 획득하는 영상 기반 텍스트 획득 단계, 획득된 음성 정보에 소정의 음성 인식 기법을 적용하여 음성 정보에 포함된 텍스트를 인식함으로써 음성 기반 텍스트를 획득하는 음성 기반 텍스트 획득 단계, 영상 기반 텍스트 및 음성 기반 텍스트를 상호 비교하여 일치하는 항목을 식별하고 일치하는 항목에 대한 개인 정보를 결정하는 일치 항목 결정 단계, 및 일치되지 않는 항목에 대해서 개인 정보를 결정하는 비일치 항목 결정 단계를 포함한다. 본 발명에 의하여, 명함을 촬영한 영상 정보 뿐만아니라 사용자가 명함을 읽을때 생성되는 음성 정보를 함께 고려하여 명함을 인식함으로써, 명함 인식 정확도가 현저히 향상된다.

Description

영상 및 음성 정보를 이용한 명함 인식 방법 및 장치{Method and apparatus of recognizing business card using image and voice information}
본 발명은 명함 인식 기술에 관한 것으로서, 특히, 명함을 촬영하여 얻은 영상 정보 및 사용자가 명함을 읽음으로써 얻은 음성 정보로부터 각각 텍스트를 추출하고, 추출된 텍스트를 비교함으로써 영상 정보 및 음성 정보가 일치하는 항목에 대한 개인 정보를 정확하게 확정할 수 있는 명함 인식 장치 및 명함 인식 방법에 관한 것이다.
기술의 발전에 힘입어 스마트 폰 또는 태블릿 PC와 같은 스마트 휴대 장치의 기능이 현저히 향상되고 있으며, 이러한 스마트 휴대 장치들이 널리 보급되고 있다. 스마트 휴대 장치는 이동하는 컴퓨터와 같은 것으로서, 사용자의 개인 정보는 물론, 사용자의 현재 위치 등에 대한 정보를 이용하여 다양한 서비스를 제공할 수 있다. 또한, 스마트 휴대 장치에서 이용될 수 있는 다양한 애플리케이션들이 개발되어 사용자는 더욱 편리하게 생활을 영위할 수 있다.
이와 같은 애플리케이션 중 하나는 명함 인식 애플리케이션이다. 따라서 사용자들은 명함을 촬영한 정보를 명함 인식 애플리케이션으로 제공함으로써, 명함의 다양한 항목에 대한 정보를 직접 입력하지 않고도 텍스트화하여 저장할 수 있다.
그런데, 종래 기술에 의한 명함 인식 기술에서는 스마트폰이나 스캐너를 통해 광학정보를 받아들여서 시스템에서 유의미한 정보를 읽어 들이는 방식을 취하고 있다. 스마트 휴대 장치에서 명함을 인식하기 위하여 다양한 명함 인식 기술들이 적용되고 있는데, 이러한 종래 기술에서는 명함을 촬영한 영상 정보로부터 텍스트를 추출하고, 추출된 텍스트가 어느 항목에 속하는지 판단하고 있다.
따라서, 명함 인식 애플리케이션의 정확도는 영상 정보로부터 텍스트를 추출하는 기술의 정확도에 따라 크게 좌우된다. 그런데, 개성화 시대가 도래함에 따라 명함에는 다양한 개인 정보가 포함되고 있으며, 특히, 개성을 강조하기 위한 다양한 서체나 이미지가 명함에 널리 이용되고 있다. 따라서, 다양한 서체와 이미지를 정확하게 인식해 내기는 매우 곤란하며, 결과적으로 명함 인식 애플리케이션의 인식 정확도가 떨어지는 단점이 있다.
그러므로, 명함 인식 기술의 정확도를 높이기 위한 기술이 절실히 요구된다.
본 발명의 목적은 명함을 인식할 때 명함을 촬영한 영상 정보 뿐만 아니라, 사용자가 명함을 읽을 때 생성되는 음성 정보를 함께 고려함으로써, 명함 인식 정확도를 현저히 향상시키는 명함 인식 방법을 제공하는 것이다.
또한, 본 발명의 목적은, 영상 정보 및 음성 정보로부터 각각 텍스트를 인식하고, 인식된 텍스트를 상호 비교하는 매치메이킹 알고리즘(matchmaking algorithm)을 이용함으로써, 상호 일치하는 항목에 대한 인식률을 향상시킬 뿐만 아니라, 비일치 항목에 대해서도 사용자가 직접 입력하거나 선택하도록 할 수 있는 명함 인식 장치를 제공하는 것이다.
상기와 같은 목적들을 달성하기 위한 본 발명의 일면은, 적어도 하나의 항목으로 이루어진 명함 소지자의 개인 정보를 포함하는 명함을 촬영하여 영상 정보를 획득하고, 사용자로 하여금 명함에 포함된 개인 정보를 읽도록 유도하여 음성 정보를 획득하는 영상 및 음성 정보 획득 단계, 획득된 영상 정보에 소정의 영상 인식 기법을 적용하여 영상 정보에 포함된 텍스트를 인식함으로써 영상 기반 텍스트(image based text)를 획득하는 영상 기반 텍스트 획득 단계, 획득된 음성 정보에 소정의 음성 인식 기법을 적용하여 음성 정보에 포함된 텍스트를 인식함으로써 음성 기반 텍스트(voice based text)를 획득하는 음성 기반 텍스트 획득 단계, 영상 기반 텍스트 및 음성 기반 텍스트를 상호 비교하여 일치하는 항목을 식별하고 일치하는 항목에 대한 개인 정보를 결정하는 일치 항목 결정 단계, 및 일치되지 않는 항목에 대해서 개인 정보를 결정하는 비일치 항목 결정 단계를 포함하는 것을 특징으로 하는 영상 및 음성 정보를 이용한 명함 인식 방법에 관한 것이다. 본 발명에 의한 명함 인식 방법은 웹메일 주소, 이동 전화 주소록, 및 메신저 서비스 주소록에 등록된 구성원들의 주소록 데이터를 통합하여 저장하는 통합 주소록 데이터베이스에, 결정된 개인 정보를 저장하는 통합 주소록 저장 단계를 더 포함하는 것이 바람직하다. 특히, 영상 기반 텍스트 획득 단계는, 패턴 정합법(pattern matching) 및 구조 분석법(structure analysis) 중 적어도 하나의 기법을 이용하여 영상 정보로부터 영상 기반 텍스트를 획득하며, 음성 기반 텍스트 획득 단계는, 음성 정보를 주파수 분석하여 음소를 식별하고 식별된 음소를 조합하여 음성 기반 텍스트를 획득하는 것을 특징으로 한다. 바람직하게는, 일치 항목 결정 단계는, 영상 기반 텍스트 및 음성 기반 텍스트를 수신하는 단계, 소정의 매치메이킹 알고리즘(matchmaking algorithm)을 적용하여 영상 기반 텍스트 및 음성 기반 텍스트를 상호 비교하는 단계, 비교 결과로부터 상호 일치하는 항목을 식별하는 단계, 및 일치된 항목에 상응하는 영상 기반 텍스트 또는 음성 기반 텍스트를 해당 항목에 상응하는 개인 정보로서 결정하는 단계를 포함하는 것을 특징으로 한다. 더 나아가, 비일치 항목 결정 단계는 영상 기반 텍스트 또는 음성 기반 텍스트에서 일치 항목을 제외한 항목에 대한 개인 정보를 수신하는 단계, 및 수신된 개인 정보를 해당 비일치 항목에 대한 개인 정보로서 결정하는 단계를 포함하는 것을 특징으로 한다.
상기와 같은 목적들을 달성하기 위한 본 발명의 다른 면은, 적어도 하나의 항목으로 이루어진 명함 소지자의 개인 정보를 포함하는 명함을 촬영하여 영상 정보를 획득하는 카메라, 사용자로 하여금 명함에 포함된 개인 정보를 읽도록 유도하여 음성 정보를 획득하는 마이크, 획득된 영상 정보에 소정의 영상 인식 기법을 적용하여 영상 정보에 포함된 텍스트를 인식함으로써 영상 기반 텍스트(image based text)를 획득하는 영상 기반 텍스트 획득부, 획득된 음성 정보에 소정의 음성 인식 기법을 적용하여 음성 정보에 포함된 텍스트를 인식함으로써 음성 기반 텍스트(voice based text)를 획득하는 음성 기반 텍스트 획득부, 영상 기반 텍스트 및 음성 기반 텍스트를 상호 비교하여 일치하는 항목을 식별하고 일치하는 항목에 대한 개인 정보를 결정하는 일치 항목 결정부, 및 일치되지 않는 항목에 대해서 개인 정보를 결정하는 비일치 항목 결정부를 포함하는 것을 특징으로 하는 영상 및 음성 정보를 이용한 명함 인식 장치에 관한 것이다. 특히, 본 발명에 의한 명함 인식 장치는 웹메일 주소, 이동 전화 주소록, 및 메신저 서비스 주소록에 등록된 구성원들의 주소록 데이터를 통합하여 저장하는 통합 주소록 데이터베이스에, 결정된 개인 정보를 저장하는 통합 주소록 관리부를 더 포함하는 것을 특징으로 한다. 더 나아가, 영상 기반 텍스트 획득부는, 패턴 정합법(pattern matching) 및 구조 분석법(structure analysis) 중 적어도 하나의 기법을 이용하여 영상 정보로부터 영상 기반 텍스트를 획득하고, 음성 기반 텍스트 획득부는, 음성 정보를 주파수 분석하여 음소를 식별하고 식별된 음소를 조합하여 음성 기반 텍스트를 획득하는 것을 특징으로 한다. 특히, 일치 항목 결정부는, 영상 기반 텍스트 및 음성 기반 텍스트를 수신하고, 소정의 매치메이킹 알고리즘을 적용하여 영상 기반 텍스트 및 음성 기반 텍스트를 상호 비교하며, 비교 결과로부터 상호 일치하는 항목을 식별하고, 일치된 항목에 상응하는 영상 기반 텍스트 또는 음성 기반 텍스트를 해당 항목에 상응하는 개인 정보로서 결정하는 것이 바람직하다. 더 나아가, 비일치 항목 결정부는 영상 기반 텍스트 또는 음성 기반 텍스트에서 일치 항목을 제외한 항목에 대한 개인 정보를 수신하고, 수신된 개인 정보를 해당 비일치 항목에 대한 개인 정보로서 결정하는 것이 바람직하다.
본 발명에 의하여, 명함을 촬영한 영상 정보 뿐만 아니라 사용자가 명함을 읽을 때 생성되는 음성 정보를 함께 고려하여 명함을 인식함으로써, 명함 인식 정확도가 현저히 향상된다.
또한, 본 발명에 의하여, 영상 정보 및 음성 정보로부터 각각 인식된 텍스트를 상호 비교하여 상호 일치하는 항목에 대한 인식률을 향상시킬 뿐만 아니라, 비일치 항목에 대해서도 사용자가 직접 입력하거나 선택하도록 할 수 있기 때문에 사용자가 용이하게 명함을 등록하고 관리할 수 있다.
도 1은 본 발명의 일면에 의한 명함 인식 방법의 일 실시예를 개념적으로 설명하는 흐름도이다.
도 2는 본 발명에 의한 명함 인식 방법에서 일치 항목을 결정하는 과정을 개념적으로 설명하는 흐름도이다.
도 3은 본 발명에 의한 명함 인식 방법에서 비일치 항목에 대한 개인 정보를 결정하는 과정을 설명하는 흐름도이다.
도 4는 본 발명에 의한 명함 인식 방법을 적용한 결과를 예시하는 도면이다.
도 5는 본 발명의 다른 면에 의한 명함 인식 장치를 개념적으로 나타내는 블록도이다.
도 6은 본 발명에 의한 명함 인식 장치에 포함되는 영상 기반 텍스트 획득부를 예시하는 블록도이다.
도 7은 본 발명에 의한 명함 인식 장치에 포함되는 음상 기반 텍스트 획득부를 예시하는 블록도이다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로서, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 ...부, ...기, 모듈, 블록 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일면에 의한 명함 인식 방법의 일 실시예를 개념적으로 설명하는 흐름도이다.
도 1을 참조하면, 우선, 명함 인식 장치를 이용하여 명함에 대한 영상 정보 및 사용자의 음성 정보를 획득한다(S110).
영상 정보를 획득하는 데에는 카메라와 같은 촬상 장치가 이용될 수 있다. 또한, 음성 정보를 획득하기 위하여 명함 인식 장치의 디스플레이에 사용자에게 명함을 읽을 것을 지시하는 메시지를 출력하고, 사용자가 명함을 읽는 동안 마이크를 이용하여 음성 정보를 획득할 수 있다.
획득된 영상 정보 및 음성 정보는 명함 인식 장치의 영상 기반 텍스트 획득부 및 음성 기반 텍스트 획득부로 전달된다. 영상 기반 텍스트 획득부에 대해서는 도 6을 이용하여 상세히 후술된다. 그러므로, 명세서의 간략화를 위하여 중복되는 설명이 생략된다.
그러면, 영상 기반 텍스트 획득부는 소정의 OCR(Optical Character Recognition) 기법을 수신된 영상 정보에 적용하여, 영상 정보로부터 영상 기반 텍스트를 획득한다(S120). 본 발명에서 OCR 기법이란 광학 정보로부터 문자 정보를 추출하는 기술이다. 이를 위해서 패턴 정합법(pattern matching), 구조 분석법(structure analysis), 특징 정합법(feature matching) 및 획 분석법(stroke analysis) 등과 같은 다양한 기술이 적용될 수 있다. 본 발명에서는 종래의 모든 OCR 기법을 이용하여 명함의 영상 정보로부터 영상 기반 텍스트를 획득한다.
특히, 패턴 인식법이란 패턴 인식의 한 분야로 인쇄되거나 손으로 쓴 문자를 자동으로 판독 식별하여 컴퓨터가 이해할 수 있는 코드로 전환하는 기술로써 컴퓨터의 입력 작업을 키보드를 통하지 않고 직접 수행할 수 있다. 일반적인 문자 인식 장치는 광전변환장치, 인식 처리 장치, 기억 장치, 및 출력 장치로 구성된다. 광전 변환 장치는 지면의 문자를 전압 파형으로 변환하고, 기억 장치는 인식 처리 장치를 제어하는 연산 제어 프로그램과, 인식한 형상을 특정한 형태로 표현한 데이터를 저장한다.
또한, 음성 기반 텍스트 획득부는 소정의 음성 인식 기법을 수신된 음성 정보에 적용하여, 음성 정보로부터 음성 기반 텍스트를 획득한다(S130). 음성 기반 텍스트를 획득하기 위하여, 주파수 분석법 및 패턴 인식 기술 등이 적용될 수 있으며, 본에서는 음성 기반 텍스트를 획득하기 위하여 종래의 모든 음성 인식 기법을 이용한다.
음성 인식 기술은 사용자 등이 입력하는 음성 신호를 소정 언어에 대응되는 신호로 인식하는 기술이다. 음성 인식을 위해서는, 우선 인식 대상이 되는 음성 신호의 구간을 추출하여야 한다. 음성 인식을 위하여 인식 대상이 되는 음성 신호가 포함되어 있는 신호 구간을 추출하는 단계를 음성 인식 전처리 단계라 한다. 또한, 음성 인식의 인식율 향상을 위하여, 입력된 음성 신호에 섞여 있는 잡음을 제거하여 순수한 음성 신호를 추출하는 기술인 음성 향상 기술(speech enhancement)이 음성 인식 전처리 단계에서 이용될 수 있다. 음성 향상 기술은 세부적으로, 정적 잡음을 제거하는 잡음 억제(noise suppression), 잡음과 음성 신호가 섞이는 과정을 역으로 처리하는 신호원 분리(source separation), 잡음의 방향이 원하는 음성 신호의 방향과 다르다고 가정하고 소정 방향에 따라서 신호를 필터링하는 마이크로 폰 배열 처리(microphone array processing) 등을 예로 들 수 있다.
음성 인식기는 음성 파형이 주어지게 되면, 매 1/100 초 단위로 그 시점에 있는 약 0.02초 정도 길이의 음편(音片)을 가져와서 분석하게 된다. 짧은 길이의 음성 파형은 여러 단계의 신호 처리를 거치게 되고 최종적으로 10개 이상의 숫자들이 나오게 되는데, 이 숫자들은 바로 그 시점에서의 성대와 성도의 상태를 나타내는 숫자들이다. 한편, 음성 인식 측면에서 보면, 사람은 어떠한 음높이의 '학교'라는 말을 들어도 모두 '학교'라는 언어 정보를 추출한다. 즉, 성대의 진동 주기는 언어 정보와 무관하다. 그러므로 그 숫자 중에서 성대 진동과 관련된 숫자들은 버리고 더이상 사용하지 않는다. 따라서 음성 인식 기술은 언어와 유관계한 정보들을 시간 순으로 나열해 놓고 해당 언어를 추출하는 기술이다.
음성 기반 텍스트 획득부에 대해서는 도 7을 이용하여 상세히 후술된다. 그러므로, 명세서의 간략화를 위하여 중복되는 설명이 생략된다.
본 발명에서 영상 기반 텍스트는 영상 정보를 인식하여 추출한 텍스트 정보를 의미하며, 음성 기반 텍스트는 음성 정보를 인식하여 추출한 텍스트 정보를 의미한다.
영상 및 음성 기반 텍스트가 추출되면, 비교를 위하여 추출된 영상 및 음성 기반 텍스트를 임시 저장한다(S140).
그러면, 임시 저장된 영상 기반 텍스트 및 음성 기반 텍스트에 일치하는 항목이 존재하는지 여부를 판단한다(S150).
본 명세서에서, 명함이란 개인의 이름, 주소, 직장명, 직장 주소, 전화 번호 등의 다양한 개인 정보를 나타내는 텍스트가 인쇄된 것을 의미하며, 명함은 개인 정보를 구성하는 다양한 항목들을 포함한다. 또한, 일치 항목이란 영상 기반 텍스트 및 음성 기반 텍스트에 포함된 항목들 중 인식된 개인 정보가 일치하는 항목을 의미하며, 비일치 항목이란 명함에 표시된 개인 정보 중에서 영상 기반 텍스트 및 음성 기반 텍스트에서 일치 항목을 제외한 항목들을 의미한다.
일치 항목이 존재하는 것으로 판단되면, 일치 항목에 해당되는 영상 기반 텍스트 또는 음성 기반 텍스트를 해당 항목의 개인 정보로 결정한다(S160). 일치 항목에 대해서는 영상 기반 텍스트 및 음성 기반 텍스트가 동일하므로, 이들 중 어느 것을 개인 정보로 결정해도 무방하다.
그러나, 영상 기반 텍스트 및 음성 기반 텍스트가 모두 일치하는 것은 아니다. 이것은 영상 인식 기법 및 음성 인식 기법이 완벽하지 않기 때문이다. 그러므로, 명함으로부터 인식된 영상 및 음성 기반 텍스트에는 비일치 항목이 존재할 가능성이 있다. 따라서, 비일치 항목에 대해서는 개인 정보를 직접 수신한다(S170). 이때, 개인 정보를 수신하는 방식에 대해서는 도 3을 이용하여 상세히 후술된다. 그러므로, 명세서의 간략화를 위하여 중복되는 설명이 생략된다.
이와 같이 비일치 항목에 대한 개인 정보가 수신되면, 수신된 개인 정보를 저장한다(S180).
이상과 같이, 본 발명에 의한 명함 인식 방법을 이용하면 수집한 영상 정보와 음성 정보를 대조하여, 성명, 핸드폰 번호, 전자메일 주소와 같은 개인 정보에 대한 인식율을 극대화할 수 있는 효과가 있다.
도 2는 본 발명에 의한 명함 인식 방법에서 일치 항목을 결정하는 과정을 개념적으로 설명하는 흐름도이다.
도 2를 참조하면, 우선 영상 기반 텍스트 획득부 및 음성 기반 텍스트 획득부로부터 영상 및 음성 기반 텍스트를 수신한다(S210). 수신된 영상 및 음성 기반 텍스트를 비교를 위하여 일시 저장할 수 있음은 전술된 바와 같다.
영상 및 음성 기반 텍스트가 추출되면, 추출된 영상 및 음성 기반 텍스트를 항목별로 분류한다(S220). 이 과정을 통하여, 명함에 적혀있는 개인 정보를 각 항목별로 나누어 비교할 수 있다. 예를 들어, 명함에 기재된 개인 정보가 소지자의 성명인지 주소인지 여부가 판단된다.
개인 정보가 인식되면, 인식된 개인 정보를 항목별로 비교한다(S230). 그리하여, 비교 결과가 일치하는지 여부를 판단한다(S240).
만일 비교 결과가 일치한다면, 해당 항목을 일치 항목으로 결정한다(S250). 반면에, 비교 결과가 일치하지 않는다면, 해당 항목을 비일치 항목으로 결정한다(S260).
그러면, 아직 판단하지 않은 잔여 개인 정보가 존재하는지 판단하여(S270), 잔여 항목이 없다면 종료한다.
위와 같은 과정을 거치면 영상 및 음성 기반 텍스트에 속한 개인 정보들이 일치 항목 및 비일치 항목 중 하나에 속하게 된다.
도 2와 같이, 영상 및 음성 기반 텍스트로부터 추출된 개인 정보 중에서 일치 항목에 속하는 개인 정보에 대해서는 인식된 텍스트를 해당 개인 정보로 확정하여 저장한다. 그러므로, 텍스트의 인식 정확도가 향상된다.
도 3은 본 발명에 의한 명함 인식 방법에서 비일치 항목에 대한 개인 정보를 결정하는 과정을 설명하는 흐름도이다.
도 3을 참조하면, 우선 명함에 기재된 개인 정보 중에서 일치 항목을 제외한 비일치 항목들을 수신한다(S310). 비일치 항목에 속하는 개인 정보에 대해서는 영상 기반 텍스트 및 음성 기반 텍스트로부터 자동으로 확정할 수 없으므로, 사용자가 직접 입력하거나 영상 기반 텍스트 및 음성 기반 텍스트 중 하나를 선택하도록 해야 한다.
우선, 영상 기반 텍스트 및 음성 기반 텍스트 중 하나가 정확한 개인 정보를 포함하고 있는 경우에 대해서 설명한다. 그러면, 사용자는 자신이 직접 개인 정보를 입력할 필요없이 인식된 결과 중 하나를 선택하면 족하다.
그러므로, 우선 사용자가 영상 및 음성 기반 텍스트 중에서 하나를 선택하는지 여부를 판단한다(S330). 만일 사용자가 영상 및 음성 기반 텍스트 중에서 하나를 선택한다면, 선택된 텍스트를 해당 항목에 대한 개인 정보로서 결정한다(S340).
그러나, 영상 및 음성 기반 텍스트 중 어떤 것도 정확한 개인 정보를 포함하지 못할 수 있다. 이 경우에는 부득이하게 사용자로부터 정확한 개인 정보를 수신하여야 한다. 그러므로, 비일치 항목에 대해서는 해당 항목에 대한 개인 정보를 사용자로부터 수신한다(S350). 이러한 과정은 영상 및 음성 기반 텍스트에 잔여 항목이 존재할 때까지 반복된다(S360).
도 4는 본 발명에 의한 명함 인식 방법을 적용한 결과를 예시하는 도면이다.
도 4를 참조하면, 명함으로부터 인식한 영상 기반 텍스트(415) 및 음성 기반 텍스트(410)가 각각 항목(405) 별로 나타나 있다.
우선, 도 4에 도시된 결과에는 일치 항목이 두 개 존재한다는 것을 알 수 있다. 즉, '한글 이름' 항목(420) 및 Fax 항목(440)이 일치 항목이라는 것을 알 수 있다. 그러나, 나머지 항목들은 영상 및 음성 기반 텍스트가 일치하지 않으므로 비일치 항목이다.
'영문 이름' 항목을 살펴보면, 'Hong Gil Dong' 이라는 음성 기반 텍스트 정보(430)가 정확하고, 'Homg Gil Dong' 이라는 영상 기반 텍스트 정보(435)가 부정확하다는 것을 알 수 있다. 따라서, 사용자는 음성 기반 텍스트 정보(430) 및 영상 기반 텍스트 정보(435) 중에서 음성 기반 텍스트 정보(430)를 '영문 이름' 항목에 대한 개인 정보로서 결정할 수 있다.
이같은 상황은, '주소' 항목에도 동일하다. 즉, '주소' 항목에서, '서울시 서초구 서초동' 이라는 음성 기반 텍스트 정보(450)가 정확하고, '서울시 서호구 서호동' 이라는 영상 기반 텍스트 정보(455)가 부정확하다는 것을 알 수 있다. 따라서, 사용자는 음성 기반 텍스트 정보(450)를 '주소' 항목에 대한 개인 정보로서 결정할 수 있다.
반면에, '회사명' 항목을 살펴보면, '유밀 기게'라는 음성 기반 텍스트 정보(470)가 부정확하고, '유밀 기계'라는 영상 기반 텍스트 정보(475)가 부정확하다는 것을 알 수 있다. 따라서, 사용자는 영상 기반 텍스트 정보(470) 및 음성 기반 텍스트 정보(475) 중에서 영상 기반 텍스트 정보(475)를 '회사명' 항목에 대한 개인 정보로서 결정할 수 있다.
또한, '이메일' 항목을 살펴보면, 'gdhong@aaa.com' 이라는 음성 기반 텍스트 정보(460) 및 'gdhond@bbb.com'이라는 영상 기반 텍스트 정보(465)가 모두 부정확할 수 있다. 따라서, '이메일 항목'에 대해서는 영상 및 음성 기반 텍스트 중 어느 것도 선택하지 않고 사용자가 직접 입력하도록 유도할 수 있다.
도 4에 도시된 바와 같이, 본 발명에 의한 명함 인식 방법을 이용하면 영상 기반 텍스트 및 음성 기반 텍스트로부터 일치 항목이 선택되고, 비일치 항목에 대해서는 사용자가 정확한 개인 정보를 선택하거나 직접 입력하도록 허용하기 때문에 인식 정확도가 현저히 향상된다.
도 5는 본 발명의 다른 면에 의한 명함 인식 장치를 개념적으로 나타내는 블록도이다.
도 5를 참조하면, 본 발명에 의한 명함 인식 장치(700)는 카메라(510), 마이크(520), 영상 기반 텍스트 획득부(530), 음성 기반 텍스트 획득부(540), 일치 항목 결정부(550), 비일치 항목 결정부(560), 및 통합 주소록 관리부(570)를 포함한다.
카메라(510)는 명함을 촬영하여 영상 정보를 획득하고, 획득된 영상 정보를 영상 기반 텍스트 획득부(530)로 제공한다. 카메라는 스마트 휴대 장치에 내장된 카메라일 수도 있고, 컴퓨터에 부착된 PC용 카메라일 수도 있다.
마이크(520)는 사용자가 명함에 포함된 개인 정보를 읽을 때 음성 정보를 획득한다. 전술된 바와 같이, 음성 인식률을 향상시키기 위하여 음성 신호를 증폭하고 잡음을 제거하는 등 전처리 과정을 거칠 수 있음은 전술된 바와 같다.
영상 기반 텍스트 획득부(530)는 카메라(510)에 의하여 획득된 영상 정보에 영상 인식 기법을 적용하여 영상 정보에 포함된 텍스트를 인식함으로써 영상 기반 텍스트(image based text)를 획득한다. 획득된 영상 기반 텍스트에는 다양한 항목별 개인 정보가 포함될 수 있는 것은 전술된 바와 같다.
또한, 음성 기반 텍스트 획득부(540)는 마이크(520)에 의하여 획득된 음성 정보에 음성 인식 기법을 적용하여 음성 정보에 포함된 텍스트를 인식함으로써 음성 기반 텍스트(voice based text)를 획득한다. 영상 기반 텍스트와 마찬가지로 획득된 음성 기반 텍스트에는 다양한 항목별 개인 정보가 포함될 수 있다.
그러면, 일치 항목 결정부(550)는 영상 기반 텍스트 및 음성 기반 텍스트를 상호 비교하여 일치하는 항목을 식별하고 일치하는 항목에 대한 개인 정보를 결정한다. 이를 위하여, 일치 항목 결정부(550)는 우선 영상 기반 텍스트 및 음성 기반 텍스트를 항목별로 분류하고, 동일한 항목에 속하는 텍스트를 비교한다. 일치 항목에 대해서는 영상 및 음성 기반 텍스트 중 어느 것을 선택하여 개인 정보로 저장한다.
본 명세서에서 ‘매치메이킹’이란 최적의 검색 결과를 도출해 내기 위하여 도입된 것으로서, 의미론적 웹 검색(semantic web search)에서 널리 이용되며, 질의에 대한 결과가 질의와 관련되는 관련성(relevance)가 높아지도록 하기 위한 알고리즘을 의미한다. 즉, 본 발명에서는 웹 서비스 요청과 웹 서비스 결과 간의 일치 여부를 판단하는 매치메이킹 알고리즘을 영상 기반 텍스트 및 음성 기반 텍스트에 일치하는 항목이 존재하는지 여부를 판단하는데 이용할 수 있다. 관련성을 높일 수 있는 매치메이킹을 위해서는 종래의 텍스트 기반의 단순 비교 기법으로는 충분하지 않고, 상황(context) 정보를 고려하는 것이 필요하고, 이를 위하여 의미론적 분석이 필요할 수 있다.
매치메이킹을 위해서는, 일치 요소를 항목별로 분류하여 정의하고, 각각의 항목별로 적합한 알고리즘을 상이하게 적용할 수 있다. 예를 들어, ‘한글 성명’ 항목에 대해서는 인식 대상을 한글에 한정하여 인식 및 비교하고, ‘전화 번호’ 항목에서는 인식 대상을 숫자에 한정하여 인식 및 비교하는 것이 바람직하다. 마찬가지로, ‘전자 우편 주소’ 항목에 대해서는 인식 대상을 숫자 및 영어 알파벳에 한정하여 인식 및 비교하는 것이 바람직하다.
일치 항목에 대한 개인 정보가 저장되면, 비일치 항목 결정부(560)는 일치되지 않는 항목에 대해서 개인 정보를 결정한다. 비일치 항목에 대한 개인 정보는 사용자로부터 직접 입력될 수도 있고, 영상 기반 텍스트 또는 음성 기반 텍스트로부터 선택될 수도 있음은 도 4를 이용하여 전술된 바와 같다.
또한, 비일치 항목 결정부(560)는 사용자가 어느 항목에 대한 개인 정보를 수정하는지를 지정하지 않고, 단순히 잘못 인식된 항목을 다시 읽어주면 음성 신호로부터 텍스트를 인식하고, 새로 인식된 텍스트와 종래 인식된 음성 기반 텍스트 또는 영상 기반 텍스트와의 일치도에 따라 수정하고자 하는 항목을 자동으로 결정할 수도 있다.
예를 들어, '홍길동'이라는 성명을 영상 인식을 통하여 '홍김동' 이라고 인식했을 경우, 사용자는 '성명' 항목을 지정할 필요가 없이 '홍길동'이라고 읽기만 하면 된다. 그러면, 비일치 항목 결정부(560)는 새로 인식된 음성 기반 텍스트인 '홍길동'이 종래 인식된 음성 기반 텍스트 및 종래 인식된 영상 기반 텍스트 중 어느 항목에 해당하는 개인 정보와 유사한지 판단한다. 그러면, 비일치 항목 결정부(560)는 새로 인식된 '홍길동'이 종래 인식된 영상 기반 텍스트의 '성명' 항목에 해당하는 개인 정보인 '홍김동'과 가장 유사하다고 결정하고, 새로 입력된 개인 정보가 '성명' 항목에 해당된다는 것을 판단할 수 있다.
일치 항목 결정부(550) 및 비일치 항목 결정부(560)에 의하여 결정된 개인 정보는 통합 주소록 관리부(570)에 의하여 통합 주소록에 저장된다. 본 명세서에서 '통합 주소록'이란 다양한 플랫폼에서 동작하는 여러 서비스에서 이용되는 개인 정보를 모두 포함하는 주소록으로서, 다양한 서비스에 의하여 공통으로 참조되는 주소록을 의미한다. 통합 주소록은 복수의 사용자들 각각에 의하여 관리되는 사용자별 통합 주소록들을 포함한다.
그리고, 사용자별 통합 주소록은 사용자별 통합 주소록에 포함되는 개인 정보들의 소유자인 '구성원'을 포함한다. 예를 들어, 어느 사용자의 사용자별 통합 주소록에 "영희" 및 "철수"라는 두 사람에 대한 이메일 주소, 전화 번호, 및 실제 주소 등과 같은 개인 정보가 저장된다면, 영희 및 철수가 각각 사용자별 통합 주소록의 구성원이 된다.
사용자별 통합주소록은 관리자에 의하여 관리될 수 있는데, 본 명세서에서 관리자 및 비관리자란 사용자별 통합 주소록 각각의 소유자인 사람 및 소유자가 아닌 사람을 나타낸다. 예를 들어, 사용자 A가 "영희" 및 "철수"를 구성원으로 포함하는 사용자별 통합 주소록(a)을 가지고, 사용자 B가 "양녕" 및 "충녕"을 구성원으로 포함하는 사용자별 통합 주소록(b)을 가진다고 하면, 사용자별 통합 주소록 a에 대하여 관리자는 A가 되고 B는 비관리자가 된다. 반대로, 사용자별 통합 주소록 b에 대하여 관리자는 B가 되고 A는 비관리자가 된다.
본 명세서에서 관리자가 자신의 사용자별 통합 주소록을 관리한다는 것은 통합 주소록 데이터베이스에 저장된 개인 정보 중에서 새로 변경된 개인 정보를 변경시키고, 불필요한 개인 정보를 삭제하며, 신규한 개인 정보를 생성하는 등의 일련의 작업을 수행한다는 것을 의미한다.
통합 주소록 데이터베이스에 저장된 통합 주소록의 구성 요소 중 적어도 하나에 생성, 변경, 및 삭제와 같은 변경이 발생되면, 이러한 변경 이벤트의 발생 여부는 개인 정보가 갱신된 구성원을 포함하는 다른 사용자별 통합 주소록의 관리자에게 통지된다. 개인 정보가 갱신된 구성원의 개인 정보 자체는 반드시 다른 사용자별 통합 주소록의 관리자에게 제공될 필요가 없다. 예를 들어, 'a'라는 구성원이 포함된 통합 주소록 A 및 B가 존재한다고 가정한다. 또한, 통합 주소록 A에 포함된 구성원 'a'의 개인 정보 중 일부가 갱신된다고 가정한다. 이 때, 구성원 'a'의 개인 정보가 변경되었음은 통합 주소록 B의 관리자에게 자동으로 통지한다. 하지만, 변경된 'a'의 개인 정보가 반드시 통합 주소록 B의 관리자에게는 제공될 필요가 없다. 그 이유는, 구성원 'a'의 변경된 개인 정보가 무분별하게 다른 사용자(이 예에서는 B")에게 공개되는 것을 방지하기 위함이다. 이 경우, 통합 주소록 B의 관리자는 구성원 'a'의 개인 정보가 변경되었음만을 통지받게 되고, 필요할 경우 구성원 'a'에게 직접 연락을 취하는 등의 방식으로 'a'의 개인 정보를 직접 얻어낼 수 있다.
하지만, 본 발명에 의한 통합 주소록 관리 방법에서는 통합 주소록 A 및 B의 관리자들 간의 관련성에 따라서는 자동으로 변경된 구성원의 개인 정보를 갱신할 수도 있다. 예를 들어, 통합 주소록 A 및 B의 관리자가 동일한 회사의 같은 부서에 속한 팀원이고 구성원 'a'는 같은 부서에 속한 다른 팀원이라고 한다. 이 경우, 구성원 'a'의 개인 정보가 변경된다면 이 정보는 같은 팀원들 간에는 공유되는 것이 바람직할 수 있다. 따라서, 통합 주소록 A 및 B의 관리자들 간의 관련성에 따라서는 자동으로 주소록을 갱신할 필요가 있을 수 있다. 본 명세서에서 관리자들 간의 '관련성(relationship)'이란 관리자들 간의 친분, 신분 관계, 친족 관계, 직급 관계 등의 폭넓은 사회 관계를 포함하는 개념이다. 또한, 변경된 주소록의 자동 갱신 여부는 관리자들 간의 관련성뿐만 아니라 구성원과 관리자들 간의 관련성에 따라서도 변경될 수 있다. 예를 들어, 통합 주소록 A 및 B의 관리자들이 같은 부서의 팀원이라고 하고, 구성원 'a'는 통합 주소록 A의 관리자의 배우자라고 가정한다. 구성원 'a'의 개인 정보가 변경될 때, 통합 주소록 A의 관리자는 자신의 배우자의 개인 정보가 굳이 통합 주소록 B의 관리자에게도 통지되는 것을 원하지 않을 수 있다. 따라서, 변경된 개인 정보의 자동 갱신 여부가 통합 주소록의 관리자들 간의 관련성 및 관리자 및 구성원 간의 관련성에 의하여 결정됨으로써, 원치 않는 개인 정보의 유출을 미연에 방지할 수 있다.
이와 같이, 통합 주소록을 이용하여 개인 정보를 관리할 경우, 공유 가능 그룹에 속한 개인 정보가 해당 그룹을 공유하는 모든 사용자에게 공유될 뿐만 아니라, 구성원의 개인 정보 중 일부가 변경되었을 경우, 해당 구성원이 포함된 사용자별 통합 주소록의 관리자에게 이러한 변경 사실이 통지되기 때문에, 관리자는 언제나 최신 정보를 유지할 수 있는 장점을 가진다.
도 6은 본 발명에 의한 명함 인식 장치에 포함되는 영상 기반 텍스트 획득부를 예시하는 블록도이다.
도 6에 포함되는 영상 기반 텍스트 획득부(600)는 기하학적 적합도 산출부(610), 비교부(620), 문자 인식 점수 산출부(630) 및 문자열 검출부(640)로 구성된다.
기하학적 적합도 산출부(610)는 문자열에 대한 기하학적 문자 적합도를 산출하고, 산출한 결과를 비교부(620)로 출력한다. 기하학적 문자 적합도란, 문자들이 갖는 기하학적 특징, 예를 들어, 문자의 가로폭 및 세로 폭이 대체적으로 균일하다는 점, 글자 사이의 간격이 대체적으로 균일하다는 점 등의 특징을 수치화한 것이다.
따라서, 기하학적 적합도 산출부(610)는 문자열 내의 절단된 문자들의 가로폭 변화 정도(width variation), 절단된 문자들의 정방형 정도(squareness) 및 절단된 문자들 사이의 간격을 기초로 하여 기하학적 문자 적합도를 산출할 수 있다. 문자들 사이의 간격은 절단된 문자들 사이의 이격된 거리를 의미한다.
비교부(620)는 기하학적 적합도 산출부(610)에서 산출된 기하학적 문자 적합도와 소정 임계치를 비교하고, 비교한 결과를 문자 인식 점수 산출부(630)로 출력한다. 소정 임계치는 절단된 문자에 대해 기하학적 문자 적합도를 만족하기 위한 최소한도의 값을 의미한다.
문자 인식 점수 산출부(630)는 비교부(620)의 비교된 결과에 응답하여, 소정 임계치를 초과하는 문자열에 대한 문자 인식 점수를 산출하고, 산출한 결과를 문자열 검출부(640)로 출력한다. 이를 위하여, 문자 인식 점수 산출부(630)는 소정 임계치를 초과하는 문자열 내의 절단된 문자 각각에 대한 문자 형식을 분류하고, 분류한 결과를 출력한다.
그러면, 문자열 검출부(640)는 기하학적 적합도 산출부(610)에서 산출된 기하학적 적합도와 문자 인식 점수 산출부(630)에서 산출된 문자 인식 점수를 합산한 값이 최대치를 갖는 하나의 문자열을 검출한다. 검출된 문자열이 영상 기반 텍스트로서 제공된다.
도 6에 예시된 영상 기반 텍스트 획득부(600)를 이용하여, 명함의 영상 정보로부터 영상 기반 텍스트를 획득할 수 있다. 하지만, 도 6에 도시된 영상 기반 텍스트 획득부는 예시적으로 제공된 것일 뿐이며, 본 발명을 한정하는 것은 아니다. 오히려, 문자 인식을 위한 종래 기술이 모두 이용될 수 있음은 전술된 바와 같다.
도 7은 본 발명에 의한 명함 인식 장치에 포함되는 음상 기반 텍스트 획득부를 예시하는 블록도이다.
도 7을 참조하면, 음성 기반 텍스트 획득부(700)는, 음성 입력부(110), 음성 변환부(120), 인식부(130), 클러스터링부(140), 및 변환 규칙 결정부(150)를 포함한다.
음성 입력부(110)는 화자가 발성한 제1음성을 입력받고, 이를 소정의 프레임으로 분할한다. 음성 입력부(110)는 화자가 발성하는 제1음성을 실시간으로 입력받을 수 있고, 외부 서버 등에 이미 저장되어 있었던 제1음성을 수신받을 수도 있다. 음성 입력부(110)는 제1음성을 소정의 시간단위인 프레임으로 분할한다. 프레임은 분할된 음성 신호 또는 음성 신호의 특징을 나타내는 특징값으로서 특징 벡터를 포함할 수 있다.
그러면, 음성 변환부(120)는 제1음성의 분할된 프레임들 각각에 변환 규칙을 적용하여 제2음성의 프레임으로 변환시킨다. 음성 변환부(120)는 제1음성의 잡음 및 왜곡 등을 제거하여 기본 음성과 유사한 특징을 갖는 제2음성을 생성하는 것이다. 여기서, 변환 규칙은 특정 파라미터들에 의해 구체화될 수 있다.
본 명세서에서 프레임을 변환시킨다는 것은 프레임의 음성 신호 자체 또는 프레임의 음성 신호의 특징을 나타내는 특징 벡터를 변환시킨다는 것을 의미한다.
인식부(130)는 변환된 제2음성의 프레임을 인식한다. 인식부(130)는 변환된 제2음성을 음향모델과 비교하여 제2음성의 언어적 의미 내용을 식별하는 것이다.
그러면, 클러스터링부(140)는 분할된 제1음성의 프레임들을 복수의 그룹으로 클러스터링(clustering)한다. 클러스터링하는 이유는, 제1음성의 프레임들 중 유사한 특징을 갖는 프레임들끼리 그룹화하여 각 특징에 적합한 변환 규칙을 적용하기 위함이다.
클러스터링부(140)는 VQ(Vector Quantization) 또는 GMM(Gaussian Mixture Model) 기반의 클러스터링 방식을 이용하여 제1음성의 프레임들을 클러스터링할 수 있다. VQ란, 주어진 표본 데이터 집합을 벡터 공간에서 몇 개의 그룹으로 클러스터링 하는 방법이며, GMM이란, 주어진 표본 데이터 집합의 분포 밀도를 단 하나의 확률 밀도 함수로 모델링하는 방법을 개선한 밀도 추정 방법으로서, 복수 개의 가우시안 확률밀도함수로 데이터의 표본을 모델링하는 방법이다.
이상 설명한 바와 같이, 본 발명에 적용되는 음성 기반 텍스트 획득부(700)는 제1음성의 분할된 프레임들을 복수의 그룹으로 클러스터링하고, 복수의 그룹에 각각 대응되는 변환 규칙을 적용할 수 있다. 그러므로, 각 그룹에 적합한 변환 규칙을 적용하기 때문에 음성 정보로부터 음성 기반 텍스트를 획득하는 정확도가 향상된다.
도 7에 예시된 음성 기반 텍스트 획득부(700)를 이용하여, 명함의 영상 정보로부터 영상 기반 텍스트를 획득할 수 있다. 하지만, 도 6에 도시된 영상 기반 텍스트 획득부는 예시적으로 제공된 것일 뿐이며, 본 발명을 한정하는 것은 아니다. 오히려, 문자 인식을 위한 종래 기술이 모두 이용될 수 있음은 전술된 바와 같다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
또한, 본 발명에 따르는 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 분산 컴퓨터 시스템에 의하여 분산 방식으로 실행될 수 있는 컴퓨터가 읽을 수 있는 코드를 저장할 수 있다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
본 발명은 스마트 휴대 장치를 이용한 명함 인식 기술에 적용될 수 있다.

Claims (12)

  1. 적어도 하나의 항목으로 이루어진 명함 소지자의 개인 정보를 포함하는 명함을 촬영하여 영상 정보를 획득하고, 사용자로 하여금 상기 명함에 포함된 개인 정보를 읽도록 유도하여 음성 정보를 획득하는 영상 및 음성 정보 획득 단계;
    획득된 상기 영상 정보에 소정의 영상 인식 기법을 적용하여 상기 영상 정보에 포함된 텍스트를 인식함으로써 영상 기반 텍스트(image based text)를 획득하는 영상 기반 텍스트 획득 단계;
    획득된 상기 음성 정보에 소정의 음성 인식 기법을 적용하여 상기 음성 정보에 포함된 텍스트를 인식함으로써 음성 기반 텍스트(voice based text)를 획득하는 음성 기반 텍스트 획득 단계;
    상기 영상 기반 텍스트 및 음성 기반 텍스트를 상호 비교하여 일치하는 항목을 식별하고 일치하는 항목에 대한 개인 정보를 결정하는 일치 항목 결정 단계;
    일치되지 않는 항목에 대해서 상기 개인 정보를 결정하는 비일치 항목 결정 단계; 를 포함하고,
    명함으로부터 인식한 상기 영상 기반 텍스트 및 그에 대응하는 상기 음성 기반 텍스트를 디스플레이에 표시하고, 이 경우 상기 일치 항목 결정 단계에서 식별된 일치하는 항목에 대한 개인 정보는 상기 영상 기반 텍스트 또는 상기 음성 기반 텍스트 중 하나의 정보만을 표시하고, 상기 비일치 항목 결정 단계에서 결정된 일치하지 않는 항목에 대한 정보는 상기 영상 기반 텍스트 및 상기 음성 기반 텍스트가 각각 표시되어 두 개의 정보로 표시되며, 이 경우 상기 영상 기반 텍스트 및 그에 대응하는 상기 음성 기반 텍스트를 상기 디스플레이 상에 좌우 정렬로 표시하고, 상기 일치하지 않는 항목에 대해 표시된 두 개의 정보에 대해서는 사용자에게 상기 영상 기반 텍스트, 상기 음성 기반 텍스트 또는 사용자 직접입력 중 하나를 선택하여 개인정보를 입력하도록 인터페이스를 지원하는 것을 특징으로 하는 명함인식 장치에서 영상 및 음성 정보를 이용한 명함 인식 방법.
  2. 제1항에 있어서,
    웹메일 주소, 이동 전화 주소록, 및 메신저 서비스 주소록에 등록된 구성원들의 주소록 데이터를 통합하여 저장하는 통합 주소록 데이터베이스에, 결정된 상기 개인 정보를 저장하는 통합 주소록 저장 단계를 더 포함하는 것을 특징으로 하는 명함인식 장치에서 영상 및 음성 정보를 이용한 명함 인식 방법.
  3. 제1항에 있어서, 상기 영상 기반 텍스트 획득 단계는,
    패턴 정합법(pattern matching) 및 구조 분석법(structure analysis) 중 적어도 하나의 기법을 이용하여 상기 영상 정보로부터 상기 영상 기반 텍스트를 획득하는 것을 특징으로 하는 명함인식 장치에서 영상 및 음성 정보를 이용한 명함 인식 방법.
  4. 제1항에 있어서, 상기 음성 기반 텍스트 획득 단계는,
    상기 음성 정보를 주파수 분석하여 음소를 식별하고 식별된 음소를 조합하여 상기 음성 기반 텍스트를 획득하는 것을 특징으로 하는 명함인식 장치에서 영상 및 음성 정보를 이용한 명함 인식 방법.
  5. 제1항에 있어서, 상기 일치 항목 결정 단계는,
    상기 영상 기반 텍스트 및 상기 음성 기반 텍스트를 수신하는 단계;
    소정의 매치메이킹 알고리즘(matchmaking algorithm)을 적용하여 상기 영상 기반 텍스트 및 상기 음성 기반 텍스트를 상호 비교하는 단계;
    비교 결과로부터 상호 일치하는 항목을 식별하는 단계; 및
    일치된 항목에 상응하는 상기 영상 기반 텍스트 또는 음성 기반 텍스트를 해당 항목에 상응하는 개인 정보로서 결정하는 단계를 포함하는 것을 특징으로 하는 명함인식 장치에서 영상 및 음성 정보를 이용한 명함 인식 방법.
  6. 제1항에 있어서, 상기 비일치 항목 결정 단계는,
    상기 영상 기반 텍스트 또는 상기 음성 기반 텍스트에서 상기 일치 항목을 제외한 항목에 대한 개인 정보를 수신하는 단계; 및
    수신된 개인 정보를 해당 비일치 항목에 대한 개인 정보로서 결정하는 단계를 포함하는 것을 특징으로 하는 명함인식 장치에서 영상 및 음성 정보를 이용한 명함 인식 방법.
  7. 적어도 하나의 항목으로 이루어진 명함 소지자의 개인 정보를 포함하는 명함을 촬영하여 영상 정보를 획득하는 카메라;
    사용자로 하여금 상기 명함에 포함된 개인 정보를 읽도록 유도하여 음성 정보를 획득하는 마이크;
    획득된 상기 영상 정보에 소정의 영상 인식 기법을 적용하여 상기 영상 정보에 포함된 텍스트를 인식함으로써 영상 기반 텍스트(image based text)를 획득하는 영상 기반 텍스트 획득부;
    획득된 상기 음성 정보에 소정의 음성 인식 기법을 적용하여 상기 음성 정보에 포함된 텍스트를 인식함으로써 음성 기반 텍스트(voice based text)를 획득하는 음성 기반 텍스트 획득부;및
    상기 영상 기반 텍스트 및 음성 기반 텍스트를 상호 비교하여 일치하는 항목을 식별하고 일치하는 항목에 대한 개인 정보를 결정하는 일치 항목 결정부; 및
    일치되지 않는 항목에 대해서 상기 개인 정보를 결정하는 비일치 항목 결정부를 포함하고, 이 경우 명함으로부터 인식한 상기 영상 기반 텍스트 및 그에 대응하는 상기 음성 기반 텍스트를 디스플레이에 표시하며, 상기 일치 항목 결정부에서 식별된 일치하는 항목은 상기 영상 기반 텍스트 또는 상기 음성 기반 텍스트 중 하나의 정보만을 표시하고, 상기 비일치 항목 결정부에서 결정된 일치하지 않는 항목에 대한 정보는 상기 영상 기반 텍스트 및 상기 음성 기반 텍스트가 각각 표시되어 두 개의 정보로 표시되며, 이 경우 상기 영상 기반 텍스트 및 그에 대응하는 상기 음성 기반 텍스트를 상기 디스플레이 상에 좌우 정렬로 표시하고, 상기 일치하지 않는 항목에 대해 표시된 두 개의 정보에 대해서는 사용자에게 상기 영상 기반 텍스트, 상기 음성 기반 텍스트 또는 사용자 직접입력 중 하나를 선택하여 개인정보를 입력하도록 인터페이스를 지원하는 것을 특징으로 하는 영상 및 음성 정보를 이용한 명함 인식 장치.
  8. 제7항에 있어서,
    웹메일 주소, 이동 전화 주소록, 및 메신저 서비스 주소록에 등록된 구성원들의 주소록 데이터를 통합하여 저장하는 통합 주소록 데이터베이스에, 결정된 상기 개인 정보를 저장하는 통합 주소록 관리부를 더 포함하는 것을 특징으로 하는 영상 및 음성 정보를 이용한 명함 인식 장치.
  9. 제7항에 있어서, 상기 영상 기반 텍스트 획득부는,
    패턴 정합법(pattern matching) 및 구조 분석법(structure analysis) 중 적어도 하나의 기법을 이용하여 상기 영상 정보로부터 상기 영상 기반 텍스트를 획득하는 것을 특징으로 하는 영상 및 음성 정보를 이용한 명함 인식 장치.
  10. 제7항에 있어서, 상기 음성 기반 텍스트 획득부는,
    상기 음성 정보를 주파수 분석하여 음소를 식별하고 식별된 음소를 조합하여 상기 음성 기반 텍스트를 획득하는 것을 특징으로 하는 영상 및 음성 정보를 이용한 명함 인식 장치.
  11. 제7항에 있어서, 상기 일치 항목 결정부는,
    상기 영상 기반 텍스트 및 상기 음성 기반 텍스트를 수신하고, 소정의 매치메이킹 알고리즘을 적용하여 상기 영상 기반 텍스트 및 상기 음성 기반 텍스트를 상호 비교하며, 비교 결과로부터 상호 일치하는 항목을 식별하고, 일치된 항목에 상응하는 상기 영상 기반 텍스트 또는 음성 기반 텍스트를 해당 항목에 상응하는 개인 정보로서 결정하는 것을 특징으로 하는 영상 및 음성 정보를 이용한 명함 인식 장치.
  12. 제7항에 있어서, 상기 비일치 항목 결정부는,
    상기 영상 기반 텍스트 또는 상기 음성 기반 텍스트에서 상기 일치 항목을 제외한 항목에 대한 개인 정보를 수신하고, 수신된 개인 정보를 해당 비일치 항목에 대한 개인 정보로서 결정하는 것을 특징으로 하는 영상 및 음성 정보를 이용한 명함 인식 장치.
KR1020110141700A 2011-12-23 2011-12-23 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치 KR101440887B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110141700A KR101440887B1 (ko) 2011-12-23 2011-12-23 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110141700A KR101440887B1 (ko) 2011-12-23 2011-12-23 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20130073709A KR20130073709A (ko) 2013-07-03
KR101440887B1 true KR101440887B1 (ko) 2014-09-18

Family

ID=48988101

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110141700A KR101440887B1 (ko) 2011-12-23 2011-12-23 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101440887B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102365757B1 (ko) 2015-09-09 2022-02-18 삼성전자주식회사 인식 장치, 인식 방법 및 협업 처리 장치
KR102134024B1 (ko) 2018-12-31 2020-07-15 주식회사 딥비전 명함 인식 방법 및 휴대 단말기
KR20210017087A (ko) * 2019-08-06 2021-02-17 삼성전자주식회사 음성 인식 방법 및 이를 지원하는 전자 장치
KR102507534B1 (ko) * 2022-03-15 2023-03-08 김용남 인공지능 기반의 ocr 인식을 이용한 회계 관리 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005227944A (ja) * 2004-02-12 2005-08-25 Matsushita Electric Ind Co Ltd 文字情報取得装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005227944A (ja) * 2004-02-12 2005-08-25 Matsushita Electric Ind Co Ltd 文字情報取得装置

Also Published As

Publication number Publication date
KR20130073709A (ko) 2013-07-03

Similar Documents

Publication Publication Date Title
CN109117777B (zh) 生成信息的方法和装置
CN109493850B (zh) 成长型对话装置
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN102782751B (zh) 社会网络中的数字媒体语音标签
US10181333B2 (en) Intelligent truthfulness indicator association
CN104598644B (zh) 喜好标签挖掘方法和装置
US9230547B2 (en) Metadata extraction of non-transcribed video and audio streams
CN109408824B (zh) 用于生成信息的方法和装置
CN110008343B (zh) 文本分类方法、装置、设备及计算机可读存储介质
CN110634472B (zh) 一种语音识别方法、服务器及计算机可读存储介质
CN108536654A (zh) 识别文本展示方法及装置
US11436446B2 (en) Image analysis enhanced related item decision
US20230214579A1 (en) Intelligent character correction and search in documents
KR101440887B1 (ko) 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치
CN111222837A (zh) 智能化面试的方法、系统、设备及计算机存储介质
CN115840808A (zh) 科技项目咨询方法、装置、服务器及计算机可读存储介质
US20130332170A1 (en) Method and system for processing content
CN113051384B (zh) 基于对话的用户画像抽取方法及相关装置
KR101721063B1 (ko) 이미지 파일에 포함된 개인정보 검색 방법 및 그 방법을 구현하는 프로그램을 기록한 기록매체
CN110955796B (zh) 一种基于笔录信息的案件特征信息提取方法及装置
JP4715704B2 (ja) 音声認識装置、および音声認識プログラム
US20200243092A1 (en) Information processing device, information processing system, and computer program product
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN113539235B (zh) 文本分析与语音合成方法、装置、系统及存储介质
JP2011065322A (ja) 文字認識システム及び文字認識プログラム、並びに音声認識システム及び音声認識プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20180903

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190807

Year of fee payment: 6