KR102320851B1 - 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 - Google Patents

딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 Download PDF

Info

Publication number
KR102320851B1
KR102320851B1 KR1020200103726A KR20200103726A KR102320851B1 KR 102320851 B1 KR102320851 B1 KR 102320851B1 KR 1020200103726 A KR1020200103726 A KR 1020200103726A KR 20200103726 A KR20200103726 A KR 20200103726A KR 102320851 B1 KR102320851 B1 KR 102320851B1
Authority
KR
South Korea
Prior art keywords
target image
text
search
keyword
user terminal
Prior art date
Application number
KR1020200103726A
Other languages
English (en)
Other versions
KR20210045298A (ko
Inventor
허태일
최은진
Original Assignee
주식회사 젠티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020190128626A external-priority patent/KR102148021B1/ko
Application filed by 주식회사 젠티 filed Critical 주식회사 젠티
Priority to KR1020200103726A priority Critical patent/KR102320851B1/ko
Publication of KR20210045298A publication Critical patent/KR20210045298A/ko
Application granted granted Critical
Publication of KR102320851B1 publication Critical patent/KR102320851B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • G06K9/00456
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

딥러닝 신 텍스트 탐지 기술을 이용한 정보 검색 방법 및 그 장치가 개시된다. 딥러닝 신 텍스트 탐지 기술을 이용한 정보 검색 방법은 (a) 검색어를 입력 받는 단계; (b) 검색 대상 타겟을 촬영하여 타겟 영상을 생성하는 단계; 및 (c) 상기 타겟 영상에서 상기 검색어에 상응하는 적어도 하나의 영역을 하이라이트로 표시하여 출력하는 단계를 포함한다.

Description

딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법{Information search method in incidental images incorporating deep learning scene text detection and recognition}
본 발명은 딥러닝 텍스트 탐지기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치에 관한 것이다.
영상 속에서 문자를 인식하는 기술은 전통적으로 광학문자 인지기술(Optical character recognition, OCR)이 지속적으로 사용되어 왔다. 광학문자 인지 기술이란 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환해 주는 기술이다.
그러나 스캔된 문서와는 다르게 실생활 영상 속에서 텍스트를 찾고 그 문자를 인식하기 위한 신 텍스트 인식 기술은 훨씬 극복해야할 과제들이 많이 있다. 실생활 영상들은 초점이 맞지 않거나 너무 밝거나 어둡기도 한다. 실생활 영상속에 텍스트는 크기, 글자체도 다양하며 줄에 맞춰 쓰여 있지 않고 글자의 방향도 다양하기 때문이다.
또한 음성 인식을 활용한 기술이나 그것들이 제공하고 있는 서비스를 보면 사람의 편의성을 높여 주기는 하나, 다른 사물을 제어하기 위해서는 사물인터넷 등으로 연결되어 있어야 한다는 전제조건들이 필요한 상황이다.
한국공개특허 제10-2015-0077580호(2015.07.08)
본 발명은 사용자가 실생활에서 원하는 정보를 손쉽게 찾을 수 있게 딥러닝 신 텍스트 탐지 기술을 이용한 정보 검색 방법 및 그 장치를 제공하기 위한 것이다.
또한, 본 발명은 사용자가 입력한 검색어에 대하여 딥러닝 신 텍스트 탐지 및 인식 기술을 활용한 결과에 따른 정보를 시각적 및 청각적으로 출력하도록 할 수 있는 정보 검색 방법 및 그 장치를 제공하기 위한 것이다.
또한, 본 발명은 정보 검색이 익숙치 않은 노년층을 포함하여 많은 글자들 속에서 원하는 검색을 빠르고 정확하게 하고자 하는 사람들이 음성 또는 문자 검색을 기반으로 손쉽게 자신이 원하는 정보를 검색하도록 할 수 있는 딥러닝 신 텍스트 탐지 기술을 이용한 정보 검색 방법 및 그 장치를 제공하기 위한 것이다.
또한, 본 발명은 음성인식, 음성합성, 텍스트 탐지 및 인식이라는 최신의 인공지능 기술들을 결합하여 정보의 방대함 속에 살아가는 현대인들의 실생활 편의성을 높이고 생활의 안전성에 기여할 수 있다. 또한 스마트 기기의 접근성이 떨어지는 사람들에게도 필요한 정보를 즉각적으로 제공함에 따른 정보의 비대칭성을 해소하는 데 기여할 수 있을 것으로 보인다.
본 발명의 일 측면에 따르면, 딥러닝 신 텍스트 탐지 기술에 기반하여 원하는 정보를 손쉽게 찾을 수 있는 정보 검색 방법이 제공된다.
본 발명의 일 실시예에 따르면, (a) 검색어를 음성으로 입력 또는 문자 입력시스템으로 입력 받는 단계; (b) 검색 대상 타겟을 촬영하여 타겟 영상을 생성하는 단계; 및 (c) 상기 타겟 영상에서 상기 검색어에 상응하는 적어도 하나의 영역을 하이라이트로 표시하여 출력하는 단계를 포함하는 사용자 단말에서의 딥러닝 신 텍스트 탐지 기술을 이용한 정보 검색 방법이 제공될 수 있다.
상기 (c) 단계는, 상기 검색어에 상응하여 설정된 세부 키워드가 존재하는 경우, 상기 타겟 영상에 대한 텍스트 인식 결과를 반영하여 상기 세부 키워드를 포함하는 영역을 하이라이트로 표시하여 출력할 수 있다.
상기 타겟 영상에 대한 연관 텍스트가 존재하는 경우, 상기 검색어 또는 연관 텍스트를 포함하는 구문 또는 문장을 음성 변환하여 출력할 수 있다.
본 발명의 다른 실시예에 따르면, 사용자 단말로부터 검색어 및 타겟 영상을 포함하는 검색 요청을 수신하는 단계; 상기 검색어를 인식하여 텍스트 타입으로 키워드를 추출하는 단계; 상기 타겟 영상에 텍스트 탐지 및 인식하는 단계; 상기 타겟 영상에서 상기 타겟 영상의 텍스트 인식 결과를 고려하여 상기 키워드를 포함하는 영역을 하이라이트 표시하는 단계; 및 상기 하이라이트 표시된 타겟 영상을 포함하는 검색 결과를 상기 사용자 단말로 전송하는 단계를 포함하되, 상기 하이라이트 표시된 타겟 영상은 상기 사용자 단말의 화면을 통해 출력되는 것을 특징으로 하는 서버에서의 딥러닝 신 텍스트 탐지 기술 정보 검색 방법이 제공될 수 있다.
상기 키워드를 추출하는 단계는, 상기 검색어의 음성 인식 결과 세부 키워드가 설정된 경우, 상기 세부 키워드를 키워드로서 추출할 수 있다.
상기 검색 결과는, 상기 타겟 영상에 대한 연관 텍스트가 존재하는 경우 상기 검색어 또는 연관 텍스트를 포함하는 구문 또는 문장의 음성 변환 결과를 더 포함할 수 있다.
본 발명의 다른 측면에 따르면, 딥러닝 신 텍스트 탐지 기술에 기반하여 원하는 정보를 손쉽게 찾을 수 있는 장치가 제공된다.
본 발명의 일 실시예에 따르면, 디스플레이부; 검색어를 음성으로 입력 받는 음성 입력부; 검색어를 문자로 입력 받는 문자 입력부; 검색 대상 타겟을 촬영하여 타겟 영상을 생성하는 카메라; 및 상기 타겟 영상에 대한 텍스트 인식 결과를 반영하여 상기 검색어에 상응하는 적어도 하나의 영역을 하이라이트로 표시하여 출력하도록 제어하는 프로세서를 포함하는 사용자 단말이 제공될 수 있다.
상기 타겟 영상에 대한 연관 텍스트가 존재하는 경우, 상기 검색어 또는 연관 텍스트를 포함하는 구문 또는 문장을 음성 변환하여 출력하는 스피커를 더 포함할 수 있다.
본 발명의 다른 실시예에 따르면, 사용자 단말로부터 검색어 및 타겟 영상을 포함하는 검색 요청을 수신하는 통신부; 상기 검색어를 인식하여 텍스트 타입으로 키워드를 추출하는 음성 인식부; 상기 타겟 영상을 텍스트 인식하는 문자 인식부; 상기 타겟 영상에서 상기 타겟 영상의 텍스트 인식 결과를 고려하여 상기 키워드를 포함하는 영역을 하이라이트 표시하는 분석부; 및 상기 하이라이트 표시된 타겟 영상을 포함하는 검색 결과를 상기 사용자 단말로 전송하도록 제어하는 프로세서를 포함하되, 상기 하이라이트 표시된 타겟 영상은 상기 사용자 단말의 화면을 통해 출력되는 것을 특징으로 하는 서버가 제공될 수 있다.
타겟 영상에 대한 텍스트 인식 결과를 반영하여 상기 검색어 또는 상기 검색어에 설정된 세부 키워드를 포함하는 구문 또는 문장의 음성 변환하는 음성 변환부를 더 포함하되, 상기 검색 결과는 상기 음성 변환 결과를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 딥러닝 신 텍스트 탐지 기술을 이용한 정보 검색 방법 및 그 시스템을 제공함으로써, 딥러닝 신 텍스트 탐지 기술에 기반하여 원하는 정보를 손쉽게 찾을 수 있다.
또한, 본 발명은 영상의 텍스트 인식 기술을 이용하여 추출된 텍스트 영역과 관련 정보 등의 결과를 시각적 및 청각적으로 출력하도록 할 수 있다.
또한, 본 발명은 정보 검색이 익숙치 않은 노년층을 포함하여 많은 글자들 속에서 원하는 검색을 빠르고 정확하게 하고자 하는 사람들이 음성 또는 문자 입력이라는 손쉬운 검색을 기반으로 자신이 원하는 정보를 빠르고 정확하게 검색하도록 할 수도 있다.
도 1은 본 발명의 일 실시예에 따른 딥러닝 신 텍스트 탐지 기술을 이용한 검색 서비스 제공 방법을 나타낸 도면.
도 2는 본 발명의 일 실시예에 따른 정보 검색 시스템을 도시한 도면.
도 3 내지 도 8은 본 발명의 일 실시예에 따른 딥러닝 신 텍스트 탐지 기술을 이용한 검색 서비스 제공 화면을 예시한 도면.
도 9는 본 발명의 일 실시예에 따른 딥러닝 신 텍스트 탐지 기술을 이용한 검색 방법을 나타낸 흐름도.
도 10은 본 발명의 일 실시예에 따른 사용자 단말의 내부 구성을 개략적으로 도시한 블록도.
도 11은 본 발명의 일 실시예에 따른 서버의 내부 구성을 개략적으로 도시한 도면.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 발명은 사용자가 타겟 영상을 촬영한 후 해당 타겟 영상에서 하이라이트로 표시할 키워드를 음성 또는 문자로 입력 받는 경우, 타겟 영상의 텍스트 인식 및 음성 인식을 통해 타겟 영상에서 키워드를 포함하는 영역을 하이라이트로 표시하도록 할 수 있다.
이를 통해, 사용자는 수많은 정보들이 포함하는 현실 세계, 작은 글씨로 작성된 투약 및 복용법 등을 촬영한 후 찾고자 하는 키워드를 음성 인식하여 또는 문자 입력을 통하여, 해당 키워드를 포함하는 영상 속 영역을 시각적 및 청각적으로 표시하여 사용자로 하여금 정보 검색의 편의성을 제공할 수 있다.
본 발명에 따르면, 도 1에 도시된 바와 같이 음성 인식, 텍스트 탐지 및 인식, 연관 텍스트 분석, 음성 변환이라는 기술들을 이용하여 알고리즘 모델을 만들어, 사용자가 원하는 정보를 영상 속에서 손쉽고 정확하게 찾아내는 방법 및 그 장치를 제공할 수 있다.
이러한 알고리즘 모델은 인공지능 기술 중 하나인 딥 러닝(deep learning)을 사용하여 지속적인 학습이 가능하며, 사용자의 사용에 따라 더 많은 데이터를 바탕으로 학습하여 더 정확하고 빠르게 서비스 제공이 가능하다.
사용자가 원하는 정보는 입력할 때는 사용자 단말의 음성 버튼을 누르고 음성으로 입력할 수 있고, 사용자 단말의 문자 입력 시스템을 활용하여 타이핑을 하여 원하는 문구를 입력할 수 있다.
검색 기능을 통해 결과값을 출력할 때는 영상 속에 출력 값을 강조하여 화면에 보여줄 수 있으며, 연관 텍스트를 추출하는 조회 기능을 사용하였을 때는 해당 키워드 및 연관 텍스트를 음성으로 변환하여 사용자에게 제공할 수 있다.
이하, 본 발명의 구현을 위한 요소 기술에 대해 간략히 설명한다.
(1) 음성인식 기술
음성 인식(speech recognition) 기술이란 인간이 발화한 음성과 같은 음향항적 신호를 컴퓨터가 분석해 이를 인식 또는 이해하는 기술을 말한다. 최근 이 기술과 인공지능을 결합한 음성 대화 시스템은 차세대 인터페이스로 주목받고 있으며, 다양한 기업들이 음성인식기술을 오픈 응용 프로그램 인터페이스(Application Program Interface)로 제공하고 있다.
(2) 텍스트 탐지·인식 관련 기술
<신 텍스트 탐지·인식 (Scene Text Detection·Recognition)>
최근의 텍스트 탐지·인식 기술은, 문서화된 문자 중심의 자료를 인식하는 것을 뛰어넘어, 다양한 자연 장면 속에서의 문자 인식에 도전하고 있으며, 이를 신 텍스트 탐지·인식 기술이라 한다. 자연 장면에서 텍스트를 탐지·인식하기 위하여, 1) 텍스트 위치 탐지 단계, 2) 탐지된 텍스트 위치 박스에서 텍스트를 인식하는 두 단계로 나누어서 접근할 수 있으며, 1), 2) 단계를 한번에 수행하는 엔드투엔드(End-To-End) 방식의 접근법도 시도되고 있다. 텍스트 위치 탐지를 위하여, 고전적으로는 슬라이딩 윈도우 방식(sliding windows)이나 연결 성분(connected component) 모형이 쓰여져 왔으나, 최근 2015년 이후에 이르러서는 합성곱 신경망(Convolutional Neural Network: CNN)을 활용한 딥러닝 모델이 대세로 자리잡고 있다. 사람이나 자동차 등을 탐지하는 일반적인 객체 탐지 딥러닝 모델을 다양하게 변형시켜 텍스트 탐지에 활용되고 있으며, TextBoxes, FOTS, TextBox++, Mask TextSpotter, PMTD 등 다양한 모델들이 세계 여러 연구 그룹에서 개발되고 있다.
텍스트 인식은 이미지 영역을 컴퓨터가 읽을 수 있는 문자열로 변환하는 것을 말한다. 전통적인 광학문자 인지기술(Optical character recognition, OCR)은 스캔된 종이에 나와있는 문자를 인식하는 기술이다. 이러한 전통적인 OCR 기술과 달리, 신 텍스트 인식 (Scene Text Recognition: STR) 기술은 훨씬 극복해야 할 과제들이 많이 있다. 일반 자연 영상에서 촬영된 문자들은 초점이 맞지 않거나, 줄에 맞춰 쓰여 있지 않다. 사이즈, 폰트, 방향도 다양하며 간판 등 에서와 같이 특별하게 변형된 글자들도 많이 있다. 이러한 STR 분야에서도 순환신경망(Recurrent Neural Network)이나 어텐션(attention)기법 등을 활용한 딥러닝 모델들이 최고 수준의 성과를 내고 있다.
<로버스트 리딩(Robust Reading)>
로버스트 리딩(Robust Reading) 분야는 신 텍스트 탐지·인식 분야를 포함하여, 비디오에서의 텍스트 인식, 영수증에서의 텍스트 인식, 의공학 문서(biomedical literature)에서의 텍스트 추출 등 제한되지 않은 환경에서의 텍스트 인식을 다루는 분야이다. 국제 학회 ICDAR(International Conference on Document Analysis and Recognition)에서 격년마다 훈련 및 테스트 데이터를 공개하여, 온라인 대회(Robust Reading Competition)를 주최하며, 이는 신 텍스트 탐지·인식 분야나 로버스트 리딩 분야의 표준 벤치마크로 자리 잡고 있다.
본 발명의 경우, 최신 신 텍스트 탐지·인식 모델(넓게는 로버스트 리딩 모델)을 다양한 한글/영문 데이터셋에 적용하여, 텍스트 탐지·인식 서버 모듈이 내장되는 형태이다.
(3) 연관텍스트 분석
연관 텍스트란 검색어와 관련도가 높아 검색어와 함께 하나의 단어구로 인식하여 음성으로 변환하여 함께 읽어 주기 위한 것이다. 연관 텍스트 분석은 사용자가 조회 기능을 사용하는 경우 실행될 수 있다.
마침표, 콜론 등의 문장 부호들의 형태를 분석하여 연관 텍스트를 판별하기 위한 알고리즘을 구성할 수 있다. 또한 검색어가 표 안에 들어있는 경우, 표 내의 같은 행들의 텍스트를 판별하여 단어구를 인식할 수 있다. 이러한 연관 텍스트를 분석하는 기술은 기존의 텍스트 데이터 마이닝이나 텍스트 분석하는 기술을 기반으로 새롭게 개발된 기술이다.
(4) 음성 합성 기술
음성 합성 기술은 사용자가 조회 기능을 사용하였을 때, 검색어와 연관 텍스트를 음성으로 읽어 주기 위한 것이다. 텍스트를 목소리로 재생해주는 음성 합성 기술은 지난 수십년간 많은 발전을 해왔으며, 최근의 딥러닝을 활용한 음성합성기술은 인간이 말할 때의 억양 등을 표현하는 자연스러운 음성을 만들어내고 있다. 음성 합성 기술 또한 음성 인식과 마찬가지로 많은 회사들이 API 형태로 서비스를 이용할 수 있도록 제공하고 있다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 정보 검색 시스템을 도시한 도면이고, 도 3 내지 도 8은 본 발명의 일 실시예에 따른 딥러닝 신 텍스트 탐지 기술 검색 서비스 제공 화면을 예시한 도면이다.
도 2에서 보여지는 바와 같이, 본 발명의 일 실시예에 따른 정보 검색 시스템(100)은 사용자 단말(110) 및 서버(120)를 포함하여 구성된다. 이 경우, 서버는 추가적으로 더 존재할 수 있다. 예를 들어 음성 인식을 위한 서버, 음성 합성을 위한 서버는 본 서버(120)와는 독립적으로 존재할 수 있다.
사용자 단말(110)은 딥러닝 신 텍스트 탐지 기술을 이용한 검색 서비스를 제공받기 위한 장치이다.
예를 들어, 사용자 단말(110)은 타겟 영상에서 검색하고자 하는 키워드를 검색어로 음성 입력 받은 후 타겟 영상에서 검색어를 포함하는 텍스트 영역을 하이라이트로 표시하여 출력할 수 있다.
물론, 사용자 단말(110)은 하이라이트 표시된 타겟 영상을 음성 검색 결과로써 출력할 수 있을 뿐만 아니라, 검색 결과를 음성 변환하여 청각 정보의 형태로 출력할 수도 있다.
이에 대해서는 이하의 설명에 의해 보다 명확하게 이해될 것이다.
사용자 단말(110)은 사용자가 소지한 장치로, 그 유형으로는 이동통신 단말기, 태블릿 PC, 전자 패드 등과 같이 휴대 가능한 전자 장치인 경우 모두 적용될 수 있다.
서버(120)는 딥러닝 신 텍스트 탐지 기술을 이용한 검색 서비스를 제공하는 장치이다.
예를 들어, 서버(120)는 사용자로부터 검색어 및 타겟 영상을 포함하는 검색 요청이 수신되면, 타겟 영상에서의 검색 결과를 사용자 단말(110)로 제공할 수 있다. 이를 위해, 서버(120)는 우선 검색어를 음성 인식하여 텍스트 타입의 키워드를 추출할 수 있다.
이어, 서버(120)는 타겟 영상을 문자 인식하여 각각의 텍스트를 검출할 수 있다. 이후, 서버(120)는 타겟 영상의 문자 인식 결과를 반영하여 타겟 영상의 텍스트에서 키워드를 포함하는 적어도 하나의 영역을 하이라이트 표시할 수 있다. 여기서, 하이라이트 표시된 영역은 복수일 수 있다.
또한, 키워드가 복수인 경우, 각각의 키워드에 상응하여 하이라이트는 각기 다른 색상으로 표시될 수도 있다.
또한, 검색 결과는 음성 변환 결과를 더 포함할 수 있다. 여기서, 음성 변환 결과는 타겟 영상의 문자 인식 결과에서 키워드를 포함하는 구문 또는 문장의 음성 변환 결과일 수 있다.
이하, 도 3 내지 도 8을 참조하여 본 발명의 일 실시예에 따른 딥러닝 신 텍스트 탐지 기술을 이용한 검색 결과를 제공하는 방법에 대해 설명하기로 한다. 여기서 도 3 내지 도 8에 나타낸 예시는 실제 어플리케이션의 실행 화면이 아니며 단지 이해를 돕기 위한 예임을 명확히 한다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 신 텍스트 탐지 기술을 이용한 검색 결과를 설명하기 위한 도면이다.
예를 들어, 사용자가 승강장에서 버스 노선표를 촬영하여 목적지를 검색하는 경우를 가정하기로 한다.
사용자는 도 3의 210에서 보여지는 바와 같이, 버스 정류장 또는 승강장에 부착된 복수의 버스 노선도를 촬영하여 타겟 영상을 생성할 수 있다. 이어, 사용자는 목적지를 검색어로서 음성으로 입력할 수 있다. 이해와 설명의 편의를 도모하기 위해 검색어로 "여의도"가 입력된 경우를 가정하기로 한다. 도 3의 210은 사용자 단말(110)을 통해 촬영된 복수의 버스 노선도를 포함하는 타겟 영상이다.
사용자 단말(110)은 타겟 영상과 검색어를 포함하는 검색 요청을 서버(120)로 전송할 수 있다. 이에 따라, 서버(120)는 타겟 영상을 텍스트 인식(문자 인식)하여 해당 타겟 영상에 포함된 텍스트들 중 키워드와 일치하는 영역을 하이라이트로 표시할 수 있다. 타겟 영상에서 키워드에 일치하는 영역이 존재하지 않을 수도 있음은 당연하다. 즉, 서버(120)는 촬영된 버스 노선도 영상을 문자 인식하여 키워드인 "여의도"를 포함하는 영역을 하이라이트로 표시할 수 있다.
서버(120)는 하이라이트 표시된 타겟 영상을 사용자 단말(110)로 전송할 수 있으며, 해당 하이라이트 표시된 타겟 영상은 사용자 단말(110)을 통해 출력될 수 있다.
이와 같이, 사용자가 버스 정류장 또는 승강장에서 복잡한 노선도를 일일이 검색하여 목적지를 경유하는 노선을 찾을 필요 없이, 사용자는 검색어를 음성으로 입력하고, 버스 노선도를 촬영하는 행위만으로 손쉽게 원하는 목적지에 해당하는 부분이 하이라이트 표시된 검색 결과를 제공받을 수 있다.
다른 예를 들어, 도 4를 참조하여 설명하기로 한다.
도 4는 도 3과 마찬가지로, 버스 정류장에 부착된 버스 노선도를 촬영한 영상에서 목적지를 경유하는 버스 노선을 찾는 것은 동일하다. 다만, 도 4에서는 검색어 자체가 키워드로 이용되는 것이 아니라, 검색어에 상응하여 별도의 키워드가 설정되어 있는 경우를 가정하여 설명하기로 한다.
예를 들어, "우리집"을 검색어로 음성 입력 받은 경우를 가정하기로 하며, "우리집"에 상응하여 키워드로 "신도림", "디큐브", "구로"가 각각 설정되어 있는 것을 가정하기로 한다.
사용자는 소지한 사용자 단말(110)을 통해 버스 노선도를 촬영한 타겟 영상 및 검색어를 포함하는 검색 요청을 서버(120)로 전송할 수 있다(도 4의 310 참조).
서버(120)는 검색 요청에서 검색어를 음성 인식하여 텍스트로 변환한 후 키워드가 설정되어 있으므로, "신도림", "디큐브", "구로"를 각각 키워드로 추출할 수 있다.
이어, 서버(120)는 타겟 영상을 문자 인식한 결과에 멀티 키워드를 포함하는 각각의 영역을 하이라이트로 표시하여 검색 결과를 생성할 수 있다. 이어, 해당 검색 결과를 사용자 단말(110)로 제공할 수 있으며, 사용자 단말(110)은 서버(120)에서 제공된 검색 결과를 화면에 출력할 수 있다.
이와 같이, 키워드가 복수인 경우, 각각의 키워드마다 하이라이트 색상을 다르게 하여 타겟 영상에 표시할 수도 있다.
도 5는 본 발명의 또 다른 실시예에 따른 딥러닝 신 텍스트 탐지 기술을 이용한 검색 화면을 도시한 도면이다.
도 5의 410에서 보여지는 바와 같이, 사용자가 상가가 밀집한 특정 장소에서 목적지를 음성 검색하는 경우에 대해 설명하기로 한다. 사용자는 사용자 단말(110)을 통해 도 5의 410과 같이 상가가 밀집한 특정 장소를 촬영하여 타겟 영상을 생성한다. 사용자가 상가 밀집 지역에서 "본죽"을 찾고자 하는 경우, "본죽"을 검색어로 입력하고, 촬영된 타겟 영상을 포함하는 검색 요청을 서버(120)로 전송하는 경우, 서버(120)는 도 5의 420에서 보여지는 바와 같이, 타겟 영상에서 해당 "본죽"에 해당하는 영역을 하이라이트 표시하여 사용자 단말(110)로 제공할 수 있다.
도 6은 본 발명의 또 다른 실시예에 따른 딥러닝 신 텍스트 탐지 기술 검색 화면을 도시한 도면이다.
도 6에서는 "알러지"에 해당하는 키워드로 "돼지고기", "땅콩"이 설정되어 있는 것을 가정하기로 한다.
사용자가 상품 정보가 촘촘하게 인쇄된 부분을 촬영한 후 "알러지"를 검색어로 입력하였다고 가정하기로 한다(도 6의 510 참조).
사용자 단말(110)은 상품 정보를 촬영한 타겟 영상에서 "돼지고기", "땅콩"을 포함하는 영역을 하이라이트로 표시하여 출력할 수 있다(도 6의 520).
이상, 도 3 내지 도 6의 예시는, 영상 속에서 검색어를 포함하는 영역을 하이라이트하여 보여주는 '검색 기능'에 대해 설명한 것이다. 이와 같은 '검색 기능'은 사용자 단말의 디스플레이 하단의 입력부 중 검색 버튼(도면에서 좌측에 배치됨)을 누르는 경우 실행될 수 있다.
또 다른 예를 들어, 도 7을 참조하면, 상품 정보를 촬영한 후 "나트륨", "지방"이 검색어로 입력된 경우를 가정하기로 한다(도 7의 610 참조). 사용자 단말(110)은 해당 타겟 영상에서 "나트륨", "지방"을 포함하는 영역을 하이라이트로 표시하여 출력할 수 있다(도 7의 620 참조).
또한, 사용자 단말(110)은 검색어(또는 키워드)를 포함하는 상세 구문 또는 문장을 음성 변환하여 출력할 수 도 있다. 예를 들어, "나트륨 100 미리그램", "지방 7 미리그램"과 같이 음성으로써 출력할 수도 있다.
또 다른 예를 들어, 도 8을 참조하면, 사용자가 의약품의 복용법을 검색하는 경우를 가정하여 설명하기로 한다.
사용자가 도 8의 710에서 보여지는 바와 같이, 의약품 복용법이 기재된 부분을 촬영한 후 검색어로서 "용량"을 입력하였다고 가정하기로 한다. 사용자 단말(110)은 서버(120)로부터 검색 결과를 제공받아 출력함에 있어, 타겟 영상에서 "용량"을 포함하는 영역을 하이라이트 표시하여 화면상에 출력할 수 있다. 또한, 사용자 단말(110)은 서버(120)에서 제공된 검색 결과에 따라 "용량"을 포함하는 문구 또는 문장을 음성 변환하여 음성으로 출력할 수도 있다.
예를 들어, 사용자 단말(110)은"용법 용량 12세 이상 소아 및 성인이 약 한 개를 입안에서 서서히 녹여 복용할 것 필요시 3~ 6시간 간격으로 1일 최대 5개 복용"을 음성 변환하여 음성으로 출력할 수도 있다.
이상, 도 7 및 도 8의 예시는, 영상 속에서 검색어와 관련된 연관 텍스트를 찾아 화면에서 강조함과 동시에 해당 내용을 음성으로 출력하는 '조회 기능'에 대해 설명한 것이다. 이와 같은 '조회 기능'은 사용자 단말의 디스플레이 하단의 입력부 중 예를 들어 조회 버튼(도면에서 중앙에 배치됨)을 누르는 경우 실행될 수 있다.
도 9는 본 발명의 일 실시예에 따른 딥러닝 신 텍스트 탐지 기술 검색 방법을 나타낸 흐름도이다.
단계 810에서 사용자 단말(110)은 검색어를 입력 받는다. 검색어는 음성으로 입력 받거나, 또는 사용자 단말의 문자 입력 시스템을 통해 텍스트로 입력 받을 수 있다.
단계 815에서 사용자 단말(110)은 검색하고자 하는 대상을 촬영하여 타겟 영상을 생성한다. 여기서, 검색하고자 하는 대상은 특정 장소일 수도 있으며, 특정 상품일 수도 있으며, 텍스트를 포함하는 영상 촬영이 가능한 모든 것을 포함할 수 있다. 영상을 촬영하여 타겟 영상을 서버(120)로 전송함에 있어, 사용자 단말(110)은 텍스트 인식이 가능한 최소 해상도로 해상도를 낮추고, 영상을 압축하여 서버(120)로 전송할 수도 있다. 이로 인해, 네트워크 트래픽을 줄일 수도 있다. 물론, 사용자 단말(110)은 복수의 타겟 영상을 촬영한 후 사용자로부터 서버(120)로 전송할 타겟 영상을 선택받을 수도 있음은 당연하다.
다른 예를 들어, 사용자 단말(110)의 영상을 실시간 전송함에 있어, 기 전송된 영상을 참조하여 중복되는 영역을 제외하고 현재 프레임을 전송할 수도 있다.
단계 820에서 사용자 단말(110)은 검색어 및 타겟 영상을 포함하는 검색 요청을 서버(120)로 전송한다. 그리고 사용자는 필요에 따라 '검색 기능' 또는 '조회 기능'을 선택할 수 있다. (단계 820 또는 단계 850)
단계 825에서 서버(120)는 검색 요청에 포함된 검색어를 음성 인식하여 텍스트로 변환하며, 이를 이용하여 키워드를 결정한다.
예를 들어, 검색어의 음성 인식 결과 텍스트에 상세 키워드가 설정된 경우, 해당 상세 키워드를 최종 목표 키워드로서 설정한다.
그러나 만일 검색어의 음성 인식 결과에 상응하여 상세 키워드가 설정되지 않은 경우, 음성 인식 결과를 키워드로서 설정할 수 있다.
키워드는 하나일 수도 있으며 복수일 수도 있다.
한편, 검색어가 문자 입력 시스템을 통해 텍스트로 입력되는 경우 문자 자체를 키워드로 인식할 수도 있다.
단계 830에서 서버(120)는 타겟 영상에 대한 문자 인식을 수행하여 타겟 영상에 포함된 텍스트를 각각 추출한다. 문자 인식 방법은 다양한 딥러닝 기법을 기반으로 수행될 수 있다. 이미지에서의 텍스트 탐지, 텍스트 인식이 각 분리된 두 단계의 모델일 수도 있으며, 앞서의 두 단계를 한번에 처리하는 엔드투엔드(end-to-end) 형태의 신 텍스트 인식 모델일 수도 있다. Mask RCNN, PMTD(Pyramid Mask Text Detector) 등과 같은 고성능의 텍스트 탐지모델과 CRNN(Convolutional Recurrent Neural Network), MORAN(Multi-Object Rectified Attention Network) 등과 같은 최신의 텍스트 인식 모델이 활용될 수 있다. 또한 단일 모델뿐만 아니라 다양한 모델의 조합(앙상블 기법)으로 더 높은 정확도를 도출해 낼 수도 있으며, 구체적인 탐지·인식 모델은 훈련데이터의 증가, 인식 성능, 인식 속도를 고려하여 최신 기술로 지속적으로 교체될 수 있다. 타겟 영상에 대한 문자 인식 알고리즘을 수행하여 타겟 영상에 포함된 텍스트를 각각 추출할 수 있다.
단계 835에서 서버(120)는 타겟 영상의 문자 인식 결과를 기반으로 키워드와 일치하는 텍스트 영역을 하이라이트 표시한다. 물론, 타겟 영상의 문자 인식 결과를 이용하여 키워드에 대한 텍스트 검색 결과, 일치하는 텍스트가 존재하지 않을 수도 있다. 이와 같은 경우, 서버(120)는 일치하는 검색 결과 없음을 포함하는 안내 메시지를 사용자 단말(110)로 전송할 수도 있다.
한편, 키워드와 일치하는 텍스트가 존재하지 않는 경우 유사도 분석을 통해 키워드와 유사한 텍스트 영역을 표시할 수도 있다. 예를 들어 편집거리 알고리즘 등과 같은 유사도 분석 모델을 이용할 수 있으며, 여기서 편집거리 알고리즘이란, 단어 A를 몇 번의 동작으로 편집하면 단어 B가 될 수 있는지 나타내는 척도로서 텍스트에 대해 음절 단위나 음소 단위로 적용될 수 있다.
이미 전술한 바와 같이, 키워드가 복수인 경우, 각각의 키워드에 상응하는 하이라이트 영역의 색상을 다르게 표시할 수도 있다.
단계 840에서 서버(120)는 검색 결과를 사용자 단말(110)로 전송한다. 여기서, 검색 결과는 키워드에 일치하는 영역이 하이라이트 표시된 타겟 영상을 포함할 수 있다.
물론, 서버(120)는 타겟 영상의 문자 인식 결과에서 키워드를 포함하는 문구 또는 문장을 음성 변환한 음성 결과를 검색 결과에 더 포함하여 사용자 단말(110)로 전송할 수 있다. (단계 860)
즉 사용자가 '조회 기능'을 선택하는 경우 상술한 바와 같은 단계 825, 830 및 835를 통해 키워드와 일치하는 영역이 하이라이트 표시된 타겟 영상을 사용자 단말로 전송할 수 있으며, 이와 함께 딥러닝 신 텍스트 탐지 기술에 기반한 텍스트 인식을 통해 검색어에 대한 연관 텍스트가 존재하는지 분석할 수 있으며, 연관 텍스트의 존재시 검색어를 포함한 연관 텍스트를 음성으로 변환하여 사용자 단말(110)로 전송할 수 있다. (단계 837 및 단계 839)
또한, 검색 결과는 키워드의 검출 여부 및 검색 횟수 등을 더 포함할 수도 있다.
단계 845에서 사용자 단말(110)은 검색 결과를 화면에 표시할 수 있다. 예를 들어, 도 3 내지 도 8을 참조하여 설명한 바와 같이, 키워드에 상응하는 영역이 하이라이트된 타겟 영상을 출력할 수 있다. 또한, 사용자 단말(110)은 키워드를 포함하는 구문 또는 문장의 음성 변환 결과를 출력할 수도 있다.
사용자가 '검색 기능'을 이용하는 경우 키워드에 상응하는 영역이 하이라이트된 타겟 영상을 출력하게 되며, '조회 기능'을 이용하는 경우 키워드에 상응하는 영역이 하이라이트된 타겟 영상을 출력함과 동시에 키워드를 포함하는 구문 또는 문장(연관 텍스트)의 음성 변환 결과를 출력하게 된다. (단계 865)
또한, 사용자 단말(110)은 하이라이트 표시된 타겟 영역에서, 하이라이트 영역이 터치(또는 선택)되는 경우, 해당 하이라이트 영역을 확대하여 출력할 수도 있다. 그리고 사용자 단말(110)을 통해 표시된 타겟 영역을 기반으로 추가 정보를 검색할 수도 있으며, 검색 결과가 표시된 화면을 캡쳐(이미지 파일로 저장)할 수도 있다.
또한, 본 발명의 일 실시예에서는 서버(120)에서 하이라이트 표시된 타겟 영상을 수신하는 것을 가정하여 이를 중심으로 설명하였으나, 이외에도 사용자 단말(110)의 실시간 화면을 전송 받는 경우, 서버(120)에서 검색어에 상응하는 검색 결과로서 해당 검색 결과의 텍스트 영역의 좌표 정보를 수신할 수 있으며, 사용자 단말(110)은 해당 좌표 정보에 해당하는 영역을 하이라이트 표시하여 출력하도록 할 수도 있다.
도 10은 본 발명의 일 실시예에 따른 사용자 단말의 내부 구성을 개략적으로 도시한 블록이다.
도 10을 참조하면, 본 발명의 일 실시예에 따른 사용자 단말(110)은 통신부(910), 음성 입력부(915), 문자 입력부(917), 입력부(920), 스피커(925), 디스플레이부(930), 카메라(935), 메모리(940) 및 프로세서(945)를 포함하여 구성된다.
통신부(910)는 통신망을 통해 다른 장치들(예를 들어, 서버(120) 등)과 데이터를 송수신하기 위한 수단이다.
예를 들어, 통신부(910)는 프로세서(945)의 제어에 따라 검색어 및 타겟 영상을 포함하는 검색 요청을 서버(120)로 전송할 수 있다. 또한, 통신부(910)는 서버(120)로부터 검색 결과를 수신할 수도 있다.
음성 입력부(915)는 검색어를 음성으로 입력 받기 위한 수단이다. 예를 들어, 음성 입력부(915)는 마이크일 수 있다.
문자 입력부(917)는 검색어를 문자로 입력 받기 위한 수단이다. 예를 들어, 문자 입력부(917)는 사용자 단말의 키보드 입력화면일 수 있다.
입력부(920)는 사용자 단말(110)의 제어를 위한 제어 명령 등을 입력 받기 위한 수단이다. 입력부(920)는 적어도 하나의 키 버튼을 포함할 수 있다. 입력부(920)는 검색 기능 실행을 위한 검색 버튼과 조회 기능 실행을 위한 조회 버튼을 포함할 수 있다.
스피커(925)는 음향을 출력하기 위한 수단이다. 예를 들어, 스피커(925)는 프로세서(945)의 제어에 따라 음성 변환 결과를 출력할 수 있다.
디스플레이부(930)는 사용자 단말(110)을 통해 입력되거나, 저장된 정보들을 시각 정보의 형태로 출력하기 위한 수단이다. 디스플레이부(930)는 액정화면일 수 있다.
본 발명의 일 실시예에서는 입력부(920)와 디스플레이부(930)가 각각 별도의 구성으로 당해 사용자 단말(110)에 구비되는 것으로 기재되어 있으나, 입력부(920)와 디스플레이부(930)는 터치스크린과 같은 하나의 구성으로 구비될 수도 있다.
카메라(935)는 타겟을 촬영하기 위한 수단이다.
메모리(940)는 본 발명의 일 실시예에 따른 딥러닝 신 텍스트 탐지 기술을 이용한 검색 방법을 수행하기 위해 필요한 다양한 명령어들(프로그램 코드들), 이 과정에서 파생된 다양한 데이터 등을 저장하기 위한 수단이다.
프로세서(945)는 본 발명의 일 실시예에 따른 사용자 단말(110)의 내부 구성 요소들(예를 들어, 통신부(910), 음성 입력부(915), 문자 입력부(917) 입력부(920), 스피커(925), 디스플레이부(930), 카메라(935), 메모리(940) 등)을 제어하기 위한 수단이다.
또한, 프로세서(945)는 딥러닝 신 텍스트 탐지 기술을 이용한 검색이 가능하도록, 검색어 및 타겟 영상을 포함하는 검색 요청을 서버(120)로 전송하도록 제어할 수도 있다.
또한, 프로세서(945)는 서버(120)로부터 검색 결과가 수신되면, 검색 결과에 포함된 하이라이트가 표시된 타겟 영상은 디스플레이부(930)를 통해 출력되도록 제어할 수 있다. 또한, 프로세서(945)는 검색 결과에 키워드를 포함하는 음성 변환 결과가 포함된 경우, 해당 음성 변환 결과를 스피커를 통해 출력하도록 제어할 수도 있다.
도 11은 본 발명의 일 실시예에 따른 서버의 내부 구성을 개략적으로 도시한 도면이다.
도 11을 참조하면, 본 발명의 일 실시예에 따른 서버(120)는 통신부(1010), 음성 인식부(1015), 문자 인식부(1020), 분석부(1025), 음성 변환부(1030), 메모리(1035) 및 프로세서(1040)를 포함하여 구성된다.
통신부(1010)는 통신망을 통해 다양한 장치들(예를 들어, 사용자 단말(110))과 데이터를 송수신하기 위한 수단이다.
통신부(1010)는 사용자 단말(110)로부터 검색 요청을 수신하고, 프로세서(1040)의 제어에 따라 검색 결과를 사용자 단말(110)로 전송할 수 있다.
음성 인식부(1015)는 음성을 인식하여 텍스트로 변환하기 위한 수단이다.
예를 들어, 음성 인식부(1015)는 검색 요청에 포함된 검색어를 음성 인식하여 텍스트로 변환할 수 있다.
문자 인식부(1020)는 타겟 영상에 대한 문자 인식을 수행하여 타겟 영상에 포함된 각각의 텍스트를 검출하기 위한 수단이다.
분석부(1025)는 타겟 영상에 대한 문자 인식 결과를 이용하여 키워드를 포함하는 타겟 영상의 영역을 추출하여 하이라이트 표시할 수 있다.
또한, 분석부(1025)는 타겟 영상에 대한 문자 인식 결과를 이용하여 키워드를 포함하는 정보 검색을 수행함에 있어, 해당 키워드를 포함하는 구문 또는 문장이 지정 부호를 포함하는 경우, 해당 구문 또는 문장을 연관 텍스트로 선정할 수 있다.
여기서, 지정 부호는 예를 들어, 마침표(.), 콜론(:) 등일 수 있다. 여기서, 지정 부호 적용 여부는 사용자 단말(110)에 의해 선택될 수도 있다.
예를 들어, 타겟 영상에 대한 문자 인식 결과를 분석하는 중 키워드를 포함하는 구문 또는 문장이 마침표로 끝나는 경우, 해당 키워드를 포함하는 문장을 연관 텍스트로 선정할 수 있다.
또한, 분석부(1025)는 키워드를 포함하는 구문 이후에 콜론(:)과 같은 구분자를 포함하는 경우, 해당 콜론(:)과 같은 구분자 이후의 구문 또는 문장을 연관 텍스트로 선택할 수도 있다.
또 다른 예를 들어, 분석부(1025)는 키워드를 포함하는 구문이 키워드 포함 1~2개 단어로 구성된 경우, 해당 구문을 연관 텍스트로 선택할 수도 있다.
또 다른 예를 들어, 분석부(1025)는 키워드가 특정 표에 포함된 경우, 해당 키워드가 포함된 행 전체를 연관 텍스트로서 선택할 수도 있다.
음성 변환부(1030)는 연관 텍스트를 음성 변환하기 위한 수단이다.
메모리(1035)는 본 발명의 일 실시예에 따른 딥러닝 신 텍스트 탐지 기술을 이용한 검색 방법을 수행하기 위한 명령어들(프로그램 코드들), 이 과정에서 파생된 다양한 데이터 등을 저장하기 위한 수단이다.
프로세서(1040)는 본 발명의 일 실시예에 따른 서버(120)의 내부 구성 요소들(예를 들어, 통신부(1010), 음성 인식부(1015), 문자 인식부(1020), 분석부(1025), 음성 변환부(1030), 메모리(1035) 등)을 제어하기 위한 수단이다.
또한, 프로세서(945)는 하이라이트 표시된 타겟 영상 및 음성 변환된 결과를 포함하는 검색 결과를 사용자 단말(110)로 전송하도록 제어할 수 있다.
본 발명의 실시 예에 따른 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100: 시스템
110: 사용자 단말
120: 서버

Claims (10)

  1. (a) 검색어를 입력 받는 단계;
    (b) 검색 대상 타겟을 촬영하여 타겟 영상을 생성하는 단계; 및
    (c) 상기 타겟 영상에서 상기 검색어에 상응하는 키워드를 포함하는 영역을 하이라이트로 표시하여 출력하는 단계를 포함하고,
    상기 (c) 단계는,
    상기 키워드에 상응하여 설정되어 있는 세부 키워드가 존재하는 경우, 상기 타겟 영상에 대한 텍스트 인식 결과를 반영하여 상기 세부 키워드를 포함하는 영역을 하이라이트로 표시하여 출력하고,
    상기 세부 키워드는 상기 키워드 하나에 대해 복수로 매칭되어 있어, 상기 검색어를 하나만 입력받는 경우에도 상기 키워드에 매칭된 복수의 상기 세부 키워드를 포함하는 영역 모두를 일괄적으로 하이라이트로 표시하여 출력하는 것을 특징으로 하는 사용자 단말에서의 딥러닝 신 텍스트 탐지 기술을 이용한 정보 검색 방법.
  2. 제1항에 있어서,
    상기 (b) 단계는,
    상기 검색 대상 타겟을 실시간 촬영하여 상기 타겟 영상을 실시간 생성하고,
    상기 (b) 단계 이후,
    상기 타겟 영상에 대한 텍스트 인식을 수행함에 있어 딥러닝 신 텍스트 탐지 기술(deep learning scene text detection and recognition)을 이용함으로써 상기 타겟 영상으로부터 실시간 텍스트 인식이 가능한, 사용자 단말에서의 딥러닝 신 텍스트 탐지 기술을 이용한 정보 검색 방법.
  3. 제1항에 있어서,
    상기 검색어는 음성 검색어이고,
    상기 (a) 단계는,
    상기 음성 검색어를 음성으로 입력 받는 단계를 포함하는 것을 특징으로 하는 사용자 단말에서의 딥러닝 신 텍스트 탐지 기술을 이용한 정보 검색 방법.
  4. 사용자 단말로부터 검색어 및 타겟 영상을 포함하는 검색 요청을 수신하는 단계;
    상기 검색어를 인식하여 텍스트 타입으로 키워드를 추출하는 단계;
    상기 타겟 영상내에 텍스트를 탐지 및 인식하는 단계;
    상기 타겟 영상에서 상기 타겟 영상의 텍스트 인식 결과를 고려하여 상기 키워드를 포함하는 영역을 하이라이트 표시하는 단계;
    상기 하이라이트 표시된 타겟 영상을 포함하는 검색 결과를 상기 사용자 단말로 전송하는 단계를 포함하되,
    상기 하이라이트 표시된 타겟 영상은 상기 사용자 단말의 화면을 통해 출력되고,
    상기 키워드를 포함하는 영역을 하이라이트 표시하는 단계는,
    상기 키워드에 상응하여 설정되어 있는 세부 키워드가 존재하는 경우, 상기 타겟 영상에 대한 텍스트 인식 결과를 반영하여 상기 세부 키워드를 포함하는 영역을 하이라이트로 표시하여 출력하고,
    상기 세부 키워드는 상기 키워드 하나에 대해 복수로 매칭되어 있어, 상기 검색어를 하나만 입력받는 경우에도 상기 키워드에 매칭된 복수의 상기 세부 키워드를 포함하는 영역 모두를 일괄적으로 하이라이트로 표시하여 출력하는 것을 특징으로 하는 서버에서의 딥러닝 신 텍스트 탐지 기술을 이용한 정보 검색 방법.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020200103726A 2019-10-16 2020-08-19 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 KR102320851B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200103726A KR102320851B1 (ko) 2019-10-16 2020-08-19 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190128626A KR102148021B1 (ko) 2019-10-16 2019-10-16 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
KR1020200103726A KR102320851B1 (ko) 2019-10-16 2020-08-19 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020190128626A Division KR102148021B1 (ko) 2019-10-16 2019-10-16 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20210045298A KR20210045298A (ko) 2021-04-26
KR102320851B1 true KR102320851B1 (ko) 2021-11-02

Family

ID=75733688

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200103726A KR102320851B1 (ko) 2019-10-16 2020-08-19 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법

Country Status (1)

Country Link
KR (1) KR102320851B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101212979B1 (ko) * 2012-02-13 2012-12-24 제이큐브인터랙티브 주식회사 콘텐츠 처리 장치 및 그 방법
KR101696555B1 (ko) * 2015-10-06 2017-02-02 서울시립대학교 산학협력단 영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150077580A (ko) 2013-12-27 2015-07-08 주식회사 케이티 음성 인식 기반 서비스 제공 방법 및 그 장치
KR101561628B1 (ko) * 2013-12-30 2015-10-20 주식회사 케이티 스마트 글래스의 영상 정보를 제공하는 검색 장치 및 검색 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101212979B1 (ko) * 2012-02-13 2012-12-24 제이큐브인터랙티브 주식회사 콘텐츠 처리 장치 및 그 방법
KR101696555B1 (ko) * 2015-10-06 2017-02-02 서울시립대학교 산학협력단 영상 또는 지리 정보에서 음성 인식을 통한 텍스트 위치 탐색 시스템 및 그 방법

Also Published As

Publication number Publication date
KR20210045298A (ko) 2021-04-26

Similar Documents

Publication Publication Date Title
CN111968649B (zh) 一种字幕纠正方法、字幕显示方法、装置、设备及介质
US9230547B2 (en) Metadata extraction of non-transcribed video and audio streams
Albanie et al. Bbc-oxford british sign language dataset
US8983836B2 (en) Captioning using socially derived acoustic profiles
US20050102139A1 (en) Information processing method and apparatus
US10978077B1 (en) Knowledge point mark generation system and method thereof
JPWO2008016102A1 (ja) 類似度計算装置及び情報検索装置
US20150019206A1 (en) Metadata extraction of non-transcribed video and audio streams
EP2806336A1 (en) Text prediction in a text input associated with an image
KR20090068380A (ko) 개선된 이동 통신 단말
KR102070197B1 (ko) 영상 분석 기반 토픽 모델링 영상 검색 시스템 및 방법
US20150146040A1 (en) Imaging device
CN111797265A (zh) 一种基于多模态技术的拍照命名方法与系统
CN113642536B (zh) 数据处理方法、计算机设备以及可读存储介质
KR102527589B1 (ko) 여론 획득과 단어 점도 모델의 훈련 방법 및 기기, 서버와 매체
KR102148021B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치
JP2011165092A (ja) 文書画像関連情報提供装置、及び文書画像関連情報取得システム
KR101440887B1 (ko) 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치
KR102320851B1 (ko) 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법
Ghosh et al. Multimodal indexing of multilingual news video
Kapitanov et al. Slovo: Russian Sign Language Dataset
JP6756211B2 (ja) 通信端末、音声変換方法、及びプログラム
JP2019105751A (ja) 表示制御装置、プログラム、表示システム、表示制御方法及び表示データ
Salunkhe et al. Android-based object recognition application for visually impaired
TWI684964B (zh) 知識點標記生成系統及其方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant