KR20080052173A - 자연어 분석을 통한 미디어 정보 검색 방법 - Google Patents

자연어 분석을 통한 미디어 정보 검색 방법 Download PDF

Info

Publication number
KR20080052173A
KR20080052173A KR1020070041148A KR20070041148A KR20080052173A KR 20080052173 A KR20080052173 A KR 20080052173A KR 1020070041148 A KR1020070041148 A KR 1020070041148A KR 20070041148 A KR20070041148 A KR 20070041148A KR 20080052173 A KR20080052173 A KR 20080052173A
Authority
KR
South Korea
Prior art keywords
metadata
media
information
search query
recognized
Prior art date
Application number
KR1020070041148A
Other languages
English (en)
Inventor
허정
장명길
김현기
임수종
서희철
황이규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20080052173A publication Critical patent/KR20080052173A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 외부로부터 미디어 정보 검색 질의 정보 및 미디어 정보를 수신하는 단계, 미디어 검색 질의 정보에 상응하는 메타 데이터 인식 규칙을 추출하여 메타 데이터 인식 규칙 데이터베이스에 저장하는 단계, 미디어 정보에 상응하는 미디어 메타 데이터 정보를 추출하여 메타 데이터 색인 데이터베이스에 저장하는 단계 및 저장된 메타 데이터 색인 데이터베이스 및 메타 데이터 인식 규칙 데이터베이스에 상응하여 사용자로부터 수신된 자연어 미디어 검색 질의에 따른 미디어 정보를 검색하는 단계를 포함하는 미디어 정보 검색 방법을 제공한다.
메타 데이터, 메타 데이터 인식 규칙, 자연어 검색

Description

자연어 분석을 통한 미디어 정보 검색 방법{Method for searching media data with analyzing natural language}
도 1은 본 발명의 바람직한 일 실시예에 따른 자연어 분석을 통한 미디어 정보 검색 방법을 전체적으로 나타낸 구성도.
도 2는 본 발명의 바람직한 일 실시예에 따른 메타 데이터 색인 데이터베이스를 구성하는 방법을 대략적으로 나타내는 도면.
도 3은 본 발명의 바람직한 일 실시예에 따른 미디어 유형별 메타 데이터 구조를 나타내는 표.
도 4는 본 발명의 바람직한 일 실시예에 따른 메타 데이터 인식 규칙을 나타내는 예시.
도 5는 본 발명의 바람직한 일 실시예에 따른 사용자가 미디어 검색을 하는 방법을 나타낸 순서도.
<도면의 주요 부분에 대한 부호의 설명>
101 : 미디어 정보
103 : 미디어 메타 데이터 추출
105 : 메타 데이터 색인 데이터베이스
111 : 미디어 정보 검색 질의
113 : 메타 데이터 인식 규칙 추출
115 : 메타 데이터 인식 규칙 데이터베이스
본 발명은 자연어 분석을 통한 미디어 정보 검색 방법에 관한 것이다.
본 발명은 데스크 탑 컴퓨터와 같은 디지털 데이터베이스에 저장된 문서, 이미지, 오디오, 비디오 등의 파일을 효과적으로 검색하기 위한 방법으로 메타데이터 기반 색인 및 자연어 질의의 메타데이터 분석을 통하여 데이터를 검색하는 방법에 관한 것이다.
기존의 디지털 데이터베이스에 저장된 미디어의 검색은 크게 두 가지 정보를 이용하여 검색을 수행한다.
첫째는 파일의 이름에 기반하여 사용자의 질의에 포함된 키워드와 파일이름의 부분 문자열이 같으면 검색의 결과로 내 보내는 것이다. 예를 들어 사용자가 "수원"과 관련된 키워드를 이용하여 검색하고자 할 때, "수원"을 포함하는 파일 이름을 가진 "수원에서.doc"나 "수원 화성.jpg", "상수원관리.xls", "과수원길.mp3"과 같은 파일이 검색될 수 있다.
두 번째는 문서 필터를 이용하여 문서 내에 있는 본문에 포함된 문자열을 미리 추출한 후, 사용자의 질의에 대해 추출된 문자열이 포함되면 이를 검색하는 경우이다. 이 경우, 다양한 문서 필터(예를 들어, hwp, MS-word, PDF, PostScript 등 다양한 필터를 이용한다.)를 이용하는 방법이다.
위의 두 가지 전통적인 방법을 사용하는 데이터베이스 검색은 대용량화 되어가는 사용자의 미디어 관리 방법에 부적합한 결과를 제시한다.
두 번째 방법은 기존에 정보검색 분야에서 연구된 다양한 색인 기법 및 검색 기법을 활용하기 때문에 우수한 결과를 얻을 수 있지만, 문서라는 한정된 미디어만을 대상으로 한다. 이러한 이유로 문서뿐만 아니라 이미지나 동영상 및 오디오 파일을 포함하는 지능적인 검색방법이 필요하게 되었다.
본 발명은 자연어 분석을 통한 미디어 정보 검색 방법을 제공하는 데 그 목적이 있다.
또한 본 발명은 미디어 데이터의 저장시에 메타 데이터를 이용하여 색인을 저장하고 이를 검색하기 위한 사용자의 자연어 질의의 효율적인 분석을 통해 사용자가 원하는 미디어를 검색하는 방법을 제시하고자 한다.
상술한 목적들을 달성하기 위하여, 본 발명의 일 측면에 따르면, 외부로부터 미디어 정보 검색 질의 정보 및 미디어 정보를 수신하는 단계, 상기 미디어 검색 질의 정보에 상응하는 메타 데이터 인식 규칙을 추출하여 메타 데이터 인식 규칙 데이터베이스에 저장하는 단계, 상기 미디어 정보에 상응하는 미디어 메타 데이터 정보를 추출하여 메타 데이터 색인 데이터베이스에 저장하는 단계 및 상기 저장된 메타 데이터 색인 데이터베이스 및 상기 메타 데이터 인식 규칙 데이터베이스에 상응하여 사용자로부터 수신된 자연어 미디어 검색 질의에 따른 미디어 정보를 검색하는 단계를 포함하는 미디어 정보 검색 방법을 제공할 수 있다.
바람직한 실시예에 있어서, 상기 메타 데이터 색인 데이터베이스의 주요 속성은 문서 정보, 이미지 정보, 메일 정보, 자작 동영상 정보, 외부 수신 동영상 정보 및 오디오 정보에 따라 각각 달라지는 것을 특징으로 할 수 있다. 또한, 상기 메타 데이터 색인 데이터베이스의 주요 속성은 문서 정보일 경우에는 제목, 주제, 작성자, 관리자, 회사, 키워드 및 작성일 중 어느 하나를 포함하는 것을 특징으로 할 수 있다.
또한, 상기 메타 데이터 색인 데이터베이스의 주요 속성은 메일 정보일 경우에는 보낸 사람, 받는 사람, 제목, 보낸 날짜, 첨부 파일 및 요약 중 어느 하나를 포함하는 것을 특징으로 할 수 있다. 또한, 상기 메타 데이터 색인 데이터베이스의 주요 속성은 이미지 정보일 경우에는 장소, 대상, 시간, 이벤트, 인물, 인물 수, 실내 및 실외 중 어느 하나를 포함하는 것을 특징으로 할 수 있다.
또한, 상기 메타 데이터 색인 데이터베이스의 주요 속성은 자작 동영상 정보일 경우에는 장소, 대상, 시간, 이벤트, 인물 및 재생시간 중 어느 하나를 포함하 는 것을 특징으로 할 수 있다. 또한, 상기 메타 데이터 색인 데이터베이스의 주요 속성은 외부 수신 동영상 정보일 경우에는 제작자, 출연자, 장르, 제작 시간 및 재생시간 중 어느 하나를 포함하는 것을 특징으로 할 수 있다. 또한, 상기 메타 데이터 색인 데이터베이스의 주요 속성은 오디오 정보일 경우에는 가수, 장르, 앨범 명, 제작 시간, 작곡자, 작사자, 가사 및 재생 시간 중 어느 하나를 포함하는 것을 특징으로 할 수 있다.
또한, 상기 미디어 메타 데이터 정보 추출 방식은 미디어 필터 이용 방식, 자동 메타 데이터 추출 방식 및 수동 메타 데이터 부착 방식 중 어느 하나를 이용하는 것을 특징으로 할 수 있다. 또한, 상기 미디어 필터 이용 방식은 데이터 정보가 종류에 따른 고유의 메타 데이터 정보, 헤더 정보 및 필터 정보를 분석하여 자동으로 메타 데이터를 추출하는 것을 특징으로 할 수 있다.
또한, 상기 자동 메타 데이터 추출 방식은 데이터 정보가 종류에 따른 고유의 메타 데이터 정보를 포함하지 않는 경우에 상기 데이터 정보의 내용을 분석하여 자동으로 메타 데이터를 추출하는 것을 특징으로 할 수 있다.
또한, 상기 수동 메타 데이터 부착 방식은 상기 데이터 정보에 관한 메타 데이터의 작성 유형을 사용자에게 제공하여 상기 사용자로 하여금 메타데이터를 부착시키도록 하는 것을 특징으로 할 수 있다.
또한, 상기 메타 데이터 인식 규칙의 추출 방식은 상기 검색하는 데이터 정보가 문서인 경우에는 '쓰', '작성하' 및 '만들'이라는 문자열 중 어느 하나가 포함되는 경우 상기 미디어 검색 질의에서 표현된 인명은 상기 문서의 작성자로 인식 하는 것을 특징으로 할 수 있다.
또한, 상기 메타 데이터 인식 규칙의 추출 방식은 상기 검색하는 데이터 정보가 이미지인 경우에는 '찍'이라는 문자열이 포함되는 경우 상기 미디어 검색 질의에서 표현된 인명은 상기 이미지의 촬영자로 인식하고, 상기 미디어 검색 질의에서 표현된 지역 명은 상기 이미지의 촬영 지역으로 인식하고, 상기 미디어 검색 질의에서 표현된 날짜는 상기 이미지의 촬영 일로 인식하는 것을 특징으로 할 수 있다.
또한, 상기 메타 데이터 인식 규칙의 추출 방식은 상기 검색하는 데이터 정보가 메일인 경우에는 '가' 및 '보내'라는 문자열이 모두 포함되는 경우에 상기 미디어 검색 질의에서 표현된 인명은 상기 메일의 발송인으로 인식하고, '에게' 및 '보내'라는 문자열이 모두 포함되는 경우에 상기 미디어 검색 질의에서 표현된 인명은 상기 메일의 수신인으로 인식하는 것을 특징으로 할 수 있다. 또한, 상기 메타 데이터 인식 규칙의 추출 방식은 상기 검색하는 데이터 정보가 오디오인 경우에는 '부르' 및 '노래'중 어느 하나의 문자열이 포함되는 경우에 상기 미디어 검색 질의에서 표현된 장르는 상기 오디오 정보의 장르로 인식하고, '만들'이라는 문자열이 포함되는 경우에 상기 미디어 검색 질의에서 표현된 오디오 정보의 인명은 오디오 작곡가로 인식하는 것을 특징으로 할 수 있다.
또한, 상기 사용자로부터 수신된 자연어 미디어 검색 질의에 따른 미디어 정보를 검색하는 단계는 상기 자연어 미디어 검색 질의의 형태소 분석 및 개체 명을 인식하는 단계, 상기 인식된 자연어 미디어 검색 질의에 상응하여 검색 대상이 되 는 미디어 종류를 인식하는 단계, 상기 인식된 미디어 종류 및 개체명에 상응하여 미리 결정된 메타 데이터 인식 규칙을 이용하여 메타 데이터를 인식하는 단계, 상기 인식된 메타 데이터에 상응하여 미리 결정된 사용자 프로파일을 이용하여 상기 메타 데이터를 정규화 하는 단계, 상기 정규화된 메타 데이터에 상응하여 미리 결정된 스키마 변환 템플릿을 이용하여 구조 질의를 생성하는 단계 및 상기 구조 질의에 상응하여 미디어를 검색하는 단계를 더 포함하는 것을 특징으로 할 수 있다.
이어서, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 바람직한 일 실시예에 따른 자연어 분석을 통한 미디어 정보 검색 방법을 전체적으로 나타낸 구성도이다.
도 1을 참조하면, 사용자가 미디어를 검색하기 전에 데이터베이스에 미디어 정보(101)가 축척되면 입력된 미디어에서 메타 데이터를 추출한다(103). 그 후 미디어 정보(101)에 상응하는 메타 데이터의 메타 데이터 색인 데이터베이스(105)에 저장한다.
또한, 자연어 미디어 검색 질의 정보(111)가 입력되면, 입력된 미디어 검색 질의(111)를 분석하여 메타 데이터 인식 규칙(113)을 추출한다. 그런 다음 분석된 메타 데이터 인식 규칙(113)을 메타 데이터 인식 규칙 데이터베이스(115)에 저장한다.
이렇게 구성된 환경에서, 사용자가 미디어 검색(121)을 시작하면 사용자의 자연어 검색 질의를 저장된 메타 데이터 인식 규칙 데이터베이스(115)를 이용하여 메타 데이터로 인식하고 인식된 데이터에 상응하는 미디어 정보를 메타 데이터 색인 데이터베이스(105)를 이용하여 검색한다.
도 2는 본 발명의 바람직한 일 실시예에 따른 메타 데이터 색인 데이터베이스를 구성하는 방법을 대략적으로 나타내는 도면이다.
도 2를 참조하면, 우선 미디어 정보를 유형 별로 분석하여 미디어 유형별로 메타 데이터 구조를 정의하고(220) 정의된 구조에 따라 입력된 미디어 정보(200)의 미디어 메타 데이터를 추출(210)한다. 여기서, 미디어 유형별 메타 데이터 구조(220)는 도 3에서 다시 설명하도록 한다.
이때 미디어 메타 데이터의 추출(210)은 미디어 필터를 이용하여 메타 데이터를 추출하는 방식(211), 자동으로 메타 데이터를 추출하는 방식(213) 및 수동으로 메타 데이터를 부착하는 방식(215)을 포함한다.
이렇게 미디어 정보에 따라 메타 데이터가 추출되면 추출된 메타 데이터는 메타 데이터 색인 데이터베이스(230)에 저장된다.
미디어 필터를 이용하여 메타 데이터를 추출하는 방식(211)에 대해서 설명하면, 미디어 정보 중 문서 형 미디어 데이터는 고유한 메타 정보를 포함하고 있는 것이 대부분이다. 예를 들어 마이크로소프트사의 파워포인트(Power Point) 파일의 경우에는 '제목', '주제', '만든 이', '관리자', '범주' 및 '키워드'와 같은 항목 을 메타 데이터로 포함하고 있으며, JPG 형식의 이미지 데이터는 Exif(Exchangeable Image File Format)에 '카메라 모델', '촬영 시간', '촬영자', '해상도' 및 '오리엔테이션'과 같은 메타 데이터를 포함한다.
동영상의 경우에도 MPEG-7 기반의 메타 데이터를 포함하며, MP3 형식의 오디오 파일은 ID3 태그를 포함한다. 이러한 태그에는 '노래 제목', '가수', '앨범명'과 같은 메타 데이터를 포함하고 있으며, 이메일의 경우에도 MIME(Multi-Purpose Internet Mail Extension) 헤더를 분석하여 '보낸 사람'이나 '받은 사람'의 메타 데이터를 얻을 수 있다.
이렇게 각, 미디어 데이터 중 메타 데이터를 함께 포함하고 있는 것들은 해당되는 미디어 데이터의 필터나 헤더의 분석을 통하여 필요한 메타 데이터를 자동으로 추출할 수 있다.
다음으로 자동 메타 데이터 추출 방식(213)은 메타 데이터를 포함하고 있지 않은 미디어 데이터의 내용을 직접 분석하여 메타 데이터를 추출하는 방법을 말한다. 이러한 방식은 예를 들어, 이미지 데이터의 경우에는 이미지 파일의 얼굴을 인식하는 알고리즘을 이용하여 이미지 파일에 저장된 인물의 얼굴을 인식하여 인명을 메타 데이터로 저장하는 방식을 말한다. 또한 오디오 파일 및 동영상 파일의 경우에 이미 알려진 인터넷 데이터베이스에 접속하여 오디오 파일의 메타 데이터를 획득하는 방식이 있을 수 있다.
다음으로 수동 메타 데이터 추출 방식(215)은 위의 2가지 방법이 모두 불가능 할 경우에 사용자가 직접 미디어 데이터의 메타 데이터를 작성하는 방법을 말한 다. 이러한 방식은 일반적으로 자동적으로 인식할 수도 없고, 기존의 메타 데이터에 포함되지도 않은 정보를 추가시킬 때 사용될 수 있다. 예를 들어 이미지 데이터의 경우 '이벤트', '촬영 대상'과 같은 속성 정보는 자동으로 인식하기 힘들므로, 사용자가 직접 입력하여야한다.
이러한 경우 사용자의 메타 데이터 입력을 쉽게 하기 위하여 메타 데이터의 입력 유형을 정의하여 제공할 수 있다.
도 3은 본 발명의 바람직한 일 실시예에 따른 미디어 유형별 메타 데이터 구조를 나타내는 표이다.
미디어 유형별 메타 데이터 구조는 미디어 데이터를 검색하고 관리하기 위하여 미디어를 문서(301), 메일(303), 이미지(305), 자작 동영상(307), 외부 수신 동영상(309) 및 오디오(311)의 유형별로 분류하여 필요한 메타 데이터를 정의한 것이다. 이는 각각의 미디어 데이터 파일이 각각의 표준에 따라 복잡한 메타 데이터 정보를 가지고 있으나 검색에서 자주 검색되어지는 것들로 구분한 것이다.
이렇게 유형별로 분리한 메타 데이터 구조에서 필요한 메타 데이터 구조 지식은 각각 상기 도 2에서 설명한 미디어 메타 데이터 추출 방법으로 획득할 수 있다.
본 도면에서 각 유형별로 분리된 미디어 데이터에 필요한 메타 데이터 구조 지식의 괄호에 포함된 숫자 1,2 및 3은 각각 미디어 필터를 이용하여 메타 데이터를 추출하는 방식은 (1)번 표시로 하고, 자동으로 메타 데이터를 추출하는 방식은 (2)번 표시로 하며, 수동으로 메타 데이터를 부착하는 방식은 (3)번 표시로 하여 나타낸 것이다.
예를 들어 이미지(305) 미디어 유형의 주요 메타 데이터 지식인 '인물'에 관한 메타 데이터 지식은 (2)번 표시이므로 자동 메타 데이터 추출 방식을 사용하며, 그에 비해 '대상' 및 '이벤트'정보는 (3)번 표시이므로 수동 메타 데이터 부착 방식을 이용한다는 의미이다.
도 4는 본 발명의 바람직한 일 실시예에 따른 메타 데이터 인식 규칙을 나타내는 예시이다.
도 4를 참조하면, 미디어 검색을 위한 사용자 질의 문장에서 메타 데이터를 인식하기 위한 규칙의 예시를 나타낸다. 이러한 규칙은 미리 수집된 미디어 검색 질의를 분석하여 구축한다.
예를 들어 미디어 종류가 문서일 경우에 메타 데이터 인식 규칙의 추출 방법은 '쓰', '작성하' 및 '만들'이라는 문자열 중 어느 하나가 포함되는 경우에는 이러한 문자열을 포함하는 미디어 검색 질의에서 표현된 사람의 명칭은 이 문서의 작성자로 인식하게 된다(401).
또한 검색하는 데이터 정보가 이미지인 경우에는 '찍' 이라는 문자열이 포함되면, 문자열에 포함된 인물 명은 촬영자가 되고(403), 지명은 촬영지가 되며(405), 날짜는 촬영 날짜(407)가 된다.
또한 검색하는 데이터 정보가 메일인 경우에는 '가' 및 '보내'를 모두 포함 하면 그 문자열에 포함된 인물 명은 발신자가 되고(409), '에게' 및'보내'를 모두 포함하면 인물명은 수신자가 된다(411). 또한 이러한 문장열에 포함된 이메일 주소는 각각 수신자의 이메일 주소 및 발신자의 이메일 주소가 된다(413).
또한 검색하는 데이터 정보가 오디오 정보인 경우에는 문자열에 '부르'나 '노래'가 포함되어 있다면 그 문자열에 포함된 장르 명칭은 장르가 되며(415), 문자열에 '만들'이 포함되어 있다면 그 문자열에 포함된 인물 명은 작곡자가 된다.
도 5는 본 발명의 바람직한 일 실시예에 따른 사용자가 미디어 검색을 하는 방법을 나타낸 순서도이다.
도 5를 참조하면, 우선 사용자가 미디어 데이터의 검색을 위하여 자연어 질의를 입력한다(단계 501). 그러면 사용자로부터 입력된 자연어 형식의 질문 내용에서 자연어의 형태소를 분석하고 각 개체명을 인식한다(단계503).
이러한 개체명은 인명, 지명, 날짜, 이메일 주소, 장르 등과 같은 메타 데이터 속성이 될 수 있다. 예를 들면, "어제 지리산에서 집사람과 찍은 사진"이라는 질의에서 "어제"는 날짜로 인식되고, "지리산"은 지명, "집사람"은 인명으로 인식되는 것이다.
그런 다음 분석된 형태소와 개체명을 이용하여 검색 대상이 되는 미디어의 유형을 인식한다(단계 505). 이러한 미디어 인식은 예를 들어"어제 지리산에서 집사람과 찍은 사진"일 경우에는 이미지 미디어 정보로 인식하고, "팀장님이 전달한 hwp 파일"은 문서 미디어 정보로 인식하는 것을 말한다.
이를 위해서 ME(Maximum Entropy)와 같은 기계 학습 기반의 방법을 사용하고 , 형태소 및 개체명, 질의에 나타나는 미디어 인식 단서 단어(사진, 이미지, Gif, 문서, 노래, 영화 등의 문자열)등을 자질로 이용한다.
그 후, 미리 설정된 메타 데이터 인식 규칙(521)을 이용하여 사용자 질의에 포함된 메타 데이터를 인식한다(단계 507). 예를 들어 "철수가 작성한 워드 파일" 이라는 질의어가 입력된 경우에, 상기에서 살펴본 메타 데이터 인식 규칙에 의해서 찾는 미디어 데이터의 종류는 '문서'이고, 작성자는 '철수'라는 것을 알 수 있어, 확장자가 doc 이며 작성자가 '철수'인 파일을 검색하는 것으로 인식하게 된다.
그 후, 미리 결정되어 있는 사용자 프로파일을 이용하여 메타 데이터를 정규 화한다(단계 509).
이러한 정규화 단계는 예를 들어 "어제"라는 말이 질의어에 포함된 경우 이 문자열은 날짜를 나타내는 문자열이나, 이는 상대적인 표현으로써, 이러한 값들을 정규화 하여 메타 데이터 색인 데이터베이스에서 검색할 수 있는 표현으로 변형한다.
이는 "아버지", "어머니"와 같은 인명의 표현에서도 동일하게 적용된다.
그 후 스키마 변환 템플릿(525)을 이용하여 구조 질의를 생성한다(단계 511). 이러한 구조 질의는 메타 데이터로 인식된 사용자의 자연어 질의는 RDF(Resource Description Framework) 구조로 색인 저장된 메타 데이터 색인 데이터베이스를 검색하기 위해서 SparQL(SPARQL Protocol and RDF Query Language)과 같은 RDF(Resource Description Framework) 질의 언어로 변환 되어서 검색되어야한 다. 이러한 경우 메타 데이터의 속성과 RDF(Resource Description Framework) 저장 구조의 스키마 이름이 일치되도록 구성되기 때문에 스키마 변환 템플릿을 이용하여 변환할 수 있다.
그 후, 인식된 메타 데이터를 이용하여 메타 데이터 색인 데이터베이스에 포함된 정보를 검색한다(단계 513). 그러면 미디어 정보가 검색되고(단계515) 사용자는 검색된 미디어를 확인하여 다시 검색할 수 있다.
본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.
본 발명에 의하여, 자연어 분석을 통한 미디어 정보 검색 방법을 제공할 수 있다.
또한 본 발명에 의하여, 미디어 데이터의 저장시에 메타 데이터를 이용하여 색인을 저장하고 이를 검색하기 위한 사용자의 자연어 질의의 효율적인 분석을 통해 사용자가 원하는 미디어를 검색하는 방법을 제시할 수 있다.

Claims (17)

  1. 외부로부터 미디어 정보 검색 질의 정보 및 미디어 정보를 수신하는 단계;
    상기 미디어 검색 질의 정보에 상응하는 메타 데이터 인식 규칙을 추출하여 메타 데이터 인식 규칙 데이터베이스에 저장하는 단계;
    상기 미디어 정보에 상응하는 미디어 메타 데이터 정보를 추출하여 메타 데이터 색인 데이터베이스에 저장하는 단계; 및
    상기 저장된 메타 데이터 색인 데이터베이스 및 상기 메타 데이터 인식 규칙 데이터베이스에 상응하여 사용자로부터 수신된 자연어 미디어 검색 질의에 따른 미디어 정보를 검색하는 단계
    를 포함하는 미디어 정보 검색 방법
  2. 제1항에 있어서,
    상기 메타 데이터 색인 데이터베이스의 주요 속성은 문서 정보, 이미지 정보, 메일 정보, 자작 동영상 정보, 외부 수신 동영상 정보 및 오디오 정보에 따라 각각 달라지는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  3. 제2항에 있어서,
    상기 메타 데이터 색인 데이터베이스의 주요 속성은 문서 정보일 경우에는 제목, 주제, 작성자, 관리자, 회사, 키워드 및 작성일 중 어느 하나를 포함하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  4. 제2항에 있어서,
    상기 메타 데이터 색인 데이터베이스의 주요 속성은 메일 정보일 경우에는 보낸 사람, 받는 사람, 제목, 보낸 날짜, 첨부 파일 및 요약 중 어느 하나를 포함하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  5. 제2항에 있어서,
    상기 메타 데이터 색인 데이터베이스의 주요 속성은 이미지 정보일 경우에는 장소, 대상, 시간, 이벤트, 인물, 인물 수, 실내 및 실외 중 어느 하나를 포함하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  6. 제2항에 있어서,
    상기 메타 데이터 색인 데이터베이스의 주요 속성은 자작 동영상 정보일 경우에는 장소, 대상, 시간, 이벤트, 인물 및 재생시간 중 어느 하나를 포함하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  7. 제2항에 있어서,
    상기 메타 데이터 색인 데이터베이스의 주요 속성은 외부 수신 동영상 정보일 경우에는 제작자, 출연자, 장르, 제작 시간 및 재생시간 중 어느 하나를 포함하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  8. 제2항에 있어서,
    상기 메타 데이터 색인 데이터베이스의 주요 속성은 오디오 정보일 경우에는 가수, 장르, 앨범 명, 제작 시간, 작곡자, 작사자, 가사 및 재생 시간 중 어느 하나를 포함하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  9. 제1항에 있어서,
    상기 미디어 메타 데이터 정보 추출 방식은 미디어 필터 이용 방식, 자동 메타 데이터 추출 방식 및 수동 메타 데이터 부착 방식 중 어느 하나를 이용하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  10. 제9항에 있어서,
    상기 미디어 필터 이용 방식은 데이터 정보가 종류에 따른 고유의 메타 데이터 정보, 헤더 정보 및 필터 정보를 분석하여 자동으로 메타 데이터를 추출하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  11. 제9항에 있어서,
    상기 자동 메타 데이터 추출 방식은 데이터 정보가 종류에 따른 고유의 메타 데이터 정보를 포함하지 않는 경우에 상기 데이터 정보의 내용을 분석하여 자동으로 메타 데이터를 추출하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  12. 제9항에 있어서,
    상기 수동 메타 데이터 부착 방식은 상기 데이터 정보에 관한 메타 데이터의 작성 유형을 사용자에게 제공하여 상기 사용자로 하여금 메타데이터를 부착시키도록 하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  13. 제1항에 있어서,
    상기 메타 데이터 인식 규칙의 추출 방식은
    상기 검색하는 데이터 정보가 문서인 경우에는 '쓰', '작성하' 및 '만들'이라는 문자열 중 어느 하나가 포함되는 경우 상기 미디어 검색 질의에서 표현된 인명은 상기 문서의 작성자로 인식하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  14. 제1항에 있어서,
    상기 메타 데이터 인식 규칙의 추출 방식은
    상기 검색하는 데이터 정보가 이미지인 경우에는 '찍'이라는 문자열이 포함되는 경우 상기 미디어 검색 질의에서 표현된 인명은 상기 이미지의 촬영자로 인식하고, 상기 미디어 검색 질의에서 표현된 지역 명은 상기 이미지의 촬영 지역으로 인식하고, 상기 미디어 검색 질의에서 표현된 날짜는 상기 이미지의 촬영 일로 인식하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  15. 제1항에 있어서,
    상기 메타 데이터 인식 규칙의 추출 방식은
    상기 검색하는 데이터 정보가 메일인 경우에는 '가' 및 '보내'라는 문자열이 모두 포함되는 경우에 상기 미디어 검색 질의에서 표현된 인명은 상기 메일의 발송인으로 인식하고, '에게' 및 '보내'라는 문자열이 모두 포함되는 경우에 상기 미디어 검색 질의에서 표현된 인명은 상기 메일의 수신인으로 인식하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  16. 제1항에 있어서,
    상기 메타 데이터 인식 규칙의 추출 방식은
    상기 검색하는 데이터 정보가 오디오인 경우에는 '부르' 및 '노래'중 어느 하나의 문자열이 포함되는 경우에 상기 미디어 검색 질의에서 표현된 장르는 상기 오디오 정보의 장르로 인식하고, '만들'이라는 문자열이 포함되는 경우에 상기 미디어 검색 질의에서 표현된 오디오 정보의 인명은 오디오 작곡가로 인식하는 것
    을 특징으로 하는 미디어 정보 검색 방법.
  17. 제1항에 있어서,
    상기 사용자로부터 수신된 자연어 미디어 검색 질의에 따른 미디어 정보를 검색하는 단계는
    상기 자연어 미디어 검색 질의의 형태소 분석 및 개체명을 인식하는 단계;
    상기 인식된 자연어 미디어 검색 질의에 상응하여 검색 대상이 되는 미디어 종류를 인식하는 단계;
    상기 인식된 미디어 종류 및 개체명에 상응하여 미리 결정된 메타 데이터 인식 규칙을 이용하여 메타 데이터를 인식하는 단계;
    상기 인식된 메타 데이터에 상응하여 미리 결정된 사용자 프로파일을 이용하여 상기 메타 데이터를 정규화 하는 단계;
    상기 정규화된 메타 데이터에 상응하여 미리 결정된 스키마 변환 템플릿을 이용하여 구조 질의를 생성하는 단계 및
    상기 구조 질의에 상응하여 미디어를 검색하는 단계
    를 더 포함하는 것을 특징으로 하는 미디어 정보 검색 방법.
KR1020070041148A 2006-12-05 2007-04-27 자연어 분석을 통한 미디어 정보 검색 방법 KR20080052173A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020060122053 2006-12-05
KR20060122053 2006-12-05

Publications (1)

Publication Number Publication Date
KR20080052173A true KR20080052173A (ko) 2008-06-11

Family

ID=39807027

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070041148A KR20080052173A (ko) 2006-12-05 2007-04-27 자연어 분석을 통한 미디어 정보 검색 방법

Country Status (1)

Country Link
KR (1) KR20080052173A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010068068A2 (ko) * 2008-12-11 2010-06-17 주식회사 네오패드 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법
US12019679B2 (en) 2022-04-12 2024-06-25 Electronics And Telecommunications Research Institute Method and apparatus for searching video section using natural language

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010068068A2 (ko) * 2008-12-11 2010-06-17 주식회사 네오패드 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법
WO2010068068A3 (ko) * 2008-12-11 2010-09-16 주식회사 네오패드 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법
CN102246164A (zh) * 2008-12-11 2011-11-16 有限公司呢哦派豆 基于用户意图的信息搜索方法以及信息提供方法
US9256679B2 (en) 2008-12-11 2016-02-09 Neopad, Inc. Information search method and system, information provision method and system based on user's intention
CN102246164B (zh) * 2008-12-11 2017-09-08 有限公司呢哦派豆 基于用户意图的信息搜索方法以及信息提供方法
US12019679B2 (en) 2022-04-12 2024-06-25 Electronics And Telecommunications Research Institute Method and apparatus for searching video section using natural language

Similar Documents

Publication Publication Date Title
US8156123B2 (en) Method and apparatus for processing metadata
US6735583B1 (en) Method and system for classifying and locating media content
US8055674B2 (en) Annotation framework
US20050149538A1 (en) Systems and methods for creating and publishing relational data bases
US20020184196A1 (en) System and method for combining voice annotation and recognition search criteria with traditional search criteria into metadata
WO2018113532A1 (zh) 信息抽取方法和系统
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN102810114A (zh) 基于本体的个人计算机资源管理系统
US20110252313A1 (en) Document information selection method and computer program product
US9679002B2 (en) Method for producing and using a recursive index of search engines
KR20080052173A (ko) 자연어 분석을 통한 미디어 정보 검색 방법
JPH09223150A (ja) 情報分類処理方法
JP2002049638A (ja) 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
Pradhan Towards a novel desktop search technique
JP2008269106A (ja) スキーマ抽出方法、情報処理装置、コンピュータプログラム及び記録媒体
JP7272540B2 (ja) 情報提供システム、情報提供方法、及びデータ構造
CN112860940B (zh) 基于描述逻辑知识库上有序概念空间的音乐资源检索方法
Artese et al. Framework for UNESCO intangible cultural heritage
US20230409624A1 (en) Multi-modal hierarchical semantic search engine
JP2005063366A (ja) 情報管理装置および情報管理方法
Zakaria et al. Modelling image semantic descriptions from web 2.0 documents using a hybrid approach
JP4974436B2 (ja) ファイル検索装置およびファイル検索方法
JP2022114721A (ja) 情報提供システム及び情報提供方法
JP3881544B2 (ja) ファイル検索方法と装置
JP3498926B2 (ja) 文書データベース管理システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application