KR101589626B1 - 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법 - Google Patents
어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법 Download PDFInfo
- Publication number
- KR101589626B1 KR101589626B1 KR1020150024928A KR20150024928A KR101589626B1 KR 101589626 B1 KR101589626 B1 KR 101589626B1 KR 1020150024928 A KR1020150024928 A KR 1020150024928A KR 20150024928 A KR20150024928 A KR 20150024928A KR 101589626 B1 KR101589626 B1 KR 101589626B1
- Authority
- KR
- South Korea
- Prior art keywords
- data
- semantic pattern
- analysis method
- lexical semantic
- pattern analysis
- Prior art date
Links
Images
Classifications
-
- G06F17/30731—
-
- G06F17/30648—
-
- G06F17/3087—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법에 관한 것이다.
본 발명의 방법은, 어휘의미패턴(LSP: Lexico-semantic-pattern) 매칭 시스템이 형태소, 음절, 및 어절을 포함하는 어휘의미패턴을 사전에 정의하여 데이터베이스에 저장하는 단계, 어휘의미패턴 분석방법을 기반으로 인터넷 상의 웹 문서가 포함하는 비정형 지리적 데이터를 분석하여, 사용자 단말이 지정한 관심지역에 위치한 다양한 업종의 업체에 대한 평판데이터를 추출하는 단계, 및 상기 어휘의미패턴 분석방법을 기반으로 상기 평판데이터를 분석하여, 사용자 단말이 지정한 검색조건에 해당하는 분석결과정보를 생성하는 단계를 포함한다.
본 발명의 방법은, 어휘의미패턴(LSP: Lexico-semantic-pattern) 매칭 시스템이 형태소, 음절, 및 어절을 포함하는 어휘의미패턴을 사전에 정의하여 데이터베이스에 저장하는 단계, 어휘의미패턴 분석방법을 기반으로 인터넷 상의 웹 문서가 포함하는 비정형 지리적 데이터를 분석하여, 사용자 단말이 지정한 관심지역에 위치한 다양한 업종의 업체에 대한 평판데이터를 추출하는 단계, 및 상기 어휘의미패턴 분석방법을 기반으로 상기 평판데이터를 분석하여, 사용자 단말이 지정한 검색조건에 해당하는 분석결과정보를 생성하는 단계를 포함한다.
Description
본 발명은 LSP(Lexico Semantic Pattern: 어휘의미패턴) 지식을 이용하여 창업용 데이터 또는 운영지원용 데이터를 구축하는 방법에 관한 것이다.
인터넷 보급의 확대와 소셜네트워크서비스의 대중화와 더불어 자유롭게 인터넷 접속이 가능한 스마트폰이 일상 생활로 들어옴에 따라, 디지털 데이터의 양이 기존의 방식으로 처리할 수 없을 만큼 폭발적으로 증가했다. 이른바 빅데이터(Big data)의 시대가 도래한 것이다.
빅데이터는 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합으로 정의(James Manyika & Michael Chui, “Big Data”, McKinsey Global Institute, May 2011)할 수 있는데, 빅데이터에 관련한 기술은 수집과 저장 영역뿐만 아니라 분석과 정보의 창출 영역까지 확장되고 있다.
기본적으로 점포를 창업하거나 운영하는데 있어서 소비자의 다양한 의견을 사전에 수집하고 그 안에서 시대의 트랜드와 소비 패턴의 변화를 재빨리 읽어내는 것은 매우 중요한 일이다.
그런데, 소자본으로 운영되는 소상공인의 점포에서 빅데이터를 수집하고 분석하여 의미있는 정보를 창출하는데는 시간과 비용면에서 많은 어려움이 따른다.
이에 본 발명의 발명가는 빅데이터 분석 기술의 일환으로 빅데이터에 산재되어 있는 점포의 평판데이터를 효과적으로 수집할 수 있는 기술에 대해 오랫동안 연구한 끝에 본 발명을 완성하기에 이르렀다.
본 발명의 목적은 빅데이터를 분석하여 특정 지역 또는 특정 업종에 대한 소비자의 트랜드 또는 소비 패턴 변화를 소상공인에게 제공하는 데 그 목적이 있다. 이를 통해서 효과적인 점포창업용 데이터 또는 운영지원용 데이터 제공 서비스를 제공할 수 있는 환경을 구축하고자 한다.
본 발명의 또 다른 목적은 사전에 정의된 어휘의미패턴 분석방법을 이용하여 효과적으로 빅데이터를 분석하는 방법을 제공하는 데 있다.
한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.
이러한 과제를 해결하기 위하여 본 발명은, 어휘의미패턴(LSP: Lexico-semantic-pattern) 매칭 시스템이 형태소, 음절, 및 어절을 포함하는 어휘의미패턴을 사전에 정의하여 데이터베이스에 저장하는 단계; 어휘의미패턴 분석방법을 기반으로 인터넷 상의 웹 문서가 포함하는 비정형 지리적 데이터를 분석하여, 사용자 단말이 지정한 관심지역에 위치한 다양한 업종의 업체에 대한 평판데이터를 추출하는 단계; 및 상기 어휘의미패턴 분석방법을 기반으로 상기 평판데이터를 분석하여, 사용자 단말이 지정한 검색조건에 해당하는 분석결과정보를 생성하는 단계를 포함하는, 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법을 제공한다.
또한, 본 발명의 바람직한 어느 실시예는, 상기 어휘의미패턴 분석방법으로 분석되지 않은 평판데이터를 수집하여 상기 어휘의미패턴을 갱신하는 단계를 더 포함하는 것이 좋다.
또한, 본 발명의 바람직한 어느 실시예에 있어서, 상기 평판데이터를 추출하는 단계는, 상기 어휘의미패턴 분석방법을 기반으로 인터넷 상의 웹 문서가 포함하는 비정형 텍스트를 분석하여, 관심지역과 무관하게 사용자 단말이 지정한 관심업종에 해당하는 다양한 업체의 평판데이터를 추출하는 단계를 더 포함하는 것이 좋다.
또한, 본 발명의 바람직한 어느 실시예에 있어서, 어휘의미패턴 분석방법은, 어휘의미패턴을 비결정적 유한 오토마타(Nondeterministic Finite Automata)로 변환하는 단계; 및 상기 비정형 지리적 데이터 또는 상기 평판데이터에 포함된 텍스트를 변환된 비결정적 유한 오토마타와 비교 매칭하는 단계를 포함하는 것이 좋다.
또한, 본 발명의 바람직한 어느 실시예에 있어서, 상기 분석결과정보를 생성하는 단계는 소상공인이 사용하는 사용자 단말이 지정한 특정업종 또는 특정지역의 트랜드 정보, 소비 패턴 정보를 추출하는 단계를 포함하는 것이 좋다.
이와 같은 본 발명에 따르면 특정 지역 또는 특정 업종에 대한 소비자의 트랜드 또는 소비 패턴 변화 데이터를 효과적으로 구축할 수 있다는 장점이 있다. 또한 지식의 관리와 유지보수를 효율적으로 진행할 수 있음은 물론이다.
한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
도 1 어휘의미패턴(LSP: Lexico-semantic-pattern) 매칭 시스템에서 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법을 설명하기 위한 일 실시예를 나타내는 순서도이다.
도 2는 바람직한 실시예에 따른 본 발명의 방법에서 웹 사이트로부터 데이터를 추출하는 내용을 설명하기 위한 도면이다.
도 3은 바람직한 실시예에 따른 본 발명의 방법에서 추출한 데이터를 통해 최신 트랜드의 변화를 분석하는 화면을 나타내는 도면이다.
도 4는 바람직한 실시예에 따른 어휘의미패턴 구축방법의 전체 프로세스를 개략적으로 나타내는 도면이다.
도 5는 어휘의미패턴 구축방법에 따라 캡션을 구축함에 있어 관리자 단말의 화면 구성 예를 나타내는 도면이다.
도 6은 어휘의미패턴 구축방법에 따라 의미자질을 정의한 의미자질 사전 테이블(200)의 일 예를 나타내는 도면이다.
도 7은 의미자질 “meeting”에 대한 엔트리 테이블(201)의 구성 예를 나타낸다.
도 8은 어휘의미패턴 구축방법에 따라 생성된 LSP 구축 테이블(300)의 구성 예를 나타낸다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
도 2는 바람직한 실시예에 따른 본 발명의 방법에서 웹 사이트로부터 데이터를 추출하는 내용을 설명하기 위한 도면이다.
도 3은 바람직한 실시예에 따른 본 발명의 방법에서 추출한 데이터를 통해 최신 트랜드의 변화를 분석하는 화면을 나타내는 도면이다.
도 4는 바람직한 실시예에 따른 어휘의미패턴 구축방법의 전체 프로세스를 개략적으로 나타내는 도면이다.
도 5는 어휘의미패턴 구축방법에 따라 캡션을 구축함에 있어 관리자 단말의 화면 구성 예를 나타내는 도면이다.
도 6은 어휘의미패턴 구축방법에 따라 의미자질을 정의한 의미자질 사전 테이블(200)의 일 예를 나타내는 도면이다.
도 7은 의미자질 “meeting”에 대한 엔트리 테이블(201)의 구성 예를 나타낸다.
도 8은 어휘의미패턴 구축방법에 따라 생성된 LSP 구축 테이블(300)의 구성 예를 나타낸다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 내용을 설명한다. 그리고 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
본 발명은 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법을 제공한다. 점포창업용 데이터 또는 운영지원용 데이터는 일종의 경영정보로써, 특정 지역의 트랜드 변화와 소비 패턴 변화에 대한 정보를 포함할 수 있다. 예를 들면, 세종시에 들어선 정부청사에 공무원 입주가 본격화되는 시점에 기러기 아빠들이 아침에 밥 먹을 식당이 부족하다는 사정이 발생하면, 본 발명은 김밥 노점이 히트를 치고 있다는 정황에 대한 정보를 제공할 수 있다.
본 발명의 방법은 어휘의미패턴 매칭 시스템에서 실행될 수 있다. 어휘의미패턴 매칭 시스템은 본 발명의 방법이 실행되는 서버와 서버에 접속하여 필요한 데이터분석결과를 수신하는 사용자 단말로 구성될 수 있으나, 이에 한정되는 것은 아니며 하나의 사용자 단말에서 구현될 수도 있다.
이와 같은 본 발명의 방법은 빅데이터를 분석하므로 데이터의 정확성이 향상되며, 특히 소셜 네트워크 서비스에 올라오는 많은 데이터를 신속하게 분석할 수 있으므로 최신 트랜드를 재빨리 읽을 수 있는 장점이 있다. 이하, 본 발명의 방법에 대해 도면을 참고하여 보다 상세하게 설명하도록 한다.
도 1은 어휘의미패턴(LSP: Lexico-semantic-pattern) 매칭 시스템에서 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법을 설명하기 위한 일 실시예를 나타내는 순서도이고, 도 2는 바람직한 실시예에 따른 본 발명의 방법에서 웹 사이트로부터 데이터를 추출하는 내용을 설명하기 위한 도면이다.
도 1 및 도 2에서 알 수 있듯이, 본 발명의 방법은 우선 어휘의미패턴을 사전에 정의하여 데이터베이스에 저장한다(S1100).
어휘의미패턴이란 어휘, 형태소, 품사 등의 정보와 구문구조를 표현할 수 있는 문법규칙으로 자연어 처리 방법의 일종이다. 어휘의미패턴 기술은 구문분석이 쉽게 이뤄지지 않는 자연어에 대해서 1차원적인 구문분석이 가능하도록 도와준다. 어휘의미패턴의 구축 방법에 대해서는 별도의 목차로 후술한다.
다음, 사용자 단말이 지정한 특정 지역의 업체 정보인 지역 데이터를 수집한다(S1200).
바람직한 실시예에서 본 단계는, 어휘의미패턴 분석방법을 기반으로 인터넷 상의 웹 문서가 포함하는 비정형 지리적 데이터를 분석하여, 사용자 단말이 지정한 관심지역에 위치한 다양한 업종의 업체에 대한 평판데이터(제1 평판데이터)를 추출할 수 있다.
정형적 지리적 데이터는 지도의 위도와 경도정보, 텍스트 중 주소정보를 포함할 수 있다. 예를 들면, 도 2의 지도(130)에는 GPS정보와 같은 정형적 지리적 데이터가 포함된다. 또한, 주소(140)는 그 자체로 정형적 지리적 데이터이다. 이와 같은 정형적 지리적 데이터는 특정 API함수를 이용하여 해당 웹 사이트로부터 용이하게 추출될 수 있다.
비정형 지리적 데이터는 웹사이트의 이미지(110) 또는 텍스트(120) 중에서 추출할 수 있는 지리적 데이터로서, 정형적 지리적 데이터를 제외한 지리적 정보를 의미한다. 예를 들면, 가로수길, 삼청동 돌계단길, 아현동 가구거리 등과 같은 지리적 개념을 포함한다.
이 단계에서, 본 발명은 사용자 단말이 지정한 관심지역에 위치한 다양한 업종의 점포에 대한 데이터를 수집한다.
예를 들어, 본 발명은 판교의 벤처 타운에 있는 다양한 업종의 트랜드 정보, 소비 패턴 정보 등을 수집하여 사용자 단말에 제공한다. 판교의 벤처 타운에 "점심시간 운동 붐" 일어나고 있다면, 본 발명은 사용자 단말에 전통적인 식당의 매출이 감소하고, 테이크 아웃용 센드위치 판매가 증가하는 정황에 대한 정보를 제공할 수 있다.
한편, 다른 실시예에서 본 단계는 비정형적 지리적 데이터뿐만 아니라 정형적 지리적 데이터를 함께 분석하여, 사용자 단말이 지정한 관심지역에 위치한 다양한 업종의 업체에 대한 평판데이터(제1 평판데이터)를 추출할 수 있다. 즉 본 발명이 비정형적 지리적 데이터만을 분석하는 것에 한정되는 것은 아니다.
다음, 특정 지역과 관계없이 사용자 단말이 지정한 특정 업종에 연관된 연관 데이터를 수집한다(S1300).
바람직한 실시예에 있어서 본 단계는, 어휘의미패턴 분석방법을 기반으로 인터넷 상의 웹 문서가 포함하는 비정형 텍스트를 분석하여, 관심지역과 무관하게 사용자 단말이 지정한 관심업종에 해당하는 다양한 업체의 평판데이터(제2 평판데이터)를 추출할 수 있다.
비정형 텍스트는 웹사이트의 테그(Tag, 150)와 같은 정형적 텍스트를 제외한 정보로서, 웹 사이트의 본문 텍스트(120)를 포함할 수 있다.
예를 들면, 옷 가게를 운영하고자 하는 소상공인의 사용자 단말이 "패션", "10대 악세사리"와 같은 키워드를 입력하면, 본 발명은 웹사이트의 비정형 텍스에서 상기 키워드에 해당하는 문서를 수집, 분석하여 최신 트랜드 정보, 연령대 별 의상 구매 정보와 같은 정보를 추출할 수 있다.
다음, 상기 단계에서 수집된 제1 평판데이터 및 제2 평판데이터를 어휘의미패턴 분석방법을 기반으로 분석하여 사용자 단말이 지정한 검색조건에 해당하는 분석결과정보를 생성한다(S1400).
사용자 단말이 지정한 검색조건은 소상공인이 사용하는 사용자 단말이 지정한 특정업종 또는 특정지역을 포함할 수 있으며, 본 발명은 지정된 업종 또는 지역의 트랜드 정보, 소비 패턴 정보를 추출할 수 있다.
예를 들어 사용자 단말이 "분당맛집"을 검색조건으로 입력한 경우 어휘의미패턴 매칭 결과는 다음과 같을 수 있다.
본문 텍스트 | 매칭 LSP (/NM)*3+@맛+/E_ |
요건 제가 주문한 안심 고르곤졸라 스파게티에요~ 우선 위에 나붓하게 올라앉은 고기가 아주 연하고 부드러웠어요~ 크림소스를 좋아하지만 보통 반정도 먹고나면 약간의 느끼함을 피할 수가 없는데 고르곤졸라가 들어가서 그런지 고소하면서도 치즈특유의 풍미가 있어 마지막까지 정말 맛있게 먹었어요~ 역시 판교맛집 코벤트가든은 실망시키지 않네요!! |
고르곤졸라 스파게티 -약간의 느끼함 -고소 -치즈 특유의 풍미 -맛있게 먹었어요 -실망시키지 않네요 |
다음, 어휘의미패턴 분석방법으로 분석되지 않은 평판데이터를 수집하여 상기 어휘의미패턴을 갱신한다(S1500). 어휘의미패턴의 구축량이 많지 않은 경우, 어휘의미패턴 분석방법으로 분석되지 않는 데이터가 있을 수 있다. 이 경우 본 발명은 어휘의미패턴 분석방법으로 분석되지 않은 데이터들을 수집하여 어휘의미패턴 데이터베이스를 갱신한다.
예를 들어, 국밥 점포에서 판매하는 메뉴 중에 트랜디한 신 메뉴가 등장하는 경우를 가정해보자. 종래 국밥 점포에서는 판매하지 않았던 신메뉴이기 때문에 어휘의미패턴 데이터베이스에는 신메뉴가 국밥 점포와 연관되어 저장되어 있지 않을 수 있다. 따라서, 이 경우 해당 신메뉴를 어휘의미패턴 데이터베이스에 추가함으로써, 다음 분석 시에 해당 신메뉴를 국밥 점포와 연관하여 효과적으로 분석할 수 있도록 한다.
도 3은 바람직한 실시예에 따른 본 발명의 방법에서 추출한 데이터를 통해 최신 트랜드의 변화를 분석하는 화면을 나타내는 도면이다.
도 3에서 알 수 있듯이, 본 발명의 방법은 추출정보를 월별로 정리하여 제공할 수 있다. 이에 따라 소상공인은 최신 트랜드의 변화와 흐름을 용이하게 파악할 수 있는 효과가 있다.
<어휘의미패턴 분석방법>
앞서 설명한 S1200 내지 S1400 단계는 어휘의미패턴 분석방법으로 비정형 지리적 데이터 또는 평판데이터를 분석한다.
바람직한 실시예에서 어휘의미패턴 분석방법은 우선, 어휘의미패턴을 비결정적 유한 오토마타(Nondeterministic Finite Automata)로 변환하는 단계를 실행한다.
비결정적 유한 오토마타를 생성하는 과정은 사칙연산을 스택으로 처리하는 과정과 매칭될 수 있다. 유닛과 연산자 토큰은 각각 피연산자와 연산자 스택에 쌓이고, 연산자의 우선순위에 따라서 피연산자를 처리한다. 매칭은 각 상태에서 토큰(유닛)이 전이 심볼 중에서 표현가능한 것을 찾고, 전이 가능한 심볼 방향으로 전이한다.
다음, 비정형 지리적 데이터 또는 평판데이터에 포함된 텍스트를 변환된 비결정적 유한 오토마타와 비교 매칭하는 단계를 실행한다.
<어휘의미패턴(LSP)의 구축 방법>
도 4는 본 발명의 바람직한 일 실시예에 따른 LSP 지식 구축 방법의 전체 프로세스를 예시한다. 이것은 텍스트 분석 및 응답 시스템을 위한 LSP의 사전 구축 방법의 프로세스이기도 하다. 이들 각 단계들은 하드웨어/소프트웨어 모듈이 구축되어 있는 컴퓨팅 시스템인 관리자 단말에 의해서 수행될 수 있다.
먼저, 컨셉(Concepts)을 구축한다(S10). 컨셉은 어휘의미패턴들이 속하는 집합의 역할을 하며, 입력되는 문장에 대해 어떤 응답을 취할지 정하는 단위가 된다. 즉, 사용자에게 출력될 응답 문장은 질의자 단말의 입력 문장에 매칭될 임의의 LSP가 속한 컨셉에 등록된 응답 문장이 될 수 있다.
또한 바람직하게는 S10 단계에서 정의되어 구축되는 컨셉은 계층구조를 가질 수 있다. 도 5는 컨셉 생성화면(100)을 나타내며, 복수의 컨셉들이 계층구조를 형성함을 보여준다. 예컨대 큰 범주의 common 컨셉을 정의하면서 그 하위 범주로, period, time, place, attendee, filtering 컨셉을 정의하고, filtering 컨셉에는 다시 period, time, place, attendee 정의하여 등록할 수 있다. 이처럼 컨셉을 구축함에 있어 큰 범주의 의미표현에서부터 세부 의미까지 계층을 이루며 문장의 의미를 분류하여 정의할 수 있다. 각 컨셉에는 LSP를 가지거나 혹은 가지지 않을 수도 있다. 그러나 본 발명에 있어서 이하에서 생성될 LSP는 반드시 컨셉에 속하도록 된다.
이처럼 다수의 LSP들을 컨셉에 속하도록 사전에 구조화함으로써, LSP들은 컨셉 집합이 될 수 있다. 그러므로 비슷한 내용의 텍스트를 분석할 수 있는 LSP들을 하나의 컨셉으로 묶어놓음으로써 관리를 보다 효과적으로 할 수 있다.
각 컨셉에 속하는 LSP들을 구축하기 위해서는 대상이 되는 텍스트인 샘플 데이터 확보가 필요하다. 샘플 데이터를 수집하여 상기 컨셉에 맞게 분류한다(S20). 샘플 데이터를 많이 수집할수록 더욱 정교한 컨셉과 LSP 구축이 가능해진다. 이는 질의응답시스템의 성능에 직접적인 영향을 미친다. 수집한 샘플 데이터는 구축한 컨셉에 맞게 각각 분류하게 되는데, 만일 수집한 샘플 데이터 중에서 특정 컨셉으로 분류하기 어려운 데이터 경우, 즉 수집한 샘플 데이터에 대응하는 컨셉이 없는 경우에는 컨셉을 추가하거나 수정할 수 있다.
설명의 편의를 위해서 다음 문장과 같은 샘플 데이터를 예시한다:
(A) “팀 회식하기 좋은 점심 먹을 식당을 알려줘”
(B) “과제 워크숍을 하려고 하는데 어디가 좋을까”
(C) “과제 회의 일정을 잡아야 하는데...”
질의응답시스템이 효과적으로 실행되기 위해서 단어는 다르지만 동일한 의미를 가지는 어휘를 구조화할 필요가 있다. 이를 위해서, 상기 컨셉의 의미를 구성하는 기본 단위인 의미자질(Semantic feature)을 정의하여 의미자질 사전을 구축한다(S30).
의미자질은 LSP를 구성하는 기본 단위 중 하나이며, 의미자질 사전은 동일한 의미를 가지는 한 개 이상의 엔트리들을 하나의 집합으로 묶어놓은 것을 말한다. 도 6은 의미자질을 정의한 의미자질 사전 테이블(200)의 일 예를 나타낸다. 이 의미자질 사전 테이블(200) 중 500번 의미자질(201) “meeting”을 예로 설명해보자.
“회의”, “과제+회의”, “모임”, “미팅”, “과제+미팅”, “토의”, “논의”는 동일한 의미를 갖는다. 따라서 이들 단어를 “meeting_n”이라는 의미자질(201)의 엔트리로 묶을 수 있으며, 도 7의 엔트리 테이블(210)처럼, 하나의 엔트리로 분류하고, 이 엔트리가 “meeting_n”이라는 의미자질(201)의 하위 분류의 집합이 되도록 구조화할 수 있다.
이러한 의미자질은 사전과 같은 역할을 하며, 이처럼 정의된 의미자질에 동일한 의미를 가지는 어휘 엔트를 추가하기 때문에, 의미자질은 엔트리의 집합이 될 수 있다. 도메인 내에 키워드로 이루어진 의미자질과 서술 표현의 의미자질이 포함될 수 있다.
어휘의미패턴에서는 기호 “@”을 사용하여 의미자질을 “@meeting_n”로 표현한다. 의미자질 사전 구축이 끝나면 이를 활용하여 앞서 수집하고 분류한 샘플 데이터에 대한 어휘의미패턴(LSP)을 구축한다(S40).
LSP를 구축할 때는 의미자질뿐만 아니라 다양한 문법표현에 기반한 어절, 형태소, 음절, 사전, 변수 등의 표현과, 여러 연산자들을 사용할 수 있다. 전술한 것처럼 본 발명에 있어서 LSP들은 임의의 컨셉에 속해야 한다.
상기 S30 단계를 먼저 실행해 둠으로써, 하나의 대표 문형을 표현하는 LSP는 그 LSP를 구성하는 의미자질 엔트리의 조합만큼의 문장들을 인식할 수 있다.
도 8은 본 발명의 LSP 구축 테이블(300)의 일 예를 나타낸다. 이 LSP 구축 테이블(300)은 상기 S20 단계의 샘플 데이터 예문 (A), (B), (C)에 관련한 대표문형들의 LSP의 일부이다.
질의자의 입력문장은 질의응답시스템에 의해서 분석될 것이며, 분석결과 매칭되는 LSP 구문이 검색되면, 이제 질의응답시스템은 그것에 대응하는 응답 데이터를 질의자에게 출력해야 한다. 이를 위해서 응답 데이터를 미리 구축한다(S50).
바람직하게는 각 컨셉 별로 미리 응답 문장을 구축해 놓는다. 질의자의 입력 문장이 LSP에 매칭되었다는 것은 그 문장이 해당하는 컨셉이 특정된다는 뜻이다. 왜냐하면 S20 단계에 사전 실행에 의해서 S40 단계에서 구축된 LSP 구문이 각 컨셉 별로 분류되기 때문이다. 따라서 상기 S50 단계에서 미리 구축되는 응답 데이터도 컨셉 별로 분류하여 등록하는 것이 좋다. 이때 입력 문장에 따라 바뀌어야 하는 부분은 변수로 지정해 놓는 것이 바람직하다. 상기 S20 단계에서 제시한 샘플 데이터의 예문에 대응하는 응답 데이터는 다음과 같이 미리 등록될 수 있다.
(a) “근처 @distance 내에 @restaurant가 있네요”
(b) “워크숍 장소는 @destination 만한 곳이 없죠”
(c) “@project 일정은 @when(으)로 되어 있습니다”
이상에서 설명한 각 블록은 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또한 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다. 예컨대 상기 S20 단계의 샘플 데이터 수집은 상기 S10 단계를 실행하기 전에 이루어질 수도 있으며, 또한 S30 단계 이후에 실행될 수도 있다. 또한, 상기 S20 단계는 S40 단계 앞에 오는 것이 자연스럽기는 하지만 샘플 데이터를 필요에 따라 추가하는 경우를 생각할 수도 있다.
참고로, 본 발명의 바람직한 여러 가지 실시예에 따른 텍스트 분석 및 응답 시스템을 위한 어휘의미패턴의 사전 구축 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용가능한 것일 수도 있다. 컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명의 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.
Claims (5)
- 어휘의미패턴(LSP: Lexico-semantic-pattern) 매칭 시스템에 의해 수행되는 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법에 있어서, 어휘의미패턴 매칭 시스템이:
형태소, 음절, 및 어절을 포함하는 어휘의미패턴을 사전에 정의하여 데이터베이스에 저장하는 단계;
어휘의미패턴 분석방법을 기반으로 인터넷 상의 웹 문서가 포함하는 비정형 지리적 데이터를 분석하여, 사용자 단말이 지정한 관심지역에 위치한 다양한 업종의 업체에 대한 평판데이터를 추출하는 단계; 및
상기 어휘의미패턴 분석방법을 기반으로 상기 평판데이터를 분석하여, 사용자 단말이 지정한 검색조건에 해당하는 분석결과정보를 생성하는 단계를 포함하는,
어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법. - 제1항에 있어서,
상기 어휘의미패턴 분석방법으로 분석되지 않은 평판데이터를 수집하여 상기 어휘의미패턴을 갱신하는 단계를 더 포함하는 것을 특징으로 하는,
어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법. - 제1항에 있어서,
상기 평판데이터를 추출하는 단계는
상기 어휘의미패턴 분석방법을 기반으로 인터넷 상의 웹 문서가 포함하는 비정형 텍스트를 분석하여, 관심지역과 무관하게 사용자 단말이 지정한 관심업종에 해당하는 다양한 업체의 평판데이터를 추출하는 단계를 더 포함하는 것을 특징으로 하는,
어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법. - 제1항에 있어서,
어휘의미패턴 분석방법은,
어휘의미패턴을 비결정적 유한 오토마타(Nondeterministic Finite Automata)로 변환하는 단계;
상기 비정형 지리적 데이터 또는 상기 평판데이터에 포함된 텍스트를 변환된 비결정적 유한 오토마타와 비교 매칭하는 단계를 포함하는 것을 특징으로 하는,
어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법. - 제1항에 있어서,
상기 분석결과정보를 생성하는 단계는 소상공인이 사용하는 사용자 단말이 지정한 특정업종 또는 특정지역의 트랜드 정보, 소비 패턴 정보를 추출하는 단계를 포함하는 것을 특징으로 하는,
어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150024928A KR101589626B1 (ko) | 2015-02-23 | 2015-02-23 | 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법 |
JP2015086488A JP6517072B2 (ja) | 2015-02-23 | 2015-04-21 | 語彙意味パターン分析方法に基づいてビッグデータから店舗創業用データ又は運営支援用データを生成する方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150024928A KR101589626B1 (ko) | 2015-02-23 | 2015-02-23 | 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101589626B1 true KR101589626B1 (ko) | 2016-01-28 |
Family
ID=55309972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150024928A KR101589626B1 (ko) | 2015-02-23 | 2015-02-23 | 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6517072B2 (ko) |
KR (1) | KR101589626B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200052408A (ko) | 2018-10-24 | 2020-05-15 | 주식회사에이테크 | 빅데이터를 활용한 창업정보분석 시스템 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7125794B2 (ja) * | 2021-03-10 | 2022-08-25 | 哲 小林 | 情報処理システム、日本語の意味内容解釈方法及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100627160B1 (ko) * | 2004-08-25 | 2006-09-25 | 엔에이치엔(주) | 키워드 광고를 위한 광고 소재 추천 방법 및 광고 소재추천 시스템 |
KR20140053444A (ko) * | 2012-10-25 | 2014-05-08 | 한국과학기술정보연구원 | 시장규모예측장치, 시장규모예측방법 및 시장규모를 예측하는 프로그램을 저장하는 저장매체 |
KR20140101906A (ko) * | 2013-02-12 | 2014-08-21 | 이주양 | 소셜 데이터 분석 장치 및 방법 |
KR20150005795A (ko) * | 2013-07-05 | 2015-01-15 | 주식회사 코스콤 | 소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 방법 및 그 시스템 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5320308B2 (ja) * | 2010-01-14 | 2013-10-23 | 株式会社エヌ・ティ・ティ・ドコモ | 地域情報提示サーバ及び地域情報提示方法 |
KR20130030434A (ko) * | 2011-09-19 | 2013-03-27 | 에스케이플래닛 주식회사 | 온라인 상에 게재된 웹 문서 기반 상권 분석 서비스 시스템 및 방법 |
-
2015
- 2015-02-23 KR KR1020150024928A patent/KR101589626B1/ko active IP Right Grant
- 2015-04-21 JP JP2015086488A patent/JP6517072B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100627160B1 (ko) * | 2004-08-25 | 2006-09-25 | 엔에이치엔(주) | 키워드 광고를 위한 광고 소재 추천 방법 및 광고 소재추천 시스템 |
KR20140053444A (ko) * | 2012-10-25 | 2014-05-08 | 한국과학기술정보연구원 | 시장규모예측장치, 시장규모예측방법 및 시장규모를 예측하는 프로그램을 저장하는 저장매체 |
KR20140101906A (ko) * | 2013-02-12 | 2014-08-21 | 이주양 | 소셜 데이터 분석 장치 및 방법 |
KR20150005795A (ko) * | 2013-07-05 | 2015-01-15 | 주식회사 코스콤 | 소셜 데이터의 분석을 통한 감성 영향 인덱스의 생성 방법 및 그 시스템 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200052408A (ko) | 2018-10-24 | 2020-05-15 | 주식회사에이테크 | 빅데이터를 활용한 창업정보분석 시스템 |
Also Published As
Publication number | Publication date |
---|---|
JP2016157408A (ja) | 2016-09-01 |
JP6517072B2 (ja) | 2019-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10169471B2 (en) | Generating and executing query language statements from natural language | |
US11762926B2 (en) | Recommending web API's and associated endpoints | |
US10095690B2 (en) | Automated ontology building | |
CN104252533B (zh) | 搜索方法和搜索装置 | |
JP5241828B2 (ja) | 辞書の単語及び熟語の判定 | |
KR101723862B1 (ko) | 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치 | |
Arendarenko et al. | Ontology-based information and event extraction for business intelligence | |
JP3983265B1 (ja) | 辞書作成支援システム、方法及びプログラム | |
Forstall et al. | Modeling the scholars: Detecting intertextuality through enhanced word-level n-gram matching | |
KR100905744B1 (ko) | 사용자 제작 문답 데이터에 기반한 회화 사전 서비스 제공방법 및 시스템 | |
Alexander et al. | Metaphor, popular science, and semantic tagging: Distant reading with the Historical Thesaurus of English | |
JP5221664B2 (ja) | 情報マップ管理システムおよび情報マップ管理方法 | |
KR101589626B1 (ko) | 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법 | |
JP5485236B2 (ja) | Faq作成支援システム及びプログラム | |
González-Mora et al. | Model-based generation of web application programming interfaces to access open data | |
US20180341980A1 (en) | Automated classification of network-accessible content based on events | |
Vassallo et al. | Tools and Ontologies for the Aggregation and Management of Cypriot Archaeological Datasets | |
Weitz et al. | Mining MARC's hidden treasures: initial investigations into how notes of the past might shape our future | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
JP5688754B2 (ja) | 情報検索装置及びコンピュータプログラム | |
KR100504632B1 (ko) | 비구조 문서에서 사용자가 요구하는 정보를 추출하는 장치및 그 방법 | |
KR101349969B1 (ko) | 추천 질의어 제공 시스템 및 방법 | |
JP2009282903A (ja) | 知識抽出・検索装置およびその方法 | |
JP2006195535A (ja) | 情報抽出装置及び情報抽出方法並びに情報抽出プログラム | |
WO2021049485A1 (ja) | 法律分析装置、及び法律分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190115 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20200122 Year of fee payment: 5 |