TWI518528B - Method, apparatus and system for identifying target words - Google Patents
Method, apparatus and system for identifying target words Download PDFInfo
- Publication number
- TWI518528B TWI518528B TW099140212A TW99140212A TWI518528B TW I518528 B TWI518528 B TW I518528B TW 099140212 A TW099140212 A TW 099140212A TW 99140212 A TW99140212 A TW 99140212A TW I518528 B TWI518528 B TW I518528B
- Authority
- TW
- Taiwan
- Prior art keywords
- word
- text data
- intersection
- sample
- combined text
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201010295054.7A CN102411563B (zh) | 2010-09-26 | 2010-09-26 | 一种识别目标词的方法、装置及系统 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW201214169A TW201214169A (en) | 2012-04-01 |
| TWI518528B true TWI518528B (zh) | 2016-01-21 |
Family
ID=45871528
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW099140212A TWI518528B (zh) | 2010-09-26 | 2010-11-22 | Method, apparatus and system for identifying target words |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US8744839B2 (enExample) |
| EP (1) | EP2619651A4 (enExample) |
| JP (1) | JP5608817B2 (enExample) |
| CN (1) | CN102411563B (enExample) |
| TW (1) | TWI518528B (enExample) |
| WO (1) | WO2012039778A1 (enExample) |
Families Citing this family (41)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5799733B2 (ja) * | 2011-10-12 | 2015-10-28 | 富士通株式会社 | 認識装置、認識プログラムおよび認識方法 |
| KR101359718B1 (ko) * | 2012-05-17 | 2014-02-13 | 포항공과대학교 산학협력단 | 대화 관리 시스템 및 방법 |
| CN104111933B (zh) * | 2013-04-17 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
| US12099936B2 (en) * | 2014-03-26 | 2024-09-24 | Unanimous A. I., Inc. | Systems and methods for curating an optimized population of networked forecasting participants from a baseline population |
| US10592841B2 (en) * | 2014-10-10 | 2020-03-17 | Salesforce.Com, Inc. | Automatic clustering by topic and prioritizing online feed items |
| TW201619885A (zh) * | 2014-11-17 | 2016-06-01 | 財團法人資訊工業策進會 | 電子商務口碑分析系統、方法和其電腦可讀取記錄媒體 |
| CN105528403B (zh) * | 2015-12-02 | 2020-01-03 | 小米科技有限责任公司 | 目标数据识别方法及装置 |
| CN106933797B (zh) * | 2015-12-29 | 2021-01-26 | 北京趣拿信息技术有限公司 | 目标信息的生成方法及装置 |
| CN105653701B (zh) | 2015-12-31 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 模型生成方法及装置、词语赋权方法及装置 |
| CN105893351B (zh) * | 2016-03-31 | 2019-08-20 | 海信集团有限公司 | 语音识别方法及装置 |
| CN108073568B (zh) * | 2016-11-10 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
| JP6618884B2 (ja) * | 2016-11-17 | 2019-12-11 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
| CN108228556A (zh) * | 2016-12-14 | 2018-06-29 | 北京国双科技有限公司 | 关键短语提取方法及装置 |
| CN108960952A (zh) * | 2017-05-24 | 2018-12-07 | 阿里巴巴集团控股有限公司 | 一种违禁信息的检测方法及装置 |
| CN109241392A (zh) * | 2017-07-04 | 2019-01-18 | 北京搜狗科技发展有限公司 | 目标词的识别方法、装置、系统及存储介质 |
| CN110998589B (zh) * | 2017-07-31 | 2023-06-27 | 北京嘀嘀无限科技发展有限公司 | 用于分割文本的系统和方法 |
| CN108304377B (zh) * | 2017-12-28 | 2021-08-06 | 东软集团股份有限公司 | 一种长尾词的提取方法及相关装置 |
| CN108681534A (zh) * | 2018-04-11 | 2018-10-19 | 广州视源电子科技股份有限公司 | 候选词评估方法、装置、计算机设备和存储介质 |
| CN108733645A (zh) * | 2018-04-11 | 2018-11-02 | 广州视源电子科技股份有限公司 | 候选词评估方法、装置、计算机设备和存储介质 |
| CN108595433A (zh) * | 2018-05-02 | 2018-09-28 | 北京中电普华信息技术有限公司 | 一种新词发现方法及装置 |
| CN108874921A (zh) * | 2018-05-30 | 2018-11-23 | 广州杰赛科技股份有限公司 | 提取文本特征词的方法、装置、终端设备及存储介质 |
| CN109241525B (zh) * | 2018-08-20 | 2022-05-06 | 深圳追一科技有限公司 | 关键词的提取方法、装置和系统 |
| CN109271624B (zh) * | 2018-08-23 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 一种目标词确定方法、装置及存储介质 |
| CN109460450B (zh) * | 2018-09-27 | 2021-07-09 | 清华大学 | 对话状态跟踪方法、装置、计算机设备和存储介质 |
| CN109670170B (zh) * | 2018-11-21 | 2023-04-07 | 东软集团股份有限公司 | 专业词汇挖掘方法、装置、可读存储介质及电子设备 |
| CN111222328B (zh) * | 2018-11-26 | 2023-06-16 | 百度在线网络技术(北京)有限公司 | 标签提取方法、装置和电子设备 |
| CN109800435B (zh) * | 2019-01-29 | 2023-06-20 | 北京金山数字娱乐科技有限公司 | 一种语言模型的训练方法及装置 |
| CN110275938B (zh) * | 2019-05-29 | 2021-09-17 | 广州伟宏智能科技有限公司 | 基于非结构化文档的知识提取方法及系统 |
| CN110532551A (zh) * | 2019-08-15 | 2019-12-03 | 苏州朗动网络科技有限公司 | 文本关键词自动提取的方法、设备和存储介质 |
| CN111079421B (zh) * | 2019-11-25 | 2023-09-26 | 北京小米智能科技有限公司 | 一种文本信息分词处理的方法、装置、终端及存储介质 |
| CN111191446B (zh) * | 2019-12-10 | 2022-11-25 | 平安医疗健康管理股份有限公司 | 交互信息处理方法、装置、计算机设备和存储介质 |
| CN111274353B (zh) * | 2020-01-14 | 2023-08-01 | 百度在线网络技术(北京)有限公司 | 文本切词方法、装置、设备和介质 |
| CN111402894B (zh) * | 2020-03-25 | 2023-06-06 | 北京声智科技有限公司 | 语音识别方法及电子设备 |
| CN111159417A (zh) * | 2020-04-07 | 2020-05-15 | 北京泰迪熊移动科技有限公司 | 文本内容关键信息的提取方法、装置、设备及存储介质 |
| CN111477219A (zh) * | 2020-05-08 | 2020-07-31 | 合肥讯飞数码科技有限公司 | 关键词区分方法、装置、电子设备和可读存储介质 |
| CN112101030B (zh) * | 2020-08-24 | 2024-01-26 | 沈阳东软智能医疗科技研究院有限公司 | 建立术语映射模型、实现标准词映射的方法、装置及设备 |
| CN112257416A (zh) * | 2020-10-28 | 2021-01-22 | 国家电网有限公司客户服务中心 | 一种稽查新词发现方法及系统 |
| CN112559865B (zh) * | 2020-12-15 | 2023-12-08 | 泰康保险集团股份有限公司 | 信息处理系统、计算机可读存储介质及电子设备 |
| CN113609296B (zh) * | 2021-08-23 | 2022-09-06 | 南京擎盾信息科技有限公司 | 用于舆情数据识别的数据处理方法和装置 |
| CN113836303A (zh) * | 2021-09-26 | 2021-12-24 | 平安科技(深圳)有限公司 | 一种文本类别识别方法、装置、计算机设备及介质 |
| CN115879459A (zh) * | 2022-06-23 | 2023-03-31 | 北京中关村科金技术有限公司 | 词语的确定方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (60)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2836159B2 (ja) | 1990-01-30 | 1998-12-14 | 株式会社日立製作所 | 同時通訳向き音声認識システムおよびその音声認識方法 |
| US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
| US7225182B2 (en) * | 1999-05-28 | 2007-05-29 | Overture Services, Inc. | Recommending search terms using collaborative filtering and web spidering |
| JP3689670B2 (ja) | 1999-10-28 | 2005-08-31 | キヤノン株式会社 | パターン整合方法及び装置 |
| US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
| US6711561B1 (en) * | 2000-05-02 | 2004-03-23 | Iphrase.Com, Inc. | Prose feedback in information access system |
| KR100426382B1 (ko) * | 2000-08-23 | 2004-04-08 | 학교법인 김포대학 | 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법 |
| CN1226717C (zh) * | 2000-08-30 | 2005-11-09 | 国际商业机器公司 | 自动新词提取方法和系统 |
| US7711547B2 (en) * | 2001-03-16 | 2010-05-04 | Meaningful Machines, L.L.C. | Word association method and apparatus |
| US7475006B2 (en) * | 2001-07-11 | 2009-01-06 | Microsoft Corporation, Inc. | Method and apparatus for parsing text using mutual information |
| WO2003027894A1 (en) * | 2001-09-26 | 2003-04-03 | The Trustees Of Columbia University In The City Of New York | System and method of generating dictionary entries |
| US6889191B2 (en) * | 2001-12-03 | 2005-05-03 | Scientific-Atlanta, Inc. | Systems and methods for TV navigation with compressed voice-activated commands |
| US20060004732A1 (en) * | 2002-02-26 | 2006-01-05 | Odom Paul S | Search engine methods and systems for generating relevant search results and advertisements |
| CA2374298A1 (en) * | 2002-03-01 | 2003-09-01 | Ibm Canada Limited-Ibm Canada Limitee | Computation of frequent data values |
| JP2005519411A (ja) * | 2002-03-05 | 2005-06-30 | シーメンス メディカル ソルーションズ ヘルス サーヴィシズ コーポレイション | 動的辞書及び用語蓄積システム |
| US7620538B2 (en) * | 2002-03-26 | 2009-11-17 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
| WO2004044887A1 (ja) * | 2002-11-11 | 2004-05-27 | Matsushita Electric Industrial Co., Ltd. | 音声認識用辞書作成装置および音声認識装置 |
| US20040098380A1 (en) * | 2002-11-19 | 2004-05-20 | Dentel Stephen D. | Method, system and apparatus for providing a search system |
| JP2004318480A (ja) * | 2003-04-16 | 2004-11-11 | Sony Corp | 電子機器装置、新語抽出方法、およびプログラム |
| US7555428B1 (en) * | 2003-08-21 | 2009-06-30 | Google Inc. | System and method for identifying compounds through iterative analysis |
| US7424421B2 (en) * | 2004-03-03 | 2008-09-09 | Microsoft Corporation | Word collection method and system for use in word-breaking |
| US7478033B2 (en) * | 2004-03-16 | 2009-01-13 | Google Inc. | Systems and methods for translating Chinese pinyin to Chinese characters |
| US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
| KR100682897B1 (ko) * | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | 사전 업데이트 방법 및 그 장치 |
| WO2006073095A1 (ja) * | 2005-01-07 | 2006-07-13 | Matsushita Electric Industrial Co., Ltd. | 連想辞書作成装置 |
| CN100530171C (zh) * | 2005-01-31 | 2009-08-19 | 日电(中国)有限公司 | 字典学习方法和字典学习装置 |
| US20070112839A1 (en) * | 2005-06-07 | 2007-05-17 | Anna Bjarnestam | Method and system for expansion of structured keyword vocabulary |
| JP4816409B2 (ja) * | 2006-01-10 | 2011-11-16 | 日産自動車株式会社 | 認識辞書システムおよびその更新方法 |
| JP3983265B1 (ja) * | 2006-09-27 | 2007-09-26 | 沖電気工業株式会社 | 辞書作成支援システム、方法及びプログラム |
| US8539349B1 (en) * | 2006-10-31 | 2013-09-17 | Hewlett-Packard Development Company, L.P. | Methods and systems for splitting a chinese character sequence into word segments |
| JP4997601B2 (ja) | 2006-11-30 | 2012-08-08 | 独立行政法人産業技術総合研究所 | 音声データ検索用webサイトシステム |
| JP2008140117A (ja) * | 2006-12-01 | 2008-06-19 | National Institute Of Information & Communication Technology | 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置 |
| JP5239161B2 (ja) * | 2007-01-04 | 2013-07-17 | 富士ゼロックス株式会社 | 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム |
| CN101261623A (zh) * | 2007-03-07 | 2008-09-10 | 国际商业机器公司 | 基于搜索的无词边界标记语言的分词方法以及装置 |
| US20100180199A1 (en) * | 2007-06-01 | 2010-07-15 | Google Inc. | Detecting name entities and new words |
| JP5241828B2 (ja) * | 2007-06-14 | 2013-07-17 | グーグル・インコーポレーテッド | 辞書の単語及び熟語の判定 |
| CN101779200B (zh) * | 2007-06-14 | 2013-03-20 | 谷歌股份有限公司 | 词典词和短语确定方法和设备 |
| JP2010531492A (ja) * | 2007-06-25 | 2010-09-24 | グーグル・インコーポレーテッド | ワード確率決定 |
| US8832140B2 (en) * | 2007-06-26 | 2014-09-09 | Oracle Otc Subsidiary Llc | System and method for measuring the quality of document sets |
| US7917355B2 (en) * | 2007-08-23 | 2011-03-29 | Google Inc. | Word detection |
| JP5379138B2 (ja) * | 2007-08-23 | 2013-12-25 | グーグル・インコーポレーテッド | 領域辞書の作成 |
| CN101149739A (zh) * | 2007-08-24 | 2008-03-26 | 中国科学院计算技术研究所 | 一种面向互联网的有意义串的挖掘方法和系统 |
| CN101458681A (zh) | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
| JP2009176148A (ja) * | 2008-01-25 | 2009-08-06 | Nec Corp | 未知語判定システム、方法及びプログラム |
| US20090299998A1 (en) * | 2008-02-15 | 2009-12-03 | Wordstream, Inc. | Keyword discovery tools for populating a private keyword database |
| US20100114878A1 (en) * | 2008-10-22 | 2010-05-06 | Yumao Lu | Selective term weighting for web search based on automatic semantic parsing |
| US8346534B2 (en) * | 2008-11-06 | 2013-01-01 | University of North Texas System | Method, system and apparatus for automatic keyword extraction |
| US7996369B2 (en) * | 2008-11-14 | 2011-08-09 | The Regents Of The University Of California | Method and apparatus for improving performance of approximate string queries using variable length high-quality grams |
| US20100138411A1 (en) * | 2008-11-30 | 2010-06-03 | Nexidia Inc. | Segmented Query Word Spotting |
| US20100145677A1 (en) * | 2008-12-04 | 2010-06-10 | Adacel Systems, Inc. | System and Method for Making a User Dependent Language Model |
| US8032537B2 (en) * | 2008-12-10 | 2011-10-04 | Microsoft Corporation | Using message sampling to determine the most frequent words in a user mailbox |
| KR101255557B1 (ko) * | 2008-12-22 | 2013-04-17 | 한국전자통신연구원 | 음절 분리에 기반한 문자열 검색 시스템 및 그 방법 |
| US8145662B2 (en) * | 2008-12-31 | 2012-03-27 | Ebay Inc. | Methods and apparatus for generating a data dictionary |
| JP4701292B2 (ja) * | 2009-01-05 | 2011-06-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
| JP2010176285A (ja) * | 2009-01-28 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 未知語登録方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
| US20100205198A1 (en) * | 2009-02-06 | 2010-08-12 | Gilad Mishne | Search query disambiguation |
| US20100287177A1 (en) * | 2009-05-06 | 2010-11-11 | Foundationip, Llc | Method, System, and Apparatus for Searching an Electronic Document Collection |
| US8392440B1 (en) * | 2009-08-15 | 2013-03-05 | Google Inc. | Online de-compounding of query terms |
| CN101996631B (zh) | 2009-08-28 | 2014-12-03 | 国际商业机器公司 | 用于对齐文本的方法和装置 |
| US20110082848A1 (en) * | 2009-10-05 | 2011-04-07 | Lev Goldentouch | Systems, methods and computer program products for search results management |
-
2010
- 2010-09-26 CN CN201010295054.7A patent/CN102411563B/zh active Active
- 2010-11-22 TW TW099140212A patent/TWI518528B/zh not_active IP Right Cessation
-
2011
- 2011-09-22 US US13/240,034 patent/US8744839B2/en active Active
- 2011-09-23 EP EP11827103.0A patent/EP2619651A4/en not_active Withdrawn
- 2011-09-23 WO PCT/US2011/001648 patent/WO2012039778A1/en not_active Ceased
- 2011-09-23 JP JP2013530136A patent/JP5608817B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| EP2619651A1 (en) | 2013-07-31 |
| US8744839B2 (en) | 2014-06-03 |
| CN102411563B (zh) | 2015-06-17 |
| US20120078631A1 (en) | 2012-03-29 |
| EP2619651A4 (en) | 2017-12-27 |
| JP2013545160A (ja) | 2013-12-19 |
| CN102411563A (zh) | 2012-04-11 |
| TW201214169A (en) | 2012-04-01 |
| HK1166397A1 (en) | 2012-10-26 |
| JP5608817B2 (ja) | 2014-10-15 |
| WO2012039778A1 (en) | 2012-03-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| TWI518528B (zh) | Method, apparatus and system for identifying target words | |
| CN110516067B (zh) | 基于话题检测的舆情监控方法、系统及存储介质 | |
| AU2017243270B2 (en) | Method and device for extracting core words from commodity short text | |
| CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
| CN110297988B (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
| CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
| CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
| CN104809108B (zh) | 信息监测分析系统 | |
| CN111260437B (zh) | 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法 | |
| CN113111645B (zh) | 一种媒体文本相似性检测方法 | |
| WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
| CN106202211A (zh) | 一种基于微博类型的集成微博谣言识别方法 | |
| CN103942340A (zh) | 一种基于文本挖掘的微博用户兴趣识别方法 | |
| WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
| CN103106189B (zh) | 一种挖掘同义属性词的方法和装置 | |
| CN104915443B (zh) | 一种中文微博评价对象的抽取方法 | |
| CN101673306B (zh) | 网页信息查询方法及其系统 | |
| CN107943792B (zh) | 一种语句分析方法、装置及终端设备、存储介质 | |
| WO2017091985A1 (zh) | 停用词识别方法与装置 | |
| CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
| CN110263169A (zh) | 一种基于卷积神经网络和关键词聚类的热点事件检测方法 | |
| CN109558587A (zh) | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 | |
| CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
| CN110134777A (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
| CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | Annulment or lapse of patent due to non-payment of fees |