KR101278776B1 - 골롬 코딩을 이용한 언어 모델 압축 - Google Patents
골롬 코딩을 이용한 언어 모델 압축 Download PDFInfo
- Publication number
- KR101278776B1 KR101278776B1 KR1020077029971A KR20077029971A KR101278776B1 KR 101278776 B1 KR101278776 B1 KR 101278776B1 KR 1020077029971 A KR1020077029971 A KR 1020077029971A KR 20077029971 A KR20077029971 A KR 20077029971A KR 101278776 B1 KR101278776 B1 KR 101278776B1
- Authority
- KR
- South Korea
- Prior art keywords
- value
- golomb
- language model
- user input
- grams
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 7
- 238000012896 Statistical algorithm Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 241001274613 Corvus frugilegus Species 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013137 model compression technique Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Enzymes And Modification Thereof (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
심볼 | 코드 | 길이 | 확률 |
A | 1 | 1 | 2-1 |
B | 01 | 2 | 2-2 |
C | 001 | 3 | 2-2 |
N | N(0) +1 | N | 2-N |
클릭 쓰루들(click throughs) | N(URL) | 평균 델타(P/N) | 1/log(2) + log2(P/N) | M(메모리) |
10 | 680,418 | 1,273 | 14 | 1,159,768 |
100 | 80,263 | 11,650 | 17 | 168,853 |
1000 | 5,888 | 55,701,699 | 29 | 21,383 |
Claims (20)
- 언어 모델을 압축하는 방법으로서,사용자 입력의 n-그램들(n-grams)로부터 숫자 값들의 리스트를 생성하는 단계;상기 값들의 리스트를 정렬하는 단계;상기 리스트에서의 인접 값들 간의 차분을 계산하는 단계; 및상기 리스트에서의 인접 값들 간의 상기 계산된 차분의 예상 값의 1/2이 되도록 값 M을 선택하는 것,각 계산된 차분에 대한 상기 값 M과 상기 계산된 차분의 비로부터 몫 값 및 나머지 값을 계산하는 것, 및메모리에 상기 몫 값 및 상기 나머지 값을 저장하는 것에 의해 골롬(Golomb) 코드를 이용하여 각 계산된 차분을 인코딩하는 단계를 포함하는 방법.
- 제1항에 있어서,상기 저장하는 것은,1진 포맷(unary format)으로 상기 몫 값을 저장하는 것, 및2진 포맷으로 상기 나머지 값을 저장하는 것을 포함하는 방법.
- 제1항에 있어서,상기 몫 값은, 가장 근접한 정수값으로 잘라 버림되는(rounded down) 상기 값 M에 대한 제1 차분의 비를 포함하는 방법.
- 제1항에 있어서,상기 나머지 값은, 가장 근접한 정수값으로 잘라 버림되는 상기 값 M에 대한 제1 차분의 비의 나머지를 포함하는 방법.
- 제1항에 있어서,메모리에 상기 인코딩된 차분을 저장하는 단계를 더 포함하는 방법.
- 제1항에 있어서,저장 매체 상에 컴퓨터 판독가능 명령어들을 저장하는 단계를 더 포함하며,상기 컴퓨터 판독가능 명령어들은, 상기 생성하는 단계, 상기 정렬하는 단계, 상기 계산하는 단계 및 상기 인코딩하는 단계를 정의하는 방법.
- 사용자 입력들을 처리하기 위한 시스템으로서,사용자 입력들을 수신하도록 되어 있는 사용자 인터페이스;정보를 저장하며, 골롬 압축된 언어 모델을 저장하도록 되어 있는 메모리;사용자 입력을 인코딩하며, 상기 골롬 압축된 언어 모델의 엘리먼트들을 디코딩하도록 되어 있는 골롬 인코더/디코더 - 상기 골롬 인코더/디코더는, 해쉬 값들의 리스트에서의 해쉬 값들 간의 차분의 예상 값에 기초하여 값 M을 계산하도록 되어 있으며, 상기 골롬 인코더/디코더는, 상기 예상 값에 대한 상기 차분의 비에 기초하여 몫 및 나머지를 계산하도록 되어 있음; 및사용자 입력과 상기 골롬 압축된 언어 모델의 엘리먼트들을 비교하여, 가능한 매치들을 식별하도록 되어 있는 프로세서를 포함하는 시스템.
- 제8항에 있어서,상기 가능한 매치들을 식별하기 위해서 상기 프로세서에 의해 이용하도록 되어 있는 통계적 알고리즘들의 세트를 더 포함하는 시스템.
- 제8항에 있어서,상기 프로세서는, 상기 식별된 가능한 매치들을 사용자에게 디스플레이하기 위한 출력으로서 상기 사용자 인터페이스에 제공하도록 되어 있는 시스템.
- 제8항에 있어서,상기 프로세서는 사용자 입력에 관련된 숫자 값들을 계산하도록 되어 있으며, 상기 골롬 인코더/디코더는 상기 계산된 숫자 값들을 인코딩하도록 되어 있는 시스템.
- 사용자 입력을 디코딩하는 방법으로서,수신된 사용자 입력을 복수의 n-그램으로 분할하는 단계;해쉬 기술을 이용하여 각 n-그램에 대한 n-그램 해쉬 값을 획득하도록 각 n-그램을 해슁하는 단계;인코딩된 n-그램들을 획득하도록 상기 n-그램 해쉬 값들을 골롬 인코딩하는 단계;가능한 매치들을 식별하도록 각 인코딩된 n-그램과 골롬 코딩된 언어 모델을 비교하는 단계; 및각 가능한 매치가 상기 골롬 코딩된 언어 모델 내의 엘리먼트에 대한 상기 수신된 사용자 입력의 올바른 매핑일 가능성을 통계적으로 추정하는 단계를 포함하며,상기 각 인코딩된 n-그램과 골롬 코딩된 언어 모델을 비교하는 단계는,상기 언어 모델에서의 인코딩된 n-그램들 간의 차분을, 누산 합이 상기 인코딩된 n-그램들의 값 이상이 될 때까지 합하는 단계, 및상기 언어 모델에서의 n-그램에 대한 값과 상기 수신된 사용자 입력을 연관시키는 단계를 포함하는 방법.
- 제12항에 있어서,상기 연관되는 수신된 사용자 입력은 상기 가능한 매치를 포함하는 방법.
- 제12항에 있어서,상기 복수의 n-그램은 n-그램들의 리스트를 포함하고,상기 골롬 인코딩하는 단계는,상기 리스트에서의 n-그램들에 대한 인접 n-그램 해쉬 값들 간의 차분을 계산하는 단계,각 계산된 차분에 대한 값 M을, 상기 리스트에서의 인접 n-그램 해쉬 값들 간의 상기 계산된 차분의 예상 값의 1/2이 되도록 선택하는 단계,각 계산된 차분에 대한 상기 값 M과 상기 차분의 비로부터 몫 값과 나머지 값을 계산하는 단계, 및1진 포맷의 상기 몫 값과 2진 포맷의 상기 나머지 값을 결합하여, 각 n-그램에 대한 인코딩된 n-그램을 형성하는 단계를 포함하는 방법.
- 제14항에 있어서,상기 n-그램들의 리스트는 숫자 값들을 포함하는 방법.
- 제12항에 있어서,저장 매체 상에 컴퓨터 판독가능 명령어들을 저장하는 단계를 더 포함하며,상기 컴퓨터 판독가능 명령어들은, 상기 분할하는 단계, 상기 인코딩하는 단계, 상기 비교하는 단계 및 상기 추정하는 단계를 정의하는 방법.
- 프로세서 및 메모리를 가지며, 제12항의 방법에 따라 사용자 입력과 골롬-압축된 언어 모델을 비교함으로써 상기 사용자 입력을 디코딩하도록 되어 있는 휴대용 컴퓨팅 장치.
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/159,712 US7363225B2 (en) | 2005-06-23 | 2005-06-23 | Compressing language models with Golomb coding |
US11/159,712 | 2005-06-23 | ||
PCT/US2006/022042 WO2007001764A2 (en) | 2005-06-23 | 2006-06-06 | Compressing language models with golomb coding |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080021044A KR20080021044A (ko) | 2008-03-06 |
KR101278776B1 true KR101278776B1 (ko) | 2013-06-25 |
Family
ID=37568671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077029971A KR101278776B1 (ko) | 2005-06-23 | 2006-06-06 | 골롬 코딩을 이용한 언어 모델 압축 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7363225B2 (ko) |
EP (1) | EP1891545B1 (ko) |
JP (1) | JP4912399B2 (ko) |
KR (1) | KR101278776B1 (ko) |
CN (1) | CN101283349B (ko) |
AT (1) | ATE529852T1 (ko) |
ES (1) | ES2372863T3 (ko) |
PT (1) | PT1891545E (ko) |
WO (1) | WO2007001764A2 (ko) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877258B1 (en) * | 2007-03-29 | 2011-01-25 | Google Inc. | Representing n-gram language models for compact storage and fast retrieval |
US8725509B1 (en) * | 2009-06-17 | 2014-05-13 | Google Inc. | Back-off language model compression |
US20120014433A1 (en) * | 2010-07-15 | 2012-01-19 | Qualcomm Incorporated | Entropy coding of bins across bin groups using variable length codewords |
US9336225B2 (en) | 2011-02-24 | 2016-05-10 | A9.Com, Inc. | Encoding of variable-length data with unary formats |
US20150254211A1 (en) * | 2014-03-08 | 2015-09-10 | Microsoft Technology Licensing, Llc | Interactive data manipulation using examples and natural language |
KR102492318B1 (ko) | 2015-09-18 | 2023-01-26 | 삼성전자주식회사 | 모델 학습 방법 및 장치, 및 데이터 인식 방법 |
KR20180001889A (ko) * | 2016-06-28 | 2018-01-05 | 삼성전자주식회사 | 언어 처리 방법 및 장치 |
CN110110292B (zh) * | 2018-01-29 | 2023-11-14 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN109743583A (zh) * | 2019-01-14 | 2019-05-10 | 东华理工大学 | 一种基于相邻差值图像压缩的方法 |
KR102642796B1 (ko) | 2019-05-24 | 2024-03-04 | 오디오도 아베 (피유비엘) | 무손실 데이터 압축 및 압축 해제를 위한 방법, 장치 및 컴퓨터 프로그램 제품 |
CN116018758A (zh) | 2020-06-23 | 2023-04-25 | 弗劳恩霍夫应用研究促进协会 | 用于对整数值序列进行编码和解码的装置,用于对整数值序列进行编码和解码的方法以及用于实现这些方法的计算机程序 |
CN113765650B (zh) * | 2020-10-15 | 2024-12-10 | 北京沃东天骏信息技术有限公司 | 数据加密、解密方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030074183A1 (en) | 2001-10-16 | 2003-04-17 | Xerox Corporation | Method and system for encoding and accessing linguistic frequency data |
US6668092B1 (en) | 1999-07-30 | 2003-12-23 | Sun Microsystems, Inc. | Memory efficient variable-length encoding/decoding system |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5325091A (en) * | 1992-08-13 | 1994-06-28 | Xerox Corporation | Text-compression technique using frequency-ordered array of word-number mappers |
US5764374A (en) | 1996-02-05 | 1998-06-09 | Hewlett-Packard Company | System and method for lossless image compression having improved sequential determination of golomb parameter |
US6092038A (en) | 1998-02-05 | 2000-07-18 | International Business Machines Corporation | System and method for providing lossless compression of n-gram language models in a real-time decoder |
US6169969B1 (en) * | 1998-08-07 | 2001-01-02 | The United States Of America As Represented By The Director Of The National Security Agency | Device and method for full-text large-dictionary string matching using n-gram hashing |
US6665665B1 (en) * | 1999-07-30 | 2003-12-16 | Verizon Laboratories Inc. | Compressed document surrogates |
US6847735B2 (en) | 2000-06-07 | 2005-01-25 | Canon Kabushiki Kaisha | Image processing system, image processing apparatus, image input apparatus, image output apparatus and method, and storage medium |
US7103534B2 (en) | 2001-03-31 | 2006-09-05 | Microsoft Corporation | Machine learning contextual approach to word determination for text input via reduced keypad keys |
DE10204617B4 (de) | 2002-02-05 | 2005-02-03 | Siemens Ag | Verfahren und Vorrichtungen zur Kompression und Dekompression eines Videodatenstroms |
US7328150B2 (en) | 2002-09-04 | 2008-02-05 | Microsoft Corporation | Innovations in pure lossless audio compression |
AU2003275440A1 (en) | 2002-10-07 | 2004-05-04 | Summus, Inc. | System for graphics compression and display |
US7171358B2 (en) | 2003-01-13 | 2007-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Compression of language model structures and word identifiers for automated speech recognition systems |
US7231349B2 (en) | 2003-05-30 | 2007-06-12 | Microsoft Corporation | Method and apparatus for compressing asymmetric clustering language models |
-
2005
- 2005-06-23 US US11/159,712 patent/US7363225B2/en not_active Expired - Fee Related
-
2006
- 2006-06-06 WO PCT/US2006/022042 patent/WO2007001764A2/en active Application Filing
- 2006-06-06 EP EP06772381A patent/EP1891545B1/en not_active Not-in-force
- 2006-06-06 CN CN2006800217962A patent/CN101283349B/zh not_active Expired - Fee Related
- 2006-06-06 PT PT06772381T patent/PT1891545E/pt unknown
- 2006-06-06 ES ES06772381T patent/ES2372863T3/es active Active
- 2006-06-06 KR KR1020077029971A patent/KR101278776B1/ko active IP Right Grant
- 2006-06-06 AT AT06772381T patent/ATE529852T1/de not_active IP Right Cessation
- 2006-06-06 JP JP2008518199A patent/JP4912399B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6668092B1 (en) | 1999-07-30 | 2003-12-23 | Sun Microsystems, Inc. | Memory efficient variable-length encoding/decoding system |
US20030074183A1 (en) | 2001-10-16 | 2003-04-17 | Xerox Corporation | Method and system for encoding and accessing linguistic frequency data |
Also Published As
Publication number | Publication date |
---|---|
PT1891545E (pt) | 2011-11-03 |
WO2007001764A3 (en) | 2007-10-04 |
KR20080021044A (ko) | 2008-03-06 |
CN101283349B (zh) | 2011-04-20 |
JP2008547116A (ja) | 2008-12-25 |
ES2372863T3 (es) | 2012-01-27 |
CN101283349A (zh) | 2008-10-08 |
JP4912399B2 (ja) | 2012-04-11 |
EP1891545A4 (en) | 2010-08-25 |
US20060293899A1 (en) | 2006-12-28 |
EP1891545A2 (en) | 2008-02-27 |
US7363225B2 (en) | 2008-04-22 |
EP1891545B1 (en) | 2011-10-19 |
WO2007001764A2 (en) | 2007-01-04 |
ATE529852T1 (de) | 2011-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101278776B1 (ko) | 골롬 코딩을 이용한 언어 모델 압축 | |
US9223765B1 (en) | Encoding and decoding data using context model grouping | |
US8933825B2 (en) | Data compression systems and methods | |
KR101515660B1 (ko) | 두 번의 패스를 통한 텍스트 스트링의 해시 추출 | |
US20070233477A1 (en) | Lossless Data Compression Using Adaptive Context Modeling | |
US20130141259A1 (en) | Method and system for data compression | |
US11722148B2 (en) | Systems and methods of data compression | |
CN1585968A (zh) | 用于压缩字典数据的方法 | |
CN1673997A (zh) | 以apra标准格式表示经删除插值n字母语言模型 | |
US6839005B1 (en) | Low memory and MIPS efficient technique for decoding Huffman codes using multi-stage, multi-bits lookup at different levels | |
US20170214413A1 (en) | Joint source-channel coding with dynamic dictionary for object-based storage | |
CN101626242A (zh) | 改进的霍夫曼解码方法及装置 | |
CN113778678A (zh) | 一种可压缩内存的敏感词快速查找方法及系统 | |
WO2015102432A1 (en) | Method and apparatus for performing an arithmetic coding for data symbols | |
Topaloglu et al. | Polymorphic compression | |
Gupta et al. | Removing Redundancy in Dictionary based Compression Techniques | |
Ryabko et al. | Prediction of Large Alphabet Processes and Its Application to Adaptive Source Coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0105 | International application |
Patent event date: 20071221 Patent event code: PA01051R01D Comment text: International Patent Application |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20110504 Comment text: Request for Examination of Application |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20121023 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20130521 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20130619 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20130619 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20160517 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20160517 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20170522 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20170522 Start annual number: 5 End annual number: 5 |
|
FPAY | Annual fee payment |
Payment date: 20180516 Year of fee payment: 6 |
|
PR1001 | Payment of annual fee |
Payment date: 20180516 Start annual number: 6 End annual number: 6 |
|
FPAY | Annual fee payment |
Payment date: 20190515 Year of fee payment: 7 |
|
PR1001 | Payment of annual fee |
Payment date: 20190515 Start annual number: 7 End annual number: 7 |