索引空间占用调研
前言:在 Titanhouse 中 solr 数据量压力一直是一个问题,现在每月数据量增长,只是硬盘平均每月都要增长 6G
索引文档时,带来的硬盘使用量和内存消耗,字段类型以及使用的 analyzer 有最直接关系。
故专门做了以下测试
原始数据 1000 条 随机公司的 Description
csv 文件大小:2.31MB
只使用 text 类型 进行索引: 2.2MB
使用 text 类型 + fields: [completion] 进行索引: 2.5MB
使用 text 类型 + fields: [english_analyzer] 进行索引: 3MB
使用 text 类型 + fields: [keyword] 进行索引: 6.6MB
使用 text 类型 + fields: [ngram_analyzer] 进行索引: 14.1MB
使用 text 类型 + fields: [english_analyzer,completion,ngram_analyzer] 进行索引: 15.5MB