基于分段聚类压缩和Hash recoding压缩方法
大小:0.95 MB 人气: 2017-11-24 需要积分:0
今日头条的服务器每天都会产生规模庞大的训练数据,为方便进行训练,这些数据都具有特定的格式和分布特征。使用不同类型的通用压缩算法(字典类型及非字典类型)进行测试,发现单独任何一种算法都无法在满足业务需求(速率需求和CPU占比等)的同时获得较为可观的压缩比。针对今日头条的训练数据,提出了分段聚类压缩和Hash recoding压缩两种策略。实验结果表明,分段聚类压缩方式在更好地保证了压缩率的同时提高了压缩速率的目的;Hash recoding压缩方式则更好地达到了以少量压缩速率的损失换取更可观的压缩率的目的。分段聚类方式搭配Gzip压缩算法的组合能使压缩速率提高300%以上;Hash recoding方式匹配Snappy压缩算法能使压缩率缩小50%以上。根据实际需求,不论选择哪种策略,对于降低今日头条的运营成本,提升业务处理的效率,提供更好的用户体验,都有一定意义。
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%
下载地址
基于分段聚类压缩和Hash recoding压缩方法下载
相关电子资料下载
- 新能源汽车空调压缩机三相全桥SiC MOSFET方案 41
- 垃圾压缩处理设备数据采集远程监控系统 119
- 产线自动化改造,智能化空调压缩机中的工业RFID技术应用 63
- 从燃油车到电动汽车,空调压缩机也在“新能源化” 4858
- 变频空调和普通空调有什么区别? 544
- 集成32GB HBM2e内存,AMD Alveo V80加速卡助力传感器处理、存储压缩等 1753
- 第三讲:单片机STC89C52+RA8889驱动控制彩屏 代码的压缩(Keil编译器) 183
- 威灵汽车获得ISO 26262 ASIL-D汽车功能安全流程认证证书 902
- 压缩空气储能与抽水蓄能的区别 289
- 压缩空气储能与液化空气储能的区别 280