有没有办法从文件存储gzip的字典？

小编典典

有没有办法从文件存储gzip的字典？

algorithm

我一直在研究基于压缩的文本分类，并且试图找到一种存储由编码器构建的字典的方法（在训练文件上），以用于在测试文件上“静态”运行？使用UNIX的gzip实用程序完全可以做到吗？

例如，我一直在使用Sport.txt和atheism.txt的2个“类”文件，因此我想对这两个文件都运行压缩并存储使用的字典。接下来，我要获取一个测试文件（未标记，可以是无神论者或运动者），并通过在此test.txt上使用预构建的词典，我可以分析其在该词典/模型下的压缩程度。

谢谢

阅读 265

2020-07-28

共1个答案

小编典典

像gzip和zlib中一样，放气编码器不会“构建”字典。他们只是简单地使用之前的32K字节作为与当前位置开始的字节字符串进行潜在匹配的源。最后的32K字节称为“字典”，但名称可能会引起误解。

您可以使用zlib尝试使用预设词典。请参阅deflateSetDictionary()和inflateSetDictionary()功能。在这种情况下，zlib压缩以32K字节的“字典”作为首字母，该字典实际上在被压缩的第一个字节之前作为匹配源，但字典本身未压缩。启动只能改善前32K字节的压缩。此后，预设字典就太远了，无法提供匹配。

gzip不支持预设字典。

2020-07-28