将流式缓冲区转换为 utf8 字符串

小编典典

将流式缓冲区转换为 utf8 字符串

all

我想使用 node.js 发出 HTTP
请求以从网络服务器加载一些文本。由于响应可以包含很多文本（一些兆字节），我想分别处理每个文本块。我可以使用以下代码实现这一点：

var req = http.request(reqOptions, function(res) {
    ...
    res.setEncoding('utf8');
    res.on('data', function(textChunk) {
        // process utf8 text chunk
    });
});

这似乎没有问题。但是我想支持 HTTP 压缩，所以我使用 zlib：

var zip = zlib.createUnzip();

// NO res.setEncoding('utf8') here since we need the raw bytes for zlib
res.on('data', function(chunk) {
    // do something like checking the number of bytes downloaded
    zip.write(chunk); // give the raw bytes to zlib, s.b.
});

zip.on('data', function(chunk) {
    // convert chunk to utf8 text:
    var textChunk = chunk.toString('utf8');

    // process utf8 text chunk
});

'\u00c4'这对于由两个字节组成的多字节字符可能是一个问题：0xC3和0x84. 如果第一个字节被第一个块 ( Buffer)
覆盖，第二个字节被第二个块覆盖，那么chunk.toString('utf8')将在文本块的结尾/开头产生不正确的字符。我怎样才能避免这种情况？

提示：我仍然需要缓冲区（更具体地说是缓冲区中的字节数）来限制下载的字节数。因此res.setEncoding('utf8')，在上面的第一个示例代码中对非压缩数据使用
like 不适合我的需要。

阅读 108

2022-07-06

共1个答案

小编典典

单缓冲器

如果你有一个Buffer，你可以使用它的toString方法，将所有或部分二进制内容转换为使用特定编码的字符串。如果您不提供参数，则默认为utf8，但我在此示例中明确设置了编码。

var req = http.request(reqOptions, function(res) {
    ...

    res.on('data', function(chunk) {
        var textChunk = chunk.toString('utf8');
        // process utf8 text chunk
    });
});

流式缓冲区

如果您在上面的问题中具有流式缓冲区，其中多字节字符的第一个字节UTF8可能包含在第一个Buffer（块）中，第二个字节包含在第二个中，Buffer那么您应该使用StringDecoder.
：

var StringDecoder = require('string_decoder').StringDecoder;

var req = http.request(reqOptions, function(res) {
    ...
    var decoder = new StringDecoder('utf8');

    res.on('data', function(chunk) {
        var textChunk = decoder.write(chunk);
        // process utf8 text chunk
    });
});

这样， 不完整 字符的字节会被缓冲，StringDecoder直到所有需要的字节都被写入解码器。

2022-07-06