Stackexchange.Redis中的流水线与批处理

小编典典

Stackexchange.Redis中的流水线与批处理

redis

我试图在尽可能短的时间内插入大量（-ish）元素，并且尝试了以下两种选择：

1）流水线：

List<Task> addTasks = new List<Task>();
for (int i = 0; i < table.Rows.Count; i++)
{
    DataRow row = table.Rows[i];
    Task<bool> addAsync = redisDB.SetAddAsync(string.Format(keyFormat, row.Field<int>("Id")), row.Field<int>("Value"));
    addTasks.Add(addAsync);
}
Task[] tasks = addTasks.ToArray();
Task.WaitAll(tasks);

2）批处理：

List<Task> addTasks = new List<Task>();
IBatch batch = redisDB.CreateBatch();
for (int i = 0; i < table.Rows.Count; i++)
{
    DataRow row = table.Rows[i];
    Task<bool> addAsync = batch.SetAddAsync(string.Format(keyFormat, row.Field<int>("Id")), row.Field<int>("Value"));
    addTasks.Add(addAsync);
}
batch.Execute();
Task[] tasks = addTasks.ToArray();
Task.WaitAll(tasks);

我没有注意到任何明显的时差（实际上，我希望批处理方法会更快）：对于大约250K的插入，流水处理大约需要7秒，而批处理大约需要8秒。

阅读有关流水线的文档，

“使用流水线使我们能够立即将两个请求都发送到网络上，从而消除了大部分延迟。此外，它还有助于减少数据包碎片：单独发送20个请求（等待每个响应）将至少需要20个数据包，但发送了20个请求管道中的数据包可以容纳更少的数据包（甚至可能只有一个）。”

对我来说，这听起来很像批处理行为。我想知道两者之间是否有很大的不同，因为通过简单检查，procmon我发现TCP Send两个版本的s
数量几乎相同。

阅读 617

2020-06-20

共1个答案

小编典典

在后台，SE.Redis做了很多工作来避免数据包碎片，因此在您的情况下它非常相似也就不足为奇了。批处理和扁平管道之间的主要区别是：

批将永远不会与同一多路复用器上的竞争操作交错（尽管它可以在服务器上交错；为避免需要使用multi/ exec事务或Lua脚本）
批次将始终避免出现数据包过小的机会，因为它可以提前知道所有数据
但是同时，必须先完成整个批处理，然后才能发送任何内容，因此这需要更多的内存缓冲，并且可能人为地引入延迟

在大多数情况下，通过避免批处理，您会做得更好，因为SE.Redis 只需添加工作即可 自动完成 大部分工作。

最后一点；如果要避免局部开销，一种最后的方法可能是：

redisDB.SetAdd(string.Format(keyFormat, row.Field<int>("Id")),
    row.Field<int>("Value"), flags: CommandFlags.FireAndForget);

这将一切发送出去，既不等待响应也不分配不完整的Tasks来表示将来的值。你可能想要做的事就像Ping在年底没有
发射后不管，检查服务器仍然跟你说话。请注意，使用即发即弃确实意味着您不会注意到任何报告的服务器错误。

2020-06-20