小编典典

如何分割文件并在每一部分中保持第一行?

linux

给定: 一个大文本数据文件(例如CSV格式),第一行带有“特殊”行(例如字段名称)。

想要的: 与coreutils split -l命令等效,但另外的要求是原始文件的标题行必须出现在每个结果片段的开头。

我猜想会合splithead为之吗?


阅读 296

收藏
2020-06-03

共1个答案

小编典典

这是 robhruska的 脚本,整理了一下:

tail -n +2 file.txt | split -l 4 - split_
for file in split_*
do
    head -n 1 file.txt > tmp_file
    cat "$file" >> tmp_file
    mv -f tmp_file "$file"
done

我删除wccutls以及echo在他们不必要的地方。我更改了一些文件名,使它们更有意义。我将其分成多行只是为了使其更易于阅读。

如果想花哨的话,可以使用mktemptempfile创建一个临时文件名,而不使用硬编码的文件名。

编辑

使用GNU split可以做到这一点:

split_filter () { { head -n 1 file.txt; cat; } > "$FILE"; }; export -f split_filter; tail -n +2 file.txt | split --lines=4 --filter=split_filter - split_

出于可读性而细分:

split_filter () { { head -n 1 file.txt; cat; } > "$FILE"; }
export -f split_filter
tail -n +2 file.txt | split --lines=4 --filter=split_filter - split_

--filter指定时,split运行用于每个输出文件的命令(在此情况下的函数,其必须导出)并设置变量FILE,在命令的环境,到文件名。

过滤器脚本或函数可以对输出内容甚至文件名进行所需的任何操作。后者的示例可能是输出到可变目录中的固定文件名:> "$FILE/data.dat"例如。

2020-06-03