大文件分割与重组技巧

简述

由于各种不同的问题,我们经常会遇到需要将一个大文件分割存储的问题。比如github里单个文件大小一般不能超过100M、比如FAT32文件系统里单个文件大小不能超过4G,比如我们想把某一个数据文件分割存储和查看,比如对日志文件进行分割保存等等。

在ubuntu下,这个工作其实相当简单,只需要牵涉到两个命令:split、cat.

文件分割--split

split命令用来将一个大文件分割成多个小文件,可以固定大小分割(常用于分割二进制文件),还可以固定行数分割(常用于分割文本文件)。

按行分割

$ split -l 10 data subdata-
$ ls
data subdata-ab  subdata-ad  subdata-af  subdata-ah  subdata-aa  subdata-ac  subdata-ae  subdata-ag

-l参数指定每个文件的行数,然后带分割的数据文件,以及分割后重新命名的文件前缀。默认分割出的文件是固定前缀加字典序,这样也是为了方便重组是不扰乱顺序。

按大小分割

$ split -b 10M data subdata-

-b参数指定用二进制分割,也就是指定文件大小,剩下的与按行分割类似。

用数字后缀

如果不喜欢英文字母后缀,我们可以用-d参数表示我们期望用数字来表示顺序。

$ split -d -l 10 data subdata-
$ ls
data  subdata-00  subdata-01  subdata-02  subdata-03  subdata-04

文件重组--cat

一直以为cat就是用来显示文件的。。其实cat本来的用途就是文件的组合。

对于用split命令生成的以subdata-为固定前缀的文件:

subdata-00  subdata-01  subdata-02  subdata-03  subdata-04

我们可以非常方便的用cat命令进行组合,而不影响文件顺序:

$ cat subdata-* >data