文本文件行去重化工具 v2.1.10
文本文件行去重化工具 v2.1.10 Text Line Dereplication BigData Tool
这只是篇介绍文,没有资源可下载,工具作者并没有开放下载这款工具,
而是通过加密狗的形式出售,咨询了下价格在3500RMB~4500RMB左右,
有刚需的朋友可以联系,作者的QQ是24759362。
我平时偶尔需要对很大的文本文件去重,也尝试过许许多多的小工具,Linux命令、网站在线去重等方式,但文件若很大很大则去重过长就会很漫长,或者导致软件直接卡死。
这款工具号称全网最快,也是唯一能处理超过100G,甚至超过500G、1T以上大数据的去重软件,光是看软件的界面就能看出作者是花了许多心思在上面,功能做的很细致。
但由于价格高昂,自己也并不是刚需,所以没有购买,暂时通过Linux命令行下对大文件去重,Windows下的工具用过的基本都很难处理太大的文件,直接就卡死无响应。
以下是原作者对软件的介绍:
例如:多个TXT大数据文本文件合并以及文本行去重 130GB20亿行数据60分钟即可完成去重操作
测试数据大小:20亿行130GB的数据只需60分钟
平均去重速度:2000000000(行) ÷ 3600(秒) = 555555(行/秒)≈55万行/秒 .
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
2008-4-25【数据来源于】【编号0255713】培训班签到表_3 2008-2-8【数据来源于】【编号0414755】培训班签到表_3 2008-12-10【数据来源于】【编号0362890】培训班签到表_6 2008-7-14【数据来源于】【编号0031453】培训班签到表_3 2008-10-11【数据来源于】【编号0062763】培训班签到表_5 2008-4-16【数据来源于】【编号0722391】培训班签到表_5 2008-10-2【数据来源于】【编号0919890】培训班签到表_5 2008-1-5【数据来源于】【编号0087451】培训班签到表_6 2008-10-16【数据来源于】【编号0790573】培训班签到表_6 2008-4-11【数据来源于】【编号0713075】培训班签到表_3 2008-11-4【数据来源于】【编号0478024】培训班签到表_6 2008-5-23【数据来源于】【编号0733822】培训班签到表_5 2008-1-11【数据来源于】【编号0673685】培训班签到表_6 2008-2-3【数据来源于】【编号0159964】培训班签到表_1 2008-12-28【数据来源于】【编号0811027】培训班签到表_1 2008-12-27【数据来源于】【编号0352763】培训班签到表_4 2008-1-2【数据来源于】【编号0615848】培训班签到表_5 2008-7-6【数据来源于】【编号0764659】培训班签到表_2 2008-9-17【数据来源于】【编号0572933】培训班签到表_1 2008-9-15【数据来源于】【编号0316727】培训班签到表_2 2008-8-4【数据来源于】【编号0746945】培训班签到表_5 2008-4-16【数据来源于】【编号0544330】培训班签到表_1 |
以上工具会生成如下格式的测试数据一共4列20亿行(条):
Text Line Dereplication BigData Tool 文本行去重化 大数据工具
演示视频:
本软件特点及其描述:
1.平均处理速度60Mb/s(读写速度),例如130Gb的txt文件,大约60分钟即可完成文本行去重;
2.处理最大文本(txt或者csv)文件的能力——没有行数限制,没有文件大小限制,轻松处理超过1000Gb的文本文件,被去重的文本行可以是1列N行,也可以是N列N行的格式,允许被去重的文本格式每一行数据之中的任何一列,或者两列或者多列甚至全部列文本内容都可以为空,支持处理长短各异,杂乱无章的文本行去重;
3.一次性可合并去重处理多个大数据文件,可以对历史数据进行持续更新升级,对,没错,是对您的大数据文件进行升级;
4.具备自动文件编码探测功能,被去重的所有大数据文件必须是同样的文件编码;
5.本软件是目前互联网上销售的单机版文本行去重软件中去重速度最快的软件,其它专业性的软件公司开发的类似产品最快处理速度才5Mb/s而已;
6.标准版与极速版合二为一,实时的百分比处理进度条更新,让您目测整个操作过程大约需要的时间;
7.独特的拆分算法,巧妙构思的快速数学计算模型,让您的CPU利用率几乎一直处于50%的线性水平,标准版几乎能让内存消耗处在7Gb的线性水平;
8.文件的大小与硬件性能之间关系:是线性关系,对,您没看错,不是指数关系,所以处理大数据的能力非常强悍!
9.支持所有64位的操作系统
以下是测速环境,如果您的硬件性能比以下配置要好的话,那么您的硬盘读写的速度会更快,文本行去重过程需要的时间会更短:
操作系统:Windows 10 x64
CPU型号:Intel(R) Core(TM) i5-4570 CPU @ 3.2GHz 4核处理器
固态硬盘型号:GLOWAY STK512GS3-S7
内存型号:金士顿HyperX 8Gb DDR3 1600 4条内存,实际上只使用了1条8Gb的内存容量
标准版文本行去重化处理速度(读/写)&硬件(固态硬盘,CPU,内存条)性能界面截屏:
任务管理器性能测试截图表明:
1). CPU运算能力消耗折线走向瞬间没有出现明显地上下跳跃,始终保持在40%这样一条直线上,
表明CPU负载很低,工作得很轻松;
2). 内存消耗折线走向瞬间没有出现明显地上下跳跃,始终保持在7个GB这样一条直线上,
表明内存消耗很稳定,不会出现内存不够用这样的突发的状况;
3). 固态硬盘读写平均速度一直在65M/秒的速率处理大数据,表明处理大数据的数学建模计算
模型速度非常优秀,计算模型已经超越了目前互联网上所有已知软件算法;
从测试截图上,我们通过分析这些硬件工作时的折线走势,就能根据它是否平滑或者水平(也
就是软件运行时具备线性特性),来衡量软件设计是否优秀,运行时是否稳定,
从实际消耗系统资源(例如 CPU,内存,硬盘),就能判断此软件在自己的电脑上是否能快
速长时间地处理大量数据。
测试固态硬盘读写速度420M/s,如果你的硬盘比我这款还要
好,那么我可以肯定的告诉你,此软件处理数据时平均读写速率肯定会超过65M/秒。
极速版文本行去重化处理速度(读/写)&硬件(固态硬盘,CPU,内存条)性能界面截屏: