如何下载gb688国家标准全文公开系统网站PDF文档
经常和各种行业标准、国家标准打交道的朋友一定对国家标准全文公开系统这个网站不陌生,
但这个网站部分内容使用了Fileopen插件对文档进行了加密,使得我们仅能线预览,无法直接下载原PDF文档。
文档预览地址通常是这种格式:
http://c.gb688.cn/bzgk/gb/showGb?type=online&hcno=6A36C54F793E45195F7B7ADBD1236071
我尝试了抓包、查看网页源代码、分析加载脚本文件等方式,皆未能找出PDF文件的真实地址。
使用手机抓包工具抓包也未能发现有价值的信息。
总结下目前网上流传的几个方法:
1.截屏 保存成多个图片,最后人工转换成PDF。
有网友提出可以将屏幕翻转成竖屏,调整显示器分辨率到最高,然后再手动或者通过自动化工具(如按键精灵)截屏,
最后将截取的所有图片整理成PDF文档,这种方法虽然笨了些但也算是达到了我们的目的。
2.Ctrl+P打印保存成PDF文档
这个方法的优点是可以通杀很多文库类站点,绕过限制直接将文档保存成PDF。
但缺点是画质会模糊,不是高清的,而且有时候加载出错会将错误的页面一起保存出来,需要人工二次编辑修正。
下面这个截图就是使用打印PDF文档保存后的效果,可以看出画质大打折扣,并不是非常清晰,
不过我们可以将这个PDF使用带有OCR识别功能的PDF格式转换工具转换成Word,然后再转换回PDF文件,
这个过程中要确保OCR识别后的文档格式排版没有问题,而且要保证没有乱码,文字没有错误,需要人工仔细核对,有些繁琐且耗时。
3.浏览器油猴脚本插件
这个方法需要在谷歌Chrome浏览器安装油猴(Tampermonkey )插件,然后再安装
https://greasyfork.org/zh-CN/scripts/380555-gb688下载 这个扩展,但经过我测试发现这个扩展脚本已经失效了,
作者在Github上放出了相关的技术细节,感兴趣的可以去了解下:
https://gist.github.com/lzghzr/858067598cf590af4c1b7d8faa211d21
https://github.com/lzghzr/TampermonkeyJS/issues/27
以上就是我目前找到的几个解决方案,如果大家有更好的方案欢迎留言。