抓取网站, 趴取网站HTML页面

2021-01-22 17:12

阅读：882

标签：扩展 ext linux服务文档生成网站扩展名 http 适合

在Linux服务器中输入如下命令抓取网站HTML页面:

wget -r -p -np -k -E http://www.xxx.com 抓取整站

wget -l 1 -p -np -k http://www.xxx.com 抓取第一级

-r 递归抓取
-k 抓取之后修正链接，适合本地浏览.

wget -m -e robots=off -k -E "http://www.xxx.com/"
可以将全站下载以本地的当前工作目录，生成可访问、完整的镜像。

解释：

-m //镜像，就是整站抓取
-e robots=off //忽略robots协议，强制、流氓抓取
-k //将绝对URL链接转换为本地相对URL
-E //将所有text/html文档以.html扩展名保存

抓取网站, 趴取网站HTML页面

标签：扩展 ext linux服务文档生成网站扩展名 http 适合

原文地址：https://www.cnblogs.com/john-xiong/p/14298873.html

上一篇：List集合如何根据泛型中某个属性进行排序

下一篇：cad.net 点乘和叉乘_注释包含数学

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：抓取网站, 趴取网站HTML页面
文章链接：http://soscw.com/index.php/essay/45509.html

评论

亲，登录后才可以留言！

关于我们 | 版权声明 | 常见问题 | 素材投稿 | 联系我们 | 网站地图 |

搜素材网素材除本站原创外均由用户分享，若发现权利被侵害，请联系及时联系我们，我们会在第一时间进行处理。

特别说明：本站所有资源除本站原创外仅供学习与参考，请勿用于商业用途,如有侵犯您的版权请联系客服服务QQ：

点击这里给我发消息

Copyright © 2025 soscw.com 搜素材网素材网版权所有蜀ICP备18015633号-1