html2doc
2021-05-16 13:28
YPE html>
标签:error: rom headers 就是 oct mob 定位 _id agent
0.
1.参考
Python 爬虫:把廖雪峰教程转换成 PDF 电子书
https://github.com/lzjun567/crawler_html2pdf
wkhtmltopdf 就是一个非常好的工具,它可以用适用于多平台的 html 到 pdf 的转换,pdfkit 是 wkhtmltopdf 的Python封装包。
https://www.crummy.com/software/BeautifulSoup/bs4/doc/#
也可以通过 BeautifulSoup 插入删除tag
soup.insert
soup.decompose
2.安装
https://wkhtmltopdf.org/downloads.html
下载版本 Windows (MinGW) 0.12.4 32-bit / 64-bit for Windows XP/2003 or later; standalone
添加路径 D:\Program Files\wkhtmltopdf\bin
需要重新打开cmd以及notepad++。。。
pip install pdfkit
API https://pypi.python.org/pypi/pdfkit
定制options,搜索关键字 https://wkhtmltopdf.org/usage/wkhtmltopdf.txt
options = { ‘page-size‘: ‘Letter‘, ‘margin-top‘: ‘0.75in‘, ‘margin-right‘: ‘0.75in‘, ‘margin-bottom‘: ‘0.75in‘, ‘margin-left‘: ‘0.75in‘, ‘encoding‘: "UTF-8", #支持中文 ‘custom-header‘ : [ (‘Accept-Encoding‘, ‘gzip‘) ] ‘cookie‘: [ (‘cookie-name1‘, ‘cookie-value1‘), (‘cookie-name2‘, ‘cookie-value2‘), ], ‘no-outline‘: None } pdfkit.from_url(‘http://google.com‘, ‘out.pdf‘, options=options)
3.背景知识
3.1url 相对路径 绝对路径
In [323]: urlparse.urljoin(‘https://doc.scrapy.org/en/latest/index.html‘, ‘intro/overview.html‘) #相当于 ./intro/overview.html,其中 . 指代当前文件夹 latest Out[323]: ‘https://doc.scrapy.org/en/latest/intro/overview.html‘ In [324]: urlparse.urljoin(‘https://doc.scrapy.org/en/latest/intro/overview.html‘, ‘#walk-through-of-an-example-spider‘) #当前网页某个tag id=walk-through-of-an-example-spider Out[324]: ‘https://doc.scrapy.org/en/latest/intro/overview.html#walk-through-of-an-example-spider‘ In [326]: urlparse.urljoin(‘https://doc.scrapy.org/en/latest/intro/overview.html‘, ‘install.html‘) #相当于 ./install.html Out[326]: ‘https://doc.scrapy.org/en/latest/intro/install.html‘ In [327]: urlparse.urljoin(‘https://doc.scrapy.org/en/latest/intro/overview.html‘, ‘../topics/commands.html‘) # .. 指代当前文件夹intro的上一层文件夹latest Out[327]: ‘https://doc.scrapy.org/en/latest/topics/commands.html‘
https://doc.scrapy.org/en/latest/index.html
这一类官方文档一般页脚都为:
? Copyright 2008-2016, Scrapy developers. Revision 65ac0b06
.
Built with Sphinx using a theme provided by Read the Docs.
3.2页面布局规律
- 点击左上角 home 图标转到首页
- 左边栏页面导航
上一篇:Net学习日记_ADO.Net_2_练习(登录逻辑)
下一篇:js函数