Python网络爬虫的基本流程与准备

2021-03-17 12:25

阅读：817

标签：rgb xlwt bs4 path 通过分析 from 获取 request

基本流程：

准备工作：（通过浏览器查看分析目标网页，学习编程基础规范）

获取数据：（通过HTTP库向目标站点发起请求，请求可以包含额外的header等信息，如果服务器能正常响应，会得到一个Response，便是所要获取的页面内容）

解析内容：（得到的内容可能是HTML、json等格式，可以用页面解析库、正则表达式等进行解析）

保存数据：（保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件）

案例网址： https://movie.douban.com/top250

爬虫初识：

按照一定的规则，自动抓取互联网信息的程序或者脚本，只要能通过浏览器访问的数据基本都可以通过爬虫获取
模拟浏览器打开网页，获取网页中我们想要的那部分数据

爬虫常用的工具包：

# 解析网页
from bs4 import BeautifulSoup as bf

# 正则表达式
import re

# Excel表格操作
import xlwt

# 获取URL得到html文件
import urllib.request as req

# 进行SQLite数据库操作
import sqlite3

Python路径：

# 相对路径，../表示定位到上一级目录
path1 = "../excel/hello.txt"

# 相对路径，当前目录下寻找
path2 = "hello.txt"

# 绝对路径，r""表示不转义字符
path3 = r"C:\Users\a最简单\Desktop\hello.txt"

# 换成/也行，连转义字符都不用考虑了
path4 = "C:/Users/a最简单/Desktop/hello.txt"

Python网络爬虫的基本流程与准备

标签：rgb xlwt bs4 path 通过分析 from 获取 request

原文地址：https://www.cnblogs.com/zq-zq/p/13974713.html

上一篇：python xml处理

下一篇：ssm环境搭建（这是一个非常干净的smm基础环境），和Spring底层相关回顾

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：Python网络爬虫的基本流程与准备
文章链接：http://soscw.com/index.php/essay/65298.html

亲，登录后才可以留言！

Python网络爬虫的基本流程与准备

评论

热门文章

推荐文章

最新文章

置顶文章