爬虫
Introduction
参考
python版本
python技巧
IO编程
进程和线程
多进程
多线程
网络编程
爬虫工作流程
python环境
基本操作
爬取
urllib(python自带库,基本不用)
requests(强大的第三方库,主流)
基本操作
注意
寻求代理
解析
re(正则表达式-万能,但使用难度较大)
BeautifulSoup(常用)
解析格式
html
xml
Json
存储
数据库存储
mysql存储
mongodb存储
常用格式存储
excel
csv
text
爬虫框架
scrapy
自动化测试工具
selenium
示例
Powered by
GitBook
urllib(python自带库,基本不用)
results matching "
"
No results matching "
"