爬虫
Introduction
参考
- python版本
- python技巧
- IO编程
- 进程和线程
  - 多进程
  - 多线程
- 网络编程
爬虫工作流程
python环境
基本操作
爬取
- urllib(python自带库,基本不用)
- requests(强大的第三方库,主流)
  - 基本操作
  - 注意
- 寻求代理
解析
- re(正则表达式-万能,但使用难度较大)
- BeautifulSoup(常用)
- 解析格式
  - html
  - xml
  - Json
存储
- 数据库存储
  - mysql存储
  - mongodb存储
- 常用格式存储
  - excel
  - csv
  - text
爬虫框架
- scrapy
自动化测试工具
- selenium
示例

Powered by GitBook

urllib(python自带库,基本不用)

results matching ""

No results matching ""