网络爬虫的主要任务是ETL,即Extract-Transform-Load;
ETL
Extract-Transform-Load
Extract:一般是通过http协议抓取内容;
Extract
http
Transform:通过html解析器解析成对象,然后查找需要的内容;
Transform
html
Load:将数据保存备用,然后再通过其它方式读取并展示给目标用户。
Load