网络爬虫

网络爬虫的主要任务是ETL,即Extract-Transform-Load

Extract:一般是通过http协议抓取内容;

Transform:通过html解析器解析成对象,然后查找需要的内容;

Load:将数据保存备用,然后再通过其它方式读取并展示给目标用户。

results matching ""

    No results matching ""