图片为mongoDB的可视化工具robomongo 显示3w6千条爬取数据
图片为一个count.py的运行结果 每五秒监视一次爬取结果
爬虫需要解决高频率访问问题,和效率问题的平衡,使用线程池,和IP池防止封IP。 并且解决58同城不同页面的解析。商品展示的页面可能会有好多种,如何处理。
使用jupyter notebook (python的web版的IDE) 可以更直观的观看数据做一些处理
讲有问题的数据或者不是很清楚的数据,改成自己想要的格式
| Name | Name | Last commit date | ||
|---|---|---|---|---|