Hello I am Aljun!

wanna know more ,please click

用scrapy爬取豆瓣电影新片榜

2015-10-02 18:11:04

本博客采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本博客文章必须也遵循署名-非商业用途-保持一致的创作共用协议

这是我用python的scrapy 框架的一个简单教程

内容包括:

  • scrapy框架的介绍,包括他的工作机制和各个组件

  • 实战:用 scrapy爬取 豆瓣新片榜,并把它保存成json文件

另外一说,python的 scrapy实在太好用了,而且爬虫对我数据挖掘和信息搜索简直太有用,希望想搞数据的同学们没事可以练练爬虫功力,非常有用!!

python爬虫

用scrapy对豆瓣top250页面爬取(多页面爬取)

2015-10-02 18:57:36

本博客采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本博客文章必须也遵循署名-非商业用途-保持一致的创作共用协议

本文讲解了如何用 scrapy对多个网页进行爬取,来获得大量数据

包括:

python爬虫

用scrapy自动爬取下载图片

2015-10-04 09:29:34

本博客采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本博客文章必须也遵循署名-非商业用途-保持一致的创作共用协议

本文讲解了如何使用 scrapy来自动下载图片,而文件亦是异曲同工之理

本文包括:

本文其实也在讲解,作为一个爱理粉又是程序员,如何高效的静静的欣(gui)赏(tian)我们的爱理酱~

python爬虫

用scrapy自动下载石原sama的豆瓣影人图集(727张图片,自动下载)

2015-10-07 05:08:26

本博客采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本博客文章必须也遵循署名-非商业用途-保持一致的创作共用协议

本文讲解了如何用 scrapy进行多页面的图片爬取,来做工作日常所需

本文包括:

  • 如何构造一个多网页图片抓取

  • 如何防止被抓取网页的 403forbidden

  • 如何科学地得到石原sama的写真全集( 727 张)

python爬虫

爬虫教程(1)基础入门

2016-02-25 19:29:15

本博客采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本博客文章必须也遵循署名-非商业用途-保持一致的创作共用协议

本文记载了从零到学会爬虫的方法和讲解,从思路到访问方法到文本解析

  • url liburllib2的方法

  • requests

  • beautiful soup

  • pyquery

  • 以及如何下载图片,如何解析api回来的json文件

是一篇以小白角度写的文章

python爬虫

爬虫教程(2)性能进阶

2016-02-25 21:15:24

本博客采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本博客文章必须也遵循署名-非商业用途-保持一致的创作共用协议

本文记载了,如何提升服务器上,面相生产的爬虫性能提升的几个模块和办法,并提供了标准例程:

模块包括:

  • threading(多线程)

  • multiprocessing(多进程)

  • gevent(协程)

  • twisted(异步IO)

这些模块用来如何最大化利用我们的计算资源,去爬取我们想要的东西

并且讲解了我对这些模块使用的体验

python爬虫

知乎用户信息爬虫(规模化爬取)

2016-04-10 15:53:54

本博客采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本博客文章必须也遵循署名-非商业用途-保持一致的创作共用协议

我相信谈起zhihu大家一定不陌生,是一个以用户生产高质量内容闻名的社区(抖机灵呢?喂!)

这一次我用request ,MongoDBRedis爬去了大量的用户的用户信息

设备为一台最低配阿里云(北京)

本文包括:

  • 登录session的原理

  • 规模爬虫的制定和策略

python爬虫

Designed and built with all the love in the world by the Mr.ALJUN.

@SERVER BY NGINX AND POWER BY DIGITALOCEAN.

© COPYRIGHT BY GAGASALAMER 2015