• 欢迎访问1024小神,一个只会Python的程序猿不是一个好司机
  • 有什么想对我说的可以在留言板里给我留言哦~
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏1024小神吧

标签:爬虫

爬虫技术

Scrapy架五大核心组件及流程

Scrapy架五大核心组件及流程
Scrapy是一个为了爬取网站数据、提取结构化数据而编写的爬虫应用框架。Scrapy内部实现了包括并发请求、免登录、URL去重等很多复杂操作,用户不需要明白Scrapy内部具体的爬取策略,只需要根据自己的需要,编写小部分的代码,就能抓取到所需要的数据。Scrapy主要由5个组成部分,若需要实现更多功能,Scrapy还提供了多种中间件。scrapy框架主要由……继续阅读 »

1024小神 6个月前 (12-26) 299浏览 5评论3个赞

项目合作

新浪微博爬虫,一天可抓取 1300 万条数据

新浪微博爬虫,一天可抓取 1300 万条数据
爬虫功能:此项目和QQ空间爬虫类似,主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒(用来登录的账号可从淘宝购买,一块钱七个)。项目爬的是新浪微博wap站,结构简单,速度应该会比较快,而且反扒没那么强,缺点是信息量会稍微缺少一些。爬虫抓取微博的速度可以达到 1300万/天 ……继续阅读 »

1024小神 6个月前 (12-05) 470浏览 6评论3个赞

项目合作

一个爬取微信公众号文章的爬虫

一个爬取微信公众号文章的爬虫
微信爬虫的由来零分贝是一家帮助中国5000万贫困人口与社会公益组织对接的公司。我们通过国家和地方政府的“建档立卡”系统,获取到了一手的贫困户数据,目前有100万左右,总数为5000万,目前每个月都在增长。为了帮助这部分贫困户对接公益机构,我写了这个微信爬虫,从微信公众号发布的文章中上找出最新的公益项目。这种找项目的方式的可行性,我们还在试验中。起初……继续阅读 »

1024小神 6个月前 (12-05) 600浏览 9评论0个赞

爬虫实战

豆瓣读书的爬虫,方便大家搜罗各种美美书

豆瓣读书的爬虫,方便大家搜罗各种美美书
豆瓣读书爬虫Python所写,豆瓣读书的爬虫,方便大家搜罗各种美美书!更新今年年初又爬了一遍豆瓣图书数据,爬下了3000000+条目,这次爬的时候特意爬取了每个图书页面中的“喜欢读XX的人也喜欢条目XX”,最近对数据进行了处理和可视化做了这个新的WebApp(随意取名书海星空),WebApp的截图如下。书海星空WebApp中每本书作为一个节点包含评……继续阅读 »

1024小神 6个月前 (12-05) 295浏览 5评论2个赞

爬虫实战

慕课网爬虫:160万用户报告

慕课网爬虫:160万用户报告
1 慕课网介绍慕课网——www.imooc.com,是垂直的互联网IT技能免费学习网站。以独家视频教程、在线编程工具、学习计划、问答社区为核心特色。在这里,你可以找到最好的互联网技术牛人,也可以通过免费的在线公开视频课程学习国内领先的互联网IT技术。慕课网课程涵盖前端开发、PHP、Html5、Android、iOS、Swift等IT前沿技术语言,包括基础……继续阅读 »

1024小神 6个月前 (12-05) 324浏览 3评论0个赞

项目合作

Bilibili用户爬虫

Bilibili用户爬虫
bilibili弹幕视频网现为国内最大的年轻人潮流文化娱乐社区,该网站于2009年6月26日创建,又称“B站”。我自己是2013年2月14日注册的用户,隐约记得在2013年暑假之前B站都是限制注册,只有在特殊的节假日才开放注册,后来是验证码注册与答题成为正式会员。接下来,展示一下B站的用户数据情况。(仅仅做了初步的统计)2 用户情况B站是一个ACG动……继续阅读 »

1024小神 6个月前 (12-08) 564浏览 8评论0个赞

项目合作

爬取知乎用户信息以及人际拓扑关系

爬取知乎用户信息以及人际拓扑关系
此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧。使用方法本地运行爬虫程序依赖mongo和rabbitmq,因此这两个服务必须正常运行和配置。为了加快下载效率,图片下载是异步任务,因此在启动爬虫进程执行需要启动异步worker,启动方……继续阅读 »

1024小神 6个月前 (12-05) 266浏览 3评论0个赞