• 欢迎访问1024小神,一个只会Python的程序猿不是一个好司机
  • 有什么想对我说的可以在留言板里给我留言哦~
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏1024小神吧

一个爬取微信公众号文章的爬虫

项目合作 1024小神 8个月前 (12-05) 693次浏览 9个评论

微信爬虫的由来

零分贝是一家帮助中国5000万贫困人口与社会公益组织对接的公司。

我们通过国家和地方政府的“建档立卡”系统,获取到了一手的贫困户数据,目前有100万左右,总数为5000万,目前每个月都在增长。

为了帮助这部分贫困户对接公益机构,我写了这个微信爬虫,从微信公众号发布的文章中上找出最新的公益项目。

这种找项目的方式的可行性,我们还在试验中。

起初,为了快速上线,本爬虫的代码是基于我的另一个 通用爬虫项目 开发的,我也希望任何对本项目感兴趣的人联系我,与我一同改进这个项目。

界面预览

1) 要爬取的微信公众号列表

2) 要爬取的文章关键字列表

3) 已经爬取的微信文章

4) 查看文章,并标记是否可用

5) 控制爬取进程数

安装

1)python环境, 检查python的版本,是否为2.7.x,如果不是,安装2.7.6。

如果是centos 6.x,升级python2.6到python2.7,参考教程 http://ruiaylin.github.io/2014/12/12/python%20update/

如果是centos 7.x,默认就是python2.7,不用升级

如果是mac osx,可以使用virtualenv,安装python2.7

2)安装依赖包, clone代码 安装Mysql-python依赖

yum install python-devel mysql-devel gcc

安装lxml依赖

yum install libxslt-devel libxml2-devel

安装浏览器环境 selenium依赖.(如果是mac环境,仅需安装firefox, 但确保版本是 firefox 36.0,使用最新的版本会报错)

yum install xorg-x11-server-Xvfb
yum upgrade glib2 # 确保glib2版本大于2.42.2,否则firefox启动会报错
yum install firefox # centos下安装最新的firefox版本

clone代码,安装依赖pyth

源代码下载:

蓝奏云:https://wwx.lanzoux.com/iTvzdj2glbe


如有失效,请留言告知丨转载请注明原文链接:一个爬取微信公众号文章的爬虫
点赞 (0)

您必须 登录 才能发表评论!

(9)个小伙伴在吐槽
  1. tompeng
    谢谢分享
    2021-03-23 17:36
  2. 范特西
    优秀
    2021-02-25 20:57
  3. asdwsz147369
    电脑不行了
    2021-02-19 12:40
  4. tompeng
    这个很不错的呢!
    2021-02-07 15:44
  5. 木木vip
    这个很不错的呢!
    2021-01-26 10:12
  6. 妖灵二四
    我也喜欢这个技术 o(∩_∩)o
    2021-01-19 14:05
  7. lsy2zn2
    目前这个技术很流行啊
    2021-01-07 14:40
  8. bj2415
    太优秀了 不错
    2020-12-30 14:13
  9. ACDSee
    很优秀
    2020-12-06 18:14