php教程自学网 - 轻松零基础学php视频教程
条幅广告
当前位置: 主页 > PHP学堂 >

一个简单的开源PHP爬虫框架Beanbun

时间:2018-08-22 18:16来源:未知 作者:admin 点击:
Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性。 简介 Beanbun 是一个简单可扩展的爬虫框架,支持守护进程模式与普通模式,守护进程模式基于 Workerman,下

Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性。

  简介

  Beanbun 是一个简单可扩展的爬虫框架,支持守护进程模式与普通模式,守护进程模式基于 Workerman,下载器基于 Guzzle。

  框架名称来自于作者家的猫,此猫名叫门丁,“门丁”是北方的一种面点。门丁 -> 豆包 -> bean bun

  特点

  支持守护进程与普通两种模式(守护进程模式只支持 Linux 服务器)

  默认使用 Guzzle 进行爬取

  支持分布式

  支持内存、Redis 等多种队列方式

  支持自定义URI过滤

  支持广度优先和深度优先两种爬取方式

  遵循 PSR-4 标准

  爬取网页分为多步,每步均支持自定义动作(如添加代理、修改 user-agent 等)

  灵活的扩展机制,可方便的为框架制作插件:自定义队列、自定义爬取方式...

(责任编辑:admin)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
相关推荐
猜你喜欢