Commit 43b79f28 authored by yihua.huang's avatar yihua.huang

update user-manual

parent 2e496402
webmagic使用手册
------
========
>webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。
>web爬虫是一种技术,webmagic致力于将这种技术的实现成本降低,但是出于对资源提供者的尊重,webmagic不会做反封锁的事情,包括:验证码破解、代理切换、自动登录等。
......@@ -16,8 +16,9 @@ webmagic使用手册
<div style="page-break-after:always"></div>
--------
## 快速开始
## 下载及安装
### 使用maven
......@@ -66,9 +67,11 @@ webmagic还包含两个可用的扩展包,因为这两个包都依赖了比较
**bin/lib**目录下,有项目依赖的所有jar包,直接在IDE里import即可。
### 第一个爬虫
--------
#### 定制PageProcessor
## 第一个爬虫
### 定制PageProcessor
PageProcessor是webmagic-core的一部分,定制一个PageProcessor即可实现自己的爬虫逻辑。以下是抓取osc博客的一段代码:
......@@ -141,6 +144,9 @@ webmagic-extension包括了注解方式编写爬虫的方法,只需基于一
<div style="page-break-after:always"></div>
--------
## 详细介绍
## webmagic-core
......@@ -325,6 +331,8 @@ webmagic目前不支持持久化到数据库,但是结合其他工具,持久
<div style="page-break-after:always"></div>
-----
## webmagic-extension
webmagic-extension是为了开发爬虫更方便而实现的一些功能模块。这些功能完全基于webmagic-core的框架,包括注解形式编写爬虫、分页、分布式等功能。
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment