Commit 78cfb4d5 authored by yihua.huang's avatar yihua.huang

dep

parent aa9bee7b
......@@ -33,6 +33,8 @@ webmagic的功能覆盖整个爬虫的生命周期(链接提取、页面下载
###Get Started
webmagic定制的核心是PageProcessor接口。
项目使用maven托管,如果没用maven的可以去[http://git.oschina.net/flashsword20/webmagic-bin](http://git.oschina.net/flashsword20/webmagic-bin)库下载依赖包(这个仓库代码没有实时同步更新,不过依赖应该不会有变化)。
例如,我们要实现一个简单的通用爬虫SimplePageProcessor,代码如下:
......@@ -73,7 +75,6 @@ webmagic定制的核心是PageProcessor接口。
Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*/blog/*")).run();
### 示例
webmagic-samples目录里有一些定制PageProcessor以抽取不同站点的例子。
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment