Commit 586d23ef authored by yihua.huang's avatar yihua.huang

add package infos

parent 956d5cb3
<html>
<body>
包含了页面下载的接口Downloader和实现类HttpClientDownloader,该实现类封装了HttpComponent库。
</body>
</html>
<html>
<body>
包括webmagic入口类Spider和一些数据传递的实体类。
</body>
</html>
<html>
<body>
包含了处理页面抽取结果的接口Pipeline和它的几个实现类。
</body>
</html>
<html>
<body>
包含了封装页面处理逻辑的接口PageProcessor和一个实现类SimplePageProcessor。实现PageProcessor即可定制一个自己的爬虫。
</body>
</html>
<html>
<body>
包含url管理和调度的接口Schedular及它的几个实现类。
</body>
</html>
...@@ -7,7 +7,7 @@ import java.util.List; ...@@ -7,7 +7,7 @@ import java.util.List;
* Date: 13-4-20 * Date: 13-4-20
* Time: 下午8:02 * Time: 下午8:02
*/ */
public interface Selector { interface Selector {
public String select(String text); public String select(String text);
......
<html>
<body>
提供了便捷抽取页面内容的工具,对外核心接口是Selectable,内部抽取则是通过实现Selector来定制。
</body>
</html>
<html>
<body>
提供一些处理链接的静态工具类。
</body>
</html>
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment