Commit fb0797b6 authored by yihua.huang's avatar yihua.huang

update docs

parent 8f954c79
...@@ -10,10 +10,16 @@ import java.util.Map; ...@@ -10,10 +10,16 @@ import java.util.Map;
import java.util.concurrent.ConcurrentHashMap; import java.util.concurrent.ConcurrentHashMap;
/** /**
* Page保存了抓取的结果,并可定义下一次抓取的链接内容。 * <pre>
* Author: code4crafter@gmail.com *Page保存了上一次抓取的结果,并可定义待抓取的链接内容。
* Date: 13-4-21 *
* Time: 上午11:22 * 主要方法:
* {@link #getUrl()} 获取页面的Url
* {@link #getHtml()} 获取页面的html内容
* {@link #addTargetRequests(java.util.List)} {@link #addTargetRequest(String)} 添加待抓取的链接
*
* </pre>
* @author code4crafter@gmail.com <br>
*/ */
public class Page { public class Page {
...@@ -34,6 +40,10 @@ public class Page { ...@@ -34,6 +40,10 @@ public class Page {
public Page() { public Page() {
} }
/**
*
* @return fields
*/
public Map<String, Selectable> getFields() { public Map<String, Selectable> getFields() {
return fields; return fields;
} }
......
...@@ -17,7 +17,7 @@ package us.codecraft.webmagic; ...@@ -17,7 +17,7 @@ package us.codecraft.webmagic;
* String linktext = (String)page.getRequest().getExtra()[0]; * String linktext = (String)page.getRequest().getExtra()[0];
* } * }
* </pre> * </pre>
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 上午11:37 * Time: 上午11:37
*/ */
......
...@@ -4,7 +4,7 @@ import java.util.*; ...@@ -4,7 +4,7 @@ import java.util.*;
/** /**
* Site定义一个待抓取的站点的各种信息。 * Site定义一个待抓取的站点的各种信息。
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午12:13 * Time: 下午12:13
*/ */
......
...@@ -14,7 +14,7 @@ import java.util.ArrayList; ...@@ -14,7 +14,7 @@ import java.util.ArrayList;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 上午6:53 * Time: 上午6:53
*/ */
......
package us.codecraft.webmagic; package us.codecraft.webmagic;
/** /**
* Author: code4crafer@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-6-18 * Date: 13-6-18
* Time: 下午2:57 * Time: 下午2:57
*/ */
......
...@@ -6,7 +6,7 @@ import us.codecraft.webmagic.Site; ...@@ -6,7 +6,7 @@ import us.codecraft.webmagic.Site;
/** /**
* Downloader是webmagic下载页面的接口。webmagic默认使用了HttpComponent作为下载器,一般情况,你无需自己实现这个接口。 * Downloader是webmagic下载页面的接口。webmagic默认使用了HttpComponent作为下载器,一般情况,你无需自己实现这个接口。
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午12:14 * Time: 下午12:14
*/ */
...@@ -17,7 +17,7 @@ public interface Downloader { ...@@ -17,7 +17,7 @@ public interface Downloader {
* *
* @param request * @param request
* @param site * @param site
* @return * @return page
*/ */
public Page download(Request request, Site site); public Page download(Request request, Site site);
} }
...@@ -14,7 +14,7 @@ import us.codecraft.webmagic.utils.UrlUtils; ...@@ -14,7 +14,7 @@ import us.codecraft.webmagic.utils.UrlUtils;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午12:15 * Time: 下午12:15
*/ */
......
...@@ -18,7 +18,7 @@ import us.codecraft.webmagic.Site; ...@@ -18,7 +18,7 @@ import us.codecraft.webmagic.Site;
import java.util.Map; import java.util.Map;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午12:29 * Time: 下午12:29
*/ */
......
...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.selector.Selectable; ...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.selector.Selectable;
import java.util.Map; import java.util.Map;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午1:45 * Time: 下午1:45
*/ */
......
...@@ -12,7 +12,7 @@ import java.io.PrintWriter; ...@@ -12,7 +12,7 @@ import java.io.PrintWriter;
import java.util.Map; import java.util.Map;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午6:28 * Time: 下午6:28
*/ */
......
...@@ -4,7 +4,7 @@ import us.codecraft.webmagic.Page; ...@@ -4,7 +4,7 @@ import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Task; import us.codecraft.webmagic.Task;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午1:39 * Time: 下午1:39
*/ */
......
...@@ -4,7 +4,7 @@ import us.codecraft.webmagic.Page; ...@@ -4,7 +4,7 @@ import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Site;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 上午11:42 * Time: 上午11:42
*/ */
......
...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.utils.UrlUtils; ...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.utils.UrlUtils;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-22 * Date: 13-4-22
* Time: 下午9:15 * Time: 下午9:15
*/ */
......
...@@ -16,7 +16,7 @@ import java.util.concurrent.atomic.AtomicBoolean; ...@@ -16,7 +16,7 @@ import java.util.concurrent.atomic.AtomicBoolean;
import java.util.concurrent.atomic.AtomicInteger; import java.util.concurrent.atomic.AtomicInteger;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午1:13 * Time: 下午1:13
*/ */
......
...@@ -10,7 +10,7 @@ import java.util.concurrent.BlockingQueue; ...@@ -10,7 +10,7 @@ import java.util.concurrent.BlockingQueue;
import java.util.concurrent.LinkedBlockingQueue; import java.util.concurrent.LinkedBlockingQueue;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午1:13 * Time: 下午1:13
*/ */
......
...@@ -4,7 +4,7 @@ import us.codecraft.webmagic.Request; ...@@ -4,7 +4,7 @@ import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task; import us.codecraft.webmagic.Task;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午1:12 * Time: 下午1:12
*/ */
......
...@@ -4,7 +4,7 @@ import java.util.ArrayList; ...@@ -4,7 +4,7 @@ import java.util.ArrayList;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 上午7:54 * Time: 上午7:54
*/ */
......
...@@ -6,7 +6,7 @@ import java.util.ArrayList; ...@@ -6,7 +6,7 @@ import java.util.ArrayList;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 上午7:54 * Time: 上午7:54
*/ */
......
package us.codecraft.webmagic.selector; package us.codecraft.webmagic.selector;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 上午7:39 * Time: 上午7:39
*/ */
......
...@@ -9,7 +9,7 @@ import java.util.regex.Pattern; ...@@ -9,7 +9,7 @@ import java.util.regex.Pattern;
import java.util.regex.PatternSyntaxException; import java.util.regex.PatternSyntaxException;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 上午7:09 * Time: 上午7:09
*/ */
......
...@@ -6,7 +6,7 @@ import java.util.regex.Pattern; ...@@ -6,7 +6,7 @@ import java.util.regex.Pattern;
import java.util.regex.PatternSyntaxException; import java.util.regex.PatternSyntaxException;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 上午7:09 * Time: 上午7:09
*/ */
......
...@@ -3,7 +3,7 @@ package us.codecraft.webmagic.selector; ...@@ -3,7 +3,7 @@ package us.codecraft.webmagic.selector;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-20 * Date: 13-4-20
* Time: 下午7:51 * Time: 下午7:51
*/ */
......
...@@ -3,7 +3,7 @@ package us.codecraft.webmagic.selector; ...@@ -3,7 +3,7 @@ package us.codecraft.webmagic.selector;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-20 * Date: 13-4-20
* Time: 下午8:02 * Time: 下午8:02
*/ */
......
...@@ -7,7 +7,7 @@ import java.util.Map; ...@@ -7,7 +7,7 @@ import java.util.Map;
import java.util.concurrent.ConcurrentHashMap; import java.util.concurrent.ConcurrentHashMap;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 上午7:56 * Time: 上午7:56
*/ */
......
...@@ -10,7 +10,7 @@ import java.util.concurrent.atomic.AtomicInteger; ...@@ -10,7 +10,7 @@ import java.util.concurrent.atomic.AtomicInteger;
/** /**
* readability算法,基础是找到所有p标签的父节点 * readability算法,基础是找到所有p标签的父节点
* 写的比较乱,最终效果还在尝试中 * 写的比较乱,最终效果还在尝试中
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午4:42 * Time: 下午4:42
*/ */
......
...@@ -6,7 +6,7 @@ import java.util.ArrayList; ...@@ -6,7 +6,7 @@ import java.util.ArrayList;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 上午9:39 * Time: 上午9:39
*/ */
......
...@@ -6,7 +6,7 @@ import java.util.regex.Matcher; ...@@ -6,7 +6,7 @@ import java.util.regex.Matcher;
import java.util.regex.Pattern; import java.util.regex.Pattern;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午1:52 * Time: 下午1:52
*/ */
......
...@@ -5,7 +5,7 @@ import org.junit.Test; ...@@ -5,7 +5,7 @@ import org.junit.Test;
import us.codecraft.webmagic.selector.Html; import us.codecraft.webmagic.selector.Html;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 上午8:42 * Time: 上午8:42
*/ */
......
...@@ -4,7 +4,7 @@ import junit.framework.Assert; ...@@ -4,7 +4,7 @@ import junit.framework.Assert;
import org.junit.Test; import org.junit.Test;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 上午7:13 * Time: 上午7:13
*/ */
......
...@@ -4,7 +4,7 @@ import org.junit.Assert; ...@@ -4,7 +4,7 @@ import org.junit.Assert;
import org.junit.Test; import org.junit.Test;
/** /**
* Author: code4crafter@gmail.com Date: 13-4-21 Time: 上午10:06 * @author code4crafter@gmail.com <br> Date: 13-4-21 Time: 上午10:06
*/ */
public class XpathSelectorTest { public class XpathSelectorTest {
......
...@@ -4,7 +4,7 @@ import org.junit.Assert; ...@@ -4,7 +4,7 @@ import org.junit.Assert;
import org.junit.Test; import org.junit.Test;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午2:22 * Time: 下午2:22
*/ */
......
...@@ -13,7 +13,7 @@ import java.io.IOException; ...@@ -13,7 +13,7 @@ import java.io.IOException;
import java.io.PrintWriter; import java.io.PrintWriter;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-6-8 * Date: 13-6-8
* Time: 下午9:00 * Time: 下午9:00
*/ */
......
...@@ -6,7 +6,7 @@ import us.codecraft.webmagic.pipeline.FreemarkerPipeline; ...@@ -6,7 +6,7 @@ import us.codecraft.webmagic.pipeline.FreemarkerPipeline;
import java.io.IOException; import java.io.IOException;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-6-9 * Date: 13-6-9
* Time: 上午7:14 * Time: 上午7:14
*/ */
......
...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor; ...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午8:08 * Time: 下午8:08
*/ */
......
...@@ -8,7 +8,7 @@ import us.codecraft.webmagic.processor.PageProcessor; ...@@ -8,7 +8,7 @@ import us.codecraft.webmagic.processor.PageProcessor;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午8:08 * Time: 下午8:08
*/ */
......
...@@ -8,7 +8,7 @@ import us.codecraft.webmagic.selector.PlainText; ...@@ -8,7 +8,7 @@ import us.codecraft.webmagic.selector.PlainText;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午8:08 * Time: 下午8:08
*/ */
......
...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor; ...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午1:48 * Time: 下午1:48
*/ */
......
...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor; ...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午8:08 * Time: 下午8:08
*/ */
......
...@@ -5,7 +5,7 @@ import us.codecraft.webmagic.Site; ...@@ -5,7 +5,7 @@ import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor; import us.codecraft.webmagic.processor.PageProcessor;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-5-20 * Date: 13-5-20
* Time: 下午5:31 * Time: 下午5:31
*/ */
......
...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor; ...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-5-20 * Date: 13-5-20
* Time: 下午5:31 * Time: 下午5:31
*/ */
......
...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor; ...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午8:08 * Time: 下午8:08
*/ */
......
...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor; ...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午1:48 * Time: 下午1:48
*/ */
......
...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor; ...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午1:48 * Time: 下午1:48
*/ */
......
...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor; ...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午8:08 * Time: 下午8:08
*/ */
......
...@@ -5,7 +5,7 @@ import us.codecraft.webmagic.Page; ...@@ -5,7 +5,7 @@ import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.processor.PageProcessor; import us.codecraft.webmagic.processor.PageProcessor;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午1:48 * Time: 下午1:48
*/ */
......
...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor; ...@@ -7,7 +7,7 @@ import us.codecraft.webmagic.processor.PageProcessor;
import java.util.List; import java.util.List;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-21 * Date: 13-4-21
* Time: 下午1:48 * Time: 下午1:48
*/ */
......
...@@ -8,7 +8,7 @@ import us.codecraft.webmagic.samples.HuxiuProcessor; ...@@ -8,7 +8,7 @@ import us.codecraft.webmagic.samples.HuxiuProcessor;
import us.codecraft.webmagic.schedular.FileCacheQueueSchedular; import us.codecraft.webmagic.schedular.FileCacheQueueSchedular;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-4-20 * Date: 13-4-20
* Time: 下午7:46 * Time: 下午7:46
*/ */
......
...@@ -11,7 +11,7 @@ import us.codecraft.webmagic.schedular.FileCacheQueueSchedular; ...@@ -11,7 +11,7 @@ import us.codecraft.webmagic.schedular.FileCacheQueueSchedular;
import java.io.IOException; import java.io.IOException;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-6-9 * Date: 13-6-9
* Time: 上午8:02 * Time: 上午8:02
*/ */
......
...@@ -11,7 +11,7 @@ import us.codecraft.webmagic.schedular.FileCacheQueueSchedular; ...@@ -11,7 +11,7 @@ import us.codecraft.webmagic.schedular.FileCacheQueueSchedular;
import java.io.IOException; import java.io.IOException;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-6-9 * Date: 13-6-9
* Time: 上午8:02 * Time: 上午8:02
*/ */
......
...@@ -11,7 +11,7 @@ import us.codecraft.webmagic.schedular.FileCacheQueueSchedular; ...@@ -11,7 +11,7 @@ import us.codecraft.webmagic.schedular.FileCacheQueueSchedular;
import java.io.IOException; import java.io.IOException;
/** /**
* Author: code4crafter@gmail.com * @author code4crafter@gmail.com <br>
* Date: 13-6-9 * Date: 13-6-9
* Time: 上午8:02 * Time: 上午8:02
*/ */
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment