Commit 7c43b514 authored by yihua.huang's avatar yihua.huang

scripts readme

parent 633e0fe8
WebMagic-Avalon项目手册 WebMagic-Avalon项目计划
======= =======
WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫,以及一个可分享配置/脚本的平台,从而减少熟悉的开发者的开发量,并且让**不熟悉Java技术的人**也能简单的使用一个爬虫。 WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫,以及一个可分享配置/脚本的平台,从而减少熟悉的开发者的开发量,并且让**不熟悉Java技术的人**也能简单的使用一个爬虫。
...@@ -21,4 +21,10 @@ WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫, ...@@ -21,4 +21,10 @@ WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫,
## 如何参与 ## 如何参与
webmagic目前 webmagic目前由作者业余维护,仅仅为了分享和个人提高,没有任何盈利,也没有商业化打算。
\ No newline at end of file
欢迎以下几种形式的贡献:
1. 为webmagic项目本身提出改进意见,可以通过邮件组、qq、oschina或者在github提交issue(推荐)的方式。
2. 参与WebMagic-Avalon计划的建设讨论,包括产品设计、技术选型等,可以直接回复这个issue。
3. 参与webmagic代码开发,请fork一份代码,修改后提交pull request给我。请使用尽量新的版本,并说明修改内容。pull request接受后,我会将你加为committer,共同参与开发。
\ No newline at end of file
webmagic-scripts webmagic-scripts
====== ======
## 目标: ## 目标:
使得可以用简单脚本的方式编写爬虫,从而为一些常用场景提供可流通的脚本。 使得可以用简单脚本的方式编写爬虫,从而为一些常用场景提供可流通的脚本。如果已经有人写好了脚本,那么你直接使用就可以了!
## 实例: ## 实例:
例如:我需要抓github的仓库数据,可以这样写一个脚本(javascript): 例如:我需要抓github的仓库数据,可以这样写一个脚本(javascript):
...@@ -23,9 +23,17 @@ urls("(https://github\\.com/\\w+/\\w+)") ...@@ -23,9 +23,17 @@ urls("(https://github\\.com/\\w+/\\w+)")
urls("(https://github\\.com/\\w+)") urls("(https://github\\.com/\\w+)")
``` ```
然后使用webmagic加载并启动它,无需下载依赖、编写代码、执行的过程。 然后使用webmagic加载并启动它,无需下载依赖、编写代码、执行的过程。目前已经有控制台版本,请下载[http://code4craft.qiniudn.com/webmagic-console.tar.gz](http://code4craft.qiniudn.com/webmagic-console.tar.gz)
如果已经有人写好了脚本,那么你直接使用就可以了! 解压后,使用以下命令执行:
java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f 脚本文件名 [-l 语言,默认是javascript] [-t 线程数] [-s 抓取间隔,毫秒] url1 url2 …
例如,对于github这个脚本,我可以这样执行:
java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f github.js -t 2 -s 0 https://github.com/code4craft
目前这部分使用Java的ScriptEngine机制完成。
## 语言: ## 语言:
...@@ -44,4 +52,8 @@ urls "(https://github\\.com/\\w+/\\w+)" ...@@ -44,4 +52,8 @@ urls "(https://github\\.com/\\w+/\\w+)"
urls "(https://github\\.com/\\w+)" urls "(https://github\\.com/\\w+)"
``` ```
多语言通过参数-l区分,例如执行这个ruby脚本需要:
java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f github.rb -t2 -s0 -l ruby https://github.com/code4craft
这个功能目前仍在实验阶段。欢迎大家积极参与并提出意见。 这个功能目前仍在实验阶段。欢迎大家积极参与并提出意见。
\ No newline at end of file
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment