Skip to content
Projects
Groups
Snippets
Help
Loading...
Help
Submit feedback
Contribute to GitLab
Sign in
Toggle navigation
W
webmagic
Project
Project
Details
Activity
Releases
Cycle Analytics
Repository
Repository
Files
Commits
Branches
Tags
Contributors
Graph
Compare
Charts
Issues
0
Issues
0
List
Board
Labels
Milestones
Merge Requests
0
Merge Requests
0
CI / CD
CI / CD
Pipelines
Jobs
Schedules
Charts
Wiki
Wiki
Snippets
Snippets
Members
Members
Collapse sidebar
Close sidebar
Activity
Graph
Charts
Create a new issue
Jobs
Commits
Issue Boards
Open sidebar
沈俊林
webmagic
Commits
7c43b514
Commit
7c43b514
authored
Nov 28, 2013
by
yihua.huang
Browse files
Options
Browse Files
Download
Email Patches
Plain Diff
scripts readme
parent
633e0fe8
Changes
2
Hide whitespace changes
Inline
Side-by-side
Showing
2 changed files
with
23 additions
and
5 deletions
+23
-5
webmagic-avalon.md
webmagic-avalon.md
+8
-2
README.md
webmagic-scripts/README.md
+15
-3
No files found.
webmagic-avalon.md
View file @
7c43b514
WebMagic-Avalon项目
手册
WebMagic-Avalon项目
计划
=======
=======
WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫,以及一个可分享配置/脚本的平台,从而减少熟悉的开发者的开发量,并且让
**不熟悉Java技术的人**
也能简单的使用一个爬虫。
WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫,以及一个可分享配置/脚本的平台,从而减少熟悉的开发者的开发量,并且让
**不熟悉Java技术的人**
也能简单的使用一个爬虫。
...
@@ -21,4 +21,10 @@ WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫,
...
@@ -21,4 +21,10 @@ WebMagic-Avalon项目的目标是打造一个可配置、可管理的爬虫,
## 如何参与
## 如何参与
webmagic目前
webmagic目前由作者业余维护,仅仅为了分享和个人提高,没有任何盈利,也没有商业化打算。
\ No newline at end of file
欢迎以下几种形式的贡献:
1.
为webmagic项目本身提出改进意见,可以通过邮件组、qq、oschina或者在github提交issue(推荐)的方式。
2.
参与WebMagic-Avalon计划的建设讨论,包括产品设计、技术选型等,可以直接回复这个issue。
3.
参与webmagic代码开发,请fork一份代码,修改后提交pull request给我。请使用尽量新的版本,并说明修改内容。pull request接受后,我会将你加为committer,共同参与开发。
\ No newline at end of file
webmagic-scripts/README.md
View file @
7c43b514
webmagic-scripts
webmagic-scripts
======
======
## 目标:
## 目标:
使得可以用简单脚本的方式编写爬虫,从而为一些常用场景提供可流通的脚本。
使得可以用简单脚本的方式编写爬虫,从而为一些常用场景提供可流通的脚本。
如果已经有人写好了脚本,那么你直接使用就可以了!
## 实例:
## 实例:
例如:我需要抓github的仓库数据,可以这样写一个脚本(javascript):
例如:我需要抓github的仓库数据,可以这样写一个脚本(javascript):
...
@@ -23,9 +23,17 @@ urls("(https://github\\.com/\\w+/\\w+)")
...
@@ -23,9 +23,17 @@ urls("(https://github\\.com/\\w+/\\w+)")
urls
(
"(https://github
\\
.com/
\\
w+)"
)
urls
(
"(https://github
\\
.com/
\\
w+)"
)
```
```
然后使用webmagic加载并启动它,无需下载依赖、编写代码、执行的过程。
然后使用webmagic加载并启动它,无需下载依赖、编写代码、执行的过程。
目前已经有控制台版本,请下载
[
http://code4craft.qiniudn.com/webmagic-console.tar.gz
](
http://code4craft.qiniudn.com/webmagic-console.tar.gz
)
。
如果已经有人写好了脚本,那么你直接使用就可以了!
解压后,使用以下命令执行:
java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f 脚本文件名
[
-l 语言,默认是javascript
]
[
-t 线程数
]
[
-s 抓取间隔,毫秒
]
url1 url2 …
例如,对于github这个脚本,我可以这样执行:
java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f github.js -t 2 -s 0 https://github.com/code4craft
目前这部分使用Java的ScriptEngine机制完成。
## 语言:
## 语言:
...
@@ -44,4 +52,8 @@ urls "(https://github\\.com/\\w+/\\w+)"
...
@@ -44,4 +52,8 @@ urls "(https://github\\.com/\\w+/\\w+)"
urls
"(https://github
\\
.com/
\\
w+)"
urls
"(https://github
\\
.com/
\\
w+)"
```
```
多语言通过参数-l区分,例如执行这个ruby脚本需要:
java -jar -Dfile.encoding='utf-8' webmagic-console.jar -f github.rb -t2 -s0 -l ruby https://github.com/code4craft
这个功能目前仍在实验阶段。欢迎大家积极参与并提出意见。
这个功能目前仍在实验阶段。欢迎大家积极参与并提出意见。
\ No newline at end of file
Write
Preview
Markdown
is supported
0%
Try again
or
attach a new file
Attach a file
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Cancel
Please
register
or
sign in
to comment