如何在神箭手上采集数据?

在神箭手上采集数据只需三个步骤: 登录神箭手 ——> 购买爬虫 ——> 采集并管理数据

步骤一. 登录神箭手

1. 在任意浏览器中打开神箭手官网


2. 注册神箭手会员


3. 登录神箭手账户, 使用QQ账号GitHub账号可快速登录


4. 登录后, 进入神箭手用户控制台


步骤二. 购买爬虫

1. 在神箭手用户控制台, 点击"添加爬虫"按钮


2. 点击"去云市场找找"按钮


3.神箭手云市场购买爬虫(以百度百家文章采集(按分类)爬虫为例)


步骤三. 采集并管理数据

包含两个部分: 采集数据, 管理数据

第一部分. 采集数据

1. 在用户控制台, 点击已购买爬虫(百度百家文章采集(按分类)爬虫)的"管理"按钮, 管理该爬虫


2. 进入爬虫总览界面, 启动爬虫


3-1. 首次启动爬虫时, 请选择"开启爬虫". 若需配置爬虫请先选择"爬虫设置", 设置完成后再启动爬虫

注意: 如果需要监控爬虫, 详细教程请参考《爬虫监控服务》


3-2. 非首次启动爬虫时, 可选择"重新开始"爬虫(此操作会重置爬虫状态, 清空爬虫采集数据和运行日志), 也可选择"继续运行"爬虫(此操作会延续上次爬虫停止时的所有状态, 继续采集数据)

注意:

1). 修改并保存爬虫设置后, 需要"重新开始爬虫"或者"停止爬虫继续运行", 爬虫设置才会生效

2). 更新爬虫后, 需要"重新开始爬虫"或者"停止爬虫继续运行", 才可使用最新的爬虫

3). 如果需要监控爬虫, 详细教程请参考《爬虫监控服务》


4. 爬虫运行中, 并且已采集到数据


5. 进入"爬取结果"界面, 查看爬取结果


6. 点击任意一条数据, "预览"爬取结果


第二部分. 管理数据

下面介绍四种服务: 数据导出, 数据发布, 数据分析, 图片云托管


  • 数据导出

支持将采集的数据以"Excel/XLSX", "Excel/CSV""Mysql/SQL"三种文件格式导出

"数据导出"详细教程请参考《数据导出》


  • 数据发布

支持将采集的数据发布到用户的"数据库""网站"

"数据发布"详细教程请参考《数据发布》


  • 数据分析

将采集的数据生成图表, 以进一步分析数据


  • 图片云托管

将采集的数据中所有图片托管到云服务器, 该服务可避免因防盗链原因无法显示图片

"图片云托管"详细教程请参考《图片云托管》