跳到主要内容

事件

爬虫采用输出事件的方式将爬取结果告知下游。目前支持写文件和写 Kafka 两种事件输出能力,可通过提交任务时指定 OutputConfig 配置。

警告

请勿依赖事件的先后顺序编写程序相关逻辑。所有事件均采用异步发送,受限于网络原因,无法保证任何顺序。

信息

当调试模式开启时,所有事件会存储一份副本到 /data/benjamin/{taskID}/out.jsonl 文件中。

发布事件格式

单条 Event 采用 JSON 格式

{
"event": "TargetEnd",
"data": {
...
}
}
类型描述
eventstring事件类型,为 Proto Package tophant.benjamin.event 中的消息名
dataobject事件的数据,为对应的消息体(亦为 JSON Object)
信息

Protobuf 消息转 JSON 遵从 protobuf JSON Mapping 规范

全部事件(概览)

目前支持如下事件