2.6 KiB
2.6 KiB
name, description
| name | description |
|---|---|
| published-archive | 发布后归档与首日数据采集。当用户说"已发布 文件名 链接=URL"时触发。将草稿归档到 published/ 并回采首日数据。 |
Published Archive · 发布后归档与数据采集
触发条件
- 手动触发:Tyrone 在 Control UI 发送"已发布 文件名 链接=URL"
- 格式示例:
已发布 2026-05-08_公众号_智能工厂四级补贴.md 链接=https://mp.weixin.qq.com/s/xxx
输入
| 参数 | 来源 | 说明 |
|---|---|---|
源文件 |
从消息中解析 | drafts/ 下的平台稿文件 |
URL |
链接= 参数 |
实际发布后的页面 URL |
发布时间 |
消息中解析或 now |
ISO8601 格式 |
流程
Step 1 · 解析消息
从消息文本提取:
- 源文件路径(
drafts/YYYY-MM-DD_<platform>_<主题>.md) - 平台名(从文件名解析)
- URL
- 发布时间(未指定则取 now)
Step 2 · 归档源文件
用 filesystem MCP 或 shell 将文件移动至:
published/YYYY/MM/<原文件名>
其中 YYYY/MM 取自实际发布时间。
Step 3 · 追加 YAML 元数据
在文件头部追加(--- 分隔线以内):
---
platform: <平台>
url: <URL>
published_at: <ISO8601>
---
Step 4 · 访问 URL 采集首日数据
browser action=open profile=browserless url=<URL>
browser action=snapshot
从页面提取首日数据(如平台支持公开访问):
| 数据字段 | 说明 |
|---|---|
reads / views |
阅读数或播放数 |
likes |
点赞数 |
favorites / saves |
收藏数 |
comments |
评论数 |
shares |
分享数 |
注意:多数平台需登录后才能看到完整数据。未登录可抓取时标记
[待人工补录]。
Step 5 · 追加数据到文件尾部
## Day-1 Snapshot (<时间>)
- reads: N # [待人工补录] 如抓取失败
- likes: N
- comments: N
Step 6 · 更新中央索引
追加一行到 reports/published-log.md:
| YYYY-MM-DD | <平台> | <标题> | <URL> | <published_at> |
若 reports/published-log.md 不存在则创建。
输出
微信推送(openclaw-weixin):
✅ 已归档:<平台> · <标题>
📁 published/YYYY/MM/<文件名>
📊 首日数据:阅读 N / 点赞 N / 收藏 N / 评论 N
[数据来源:<URL>]
合规约束
- ✅ 仅移动文件 + 写入数据,不删除任何内容
- ✅ 数据抓取失败时标
[待人工补录],不阻塞归档 - 🚫 严禁公开任何账号 cookie / token 内容
- 🚫 不访问非 Tyrone 提供的 URL
参考文件
SOUL.md §4— 数据采集规范USER.md §6— KPI 节奏