Claude Cowork 数据采集助手
使用 Claude Cowork 从网页、文档和数据文件中提取信息。这是 Anthropic cowork 在数据处理领域的重要应用。
场景说明
虽然 Claude Cowork 不能直接浏览网页(不是浏览器工具),但它可以:
- 处理已下载的网页 HTML 文件
- 从 PDF、Word、Excel 等文档提取结构化数据
- 批量处理多个数据源
- 转换和清洗数据格式
HTML 文件数据提取
如果你已经保存了网页为 HTML 文件,Claude Cowork 可以提取其中的数据:
提示词示例:提取产品信息
我保存了 20 个电商产品页面的 HTML 文件在"产品页面"文件夹。
请从每个 HTML 文件中提取以下信息:
- 产品名称(通常在 <h1> 标签或 class="product-title")
- 价格(查找包含"¥"或"价格"的文本)
- 产品描述(第一段产品介绍文字,最多 200 字)
- 库存状态(查找"有货"、"缺货"等关键词)
- 原文件名(用于追溯)
生成一个 Excel 文件"产品信息汇总.xlsx",包含上述所有字段。
如果某个字段在 HTML 中找不到,填写"未找到"。提示词示例:批量提取链接
"网页归档"文件夹中有 50 个保存的 HTML 网页。
任务:
1. 扫描所有 HTML 文件
2. 提取所有外部链接(<a href="http...">)
3. 去重,只保留唯一链接
4. 生成一个文本文件"提取的链接.txt",每行一个链接
5. 同时生成一个分类版本"链接分类.md":
- 按域名分组
- 统计每个域名的链接数量
- Markdown 格式,方便阅读PDF 数据提取
Claude Cowork 擅长从 PDF 中提取结构化信息:
提示词示例:发票批量处理
"2026发票"文件夹包含 100+ 个 PDF 发票。
提取信息:
- 发票号码(通常是 INV- 或票号:开头)
- 开票日期(转换为 YYYY-MM-DD 格式)
- 供应商名称
- 购买方名称
- 税前金额
- 税额
- 总金额(验证:税前金额 + 税额 = 总金额)
- 发票类型(增值税专用发票/普通发票)
特殊处理:
1. 如果总金额验证失败,在"备注"列标注"金额异常"
2. 如果缺少必要字段,在"状态"列标注"信息不完整"
3. 按金额降序排序
输出:
- "发票汇总_[日期].xlsx" - 包含所有字段的完整表格
- "异常发票.txt" - 列出所有有问题的发票文件名
处理完成后,告诉我成功处理了多少发票,有多少异常。提示词示例:合同关键信息提取
从"合同文件"文件夹的 PDF 合同中提取关键条款:
提取内容:
1. 合同编号
2. 甲方和乙方名称
3. 合同金额(提取所有金额数字,标注币种)
4. 签订日期
5. 有效期(开始日期和结束日期)
6. 付款条款(查找包含"付款"、"结算"的段落,提取原文)
7. 违约条款(查找包含"违约"、"责任"的段落,提取原文)
输出格式:
- 为每个合同生成一个 Markdown 文件:"合同摘要_[合同编号].md"
- 生成一个总表 Excel:"合同总览.xlsx",包含除条款原文外的所有字段
注意:
- 条款原文保持完整,不要总结
- 如果找到多个金额,全部列出并标注上下文(如"合同总额"、"首付款")Excel/CSV 数据处理
提示词示例:数据清洗和格式化
"原始数据"文件夹有 5 个客户数据 Excel 文件。
数据清洗任务:
**步骤 1:合并数据**
- 将 5 个文件合并为一个
- 添加"来源文件"列标注数据来自哪个文件
**步骤 2:数据清洗**
- 删除完全重复的行
- 手机号码统一格式:去掉空格、短横线,保留 11 位数字
- 邮箱地址转换为小写
- 日期统一为 YYYY-MM-DD 格式
- 删除所有列的前后空格
**步骤 3:数据验证**
- 检查手机号是否为 11 位数字,不符合的标注在"数据质量"列
- 检查邮箱是否包含 @,不符合的标注
- 检查必填字段(姓名、手机号)是否为空
**步骤 4:数据分类**
- 添加"地区"列,根据手机号前3位判断(如 130-139 为某个地区)
- 添加"客户等级"列,根据购买金额:
* >10000 -> VIP
* 5000-10000 -> 高级
* 1000-5000 -> 普通
* <1000 -> 新客户
**输出**:
- "客户数据_清洗版_[日期].xlsx" - 清洗后的完整数据
- "数据质量报告.txt" - 统计重复数据、无效数据的数量
请先告诉我总共有多少条数据,预计有多少重复,再执行清洗。提示词示例:数据分析和报告
分析"销售数据2026.xlsx"文件:
生成分析报告"销售分析_2026Q1.md",包含:
## 基础统计
- 总订单数
- 总销售额
- 平均订单金额
- 最大和最小订单金额
## 时间分析
- 按月统计销售额(生成表格)
- 找出销售额最高的 3 天
## 产品分析
- 销量 Top 10 产品(产品名、销量、销售额)
- 销售额 Top 10 产品
- 识别滞销产品(销量 < 5 的产品)
## 客户分析
- 复购客户数量(购买次数 > 1)
- 客户购买次数分布(1次、2-5次、6-10次、10次以上)
- VIP 客户贡献的销售额占比(定义:购买金额 > 5000)
## 数据可视化准备
生成一个"图表数据.csv",包含按月的销售额,方便导入其他工具绘图。
请使用 Markdown 表格和清晰的格式,让报告易读。批量文档处理
提示词示例:会议纪要汇总
"会议纪要"文件夹有 20 个 Word 文档(本月所有会议记录)。
任务:
1. 从每个文档中提取:
- 会议日期(通常在开头)
- 参会人员(查找"参会"、"出席"等关键词)
- 待办事项(查找编号列表、checkbox、"TODO"、"待办"等)
- 决议事项(查找"决定"、"同意"等关键词后的内容)
2. 生成综合报告"月度会议汇总.md":
```markdown
# 2026年1月会议汇总
## 会议列表
| 日期 | 会议主题 | 参会人数 |
|------|---------|---------|
| ... | ... | ... |
## 所有待办事项
- [ ] [任务1](来源:[会议名],负责人:[姓名])
- [ ] [任务2]
...
## 重要决议
1. [决议1]([日期] [会议名])
2. [决议2]
...
## 关键跟进事项
[列出多次会议中提到的重复事项]输出第二个文件"待办清单.txt",只包含待办事项,方便复制到任务管理工具。
## 多格式数据整合
### 提示词示例:跨格式客户视图整合客户 360 度视图数据:
数据源:
- "客户基本信息.xlsx" - 包含姓名、联系方式、注册日期
- "订单记录.csv" - 包含客户邮箱、订单金额、订单日期
- "客服记录"文件夹 - 多个 .txt 文件,文件名是客户邮箱
任务:
以邮箱为主键关联三个数据源
生成"客户360视图.xlsx",包含:
- 客户编号(自动生成,格式 C0001)
- 基本信息(姓名、手机、邮箱、注册日期)
- 购买统计(总订单数、总金额、最近购买日期、平均客单价)
- 客服记录(有/无,如果有则统计记录条数)
- 客户价值评分(根据购买金额和频率计算,1-5 分)
- 客户状态(活跃/沉睡/流失)
- 活跃:30天内有购买
- 沉睡:30-90天未购买
- 流失:90天以上未购买
生成"高价值客户清单.csv"
- 筛选条件:评分 >= 4 或 总金额 > 10000
- 只包含姓名、手机、邮箱、总金额
请先告诉我三个数据源各有多少条数据,能成功关联多少客户。
## 使用技巧
### ✅ 提高准确性
1. **提供字段位置线索**:告诉 Claude Cowork 数据通常在哪里发票号通常在 PDF 右上角,格式为"发票号:INV-2026XXXX"
2. **给出示例格式**:展示期望的输出格式日期转换示例: "2026年1月13日" -> "2026-01-13" "01/13/2026" -> "2026-01-13"
3. **处理异常情况**:说明如何处理缺失或异常数据如果价格字段为空或无法识别,填写"0"并在备注列标注"价格缺失"
### ✅ 优化性能
1. **分批处理大量文件**先处理"发票/2026-01"文件夹的 30 个文件, 成功后我会让你继续处理其他月份。
2. **设置验证点**每处理 50 个文件,生成一个临时报告让我检查准确性。
### ✅ 数据安全
- ⚠️ 处理敏感数据前,确保 Claude Cowork 只访问必要的文件夹
- ⚠️ 不要在提示词中包含真实的敏感信息(密码、身份证号等)
- ⚠️ 处理完成后,审查输出文件,确保没有意外泄露
## 实际案例
### 案例:电商运营的数据整合
**需求**:
- 从 50 个 HTML 产品页面提取竞品价格
- 与自己的产品库 Excel 对比
- 生成价格竞争力分析报告
**使用提示词**:步骤 1:从"竞品页面"文件夹的 HTML 文件提取:
- 产品名称
- 当前价格
- 原价(如果有促销)
- 库存状态
生成"竞品价格_[日期].xlsx"
步骤 2:读取"我们的产品.xlsx",与竞品数据对比(按产品名称模糊匹配)
步骤 3:生成分析报告"价格竞争力分析.md":
价格对比
| 产品 | 我们的价格 | 竞品均价 | 价格优势 |
|---|
建议
- 列出我们价格明显高于竞品的产品(> 20%)
- 列出我们有价格优势的产品(< -10%)
**结果**:
- ✅ 自动化了原本需要 4+ 小时的手动数据整理
- ✅ 生成直观的对比报告
- ✅ 每周更新,持续跟踪市场价格
## 相关资源
- [返回首页](/)
- [Claude Cowork 详细介绍](/guide/intro)
- [Claude Cowork 最佳实践](/guide/best-practices)
- [桌面清理助手](/prompts/desktop-cleaner)
---
**注意**:Claude Cowork 处理的是**本地文件**,不能直接访问网络。要处理网页数据,请先将页面保存为 HTML 文件,或使用浏览器导出数据为 CSV/Excel 等格式。