Skip to content

Claude Cowork 数据采集助手

使用 Claude Cowork 从网页、文档和数据文件中提取信息。这是 Anthropic cowork 在数据处理领域的重要应用。

场景说明

虽然 Claude Cowork 不能直接浏览网页(不是浏览器工具),但它可以:

  • 处理已下载的网页 HTML 文件
  • 从 PDF、Word、Excel 等文档提取结构化数据
  • 批量处理多个数据源
  • 转换和清洗数据格式

HTML 文件数据提取

如果你已经保存了网页为 HTML 文件,Claude Cowork 可以提取其中的数据:

提示词示例:提取产品信息

我保存了 20 个电商产品页面的 HTML 文件在"产品页面"文件夹。

请从每个 HTML 文件中提取以下信息:
- 产品名称(通常在 <h1> 标签或 class="product-title")
- 价格(查找包含"¥"或"价格"的文本)
- 产品描述(第一段产品介绍文字,最多 200 字)
- 库存状态(查找"有货"、"缺货"等关键词)
- 原文件名(用于追溯)

生成一个 Excel 文件"产品信息汇总.xlsx",包含上述所有字段。

如果某个字段在 HTML 中找不到,填写"未找到"。

提示词示例:批量提取链接

"网页归档"文件夹中有 50 个保存的 HTML 网页。

任务:
1. 扫描所有 HTML 文件
2. 提取所有外部链接(<a href="http...">)
3. 去重,只保留唯一链接
4. 生成一个文本文件"提取的链接.txt",每行一个链接
5. 同时生成一个分类版本"链接分类.md":
   - 按域名分组
   - 统计每个域名的链接数量
   - Markdown 格式,方便阅读

PDF 数据提取

Claude Cowork 擅长从 PDF 中提取结构化信息:

提示词示例:发票批量处理

"2026发票"文件夹包含 100+ 个 PDF 发票。

提取信息:
- 发票号码(通常是 INV- 或票号:开头)
- 开票日期(转换为 YYYY-MM-DD 格式)
- 供应商名称
- 购买方名称
- 税前金额
- 税额
- 总金额(验证:税前金额 + 税额 = 总金额)
- 发票类型(增值税专用发票/普通发票)

特殊处理:
1. 如果总金额验证失败,在"备注"列标注"金额异常"
2. 如果缺少必要字段,在"状态"列标注"信息不完整"
3. 按金额降序排序

输出:
- "发票汇总_[日期].xlsx" - 包含所有字段的完整表格
- "异常发票.txt" - 列出所有有问题的发票文件名

处理完成后,告诉我成功处理了多少发票,有多少异常。

提示词示例:合同关键信息提取

从"合同文件"文件夹的 PDF 合同中提取关键条款:

提取内容:
1. 合同编号
2. 甲方和乙方名称
3. 合同金额(提取所有金额数字,标注币种)
4. 签订日期
5. 有效期(开始日期和结束日期)
6. 付款条款(查找包含"付款"、"结算"的段落,提取原文)
7. 违约条款(查找包含"违约"、"责任"的段落,提取原文)

输出格式:
- 为每个合同生成一个 Markdown 文件:"合同摘要_[合同编号].md"
- 生成一个总表 Excel:"合同总览.xlsx",包含除条款原文外的所有字段

注意:
- 条款原文保持完整,不要总结
- 如果找到多个金额,全部列出并标注上下文(如"合同总额"、"首付款")

Excel/CSV 数据处理

提示词示例:数据清洗和格式化

"原始数据"文件夹有 5 个客户数据 Excel 文件。

数据清洗任务:

**步骤 1:合并数据**
- 将 5 个文件合并为一个
- 添加"来源文件"列标注数据来自哪个文件

**步骤 2:数据清洗**
- 删除完全重复的行
- 手机号码统一格式:去掉空格、短横线,保留 11 位数字
- 邮箱地址转换为小写
- 日期统一为 YYYY-MM-DD 格式
- 删除所有列的前后空格

**步骤 3:数据验证**
- 检查手机号是否为 11 位数字,不符合的标注在"数据质量"列
- 检查邮箱是否包含 @,不符合的标注
- 检查必填字段(姓名、手机号)是否为空

**步骤 4:数据分类**
- 添加"地区"列,根据手机号前3位判断(如 130-139 为某个地区)
- 添加"客户等级"列,根据购买金额:
  * >10000 -> VIP
  * 5000-10000 -> 高级
  * 1000-5000 -> 普通
  * <1000 -> 新客户

**输出**:
- "客户数据_清洗版_[日期].xlsx" - 清洗后的完整数据
- "数据质量报告.txt" - 统计重复数据、无效数据的数量

请先告诉我总共有多少条数据,预计有多少重复,再执行清洗。

提示词示例:数据分析和报告

分析"销售数据2026.xlsx"文件:

生成分析报告"销售分析_2026Q1.md",包含:

## 基础统计
- 总订单数
- 总销售额
- 平均订单金额
- 最大和最小订单金额

## 时间分析
- 按月统计销售额(生成表格)
- 找出销售额最高的 3 天

## 产品分析
- 销量 Top 10 产品(产品名、销量、销售额)
- 销售额 Top 10 产品
- 识别滞销产品(销量 < 5 的产品)

## 客户分析
- 复购客户数量(购买次数 > 1)
- 客户购买次数分布(1次、2-5次、6-10次、10次以上)
- VIP 客户贡献的销售额占比(定义:购买金额 > 5000)

## 数据可视化准备
生成一个"图表数据.csv",包含按月的销售额,方便导入其他工具绘图。

请使用 Markdown 表格和清晰的格式,让报告易读。

批量文档处理

提示词示例:会议纪要汇总

"会议纪要"文件夹有 20 个 Word 文档(本月所有会议记录)。

任务:
1. 从每个文档中提取:
   - 会议日期(通常在开头)
   - 参会人员(查找"参会"、"出席"等关键词)
   - 待办事项(查找编号列表、checkbox、"TODO"、"待办"等)
   - 决议事项(查找"决定"、"同意"等关键词后的内容)

2. 生成综合报告"月度会议汇总.md":

```markdown
# 2026年1月会议汇总

## 会议列表
| 日期 | 会议主题 | 参会人数 |
|------|---------|---------|
| ... | ... | ... |

## 所有待办事项
- [ ] [任务1](来源:[会议名],负责人:[姓名])
- [ ] [任务2]
...

## 重要决议
1. [决议1]([日期] [会议名])
2. [决议2]
...

## 关键跟进事项
[列出多次会议中提到的重复事项]

输出第二个文件"待办清单.txt",只包含待办事项,方便复制到任务管理工具。


## 多格式数据整合

### 提示词示例:跨格式客户视图

整合客户 360 度视图数据:

数据源:

  1. "客户基本信息.xlsx" - 包含姓名、联系方式、注册日期
  2. "订单记录.csv" - 包含客户邮箱、订单金额、订单日期
  3. "客服记录"文件夹 - 多个 .txt 文件,文件名是客户邮箱

任务:

  • 以邮箱为主键关联三个数据源

  • 生成"客户360视图.xlsx",包含:

    • 客户编号(自动生成,格式 C0001)
    • 基本信息(姓名、手机、邮箱、注册日期)
    • 购买统计(总订单数、总金额、最近购买日期、平均客单价)
    • 客服记录(有/无,如果有则统计记录条数)
    • 客户价值评分(根据购买金额和频率计算,1-5 分)
    • 客户状态(活跃/沉睡/流失)
      • 活跃:30天内有购买
      • 沉睡:30-90天未购买
      • 流失:90天以上未购买
  • 生成"高价值客户清单.csv"

    • 筛选条件:评分 >= 4 或 总金额 > 10000
    • 只包含姓名、手机、邮箱、总金额

请先告诉我三个数据源各有多少条数据,能成功关联多少客户。


## 使用技巧

### ✅ 提高准确性

1. **提供字段位置线索**:告诉 Claude Cowork 数据通常在哪里

发票号通常在 PDF 右上角,格式为"发票号:INV-2026XXXX"


2. **给出示例格式**:展示期望的输出格式

日期转换示例: "2026年1月13日" -> "2026-01-13" "01/13/2026" -> "2026-01-13"


3. **处理异常情况**:说明如何处理缺失或异常数据

如果价格字段为空或无法识别,填写"0"并在备注列标注"价格缺失"


### ✅ 优化性能

1. **分批处理大量文件**

先处理"发票/2026-01"文件夹的 30 个文件, 成功后我会让你继续处理其他月份。


2. **设置验证点**

每处理 50 个文件,生成一个临时报告让我检查准确性。


### ✅ 数据安全

- ⚠️ 处理敏感数据前,确保 Claude Cowork 只访问必要的文件夹
- ⚠️ 不要在提示词中包含真实的敏感信息(密码、身份证号等)
- ⚠️ 处理完成后,审查输出文件,确保没有意外泄露

## 实际案例

### 案例:电商运营的数据整合

**需求**:
- 从 50 个 HTML 产品页面提取竞品价格
- 与自己的产品库 Excel 对比
- 生成价格竞争力分析报告

**使用提示词**:

步骤 1:从"竞品页面"文件夹的 HTML 文件提取:

  • 产品名称
  • 当前价格
  • 原价(如果有促销)
  • 库存状态

生成"竞品价格_[日期].xlsx"

步骤 2:读取"我们的产品.xlsx",与竞品数据对比(按产品名称模糊匹配)

步骤 3:生成分析报告"价格竞争力分析.md":

价格对比

产品我们的价格竞品均价价格优势

建议

  • 列出我们价格明显高于竞品的产品(> 20%)
  • 列出我们有价格优势的产品(< -10%)

**结果**:
- ✅ 自动化了原本需要 4+ 小时的手动数据整理
- ✅ 生成直观的对比报告
- ✅ 每周更新,持续跟踪市场价格

## 相关资源

- [返回首页](/)
- [Claude Cowork 详细介绍](/guide/intro)
- [Claude Cowork 最佳实践](/guide/best-practices)
- [桌面清理助手](/prompts/desktop-cleaner)

---

**注意**:Claude Cowork 处理的是**本地文件**,不能直接访问网络。要处理网页数据,请先将页面保存为 HTML 文件,或使用浏览器导出数据为 CSV/Excel 等格式。

MIT 许可