主题
WellChina 知识库数据采集方案
版本: v1.0 日期: 2026-03-16 负责人: 产品经理 项目: WellChina - 中国医疗旅行平台 关联任务: AIS-18上游依赖: 市场调研报告
一、方案概述
本文档定义 WellChina 平台知识库的数据采集方案,包括数据源、分类体系、采集方式、更新策略、质量保障和分阶段实施计划。知识库是平台核心资产,直接支撑信息查询、AI 导诊和价格透明化等产品功能。
核心目标:构建全球首个系统化的、面向外国人的中国医疗资源英文知识库。
二、数据源识别
2.1 政府与权威机构数据
| 数据源 | 数据内容 | 可获取性 | 优先级 |
|---|---|---|---|
| 国家卫健委官网 | 医院等级评定(三甲/三乙名录)、医院基础信息 | 公开,可爬取 | P0 |
| 各省/市卫健委 | 区域医院目录、国际医疗部名单、医院执照信息 | 公开,部分需手动整理 | P0 |
| 国家药监局(NMPA) | 已批准药品/器械/疗法清单 | 公开 | P1 |
| 国家医保局 | 医保药品目录、医疗服务价格项目 | 公开 | P1 |
| 海南博鳌乐城管理局 | 先行区特许药械目录(485+品种)、入驻机构 | 公开 | P0 |
| 出入境管理局 / 外交部 | 签证政策(240h免签、医疗签证S1/S2)、55国名单 | 公开 | P0 |
| 各城市政府外事办 | 外国人就医指定医院名单(如上海13家) | 公开,分散 | P0 |
2.2 医院端数据
| 数据源 | 数据内容 | 可获取性 | 优先级 |
|---|---|---|---|
| 医院官网 | 科室设置、专家团队、特色技术、国际医疗部信息 | 公开,需爬取+翻译 | P0 |
| 医院国际部官网/公众号 | 英文服务能力、可预约方式、接受保险种类 | 部分公开 | P0 |
| 私立医院官网(UFH、嘉会、Raffles等) | 英文服务目录、价格表、直付保险名单 | 公开,结构化程度高 | P0 |
| 医院年报/质量报告 | 手术量、成功率、JCI/ISO认证 | 部分公开 | P1 |
| 复旦医院排行榜 | 专科声誉排名(全国Top 10) | 年度公开 | P0 |
| 丁香园/好大夫 | 医生评价、患者反馈 | 公开但需遵守ToS | P2 |
2.3 政策与法规数据
| 数据源 | 数据内容 | 可获取性 | 优先级 |
|---|---|---|---|
| 国务院/卫健委政策文件 | 外国人就医相关政策、医疗特区政策 | 公开 | P0 |
| 各省医保局价格公示 | 医疗服务项目收费标准 | 公开 | P1 |
| 海关总署 | 药品/医疗器械入境规定 | 公开 | P2 |
| 保险监管数据 | 国际保险公司在华合作医院名单 | 需通过保险公司官网获取 | P1 |
2.4 行业与第三方数据
| 数据源 | 数据内容 | 可获取性 | 优先级 |
|---|---|---|---|
| 国际医院评审联合委员会(JCI) | 中国JCI认证医院名单 | 公开 | P0 |
| Cigna/Bupa/AXA/Allianz官网 | 各保险在华直付医院网络 | 公开 | P0 |
| 现有医疗旅行平台(PlacidWay、Bookimed) | 中国医院定价参考、用户评价 | 公开 | P1 |
| Reddit/Quora/Expat论坛 | 真实外国人就医体验、痛点验证 | 公开 | P1 |
| 学术论文/WHO数据 | 中国医疗质量指标、国际比较数据 | 公开 | P2 |
三、数据分类体系
3.1 一级分类
知识库
├── 1. 医院库(Hospitals)
├── 2. 医生库(Doctors)
├── 3. 医疗项目库(Procedures & Treatments)
├── 4. 价格库(Pricing)
├── 5. 政策库(Policies)
├── 6. 就医指南库(Guides)
└── 7. 城市医疗资源库(City Profiles)3.2 详细分类与字段定义
3.2.1 医院库
| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
hospital_id | string | Y | 唯一标识 |
name_cn | string | Y | 中文名称 |
name_en | string | Y | 英文名称 |
type | enum | Y | public_tertiary_a / public_tertiary_b / private_premium / private_mid / sino_foreign_jv |
city | string | Y | 所在城市 |
district | string | Y | 所在区 |
address_cn | string | Y | 中文地址 |
address_en | string | Y | 英文地址 |
coordinates | geo | Y | 经纬度 |
has_international_dept | boolean | Y | 是否有国际医疗部 |
english_service_level | enum | Y | full / partial / none |
jci_accredited | boolean | N | JCI认证状态 |
specialties | array | Y | 优势科室列表 |
accepted_insurances | array | N | 接受的国际保险 |
direct_billing | boolean | N | 是否支持保险直付 |
payment_methods | array | Y | 支付方式(WeChat/Alipay/Visa/Cash等) |
appointment_method | array | Y | 预约方式(phone/wechat/website/walk-in) |
international_dept_phone | string | N | 国际部电话 |
website | string | N | 官网 |
ranking_fudan | object | N | 复旦排行榜名次(按科室) |
verified_at | date | Y | 最后验证日期 |
3.2.2 医疗项目库
| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
procedure_id | string | Y | 唯一标识 |
name_en | string | Y | 英文名称 |
name_cn | string | Y | 中文名称 |
category | enum | Y | dental / ophthalmology / tcm / checkup / cosmetic / orthopedic / oncology / cardiac / reproductive / other |
description_en | text | Y | 英文描述 |
typical_duration_days | int | N | 典型治疗周期(天) |
recovery_days | int | N | 恢复期(天) |
price_range_cny_min | int | Y | 价格区间下限(人民币) |
price_range_cny_max | int | Y | 价格区间上限(人民币) |
price_us_comparison | int | N | 美国同等项目价格参考 |
savings_percentage | int | N | 节省比例 |
insurance_coverable | boolean | N | 保险是否可能覆盖 |
visa_requirement | string | N | 签证要求建议 |
available_hospitals | array | Y | 提供该项目的医院列表 |
3.2.3 政策库
| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
policy_id | string | Y | 唯一标识 |
type | enum | Y | visa / insurance / payment / medical_regulation / special_zone |
title_en | string | Y | 英文标题 |
title_cn | string | Y | 中文标题 |
summary_en | text | Y | 英文摘要 |
effective_date | date | N | 生效日期 |
source_url | string | Y | 原始来源 |
applicable_nationalities | array | N | 适用国籍(如免签国名单) |
last_verified | date | Y | 最后验证日期 |
3.2.4 城市医疗资源库
| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
city_id | string | Y | 唯一标识 |
city_name_en | string | Y | 英文城市名 |
city_name_cn | string | Y | 中文城市名 |
tier | enum | Y | tier_1 / new_tier_1 / tier_2 |
expat_population | int | N | 在华外籍人口估计 |
top_hospitals | array | Y | 推荐医院列表 |
specialties | array | Y | 城市医疗优势领域 |
international_accessibility | enum | Y | high / medium / low |
transportation | object | N | 国际交通便利度(直飞城市数等) |
designated_foreigner_hospitals | array | N | 政府指定外国人就医医院 |
四、数据采集方式
4.1 结构化爬虫采集(自动化)
适用对象:医院官网、卫健委公示数据、保险公司医院网络
技术方案:
- 使用 Python (Scrapy/BeautifulSoup) 构建爬虫管线
- 针对不同网站编写专用解析器(parser)
- 数据存入结构化数据库(PostgreSQL)
- 翻译管线:中文内容 → LLM辅助翻译 → 人工审校
- 遵守
robots.txt,设置合理爬取频率
Phase 1 目标站点:
- 卫健委三甲医院名录
- 复旦医院排行榜
- JCI官网中国认证医院
- UFH/嘉会/Raffles等私立医院英文官网
- Cigna/Bupa/AXA中国直付医院列表
- 上海/北京/广州/深圳/成都/杭州政府外事办外国人就医指定医院
4.2 API对接(自动化)
适用对象:有公开API的数据源
| 数据源 | API类型 | 说明 |
|---|---|---|
| 高德/百度地图 | REST API | 医院地理位置、坐标、交通信息 |
| 汇率服务(如 exchangerate-api) | REST API | CNY/USD/EUR实时汇率,用于价格换算 |
| JCI官网 | 公开查询 | 认证医院列表(需定期爬取,无正式API) |
4.3 人工整理(半自动化)
适用对象:非结构化数据、需要专业判断的内容
| 数据类型 | 整理方式 | 预估工作量 |
|---|---|---|
| 医院优势科室与特色技术 | 医院官网+年报分析,结合复旦排名 | 每家医院 1-2 小时 |
| 价格数据收集 | 医院官网/电话咨询/第三方平台交叉验证 | 每个项目每城市 2-4 小时 |
| 签证政策整理 | 官方文件翻译+结构化 | 一次性 8-16 小时 |
| 外国人就医体验 | Expat论坛/Reddit/社交媒体抓取+整理 | 持续性,每周 4 小时 |
| 保险直付网络映射 | 各保险公司官网+客服确认 | 每家保险 4-8 小时 |
4.4 AI辅助采集与处理
| 环节 | AI应用 | 说明 |
|---|---|---|
| 翻译 | LLM翻译 + 医学术语校对 | 中文医院/科室信息 → 英文 |
| 实体提取 | NER模型 | 从非结构化文本提取医院名、科室、价格 |
| 数据标准化 | LLM | 将不同格式的价格、地址统一为标准格式 |
| 内容生成 | LLM | 基于原始数据生成面向用户的就医指南 |
| 质量审核 | LLM + 人工 | 自动检测数据异常,标记待人工审核条目 |
五、数据更新频率与维护策略
5.1 更新频率分层
| 数据类型 | 更新频率 | 触发方式 | 理由 |
|---|---|---|---|
| 价格数据 | 每季度 | 定时任务 + 用户反馈触发 | 医院调价周期通常为半年至一年 |
| 医院基础信息 | 每半年 | 定时任务 | 医院信息相对稳定 |
| 签证政策 | 事件驱动 + 每月检查 | 政策监控 + 手动触发 | 政策变化不可预测但影响大 |
| 保险直付网络 | 每季度 | 定时任务 | 保险合作关系调整频率中等 |
| 复旦排行榜 | 每年 | 年度发布后手动更新 | 年度发布 |
| 医生信息 | 每半年 | 定时任务 | 人员变动频率中等 |
| 汇率 | 实时 | API | 影响价格展示 |
| 用户评价/体验 | 持续 | 自动采集 + UGC | 需持续新鲜内容 |
5.2 维护机制
- 变更监控:对关键数据源页面设置变更检测(hash对比),页面变化时触发重新爬取
- 用户反馈回路:平台用户可标记"信息过时",触发人工验证流程
- 数据过期标记:超过更新周期未验证的数据自动标记为"待验证",前端显示提示
- 版本控制:所有数据变更记录历史版本,支持回溯和审计
六、数据质量保障机制
6.1 采集阶段质量控制
| 措施 | 说明 |
|---|---|
| 多源交叉验证 | 价格数据至少2个独立来源确认 |
| 字段完整性校验 | 必填字段缺失则拒绝入库,标记为待补充 |
| 格式标准化 | 入库前自动校验数据格式(价格范围、坐标、电话号码等) |
| 翻译质量审核 | AI翻译后由双语人员抽样审核(首批全量审核) |
6.2 存储阶段质量控制
| 措施 | 说明 |
|---|---|
| 去重检测 | 基于医院名称+地址的模糊匹配去重 |
| 异常值检测 | 价格超出同类项目3倍标准差则标记审核 |
| 关联完整性 | 医院-科室-医生-项目关联关系完整性自动检查 |
| 数据新鲜度评分 | 基于最后验证日期计算新鲜度,影响展示排序 |
6.3 发布阶段质量控制
| 措施 | 说明 |
|---|---|
| 人工抽检 | 每月随机抽取5%数据进行人工验证(电话确认等) |
| 用户纠错机制 | 用户提交纠错 → 48小时内人工核实 → 更新/驳回 |
| 数据置信度标签 | 每条数据显示置信度(verified / estimated / user_reported) |
| A/B对照 | 新数据源接入前与已有数据交叉验证 |
七、分阶段实施计划
Phase 1:核心城市Top医院(第1-3个月)
目标:6个核心城市,每城市10-15家重点医院,覆盖7大优势医疗项目
城市选择:
| 城市 | 选择理由 |
|---|---|
| 北京 | 医疗资源最密集,协和/301/北大医院,外国人最多 |
| 上海 | 13家政府指定外国人就医医院,国际化程度最高 |
| 广州 | 华南医疗中心,中山/南方医院,东南亚患者入口 |
| 深圳 | 港澳居民就医主入口(年77万人次),新建国际医院多 |
| 成都 | 西部医疗中心,华西医院全国Top,中医特色 |
| 杭州 | 数字医疗发达,邵逸夫医院国际部成熟 |
数据范围:
- 医院库:~80家医院完整数据
- 项目库:牙科、眼科、中医、体检、美容、骨科、肿瘤 共7大类
- 价格库:每类项目3-5个核心子项的价格区间
- 政策库:签证政策、支付指南、保险直付清单
- 城市资源库:6个城市完整profile
关键里程碑:
- 第1个月:爬虫管线搭建 + 卫健委/JCI/复旦数据入库 + 6城市Top 5医院手动整理
- 第2个月:私立医院数据采集 + 价格数据首轮采集 + 签证政策库完成
- 第3个月:保险直付网络映射 + 数据质量首轮审核 + 知识库API上线
产出:
- 结构化数据库(PostgreSQL)
- 知识库查询API
- 数据管理后台(内部使用)
Phase 2:扩展覆盖(第4-6个月)
目标:扩展至15个城市,深化数据维度
新增城市: 海南(博鳌乐城)、武汉、南京、长沙、西安、重庆、天津、大连、青岛
深化内容:
- 医生库上线:重点医院的国际部/优势科室核心医生信息
- 价格库精细化:从区间到具体医院报价
- 用户评价体系:集成第三方评价 + 平台UGC
- 博鳌特区专题:特许药械完整目录、就医流程指南
- 中医养生专题:中医旅行路线(北京/成都/杭州)
关键里程碑:
- 第4个月:新增9城市基础数据 + 医生库数据模型定义
- 第5个月:医生库首批数据入库 + 博鳌专题 + 用户评价采集管线
- 第6个月:全量数据质量审核 + 知识库v2 API + 数据仪表盘
Phase 3:持续运营与智能化(第7个月起)
目标:建立数据自动化更新与智能化应用
工作内容:
- 自动化更新管线全面上线(变更检测 + 定时爬取 + 异常告警)
- AI导诊知识图谱构建(症状→科室→医院→医生 推荐链路)
- 多语种扩展(俄语、阿拉伯语、日语等高优先语种)
- 数据开放API(为合作伙伴/保险公司提供数据服务)
- 数据质量持续优化(用户反馈闭环驱动)
八、技术架构影响
8.1 新增组件
- 爬虫服务:独立的数据采集微服务,支持任务调度和断点续传
- 数据存储:PostgreSQL主库 + Elasticsearch全文搜索(英文+中文)
- 翻译管线:LLM API集成,支持批量翻译和术语一致性
- 数据管理后台:内部工具,用于数据审核、标注、导入
8.2 现有系统影响
- 需要与未来的平台网站API对接(知识库查询接口)
- 需要与AI智能体系统对接(知识库作为RAG数据源)
- 需要考虑数据权限和访问控制(部分数据仅内部使用)
8.3 非功能需求
- 数据库支持中英文全文检索
- API响应时间 < 200ms(P95)
- 数据存储加密(包含部分敏感医疗信息)
- 支持数据导出(CSV/JSON)用于分析
九、风险与缓解
| 风险 | 影响 | 缓解措施 |
|---|---|---|
| 医院官网反爬/结构变更 | 数据采集中断 | 多备用解析方案 + 变更检测告警 |
| 价格数据准确性不足 | 用户信任下降 | 标注数据来源和时效 + 用户纠错 + 多源交叉验证 |
| 政策变化导致信息过时 | 用户误判 | 事件驱动更新 + 数据过期标记 + 免责声明 |
| 翻译质量不达标(医学术语) | 用户理解偏差 | 建立医学术语库 + 人工审校 |
| 数据合规风险(隐私/版权) | 法律风险 | 仅采集公开数据 + 遵守robots.txt + 法律顾问审查 |
| 数据量大导致维护成本高 | 资源压力 | 优先级驱动,Phase 1聚焦核心数据 |
十、非目标(明确不做)
- 不建设在线预约系统(属于平台功能,非知识库范畴)
- 不采集个人患者数据(隐私合规)
- 不提供医疗建议(仅提供信息,明确免责)
- 不采集非公开数据(如医院内部系统数据)
- Phase 1 不做多语种(先做好英文,后续扩展)
本方案由产品经理编写,基于市场调研报告和公开数据分析。