Skip to content

WellChina 知识库数据采集方案

版本: v1.0 日期: 2026-03-16 负责人: 产品经理 项目: WellChina - 中国医疗旅行平台 关联任务: AIS-18上游依赖: 市场调研报告


一、方案概述

本文档定义 WellChina 平台知识库的数据采集方案,包括数据源、分类体系、采集方式、更新策略、质量保障和分阶段实施计划。知识库是平台核心资产,直接支撑信息查询、AI 导诊和价格透明化等产品功能。

核心目标:构建全球首个系统化的、面向外国人的中国医疗资源英文知识库。


二、数据源识别

2.1 政府与权威机构数据

数据源数据内容可获取性优先级
国家卫健委官网医院等级评定(三甲/三乙名录)、医院基础信息公开,可爬取P0
各省/市卫健委区域医院目录、国际医疗部名单、医院执照信息公开,部分需手动整理P0
国家药监局(NMPA)已批准药品/器械/疗法清单公开P1
国家医保局医保药品目录、医疗服务价格项目公开P1
海南博鳌乐城管理局先行区特许药械目录(485+品种)、入驻机构公开P0
出入境管理局 / 外交部签证政策(240h免签、医疗签证S1/S2)、55国名单公开P0
各城市政府外事办外国人就医指定医院名单(如上海13家)公开,分散P0

2.2 医院端数据

数据源数据内容可获取性优先级
医院官网科室设置、专家团队、特色技术、国际医疗部信息公开,需爬取+翻译P0
医院国际部官网/公众号英文服务能力、可预约方式、接受保险种类部分公开P0
私立医院官网(UFH、嘉会、Raffles等)英文服务目录、价格表、直付保险名单公开,结构化程度高P0
医院年报/质量报告手术量、成功率、JCI/ISO认证部分公开P1
复旦医院排行榜专科声誉排名(全国Top 10)年度公开P0
丁香园/好大夫医生评价、患者反馈公开但需遵守ToSP2

2.3 政策与法规数据

数据源数据内容可获取性优先级
国务院/卫健委政策文件外国人就医相关政策、医疗特区政策公开P0
各省医保局价格公示医疗服务项目收费标准公开P1
海关总署药品/医疗器械入境规定公开P2
保险监管数据国际保险公司在华合作医院名单需通过保险公司官网获取P1

2.4 行业与第三方数据

数据源数据内容可获取性优先级
国际医院评审联合委员会(JCI)中国JCI认证医院名单公开P0
Cigna/Bupa/AXA/Allianz官网各保险在华直付医院网络公开P0
现有医疗旅行平台(PlacidWay、Bookimed)中国医院定价参考、用户评价公开P1
Reddit/Quora/Expat论坛真实外国人就医体验、痛点验证公开P1
学术论文/WHO数据中国医疗质量指标、国际比较数据公开P2

三、数据分类体系

3.1 一级分类

知识库
├── 1. 医院库(Hospitals)
├── 2. 医生库(Doctors)
├── 3. 医疗项目库(Procedures & Treatments)
├── 4. 价格库(Pricing)
├── 5. 政策库(Policies)
├── 6. 就医指南库(Guides)
└── 7. 城市医疗资源库(City Profiles)

3.2 详细分类与字段定义

3.2.1 医院库

字段类型必填说明
hospital_idstringY唯一标识
name_cnstringY中文名称
name_enstringY英文名称
typeenumYpublic_tertiary_a / public_tertiary_b / private_premium / private_mid / sino_foreign_jv
citystringY所在城市
districtstringY所在区
address_cnstringY中文地址
address_enstringY英文地址
coordinatesgeoY经纬度
has_international_deptbooleanY是否有国际医疗部
english_service_levelenumYfull / partial / none
jci_accreditedbooleanNJCI认证状态
specialtiesarrayY优势科室列表
accepted_insurancesarrayN接受的国际保险
direct_billingbooleanN是否支持保险直付
payment_methodsarrayY支付方式(WeChat/Alipay/Visa/Cash等)
appointment_methodarrayY预约方式(phone/wechat/website/walk-in)
international_dept_phonestringN国际部电话
websitestringN官网
ranking_fudanobjectN复旦排行榜名次(按科室)
verified_atdateY最后验证日期

3.2.2 医疗项目库

字段类型必填说明
procedure_idstringY唯一标识
name_enstringY英文名称
name_cnstringY中文名称
categoryenumYdental / ophthalmology / tcm / checkup / cosmetic / orthopedic / oncology / cardiac / reproductive / other
description_entextY英文描述
typical_duration_daysintN典型治疗周期(天)
recovery_daysintN恢复期(天)
price_range_cny_minintY价格区间下限(人民币)
price_range_cny_maxintY价格区间上限(人民币)
price_us_comparisonintN美国同等项目价格参考
savings_percentageintN节省比例
insurance_coverablebooleanN保险是否可能覆盖
visa_requirementstringN签证要求建议
available_hospitalsarrayY提供该项目的医院列表

3.2.3 政策库

字段类型必填说明
policy_idstringY唯一标识
typeenumYvisa / insurance / payment / medical_regulation / special_zone
title_enstringY英文标题
title_cnstringY中文标题
summary_entextY英文摘要
effective_datedateN生效日期
source_urlstringY原始来源
applicable_nationalitiesarrayN适用国籍(如免签国名单)
last_verifieddateY最后验证日期

3.2.4 城市医疗资源库

字段类型必填说明
city_idstringY唯一标识
city_name_enstringY英文城市名
city_name_cnstringY中文城市名
tierenumYtier_1 / new_tier_1 / tier_2
expat_populationintN在华外籍人口估计
top_hospitalsarrayY推荐医院列表
specialtiesarrayY城市医疗优势领域
international_accessibilityenumYhigh / medium / low
transportationobjectN国际交通便利度(直飞城市数等)
designated_foreigner_hospitalsarrayN政府指定外国人就医医院

四、数据采集方式

4.1 结构化爬虫采集(自动化)

适用对象:医院官网、卫健委公示数据、保险公司医院网络

技术方案

  • 使用 Python (Scrapy/BeautifulSoup) 构建爬虫管线
  • 针对不同网站编写专用解析器(parser)
  • 数据存入结构化数据库(PostgreSQL)
  • 翻译管线:中文内容 → LLM辅助翻译 → 人工审校
  • 遵守 robots.txt,设置合理爬取频率

Phase 1 目标站点

  1. 卫健委三甲医院名录
  2. 复旦医院排行榜
  3. JCI官网中国认证医院
  4. UFH/嘉会/Raffles等私立医院英文官网
  5. Cigna/Bupa/AXA中国直付医院列表
  6. 上海/北京/广州/深圳/成都/杭州政府外事办外国人就医指定医院

4.2 API对接(自动化)

适用对象:有公开API的数据源

数据源API类型说明
高德/百度地图REST API医院地理位置、坐标、交通信息
汇率服务(如 exchangerate-api)REST APICNY/USD/EUR实时汇率,用于价格换算
JCI官网公开查询认证医院列表(需定期爬取,无正式API)

4.3 人工整理(半自动化)

适用对象:非结构化数据、需要专业判断的内容

数据类型整理方式预估工作量
医院优势科室与特色技术医院官网+年报分析,结合复旦排名每家医院 1-2 小时
价格数据收集医院官网/电话咨询/第三方平台交叉验证每个项目每城市 2-4 小时
签证政策整理官方文件翻译+结构化一次性 8-16 小时
外国人就医体验Expat论坛/Reddit/社交媒体抓取+整理持续性,每周 4 小时
保险直付网络映射各保险公司官网+客服确认每家保险 4-8 小时

4.4 AI辅助采集与处理

环节AI应用说明
翻译LLM翻译 + 医学术语校对中文医院/科室信息 → 英文
实体提取NER模型从非结构化文本提取医院名、科室、价格
数据标准化LLM将不同格式的价格、地址统一为标准格式
内容生成LLM基于原始数据生成面向用户的就医指南
质量审核LLM + 人工自动检测数据异常,标记待人工审核条目

五、数据更新频率与维护策略

5.1 更新频率分层

数据类型更新频率触发方式理由
价格数据每季度定时任务 + 用户反馈触发医院调价周期通常为半年至一年
医院基础信息每半年定时任务医院信息相对稳定
签证政策事件驱动 + 每月检查政策监控 + 手动触发政策变化不可预测但影响大
保险直付网络每季度定时任务保险合作关系调整频率中等
复旦排行榜每年年度发布后手动更新年度发布
医生信息每半年定时任务人员变动频率中等
汇率实时API影响价格展示
用户评价/体验持续自动采集 + UGC需持续新鲜内容

5.2 维护机制

  1. 变更监控:对关键数据源页面设置变更检测(hash对比),页面变化时触发重新爬取
  2. 用户反馈回路:平台用户可标记"信息过时",触发人工验证流程
  3. 数据过期标记:超过更新周期未验证的数据自动标记为"待验证",前端显示提示
  4. 版本控制:所有数据变更记录历史版本,支持回溯和审计

六、数据质量保障机制

6.1 采集阶段质量控制

措施说明
多源交叉验证价格数据至少2个独立来源确认
字段完整性校验必填字段缺失则拒绝入库,标记为待补充
格式标准化入库前自动校验数据格式(价格范围、坐标、电话号码等)
翻译质量审核AI翻译后由双语人员抽样审核(首批全量审核)

6.2 存储阶段质量控制

措施说明
去重检测基于医院名称+地址的模糊匹配去重
异常值检测价格超出同类项目3倍标准差则标记审核
关联完整性医院-科室-医生-项目关联关系完整性自动检查
数据新鲜度评分基于最后验证日期计算新鲜度,影响展示排序

6.3 发布阶段质量控制

措施说明
人工抽检每月随机抽取5%数据进行人工验证(电话确认等)
用户纠错机制用户提交纠错 → 48小时内人工核实 → 更新/驳回
数据置信度标签每条数据显示置信度(verified / estimated / user_reported
A/B对照新数据源接入前与已有数据交叉验证

七、分阶段实施计划

Phase 1:核心城市Top医院(第1-3个月)

目标:6个核心城市,每城市10-15家重点医院,覆盖7大优势医疗项目

城市选择

城市选择理由
北京医疗资源最密集,协和/301/北大医院,外国人最多
上海13家政府指定外国人就医医院,国际化程度最高
广州华南医疗中心,中山/南方医院,东南亚患者入口
深圳港澳居民就医主入口(年77万人次),新建国际医院多
成都西部医疗中心,华西医院全国Top,中医特色
杭州数字医疗发达,邵逸夫医院国际部成熟

数据范围

  • 医院库:~80家医院完整数据
  • 项目库:牙科、眼科、中医、体检、美容、骨科、肿瘤 共7大类
  • 价格库:每类项目3-5个核心子项的价格区间
  • 政策库:签证政策、支付指南、保险直付清单
  • 城市资源库:6个城市完整profile

关键里程碑

  • 第1个月:爬虫管线搭建 + 卫健委/JCI/复旦数据入库 + 6城市Top 5医院手动整理
  • 第2个月:私立医院数据采集 + 价格数据首轮采集 + 签证政策库完成
  • 第3个月:保险直付网络映射 + 数据质量首轮审核 + 知识库API上线

产出

  • 结构化数据库(PostgreSQL)
  • 知识库查询API
  • 数据管理后台(内部使用)

Phase 2:扩展覆盖(第4-6个月)

目标:扩展至15个城市,深化数据维度

新增城市: 海南(博鳌乐城)、武汉、南京、长沙、西安、重庆、天津、大连、青岛

深化内容

  • 医生库上线:重点医院的国际部/优势科室核心医生信息
  • 价格库精细化:从区间到具体医院报价
  • 用户评价体系:集成第三方评价 + 平台UGC
  • 博鳌特区专题:特许药械完整目录、就医流程指南
  • 中医养生专题:中医旅行路线(北京/成都/杭州)

关键里程碑

  • 第4个月:新增9城市基础数据 + 医生库数据模型定义
  • 第5个月:医生库首批数据入库 + 博鳌专题 + 用户评价采集管线
  • 第6个月:全量数据质量审核 + 知识库v2 API + 数据仪表盘

Phase 3:持续运营与智能化(第7个月起)

目标:建立数据自动化更新与智能化应用

工作内容

  • 自动化更新管线全面上线(变更检测 + 定时爬取 + 异常告警)
  • AI导诊知识图谱构建(症状→科室→医院→医生 推荐链路)
  • 多语种扩展(俄语、阿拉伯语、日语等高优先语种)
  • 数据开放API(为合作伙伴/保险公司提供数据服务)
  • 数据质量持续优化(用户反馈闭环驱动)

八、技术架构影响

8.1 新增组件

  • 爬虫服务:独立的数据采集微服务,支持任务调度和断点续传
  • 数据存储:PostgreSQL主库 + Elasticsearch全文搜索(英文+中文)
  • 翻译管线:LLM API集成,支持批量翻译和术语一致性
  • 数据管理后台:内部工具,用于数据审核、标注、导入

8.2 现有系统影响

  • 需要与未来的平台网站API对接(知识库查询接口)
  • 需要与AI智能体系统对接(知识库作为RAG数据源)
  • 需要考虑数据权限和访问控制(部分数据仅内部使用)

8.3 非功能需求

  • 数据库支持中英文全文检索
  • API响应时间 < 200ms(P95)
  • 数据存储加密(包含部分敏感医疗信息)
  • 支持数据导出(CSV/JSON)用于分析

九、风险与缓解

风险影响缓解措施
医院官网反爬/结构变更数据采集中断多备用解析方案 + 变更检测告警
价格数据准确性不足用户信任下降标注数据来源和时效 + 用户纠错 + 多源交叉验证
政策变化导致信息过时用户误判事件驱动更新 + 数据过期标记 + 免责声明
翻译质量不达标(医学术语)用户理解偏差建立医学术语库 + 人工审校
数据合规风险(隐私/版权)法律风险仅采集公开数据 + 遵守robots.txt + 法律顾问审查
数据量大导致维护成本高资源压力优先级驱动,Phase 1聚焦核心数据

十、非目标(明确不做)

  • 不建设在线预约系统(属于平台功能,非知识库范畴)
  • 不采集个人患者数据(隐私合规)
  • 不提供医疗建议(仅提供信息,明确免责)
  • 不采集非公开数据(如医院内部系统数据)
  • Phase 1 不做多语种(先做好英文,后续扩展)

本方案由产品经理编写,基于市场调研报告和公开数据分析。

WellChina 内部文档 · 基于 VitePress