📋通平台数据处理工具说明文档-陈莹版本

📋 目录导航

📋工具概述

通平台数据处理工具是一个专业的医疗数据标准化处理系统,能够将多个医疗相关的Excel文件转换为标准化的目标表格,支持复杂的科室结构识别和医保编码匹配。

🔧功能特点

1. 核心功能

2. 高级特性

智能科室结构识别

支持四级科室结构(如"心内科一病房"、"泌尿外科二区")

科室结构总表维护

自动维护桌面科室结构总表,确保科室ID一致性

医保编码智能匹配

通过药品编码精确匹配医保编码

前导零格式保护

确保科室ID保持正确格式(如029000而非29000.0)

新增科室高亮

新增科室在总表中自动标记为绿色高亮

3. 用户界面特性

📁数据要求

必需文件(4个)

  1. 科室药品使用金额及使用量DDDs排名表
    • 格式:Excel文件(.xlsx/.xls)
    • 包含科室药品使用数据和DDDs排名信息
  2. 门诊病人指标文件
    • 格式:Excel文件
    • 包含门诊患者统计数据
  3. 住院病人指标文件
    • 格式:Excel文件
    • 包含住院患者统计数据
  4. 公立医疗机构药品目录
    • 格式:Excel文件
    • 用于医保编码映射和药品信息匹配

可选文件(2个)

  1. 住院患者静脉输液使用监测指标调查表
    • 用于计算平均住院天数和住院总人天数
  2. 科室结构总表
    • 自定义科室结构,不选择时使用桌面默认表

📊数据格式要求

科室药品使用数据表必须列

列名 说明
排名药品排名信息
科室名称科室完整名称
科室药品总金额科室药品总费用
药品排名具体药品排名
药品名称药品完整名称
药品编码院内药品唯一标识码
医保编码国家医保统一编码
药品通用名药品通用名称
剂型药品剂型信息
规格药品规格描述
厂家生产厂家信息
使用量DDDsDDDs使用量数据
数量使用数量(支持"114+-120"等格式)
计价单位计价单位
单价药品单价
总金额使用总金额

公立医疗机构药品目录格式

支持一种格式:

  1. 三列格式:[药品编码, 药品名称, 医保编码]

科室名称格式要求

?? 多文件合并处理功能

系统现已支持同时处理多个时间段的数据文件,提高数据处理效率:

支持多文件上传的数据类型

  • 科室药品使用金额及使用量DDDs排名表
    • 示例1: 科室药品使用金额及使用量DDDs排名表2025.5.xlsx科室药品使用金额及使用量DDDs排名表2025.6.xlsx
    • 示例2: 2025.5.xlsx2025.6.xlsx
  • 门(急)诊病人指标(科室)
    • 示例1: 门(急)诊病人指标(科室)2025.5.xlsx门(急)诊病人指标(科室)2025.6.xlsx
    • 示例2: 2025.5.xlsx2025.6.xlsx
  • 住(出)院病人指标(科室)
    • 示例1: 住(出)院病人指标(科室)2025.5.xlsx住(出)院病人指标(科室)2025.6.xlsx
    • 示例2: 2025.5.xlsx2025.6.xlsx
  • 住院患者静脉输液使用监测指标调查表
    • 示例1: 住院患者静脉输液使用监测指标调查表2025.5.xlsx住院患者静脉输液使用监测指标调查表2025.6.xlsx
    • 示例2: 2025.5.xlsx2025.6.xlsx

仅支持单文件上传的数据类型

  • 公立医疗机构药品目录 - 示例: 公立医疗机构药品目录.xlsx
  • 科室架构表 - 示例: 科室结构总表.xlsx

多文件命名与格式要求

  • 文件命名规范:文件名需包含年月信息,如:XXX2025.5.xlsxXXX2025.6.xlsx
  • 自动时间识别:系统会自动从文件名中提取时间信息,无需手动输入
  • 文件格式一致性:同类型的多个文件应具有相同的数据结构(列名、格式等)

数据合并流程

  1. 数据读取与预处理:系统读取多个文件,自动识别文件类型和时间信息,对每个文件进行标准化预处理
  2. 时间维度保留:合并后的数据会保留原始时间信息,在结果中可按时间段分别查看数据
  3. 科室匹配与数据关联:系统会根据科室ID和时间信息进行精确匹配,确保不同时间段的数据正确关联
  4. 人次数据匹配:门诊和住院人次数据会根据科室名称和时间进行匹配
  5. 住院天数计算:基于住院患者静脉输液监测表计算平均住院天数和总人天数,按科室和时间维度进行匹配计算

使用优势

  • 批量处理效率:一次性处理多个时间段的数据,节省操作时间
  • 数据完整性:保留时间维度,便于趋势分析
  • 匹配精确度提升:引入时间维度的匹配机制,确保数据关联的准确性
  • 操作便捷:简化用户操作流程,提高工作效率

注意事项

  • 同类型的多文件应具有相同的数据结构
  • 文件名中应包含清晰的时间信息(格式如:2025.5、2025年5月)
  • 上传多文件时,系统会自动提取时间信息,无需手动输入时间
  • 建议每批处理的文件时间段连续,以便于后续分析

数据文件夹结构示例

数据根目录/ ├── 科室药品使用DDDs排名/ │ ├── 科室药品使用金额及使用量DDDs排名表2025.5.xlsx │ ├── 科室药品使用金额及使用量DDDs排名表2025.6.xlsx │ └── 科室药品使用金额及使用量DDDs排名表2025.7.xlsx ├── 门诊住院指标/ │ ├── 门诊/ │ │ ├── 门(急)诊病人指标(科室)2025.5.xlsx │ │ ├── 门(急)诊病人指标(科室)2025.6.xlsx │ │ └── 门(急)诊病人指标(科室)2025.7.xlsx │ └── 住院/ │ ├── 住(出)院病人指标(科室)2025.5.xlsx │ ├── 住(出)院病人指标(科室)2025.6.xlsx │ └── 住(出)院病人指标(科室)2025.7.xlsx ├── 静脉输液监测/ │ ├── 住院患者静脉输液使用监测指标调查表2025.5.xlsx │ ├── 住院患者静脉输液使用监测指标调查表2025.6.xlsx │ └── 住院患者静脉输液使用监测指标调查表2025.7.xlsx ├── 药品目录/ │ └── 公立医疗机构药品目录.xlsx └── 科室结构/ └── 科室结构总表.xlsx

推荐的数据文件夹结构

文件夹结构说明

科室药品使用DDDs排名

存放科室药品使用金额及使用量DDDs排名表的文件夹,按月份命名文件

门诊住院指标

包含门诊和住院两个子文件夹,分别存放门诊和住院病人指标文件

静脉输液监测

存放住院患者静脉输液使用监测指标调查表的文件夹,按月份命名文件

药品目录与科室结构

存放公立医疗机构药品目录和科室结构总表的文件夹

🔔 多文件合并处理功能

系统现已支持同时处理多个时间段的数据文件,提高数据处理效率:

支持多文件上传的数据类型

  • 科室药品使用金额及使用量DDDs排名表
    • 示例1: 科室药品使用金额及使用量DDDs排名表2025.5.xlsx科室药品使用金额及使用量DDDs排名表2025.6.xlsx
    • 示例2: 2025.5.xlsx2025.6.xlsx
  • 门(急)诊病人指标(科室)
    • 示例1: 门(急)诊病人指标(科室)2025.5.xlsx门(急)诊病人指标(科室)2025.6.xlsx
    • 示例2: 2025.5.xlsx2025.6.xlsx
  • 住(出)院病人指标(科室)
    • 示例1: 住(出)院病人指标(科室)2025.5.xlsx住(出)院病人指标(科室)2025.6.xlsx
    • 示例2: 2025.5.xlsx2025.6.xlsx
  • 住院患者静脉输液使用监测指标调查表
    • 示例1: 住院患者静脉输液使用监测指标调查表2025.5.xlsx住院患者静脉输液使用监测指标调查表2025.6.xlsx
    • 示例2: 2025.5.xlsx2025.6.xlsx

仅支持单文件上传的数据类型

  • 公立医疗机构药品目录 - 示例: 公立医疗机构药品目录.xlsx
  • 科室架构表 - 示例: 科室结构总表.xlsx

多文件命名与格式要求

  • 文件命名规范:文件名需包含年月信息,如:XXX2025.5.xlsxXXX2025.6.xlsx
  • 自动时间识别:系统会自动从文件名中提取时间信息,无需手动输入
  • 文件格式一致性:同类型的多个文件应具有相同的数据结构(列名、格式等)

数据合并流程

  1. 数据读取与预处理:系统读取多个文件,自动识别文件类型和时间信息,对每个文件进行标准化预处理
  2. 时间维度保留:合并后的数据会保留原始时间信息,在结果中可按时间段分别查看数据
  3. 科室匹配与数据关联:系统会根据科室ID和时间信息进行精确匹配,确保不同时间段的数据正确关联
  4. 人次数据匹配:门诊和住院人次数据会根据科室名称和时间进行匹配
  5. 住院天数计算:基于住院患者静脉输液监测表计算平均住院天数和总人天数,按科室和时间维度进行匹配计算

使用优势

  • 批量处理效率:一次性处理多个时间段的数据,节省操作时间
  • 数据完整性:保留时间维度,便于趋势分析
  • 匹配精确度提升:引入时间维度的匹配机制,确保数据关联的准确性
  • 操作便捷:简化用户操作流程,提高工作效率

注意事项

  • 同类型的多文件应具有相同的数据结构
  • 文件名中应包含清晰的时间信息(格式如:2025.5、2025年5月)
  • 上传多文件时,系统会自动提取时间信息,无需手动输入时间
  • 建议每批处理的文件时间段连续,以便于后续分析

数据文件夹结构示例

数据根目录/ ├── 科室药品使用DDDs排名/ │ ├── 科室药品使用金额及使用量DDDs排名表2025.5.xlsx │ ├── 科室药品使用金额及使用量DDDs排名表2025.6.xlsx │ └── 科室药品使用金额及使用量DDDs排名表2025.7.xlsx ├── 门诊住院指标/ │ ├── 门诊/ │ │ ├── 门(急)诊病人指标(科室)2025.5.xlsx │ │ ├── 门(急)诊病人指标(科室)2025.6.xlsx │ │ └── 门(急)诊病人指标(科室)2025.7.xlsx │ └── 住院/ │ ├── 住(出)院病人指标(科室)2025.5.xlsx │ ├── 住(出)院病人指标(科室)2025.6.xlsx │ └── 住(出)院病人指标(科室)2025.7.xlsx ├── 静脉输液监测/ │ ├── 住院患者静脉输液使用监测指标调查表2025.5.xlsx │ ├── 住院患者静脉输液使用监测指标调查表2025.6.xlsx │ └── 住院患者静脉输液使用监测指标调查表2025.7.xlsx ├── 公立医疗机构药品目录.xlsx ├── 科室结构总表.xlsx

推荐的数据文件夹结构

  • 按文件类型分类:将不同类型的文件存放在不同的子文件夹中,便于管理
  • 按时间顺序命名:文件名包含年月信息,按时间顺序排列
  • 统一命名规范:同类型文件采用统一的命名规范,便于批量处理
  • 保持结构一致:保持文件夹结构一致,便于程序自动查找和处理文件

文件夹结构说明

  • 科室药品使用DDDs排名

    存放科室药品使用金额及使用量DDDs排名表的文件夹,按月份命名文件

  • 门诊住院指标

    包含门诊和住院两个子文件夹,分别存放门诊和住院病人指标文件

  • 静脉输液监测

    存放住院患者静脉输液使用监测指标调查表的文件夹,按月份命名文件

🎯输出格式

输出文件结构

各工作表内容

  1. 医院药品信息:医院药品基础信息表
  2. 药品使用信息:详细的药品使用记录
  3. 科室信息:科室层级结构(包含单元格合并)
  4. 药费及人次:按科室汇总的费用和人次统计

⚙️特殊处理机制

智能列名检测

ID格式保护

数据类型兼容

🏥门诊/住院判断标准

判断逻辑(按优先级)

def determine_dept_type(dept_name): if pd.isna(dept_name): return '' dept_str = str(dept_name).strip() # 1. 以"门诊"结尾的科室 → 门诊 if dept_str.endswith('门诊'): return '门诊' # 2. 以"住院"结尾的科室 → 住院 elif dept_str.endswith('住院'): return '住院' # 3. 以"病房"结尾的科室 → 住院 elif dept_str.endswith('病房'): return '住院' # 4. 其他科室 → 默认为门诊 else: return '门诊'

具体判断标准

门诊科室识别

住院科室识别

🏗️四级结构识别标准

识别原理

四级结构用于识别同一基础科室下的多个病房或科室单元,如"心内科一病房"、"心内科二病房"等。

白名单排除机制

以下科室即使匹配四级结构模式,也不会被识别为四级结构:

whitelist_depts = [ 'MICU住院', 'SICU住院', 'LDR住院', 'CT室', 'MICU', 'SICU', 'LDR', # 不带住院后缀的版本 'ICU住院', 'ICU', 'NICU住院', 'NICU', # 其他ICU类科室 'MRI室', 'DR室', 'DSA室', 'B超室', # 医技科室 ]

特殊处理科室

# 消化内科特殊四级结构 digestive_whitelist = { '消化内科住院': ('消化内科', '消化内科住院', '住院', '消化内科'), '消化内科二住院': ('消化内科', '消化内科二住院', '住院', '消化内科') }

四级结构识别模式

1. 正则表达式模式

fourth_level_patterns = [ # 模式1: 科室名+数字+后缀 r'(.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)(病房|区|科|病区|监护室|重症|ICU)', # 模式2: 科室名+纯数字或中文数字结尾 r'(.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)$'$' ]

2. 具体识别标准

支持的数字标识

  • 中文数字:一、二、三、四、五、六、七、八、九、十
  • 阿拉伯数字:1、2、3、4、5、6、7、8、9、10、11、12

支持的后缀标识

  • 病房:心内科一病房、心内科2病房
  • :心内科一区、心内科2区
  • :心内科一科、心内科2科
  • 病区:心内科一病区、心内科2病区
  • 监护室:心内科一监护室
  • 重症:心内科一重症
  • ICU:心内科一ICU

四级结构识别示例

✅ 会被识别为四级结构的科室

心内科一病房 → 基础科室: 心内科, 子单元: 一病房 心内科二病房 → 基础科室: 心内科, 子单元: 二病房 泌尿外科1区 → 基础科室: 泌尿外科, 子单元: 1区 神经内科三科 → 基础科室: 神经内科, 子单元: 三科 骨科2病区 → 基础科室: 骨科, 子单元: 2病区 心内科一监护室 → 基础科室: 心内科, 子单元: 一监护室 消化内科二住院 → 基础科室: 消化内科, 子单元: 消化内科二住院 (特殊处理)

❌ 不会被识别为四级结构的科室

MICU住院 → 白名单排除,识别为三级结构 SICU住院 → 白名单排除,识别为三级结构 CT室 → 白名单排除,识别为三级结构 心内科门诊 → 无数字标识,识别为三级结构 神经内科住院 → 无数字标识,识别为三级结构

四级结构处理逻辑

1. 结构层级

2. ID分配规则

# 混合科室(既有门诊又有住院) 门诊三级ID = f"{二级ID}0" # 如: 0010 住院三级ID = f"{二级ID}1" # 如: 0011 四级ID = f"{三级ID}{计数器}" # 如: 00101, 00102 # 其他门诊组 三级ID = f"{二级ID}{计数器:03d}" # 如: 001001 # 其他住院组 三级ID = f"{二级ID}{计数器:03d}" # 如: 002001 四级ID = f"{三级ID}{计数器:01d}" # 如: 0020011

3. 科室归类逻辑

实际应用示例

示例1:心内科(混合科室+四级结构)

原始数据: 心内科门诊, 心内科一病房, 心内科二病房

处理结果:
- 二级结构: 心内科 (ID: 001)
- 三级结构: 心内科门诊 (ID: 0010), 心内科病房 (ID: 0011)
- 四级结构: 心内科一病房 (ID: 00111), 心内科二病房 (ID: 00112)

示例2:泌尿外科(仅四级结构住院)

原始数据: 泌尿外科一病房, 泌尿外科二区

处理结果:
- 二级结构: 其他病房 (ID: 010)
- 三级结构: 泌尿外科病房 (ID: 010001)
- 四级结构: 泌尿外科一病房 (ID: 0100011), 泌尿外科二区 (ID: 0100012)

🚀使用步骤

  1. 选择必需文件:选择4个必需的Excel文件
  2. 配置可选文件:根据需要勾选并选择可选文件
  3. 设置时间参数:输入时间(格式:2025年9月)
  4. 设置输出位置:选择输出文件的保存位置和名称
  5. 开始处理:点击"开始处理数据"按钮
  6. 等待完成:查看处理进度和日志信息

⚠️注意事项

  • 确保输入文件格式正确
  • 处理期间请勿关闭程序
  • 大数据量处理时确保内存充足
  • 新增科室在科室结构总表中自动标记为绿色高亮
  • 智能白名单机制:肿瘤门诊和神经内科门诊特殊处理
  • 白名单科室如在总表中已存在,将不会被重复高亮

🆕版本特性

  • 支持可选文件配置
  • 住院患者静脉输液监测表处理
  • 自动计算平均住院天数和住院总人天数
  • 自定义科室结构总表支持
  • 高亮显示功能:新增科室自动标记为绿色高亮
  • 确保高亮显示的准确性,避免误标记

版本: 2.0.0

更新时间: 2025年

开发说明: 这个工具是一个功能完整的医疗数据处理系统,具有强大的数据标准化和格式转换能力,特别适合医疗机构进行数据整理和上报工作。