📋通平台数据处理工具说明文档-陈莹版本

📋 目录导航

工具概述
功能特点
数据要求
数据格式要求
输出格式
特殊处理机制
门诊/住院判断标准
四级结构识别标准
使用步骤
注意事项
版本特性

📋工具概述

通平台数据处理工具是一个专业的医疗数据标准化处理系统，能够将多个医疗相关的Excel文件转换为标准化的目标表格，支持复杂的科室结构识别和医保编码匹配。

🔧功能特点

1. 核心功能

医疗数据标准化处理：将多个医疗相关Excel文件转换为标准化的目标表格
四工作表输出：生成包含4个工作表的Excel文件
- 医院药品信息表
- 药品使用信息表
- 科室信息表（支持四级结构）
- 药费及人次汇总表

2. 高级特性

智能科室结构识别

支持四级科室结构（如"心内科一病房"、"泌尿外科二区"）

科室结构总表维护

自动维护桌面科室结构总表，确保科室ID一致性

医保编码智能匹配

通过药品编码精确匹配医保编码

前导零格式保护

确保科室ID保持正确格式（如029000而非29000.0）

新增科室高亮

新增科室在总表中自动标记为绿色高亮

3. 用户界面特性

图形化界面：友好GUI界面
实时日志显示：处理过程实时显示详细日志
进度条显示：可视化处理进度
文件自动检测：智能查找和识别数据文件

📁数据要求

必需文件（4个）

科室药品使用金额及使用量DDDs排名表
- 格式：Excel文件（.xlsx/.xls）
- 包含科室药品使用数据和DDDs排名信息
门诊病人指标文件
- 格式：Excel文件
- 包含门诊患者统计数据
住院病人指标文件
- 格式：Excel文件
- 包含住院患者统计数据
公立医疗机构药品目录
- 格式：Excel文件
- 用于医保编码映射和药品信息匹配

可选文件（2个）

住院患者静脉输液使用监测指标调查表
- 用于计算平均住院天数和住院总人天数
科室结构总表
- 自定义科室结构，不选择时使用桌面默认表

📊数据格式要求

科室药品使用数据表必须列

列名	说明
排名	药品排名信息
科室名称	科室完整名称
科室药品总金额	科室药品总费用
药品排名	具体药品排名
药品名称	药品完整名称
药品编码	院内药品唯一标识码
医保编码	国家医保统一编码
药品通用名	药品通用名称
剂型	药品剂型信息
规格	药品规格描述
厂家	生产厂家信息
使用量DDDs	DDDs使用量数据
数量	使用数量（支持"114+-120"等格式）
计价单位	计价单位
单价	药品单价
总金额	使用总金额

公立医疗机构药品目录格式

支持一种格式：

三列格式：[药品编码, 药品名称, 医保编码]

科室名称格式要求

支持英文前缀自动去除（如"A-心内科"→"心内科"）
支持门诊/住院/病房后缀识别
支持四级结构识别：
- 数字+病房：心内科一病房、心内科2病房
- 数字+区：心内科一区、心内科2区
- 数字+科：心内科一科、心内科2科
- 数字+病区：心内科一病区、心内科2病区

?? 多文件合并处理功能

系统现已支持同时处理多个时间段的数据文件，提高数据处理效率：

支持多文件上传的数据类型

科室药品使用金额及使用量DDDs排名表
- 示例1: 科室药品使用金额及使用量DDDs排名表2025.5.xlsx、科室药品使用金额及使用量DDDs排名表2025.6.xlsx
- 示例2: 2025.5.xlsx、2025.6.xlsx
门(急)诊病人指标(科室)
- 示例1: 门(急)诊病人指标(科室)2025.5.xlsx、门(急)诊病人指标(科室)2025.6.xlsx
- 示例2: 2025.5.xlsx、2025.6.xlsx
住(出)院病人指标(科室)
- 示例1: 住(出)院病人指标(科室)2025.5.xlsx、住(出)院病人指标(科室)2025.6.xlsx
- 示例2: 2025.5.xlsx、2025.6.xlsx
住院患者静脉输液使用监测指标调查表
- 示例1: 住院患者静脉输液使用监测指标调查表2025.5.xlsx、住院患者静脉输液使用监测指标调查表2025.6.xlsx
- 示例2: 2025.5.xlsx、2025.6.xlsx

仅支持单文件上传的数据类型

公立医疗机构药品目录 - 示例: 公立医疗机构药品目录.xlsx
科室架构表 - 示例: 科室结构总表.xlsx

多文件命名与格式要求

文件命名规范：文件名需包含年月信息，如：XXX2025.5.xlsx、XXX2025.6.xlsx
自动时间识别：系统会自动从文件名中提取时间信息，无需手动输入
文件格式一致性：同类型的多个文件应具有相同的数据结构（列名、格式等）

数据合并流程

数据读取与预处理：系统读取多个文件，自动识别文件类型和时间信息，对每个文件进行标准化预处理
时间维度保留：合并后的数据会保留原始时间信息，在结果中可按时间段分别查看数据
科室匹配与数据关联：系统会根据科室ID和时间信息进行精确匹配，确保不同时间段的数据正确关联
人次数据匹配：门诊和住院人次数据会根据科室名称和时间进行匹配
住院天数计算：基于住院患者静脉输液监测表计算平均住院天数和总人天数，按科室和时间维度进行匹配计算

使用优势

批量处理效率：一次性处理多个时间段的数据，节省操作时间
数据完整性：保留时间维度，便于趋势分析
匹配精确度提升：引入时间维度的匹配机制，确保数据关联的准确性
操作便捷：简化用户操作流程，提高工作效率

注意事项

同类型的多文件应具有相同的数据结构
文件名中应包含清晰的时间信息（格式如：2025.5、2025年5月）
上传多文件时，系统会自动提取时间信息，无需手动输入时间
建议每批处理的文件时间段连续，以便于后续分析

数据文件夹结构示例

数据根目录/
├── 科室药品使用DDDs排名/
│   ├── 科室药品使用金额及使用量DDDs排名表2025.5.xlsx
│   ├── 科室药品使用金额及使用量DDDs排名表2025.6.xlsx
│   └── 科室药品使用金额及使用量DDDs排名表2025.7.xlsx
├── 门诊住院指标/
│   ├── 门诊/
│   │   ├── 门(急)诊病人指标(科室)2025.5.xlsx
│   │   ├── 门(急)诊病人指标(科室)2025.6.xlsx
│   │   └── 门(急)诊病人指标(科室)2025.7.xlsx
│   └── 住院/
│       ├── 住(出)院病人指标(科室)2025.5.xlsx
│       ├── 住(出)院病人指标(科室)2025.6.xlsx
│       └── 住(出)院病人指标(科室)2025.7.xlsx
├── 静脉输液监测/
│   ├── 住院患者静脉输液使用监测指标调查表2025.5.xlsx
│   ├── 住院患者静脉输液使用监测指标调查表2025.6.xlsx
│   └── 住院患者静脉输液使用监测指标调查表2025.7.xlsx
├── 药品目录/
│   └── 公立医疗机构药品目录.xlsx
└── 科室结构/
    └── 科室结构总表.xlsx
            

文件夹结构说明

科室药品使用DDDs排名

存放科室药品使用金额及使用量DDDs排名表的文件夹，按月份命名文件

门诊住院指标

包含门诊和住院两个子文件夹，分别存放门诊和住院病人指标文件

静脉输液监测

存放住院患者静脉输液使用监测指标调查表的文件夹，按月份命名文件

药品目录与科室结构

存放公立医疗机构药品目录和科室结构总表的文件夹

🔔 多文件合并处理功能

系统现已支持同时处理多个时间段的数据文件，提高数据处理效率：

支持多文件上传的数据类型

科室药品使用金额及使用量DDDs排名表
- 示例1: 科室药品使用金额及使用量DDDs排名表2025.5.xlsx、科室药品使用金额及使用量DDDs排名表2025.6.xlsx
- 示例2: 2025.5.xlsx、2025.6.xlsx
门(急)诊病人指标(科室)
- 示例1: 门(急)诊病人指标(科室)2025.5.xlsx、门(急)诊病人指标(科室)2025.6.xlsx
- 示例2: 2025.5.xlsx、2025.6.xlsx
住(出)院病人指标(科室)
- 示例1: 住(出)院病人指标(科室)2025.5.xlsx、住(出)院病人指标(科室)2025.6.xlsx
- 示例2: 2025.5.xlsx、2025.6.xlsx
住院患者静脉输液使用监测指标调查表
- 示例1: 住院患者静脉输液使用监测指标调查表2025.5.xlsx、住院患者静脉输液使用监测指标调查表2025.6.xlsx
- 示例2: 2025.5.xlsx、2025.6.xlsx

仅支持单文件上传的数据类型

公立医疗机构药品目录 - 示例: 公立医疗机构药品目录.xlsx
科室架构表 - 示例: 科室结构总表.xlsx

多文件命名与格式要求

文件命名规范：文件名需包含年月信息，如：XXX2025.5.xlsx、XXX2025.6.xlsx
自动时间识别：系统会自动从文件名中提取时间信息，无需手动输入
文件格式一致性：同类型的多个文件应具有相同的数据结构（列名、格式等）

数据合并流程

数据读取与预处理：系统读取多个文件，自动识别文件类型和时间信息，对每个文件进行标准化预处理
时间维度保留：合并后的数据会保留原始时间信息，在结果中可按时间段分别查看数据
科室匹配与数据关联：系统会根据科室ID和时间信息进行精确匹配，确保不同时间段的数据正确关联
人次数据匹配：门诊和住院人次数据会根据科室名称和时间进行匹配
住院天数计算：基于住院患者静脉输液监测表计算平均住院天数和总人天数，按科室和时间维度进行匹配计算

使用优势

批量处理效率：一次性处理多个时间段的数据，节省操作时间
数据完整性：保留时间维度，便于趋势分析
匹配精确度提升：引入时间维度的匹配机制，确保数据关联的准确性
操作便捷：简化用户操作流程，提高工作效率

注意事项

同类型的多文件应具有相同的数据结构
文件名中应包含清晰的时间信息（格式如：2025.5、2025年5月）
上传多文件时，系统会自动提取时间信息，无需手动输入时间
建议每批处理的文件时间段连续，以便于后续分析

数据文件夹结构示例

数据根目录/
├── 科室药品使用DDDs排名/
│   ├── 科室药品使用金额及使用量DDDs排名表2025.5.xlsx
│   ├── 科室药品使用金额及使用量DDDs排名表2025.6.xlsx
│   └── 科室药品使用金额及使用量DDDs排名表2025.7.xlsx
├── 门诊住院指标/
│   ├── 门诊/
│   │   ├── 门(急)诊病人指标(科室)2025.5.xlsx
│   │   ├── 门(急)诊病人指标(科室)2025.6.xlsx
│   │   └── 门(急)诊病人指标(科室)2025.7.xlsx
│   └── 住院/
│       ├── 住(出)院病人指标(科室)2025.5.xlsx
│       ├── 住(出)院病人指标(科室)2025.6.xlsx
│       └── 住(出)院病人指标(科室)2025.7.xlsx
├── 静脉输液监测/
│   ├── 住院患者静脉输液使用监测指标调查表2025.5.xlsx
│   ├── 住院患者静脉输液使用监测指标调查表2025.6.xlsx
│   └── 住院患者静脉输液使用监测指标调查表2025.7.xlsx
├── 公立医疗机构药品目录.xlsx
├── 科室结构总表.xlsx
                

文件夹结构说明

科室药品使用DDDs排名
存放科室药品使用金额及使用量DDDs排名表的文件夹，按月份命名文件
门诊住院指标
包含门诊和住院两个子文件夹，分别存放门诊和住院病人指标文件
静脉输液监测
存放住院患者静脉输液使用监测指标调查表的文件夹，按月份命名文件

🎯输出格式

输出文件结构

文件格式：Excel文件（.xlsx）
工作表数量：4个
默认保存位置：桌面/结果文件/文件夹
文件命名：目标表格_时间戳.xlsx

各工作表内容

医院药品信息：医院药品基础信息表
药品使用信息：详细的药品使用记录
科室信息：科室层级结构（包含单元格合并）
药费及人次：按科室汇总的费用和人次统计

⚙️特殊处理机制

智能列名检测

自动检测Excel文件中的真正列名行
支持跳过标题行和空行
智能匹配关键词进行列名识别

ID格式保护

确保科室ID保持前导零格式
防止Excel自动转换为数字格式
支持多种ID长度（2位、3位、4位、5位、6位、7位）

数据类型兼容

支持浮点数格式的编码转换
处理"106079.0"→"106079"的格式转换
支持多种编码格式的映射匹配

🏥门诊/住院判断标准

判断逻辑（按优先级）

def determine_dept_type(dept_name):
    if pd.isna(dept_name):
        return ''
    dept_str = str(dept_name).strip()
    
    # 1. 以"门诊"结尾的科室 → 门诊
    if dept_str.endswith('门诊'):
        return '门诊'
    # 2. 以"住院"结尾的科室 → 住院  
    elif dept_str.endswith('住院'):
        return '住院'
    # 3. 以"病房"结尾的科室 → 住院
    elif dept_str.endswith('病房'):
        return '住院'
    # 4. 其他科室 → 默认为门诊
    else:
        return '门诊'
            

具体判断标准

门诊科室识别

明确标识：科室名称以"门诊"结尾
- 示例：心内科门诊、神经内科门诊、肿瘤门诊
默认归类：不以"住院"或"病房"结尾的科室默认为门诊
- 示例：心内科、神经内科、检验科、放射科

住院科室识别

住院标识：科室名称以"住院"结尾
- 示例：心内科住院、神经内科住院、MICU住院
病房标识：科室名称以"病房"结尾
- 示例：心内科病房、神经内科病房、心内科一病房

🏗️四级结构识别标准

识别原理

四级结构用于识别同一基础科室下的多个病房或科室单元，如"心内科一病房"、"心内科二病房"等。

白名单排除机制

以下科室即使匹配四级结构模式，也不会被识别为四级结构：

whitelist_depts = [
    'MICU住院', 'SICU住院', 'LDR住院', 'CT室',
    'MICU', 'SICU', 'LDR',  # 不带住院后缀的版本
    'ICU住院', 'ICU', 'NICU住院', 'NICU',  # 其他ICU类科室
    'MRI室', 'DR室', 'DSA室', 'B超室',  # 医技科室
]
            

特殊处理科室

# 消化内科特殊四级结构
digestive_whitelist = {
    '消化内科住院': ('消化内科', '消化内科住院', '住院', '消化内科'),
    '消化内科二住院': ('消化内科', '消化内科二住院', '住院', '消化内科')
}
            

四级结构识别模式

1. 正则表达式模式

fourth_level_patterns = [
    # 模式1: 科室名+数字+后缀
    r'(.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)(病房|区|科|病区|监护室|重症|ICU)',
    # 模式2: 科室名+纯数字或中文数字结尾
    r'(.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)$'$'
]
            

2. 具体识别标准

支持的数字标识

中文数字：一、二、三、四、五、六、七、八、九、十
阿拉伯数字：1、2、3、4、5、6、7、8、9、10、11、12

支持的后缀标识

病房：心内科一病房、心内科2病房
区：心内科一区、心内科2区
科：心内科一科、心内科2科
病区：心内科一病区、心内科2病区
监护室：心内科一监护室
重症：心内科一重症
ICU：心内科一ICU

四级结构识别示例

✅ 会被识别为四级结构的科室

心内科一病房 → 基础科室: 心内科, 子单元: 一病房
心内科二病房 → 基础科室: 心内科, 子单元: 二病房
泌尿外科1区 → 基础科室: 泌尿外科, 子单元: 1区
神经内科三科 → 基础科室: 神经内科, 子单元: 三科
骨科2病区 → 基础科室: 骨科, 子单元: 2病区
心内科一监护室 → 基础科室: 心内科, 子单元: 一监护室
消化内科二住院 → 基础科室: 消化内科, 子单元: 消化内科二住院 (特殊处理)
            

❌ 不会被识别为四级结构的科室

MICU住院 → 白名单排除，识别为三级结构
SICU住院 → 白名单排除，识别为三级结构
CT室 → 白名单排除，识别为三级结构
心内科门诊 → 无数字标识，识别为三级结构
神经内科住院 → 无数字标识，识别为三级结构
            

四级结构处理逻辑

1. 结构层级

一级结构：全院合计 (ID: 01)
二级结构：基础科室或科室组 (ID: 001, 002, ...)
三级结构：具体科室类型 (ID: 0010, 0011, ...)
四级结构：科室子单元 (ID: 00101, 00102, ...)

2. ID分配规则

# 混合科室（既有门诊又有住院）
门诊三级ID = f"{二级ID}0"  # 如: 0010
住院三级ID = f"{二级ID}1"  # 如: 0011
四级ID = f"{三级ID}{计数器}"  # 如: 00101, 00102

# 其他门诊组
三级ID = f"{二级ID}{计数器:03d}"  # 如: 001001

# 其他住院组  
三级ID = f"{二级ID}{计数器:03d}"  # 如: 002001
四级ID = f"{三级ID}{计数器:01d}"  # 如: 0020011
            

3. 科室归类逻辑

混合科室：同时有门诊和住院的基础科室保持独立二级结构
其他门诊：仅有门诊的科室归入"其他门诊"二级结构
其他住院：仅有住院的科室归入"其他住院"二级结构
其他病房：仅有四级结构住院科室的基础科室归入"其他病房"二级结构

实际应用示例

示例1：心内科（混合科室+四级结构）

                原始数据: 心内科门诊, 心内科一病房, 心内科二病房

                处理结果:

                - 二级结构: 心内科 (ID: 001)

                - 三级结构: 心内科门诊 (ID: 0010), 心内科病房 (ID: 0011)

                - 四级结构: 心内科一病房 (ID: 00111), 心内科二病房 (ID: 00112)

示例2：泌尿外科（仅四级结构住院）

                原始数据: 泌尿外科一病房, 泌尿外科二区

                处理结果:

                - 二级结构: 其他病房 (ID: 010)

                - 三级结构: 泌尿外科病房 (ID: 010001)

                - 四级结构: 泌尿外科一病房 (ID: 0100011), 泌尿外科二区 (ID: 0100012)

🚀使用步骤

选择必需文件：选择4个必需的Excel文件
配置可选文件：根据需要勾选并选择可选文件
设置时间参数：输入时间（格式：2025年9月）
设置输出位置：选择输出文件的保存位置和名称
开始处理：点击"开始处理数据"按钮
等待完成：查看处理进度和日志信息

⚠️注意事项

确保输入文件格式正确
处理期间请勿关闭程序
大数据量处理时确保内存充足
新增科室在科室结构总表中自动标记为绿色高亮
智能白名单机制：肿瘤门诊和神经内科门诊特殊处理
白名单科室如在总表中已存在，将不会被重复高亮

🆕版本特性

支持可选文件配置
住院患者静脉输液监测表处理
自动计算平均住院天数和住院总人天数
自定义科室结构总表支持
高亮显示功能：新增科室自动标记为绿色高亮
确保高亮显示的准确性，避免误标记

版本: 2.0.0

更新时间: 2025年

开发说明: 这个工具是一个功能完整的医疗数据处理系统，具有强大的数据标准化和格式转换能力，特别适合医疗机构进行数据整理和上报工作。

📋通平台数据处理工具说明文档-陈莹版本

📋 目录导航

📋工具概述

🔧功能特点

1. 核心功能

2. 高级特性

智能科室结构识别

科室结构总表维护

医保编码智能匹配

前导零格式保护

新增科室高亮

3. 用户界面特性

📁数据要求

必需文件（4个）

可选文件（2个）

📊数据格式要求

科室药品使用数据表必须列

公立医疗机构药品目录格式

科室名称格式要求

?? 多文件合并处理功能

支持多文件上传的数据类型

仅支持单文件上传的数据类型

多文件命名与格式要求

数据合并流程

使用优势

注意事项

数据文件夹结构示例

推荐的数据文件夹结构

文件夹结构说明

科室药品使用DDDs排名

门诊住院指标

静脉输液监测

药品目录与科室结构

🔔 多文件合并处理功能

支持多文件上传的数据类型

仅支持单文件上传的数据类型

多文件命名与格式要求

数据合并流程

使用优势

注意事项

数据文件夹结构示例

推荐的数据文件夹结构

文件夹结构说明

🎯输出格式

输出文件结构

各工作表内容

⚙️特殊处理机制

智能列名检测

ID格式保护

数据类型兼容

🏥门诊/住院判断标准

判断逻辑（按优先级）

具体判断标准

门诊科室识别

住院科室识别

🏗️四级结构识别标准

识别原理

白名单排除机制

特殊处理科室

四级结构识别模式

1. 正则表达式模式

2. 具体识别标准

支持的数字标识

支持的后缀标识

四级结构识别示例

✅ 会被识别为四级结构的科室

❌ 不会被识别为四级结构的科室

四级结构处理逻辑

1. 结构层级

2. ID分配规则

3. 科室归类逻辑

实际应用示例

示例1：心内科（混合科室+四级结构）

示例2：泌尿外科（仅四级结构住院）

🚀使用步骤

⚠️注意事项

🆕版本特性