📋通平台数据处理工具说明文档（东软版本）

📋 目录导航

工具概述
功能特点
数据要求
数据格式要求
科室结构识别
输出格式
使用步骤
注意事项
东软版本特性

📋工具概述

通平台数据处理工具（东软版本）是一个专业的医疗数据标准化处理系统，专门针对东软医院信息系统的数据格式进行优化。该工具能够将单一的药品使用信息Excel文件转换为标准化的目标表格，支持复杂的科室结构识别和医保编码处理。本版本采用智能表头检测和数据聚合处理技术，具有强大的适应性和灵活性。

🔧功能特点

1. 核心功能

医疗数据标准化处理：将药品使用信息Excel文件转换为标准化的目标表格
四工作表输出：生成包含4个工作表的Excel文件
- 医院药品信息表
- 药品使用信息表
- 科室信息表（支持四级结构）
- 药费及人次汇总表

2. 高级特性

智能表头检测

自动识别和适配不同格式的Excel表头结构

数据聚合处理

自动按科室+药品编码进行聚类，累加使用量和金额

动态科室结构识别

支持四级科室结构的智能识别和分类

科室结构总表维护

自动维护桌面科室结构总表，确保科室ID一致性

智能医保编码处理

自动识别和处理医保编码信息

前导零格式保护

确保科室ID保持正确格式（如029000而非29000.0）

新增科室高亮

新增科室在总表中自动标记为绿色高亮

临时文件自动清理

处理完成后自动清理临时文件

3. 用户界面特性

图形化界面：友好GUI界面，集成Logo显示
实时日志显示：处理过程实时显示详细日志
进度条显示：可视化处理进度
文件自动检测：智能查找和识别数据文件
版本选择支持：支持通平台1.4和1.5版本切换

📁数据要求

必需文件（1个）

药品使用信息数据
- 格式：Excel文件（.xlsx/.xls）
- 包含完整的药品使用详细数据
- 支持智能表头检测，自动适配不同的列名格式

可选文件（1个）

科室结构总表
- 自定义科室结构，不选择时使用桌面默认表

📊数据格式要求

药品使用信息数据必须列

东软版本的核心优势：智能表头匹配功能

系统会自动识别和映射列名，大幅降低数据准备要求。

智能表头匹配特性

自动跳行检测：系统会智能检测表头行位置，无需手动指定跳过行数
智能列名匹配：自动识别包含特殊字符（如换行符\n、空格）的列名
容错处理：支持列名的变体形式和不同的命名规范
自动映射：将原始列名自动映射为标准化的列名

必须列说明（支持智能匹配）

系统会自动识别以下列名及其变体：

科室名称列

智能匹配：领药科室、科室名称、医生科室、科室等
用途：标识药品使用的科室

药品编码列

智能匹配：药品编码、药品代码、药品ID、药品id、院内药品唯一码等
用途：药品的唯一标识符

药品名称列

智能匹配：药品名称、产品名称、通用名等
用途：药品的完整名称

使用量列

智能匹配：发生数量、数量、基本单位数量、基本单位\n数量、使用量、实发数量等
用途：药品使用的数量（支持聚合求和）

单价列

智能匹配：单价、售价、零售总金额等
用途：药品的单位价格

规格列

智能匹配：规格、制剂规格、包装规格、基本单位等
用途：药品的规格信息

国家医保编码

智能匹配：国家编码、医保编码、国家医保编码、统一编码、编码等
用途：国家统一的医保编码，用于标准化输出

数据聚合逻辑

系统会按照科室+药品编码进行数据聚合：

求和字段：使用量
保留字段：其他所有字段保留第一个值
重新计算：聚合后重新计算总金额 = 使用量 × 单价

输出列名映射

原始列名会自动映射为标准化列名：

领药科室/科室名称 → 科室名称
药品编码/药品代码 → 药品编码
发生数量/数量 → 使用量
零售总金额/总金额 → 使用金额
国家编码/医保编码 → 医保编码
药品编码 → 医院药品ID

数据处理特点

1. 智能表头检测系统

多行扫描：自动检查多行，寻找最佳的列名行
关键词匹配：基于必须列的关键词进行智能匹配
评分机制：根据匹配度和有效列数进行评分
回退机制：智能检测失败时自动回退到传统方式

2. 数据清洗和转换

数据类型转换：自动将数量和金额列转换为数值类型
空值处理：智能处理空值和异常数据
重复数据合并：按科室和药品编码自动合并重复记录
格式标准化：统一数据格式和命名规范

3. 容错处理机制

列名变体识别：支持列名的多种变体形式
特殊字符处理：自动处理列名中的换行符(\n)、空格等
缺失列补充：自动为缺失的列设置默认值
异常数据处理：自动处理和修复异常数据

🏥科室结构识别

四级结构识别系统

系统采用先进的正则表达式和模式匹配算法，能够智能识别复杂的科室层级结构：

1. 四级结构识别模式

# 模式1：科室名+数字+后缀
(.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)(病房|区|科|病区|诊室|监护室|重症|ICU|室|疗区)$

# 模式2：科室名+数字（纯数字结尾）
(.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)科?$

# 模式3：科室名+英文字母+后缀
(.+?)([a-zA-Z])(病房|区|科|病区|诊室|监护室|重症|ICU|室|疗区|组)$

# 模式4：科室名+英文字母（纯字母结尾）
(.+?)([a-zA-Z])$

# 模式5：科室名+数字+字母
(.+?)(一|二|三|四|五|六|七|八|九|十|1|2|3|4|5|6|7|8|9|10|11|12)([A-Z])$

2. 识别示例

心内科一病房 → 基础科室：心内科，子单元：一病房，类型：住院
外科二区 → 基础科室：外科，子单元：二区，类型：住院
儿科1科 → 基础科室：儿科，子单元：1科，类型：住院
妇科A组门诊 → 基础科室：妇科，子单元：A组，类型：门诊
肾内科a区 → 基础科室：肾内科，子单元：a区，类型：住院

3. 白名单排除机制

以下科室即使匹配四级结构模式，也不会被识别为四级结构：

whitelist_depts = [
    'CT室', 'MRI室', 'DR室', 'DSA室', 'B超室',  # 影像科室
    'CT科',  # CT科不要被判断为四级结构
    '核医学科PET-CT', 'DMD多学科联合门诊',  # 特殊科室
]

科室ID分配规则

一级结构：全院合计 (ID: 01)
二级结构：基础科室或科室组 (ID: 001, 002, ...)
三级结构：具体科室类型 (ID: 0010, 0011, ...)
四级结构：科室子单元 (ID: 00101, 00102, ...)

科室分组逻辑

混合科室：同时有门诊和住院的基础科室保持独立二级结构
其他门诊：仅有门诊的科室归入"其他门诊"二级结构
其他住院：仅有住院的科室归入"其他住院"二级结构
其他病房：仅有四级结构住院科室的基础科室归入"其他病房"二级结构

🎯输出格式

输出文件结构

文件格式：Excel文件（.xlsx）
工作表数量：4个
默认保存位置：输入数据文件所在目录
文件命名：目标表格_时间戳.xlsx

各工作表内容

1. 医院药品信息表

数据来源：从药品使用信息数据中提取唯一药品信息
列结构：
- A列：医保编码（从国家编码列复制）
- B列：医院药品ID（从药品编码列复制）
- C列：规格转换系数（默认为1）
- D列：药品名称（从药品名称列复制）
- E列：规格或规格x包装（从规格列复制）
- F列：成本价格(元)（从单价列复制）

2. 药品使用信息表

数据来源：聚合处理后的药品使用信息 + 科室ID映射
列结构：
- A列：医保编码
- B列：医院药品ID
- C列：科室ID
- D列：门诊住院
- E列：院区名
- F列：时间
- G列：使用量
- H列：使用金额

3. 科室信息表

数据来源：科室结构识别 + 科室结构总表维护
列结构：四级科室层级结构（包含单元格合并）
- 一级结构ID、一级结构名称
- 二级结构ID、二级结构名称
- 三级结构ID、三级结构名称
- 四级结构ID、四级结构名称
- 门诊住院、院区名

4. 药费及人次汇总表

数据来源：按科室汇总的药品使用金额
列结构：
- A列：时间
- B列：科室ID
- C列：药费总额
- D列：门诊住院
- E列：院区名
- F列：诊疗人次（默认为0）
- G列：平均住院天数（默认为0）
- H列：住院总人天数（默认为0）

🚀使用步骤

选择必需文件：选择1个药品使用信息Excel文件
配置可选文件：根据需要勾选并选择科室结构总表
选择通平台版本：在下拉框中选择1.4或1.5版本
设置时间参数：输入时间（格式：2025年9月）
设置输出位置：选择输出文件的保存位置和名称
开始处理：点击"开始处理数据"按钮
等待完成：查看处理进度和日志信息

⚠️注意事项

数据文件要求

智能匹配优势：系统具有强大的智能表头匹配功能，对列名格式要求相对宽松
必须列完整性：药品使用信息文件必须包含核心必须列（系统会自动识别列名变体）
数据质量：确保数据的完整性和准确性，避免大量空值或异常数据
编码一致性：确保药品编码和医保编码的一致性和准确性

系统使用注意

处理期间：请勿关闭程序，系统会显示详细的处理进度
内存要求：大数据量处理时确保内存充足
日志监控：关注实时日志显示，了解智能匹配和处理状态
错误处理：系统具有完善的容错机制，会自动处理常见的数据格式问题

输出特性

科室高亮：新增科室在科室结构总表中自动标记为绿色高亮
ID格式保护：确保科室ID保持正确的前导零格式
临时文件清理：处理完成后自动清理临时文件
时间格式：Excel中时间显示为"2025年9月"格式

🆕东软版本特性

核心优势

单文件输入

只需要一个药品使用信息Excel文件即可完成所有处理

智能表头匹配

强大的自动表头检测和列名映射功能，适配各种数据格式

数据聚合处理

自动按科室和药品进行数据聚合，避免重复记录

智能医保编码处理

优先使用国家编码，自动处理医保编码映射

四级结构支持

完整支持复杂的医院科室层级结构

版本兼容性

支持通平台1.4和1.5版本的差异化处理

界面优化

简化操作：只需选择一个必需文件，大幅简化操作流程
Logo集成显示：120x120像素高清logo，提升专业形象
颜色标识系统：新增科室绿色高亮，一目了然
实时日志反馈：详细的处理过程和错误信息显示
进度可视化：直观的进度条显示处理状态

处理优化

智能表头检测：多层次的智能表头检测和列名映射算法
数据聚合算法：高效的按科室+药品编码聚合处理
容错处理：支持列名变体、特殊字符、数据类型自动转换
格式保护：确保科室ID和编码格式的正确性
错误处理：完善的异常处理和详细日志记录
性能优化：优化大数据量处理性能

自动化功能

临时文件清理：自动清理处理过程中的临时文件
科室结构维护：动态维护科室结构总表
颜色标识管理：自动跟踪和标识新增科室
数据质量检查：自动检查和修复数据质量问题

版本: 东软版本

更新时间: 2025年

开发说明: 东软版本是专门针对东软医院信息系统优化的数据处理工具，具有智能表头检测、单文件输入、数据聚合处理等核心优势。系统能够自动识别和处理各种格式的Excel文件，通过智能算法进行数据聚合和科室结构识别，大幅简化了用户的数据准备工作。特别适合使用东软HIS系统的医疗机构进行数据整理和上报工作。东软版本通过智能匹配、数据聚合和先进的算法技术，确保了数据处理的准确性、效率和易用性。