feat: 添加无需外部库即可从 DOCX 文件中提取文本的脚本,并创建会话索引 Markdown 文件。

This commit is contained in:
2026-02-02 15:27:08 +08:00
parent 79b9938dbb
commit 517644adea
10 changed files with 1050 additions and 0 deletions

View File

@@ -0,0 +1,43 @@
# 会话记录
- **日期**: 2026-02-02 15:21
- **会话ID**: 3d02386b-d046-4251-9e41-88013154b53c
- **关键词**: 文档补全_Docx解析_结构对齐
## 📋 本次目标
补全“未完成”文件夹中的四个软件工程文档(用户需求、数据库设计、体系结构设计、验收报告),并利用 Python 脚本解析参考的 `.docx` 文件(任务书、开题报告),确保生成文档的技术栈、功能模块与结构与官方要求完全一致。
## 📁 涉及文件
| 文件路径 | 操作类型 | 说明 |
|---------|---------|------|
| `d:\WorkKno\by\.agent\scripts\read_docx.py` | 新建 | 用于无依赖提取 docx 文本的 Python 脚本 |
| `d:\WorkKno\by\未完成\文档内容\用户需求规格说明书_Markdown生成版.md` | 新建/修改 | 已校准 6 大模块与封面 |
| `d:\WorkKno\by\未完成\文档内容\数据库设计报告_Markdown生成版.md` | 新建/修改 | 已生成完整数据字典与封面 |
| `d:\WorkKno\by\未完成\文档内容\体系结构设计报告_Markdown生成版.md` | 新建/修改 | 已校准技术栈 (Vue3+AntDV) 与封面 |
| `d:\WorkKno\by\未完成\文档内容\项目验收报告_Markdown生成版.md` | 新建/修改 | 已严格对齐模板表格结构 |
## ✅ 完成的工作
1. **环境与需求分析**: 解析 `data.sql` 还原业务逻辑。
2. **文档草稿生成**: 初步生成四份 Markdown 格式的工程文档。
3. **参考文档提取**: 编写 `read_docx.py` 脚本,成功提取《任务书》与《开题报告》全文。
4. **深度内容校准**:
- 依据开题报告,将技术栈修正为 **Vue 3 + Ant Design Vue + SpringBoot**
- 将功能重新划分为**六大模块**(院校专业、分数位次、志愿填报等)。
- 补充学生信息(向黎华/22软工8班
5. **结构对齐**: 读取《项目验收报告》模板结构,重构 Markdown 表格以完全匹配模板要求;统一所有文档的封面格式。
## 💡 解决方案摘要
- **Docx 解析**: 为了不依赖重型库,使用 Python 原生 `zipfile` + `xml.etree` 库直接解析 `.docx` 的 XML 结构提取文本。
- **结构化生成**: 采用 Markdown 表格严格模拟 Word 模板中的表格形式,便于用户直接复制。
## ⚠️ 遗留问题 / 后续待办
- [ ] 用户需手动将生成的 Markdown 内容复制粘贴到对应的 Word `.doc/.docx` 模板文件中进行排版。
## 🔗 关联会话
- 前置会话: 无