🧬 PeptideStream 项目任务安排

📌 已完成任务

任务	状态
明确项目目标：生成多肽序列	[x]
选择入门模型架构：LSTM / VAE	[x]
安装依赖环境	[x]
加载并划分了示例 CSV 序列数据集	[x]
明确项目输出目标：申请 Demo，展示跨界建模能力	[x]

🧩 项目模块拆解（七大模块）

1️⃣ 数据预处理模块

子任务	状态	说明
下载公开抗菌肽序列数据	[x]	当前仅正样本，来源：DRAMP
清洗非法或异常序列	[x]	使用正则清理无效字符、超短序列
序列编码（整数 / one-hot）	[x]	供训练模型使用
划分训练集和验证集	[x]	使用 sklearn
整理毒性、稳定性等性质标注数据	[]	来源包括 ToxinPred、ToxDL 等

2️⃣ 模型构建模块

子任务	状态	说明
实现 LSTM 序列生成器	[x]	基于字符级语言模型
添加 VAE 编码器结构	[]	引入潜变量表示，增强生成控制力
设置基本超参数（如 hidden_dim 等）	[x]	可后续调整
完善训练 / 验证 / 推理流程	[x]	支持快速测试
集成 ESM 语言模型作为嵌入器	[x]	使用 `facebook/esm2_t33_650M_UR50D`
构建特征融合模块	[]	融合语言/统计/结构特征（early/late fusion）

3️⃣ 性质预测模块

子任务	状态	说明
定义预测目标	[x]	可扩展至 BindingDB 等
使用 ESM 语言模型提取嵌入	[x]	来自 HuggingFace 或 Facebook
编写嵌入提取函数	[x]	保存为 `.npy` / `.csv`
清洗并准备公开性质数据集	[]	格式统一为 CSV
训练 baseline 分类器（MLP / LightGBM）	[]	输入 ESM 嵌入向量
多特征联合建模	[]
多指标评价	[]	参考 Pareto；无真实标注
输出可视化评估结果（如 ROC 曲线）	[]	含混淆矩阵等分析，使用 radar chart、score map 等方式呈现多指标
封装批量预测接口（对接生成模块）	[]	支持新序列自动评估

多指标评价非常适合此项目，并适宜作为独立研究方向来设计，甚至尝试用强化学习或贝叶斯优化来搜索最优序列组合。这是因为多目标优化能：

能进行精度更高的预测；
保留了维度信息，支持更清晰的可视化、可解释性和后续优化；
可设定阈值过滤，实现早期淘汰低质量序列
真实保留 trade-off 关系，保持生物建模的可信性，展现各预测项目的风险与机会；
不合成打分项，避免预测生物信息的损失或过拟合
能带来一个看起来聪明的打分以便下游使用；

4️⃣ 模型训练与调试模块

子任务	状态	说明
初步训练并验证 LSTM 模型	[x]	跑通 2 轮 epoch
在验证集生成样本，检查多样性	[x]	使用 softmax sampling
引入训练技巧如 early stopping	[x]	防止过拟合，提高鲁棒性

5️⃣ 结果评估模块

子任务	状态	说明
可视化训练过程中的 Loss 曲线	[x]	使用 TensorBoard 或 matplotlib
展示多肽生成样例	[x]	生成多条序列
评估序列多样性与分布等指标	[]	长度、重复率、AA频率等
利用 ESM 嵌入评估毒性预测能力	[x]	与 baseline 分类器对比

6️⃣ 展示与发布模块

子任务	状态	说明
编写 README 或 PPT 总结思路	[x]	面向申请场景
绘制模型结构图 / 数据流程图	[]	支持演示
上传至 GitHub 并进行网页托管	[x]	用于查看 demo
增加完整的生成-评估流程图	[]	可使用 Mermaid 或绘图软件

7️⃣ 拓展与进阶模块

项目	说明
添加条件生成（如毒性标签）	提升科研与工业实用性
使用 ProtBert 等语言模型	展示前沿建模意识
微调 TAPE / ESM 等预训练模型	强化泛化能力
使用 Gradio 打包交互界面	快速展示生成 + 预测流程
微调 ESM 最后几层参数	深度集成，需较强计算资源
引入图神经网络建模结构特征	融合蛋白3D信息（如AF2结构）
集成 Streamlit 接口	更强展示与迭代能力

参考资料

预测蛋白热稳定性： Ieva Pudžiuvelytė, Kliment Olechnovič, Egle Godliauskaite, Kristupas Sermokas, Tomas Urbaitis, Giedrius Gasiunas, Darius Kazlauskas, TemStaPro: protein thermostability prediction using sequence representations from protein language models, Bioinformatics, Volume 40, Issue 4, April 2024, btae157, https://doi.org/10.1093/bioinformatics/btae157 [https://academic.oup.com/bioinformatics/article/40/4/btae157/7632735]

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
.idea		.idea
data		data
embedding		embedding
logs		logs
models		models
notebook		notebook
pipeline		pipeline
tools		tools
best_model.pt		best_model.pt
checkpoint.pt		checkpoint.pt
dataset.py		dataset.py
enhanced_model_guide.md		enhanced_model_guide.md
esm_loader.py		esm_loader.py
fragment.md		fragment.md
loss_history.csv		loss_history.csv
main.py		main.py
models.py		models.py
multi_feature_model.py		multi_feature_model.py
peptide_generator.py		peptide_generator.py
protein_embeddings.csv		protein_embeddings.csv
protein_embeddings.npy		protein_embeddings.npy
readme.md		readme.md
stability_models_comparison.md		stability_models_comparison.md
stability_pytorch_analysis.md		stability_pytorch_analysis.md
tqdm_progress_summary.md		tqdm_progress_summary.md
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🧬 PeptideStream 项目任务安排

📌 已完成任务

🧩 项目模块拆解（七大模块）

1️⃣ 数据预处理模块

2️⃣ 模型构建模块

3️⃣ 性质预测模块

4️⃣ 模型训练与调试模块

5️⃣ 结果评估模块

6️⃣ 展示与发布模块

7️⃣ 拓展与进阶模块

参考资料

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

🧬 PeptideStream 项目任务安排

📌 已完成任务

🧩 项目模块拆解（七大模块）

1️⃣ 数据预处理模块

2️⃣ 模型构建模块

3️⃣ 性质预测模块

4️⃣ 模型训练与调试模块

5️⃣ 结果评估模块

6️⃣ 展示与发布模块

7️⃣ 拓展与进阶模块

参考资料

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages