| 任务 |
状态 |
| 明确项目目标:生成多肽序列 |
[x] |
| 选择入门模型架构:LSTM / VAE |
[x] |
| 安装依赖环境 |
[x] |
| 加载并划分了示例 CSV 序列数据集 |
[x] |
| 明确项目输出目标:申请 Demo,展示跨界建模能力 |
[x] |
| 子任务 |
状态 |
说明 |
| 下载公开抗菌肽序列数据 |
[x] |
当前仅正样本,来源:DRAMP |
| 清洗非法或异常序列 |
[x] |
使用正则清理无效字符、超短序列 |
| 序列编码(整数 / one-hot) |
[x] |
供训练模型使用 |
| 划分训练集和验证集 |
[x] |
使用 sklearn |
| 整理毒性、稳定性等性质标注数据 |
[] |
来源包括 ToxinPred、ToxDL 等 |
| 子任务 |
状态 |
说明 |
| 实现 LSTM 序列生成器 |
[x] |
基于字符级语言模型 |
| 添加 VAE 编码器结构 |
[] |
引入潜变量表示,增强生成控制力 |
| 设置基本超参数(如 hidden_dim 等) |
[x] |
可后续调整 |
| 完善训练 / 验证 / 推理流程 |
[x] |
支持快速测试 |
| 集成 ESM 语言模型作为嵌入器 |
[x] |
使用 facebook/esm2_t33_650M_UR50D |
| 构建特征融合模块 |
[] |
融合语言/统计/结构特征(early/late fusion) |
| 子任务 |
状态 |
说明 |
| 定义预测目标 |
[x] |
可扩展至 BindingDB 等 |
| 使用 ESM 语言模型提取嵌入 |
[x] |
来自 HuggingFace 或 Facebook |
| 编写嵌入提取函数 |
[x] |
保存为 .npy / .csv |
| 清洗并准备公开性质数据集 |
[] |
格式统一为 CSV |
| 训练 baseline 分类器(MLP / LightGBM) |
[] |
输入 ESM 嵌入向量 |
| 多特征联合建模 |
[] |
|
| 多指标评价 |
[] |
参考 Pareto;无真实标注 |
| 输出可视化评估结果(如 ROC 曲线) |
[] |
含混淆矩阵等分析,使用 radar chart、score map 等方式呈现多指标 |
| 封装批量预测接口(对接生成模块) |
[] |
支持新序列自动评估 |
多指标评价非常适合此项目,并适宜作为独立研究方向来设计,甚至尝试用强化学习或贝叶斯优化来搜索最优序列组合。这是因为多目标优化能:
- 能进行精度更高的预测;
- 保留了维度信息,支持更清晰的可视化、可解释性和后续优化;
- 可设定阈值过滤,实现早期淘汰低质量序列
- 真实保留 trade-off 关系,保持生物建模的可信性,展现各预测项目的风险与机会;
- 不合成打分项,避免预测生物信息的损失或过拟合
- 能带来一个看起来聪明的打分以便下游使用;
| 子任务 |
状态 |
说明 |
| 初步训练并验证 LSTM 模型 |
[x] |
跑通 2 轮 epoch |
| 在验证集生成样本,检查多样性 |
[x] |
使用 softmax sampling |
| 引入训练技巧如 early stopping |
[x] |
防止过拟合,提高鲁棒性 |
| 子任务 |
状态 |
说明 |
| 可视化训练过程中的 Loss 曲线 |
[x] |
使用 TensorBoard 或 matplotlib |
| 展示多肽生成样例 |
[x] |
生成多条序列 |
| 评估序列多样性与分布等指标 |
[] |
长度、重复率、AA频率等 |
| 利用 ESM 嵌入评估毒性预测能力 |
[x] |
与 baseline 分类器对比 |
| 子任务 |
状态 |
说明 |
| 编写 README 或 PPT 总结思路 |
[x] |
面向申请场景 |
| 绘制模型结构图 / 数据流程图 |
[] |
支持演示 |
| 上传至 GitHub 并进行网页托管 |
[x] |
用于查看 demo |
| 增加完整的生成-评估流程图 |
[] |
可使用 Mermaid 或绘图软件 |
| 项目 |
说明 |
| 添加条件生成(如毒性标签) |
提升科研与工业实用性 |
| 使用 ProtBert 等语言模型 |
展示前沿建模意识 |
| 微调 TAPE / ESM 等预训练模型 |
强化泛化能力 |
| 使用 Gradio 打包交互界面 |
快速展示生成 + 预测流程 |
| 微调 ESM 最后几层参数 |
深度集成,需较强计算资源 |
| 引入图神经网络建模结构特征 |
融合蛋白3D信息(如AF2结构) |
| 集成 Streamlit 接口 |
更强展示与迭代能力 |
- 预测蛋白热稳定性:
Ieva Pudžiuvelytė, Kliment Olechnovič, Egle Godliauskaite, Kristupas Sermokas, Tomas Urbaitis, Giedrius Gasiunas, Darius Kazlauskas, TemStaPro: protein thermostability prediction using sequence representations from protein language models, Bioinformatics, Volume 40, Issue 4, April 2024, btae157, https://doi.org/10.1093/bioinformatics/btae157 [https://academic.oup.com/bioinformatics/article/40/4/btae157/7632735]