机器学习从蛋白序列预测蛋白分类(一)

一,背景与目标: 随着测序技术的快速发展,GenBank等数据库中存储了大量基因、蛋白序列信息,其中大部分尚无标注,如何充分利用GenBank等数据库现有数据资源,挖掘数据信息,为精准医疗、药物研发等生物大健康领域提供有价值的信息具有重要意义。目前这方面已有BLAST等生物信息技术可用,这里希望尝试机器学习技术在这方面的应用。 二,数据清洗与处理 数据来源于Kaggle竞赛(https://www
相关文章
相关标签/搜索