生信自学网-速科生物-生物信息学数据库挖掘视频教程

主页 > SEER >

SEER数据库KM生存分析

SEER数据库使用,需要注册一个账号,然后按照数据库后台指示,需要对承诺书签名,扫码再给后台发邮件,得到回复就可以获得用户名和密码,有了用户名和密码就可下载数据和其他软件。
seer数据库
SEER数据库的数据不想其他数据库的数据,下载下来就可以直接进行分析,下载的数据需要选择性处理,才能得到我们需要的数据。
帮助文档
提取时我们一般用到的是perl脚本,当然在提取之前,需要准备几个选择的文件,也就是我们需要选择的癌症类型,需要下载数据的字段,比如需要分析黑人的癌症,选择性别和生存时间,生存状态,都是需要选择对应的字段,当然数据库后台会提供一个说明的pdf文件,这个文件很大,包括了seer数据库所有癌症类型及所有的字段,这个文件对seer数据库分析非常有用,在分析过程中会经常用到。
perl脚本
提取到需要的数据文件,我们就可以使用R软件,用survival包做生存曲线分析,比较简单的就是离散字段的生存曲线,比如性别,有男性和女性。有些是连续数据的字段,比如说分析生存期与年龄的关系,时间是个连续的,我们就需要分几个阶段,比如<60,60<x<70,70<x<80,大于80,这样分析也可以得到生存曲线。
生存曲线
连续变量生存曲线
生存曲线


(责任编辑:伏泽   微信:18520221056)

森莘老师微信二维码