SEER数据库KM生存分析
时间:2017-08-15 07:25来源:原创 作者:Wolf老师 点击:
次
SEER数据库下载数据需要提交申请,需要签名承诺书才可以获取数据。下载数据也有几种方法,比较常见的是用perl提取,和用SEER*Stat软件选择下载。
SEER数据库使用,需要注册一个账号,然后按照数据库后台指示,需要对承诺书签名,扫码再给后台发邮件,得到回复就可以获得用户名和密码,有了用户名和密码就可下载数据和其他软件。
SEER数据库的数据不想其他数据库的数据,下载下来就可以直接进行分析,下载的数据需要选择性处理,才能得到我们需要的数据。
提取时我们一般用到的是perl脚本,当然在提取之前,需要准备几个选择的文件,也就是我们需要选择的癌症类型,需要下载数据的字段,比如需要分析黑人的癌症,选择性别和生存时间,生存状态,都是需要选择对应的字段,当然数据库后台会提供一个说明的pdf文件,这个文件很大,包括了seer数据库所有癌症类型及所有的字段,这个文件对seer数据库分析非常有用,在分析过程中会经常用到。
提取到需要的数据文件,我们就可以使用R软件,用survival包做生存曲线分析,比较简单的就是离散字段的生存曲线,比如性别,有男性和女性。有些是连续数据的字段,比如说分析生存期与年龄的关系,时间是个连续的,我们就需要分几个阶段,比如<60,60<x<70,70<x<80,大于80,这样分析也可以得到生存曲线。
连续变量生存曲线
责任编辑:伏泽
作者申明:本文版权属于生信自学网(微信号:18520221056)未经授权,一律禁止转载!
|
BioWolf二维码生成器
------分隔线----------------------------