发芽汽车资讯网

您现在的位置是: 首页 > 新能源汽车

文章内容

统计学glm_统计学GLS

tamoadmin 2024-08-29
1.数据分析2.如何用SPSS做两因素方差分析的数据分析?3.自由度为0是怎么回事4.dps是什么意思5.怎么用SPSS求IC50值?6.转录组入门(7):差异

1.数据分析

2.如何用SPSS做两因素方差分析的数据分析?

3.自由度为0是怎么回事

4.dps是什么意思

5.怎么用SPSS求IC50值?

6.转录组入门(7):差异表达分析

统计学glm_统计学GLS

我不知道你想问什么。。问题太大。给你举些COV和COR的应用吧- -

比如时间序列里(比如高频或者超频时间序列在金融里应用蛮广的),COR的pattern可以反映序列的模型。而在financial econometrics里面基本分析都是针对VAR-COV MATRIC进行的。

因为CORR算是比较直观的一种线性相关性的度量,但是CORR也因此容易失去一些COV本来的特性,比如时间序列里平稳性就不能用CORR来决定。。。

数据分析

只是一些杂乱的笔记,没有注明出处。

简单的逻辑回归模型 logistic regression model,适用于因变量是二分变量的分析。

回归的本质是建立一个模型用来预测,而逻辑回归的独特性在于,预测的结果是只能有两种,true or false。

在R里面做逻辑回归也很简单,只需要构造好数据集,然后用glm函数(广义线性模型(generalized linear model))建模即可,预测用predict函数。

可以用两种形式的数据来做分析:

模型输出的结果,用summary()来查看,可以看到具体的模型信息,回归系数,系数是否显著等。(需要注意的是,Logistic为非线性模型,回归系数是通过极大似然估计方法计算所得)

summary() 展示拟合模型的详细结果

如果某个变量有多个不同的水平,你想查看一下这个变量总体是否有统计学意义,可以做一下联合检验,用anova()来查看分析偏差表。

anova() 生成一个拟合模型的方差分析表,或者比较两个或更多拟合模型的方差分析表

结果可以这么理解,随着变量从第一个到最后一个逐个加入模型,模型的课解释方差发生变化,通过看p值,是否通过显著性检验。

说明由上述这些变量组成的模型是有意义的,并且是正确的。

anova(object = model2,test = "Chisq")

可以看到这个数据集是关于申请学校是否被录取的,根据学生的GRE成绩,GPA和排名来预测该学生是否被录取。

其中GRE成绩是连续性的变量,学生可以考取任意正常分数。

而GPA也是连续性的变量,任意正常GPA均可。

最后的排名虽然也是连续性变量,但是一般前几名才有资格申请,所以这里把它当做因子,只考虑前四名!

而我们想做这个逻辑回归分析的目的也很简单,就是想根据学生的成绩排名,绩点信息,托福或者GRE成绩来预测它被录取的概率是多少!

结果解读:

根据对这个模型的summary结果可知:

GRE成绩每增加1分,被录取的 优势对数(log odds) 增加0.002

而GPA每增加1单位,被录取的优势对数(log odds)增加0.804,不过一般GPA相差都是零点几。

最后第二名的同学比第一名同学在其它同等条件下被录取的优势对数(log odds)小了0.675,看来排名非常重要啊!!!

这里必须解释一下这个优势对数(log odds)是什么意思了, 如果预测这个学生被录取的概率是p,那么优势对数(log odds)就是log2(p/(1-p)),一般是以自然对数为底。

glmer()模型下,需要用Anova 大写,Anova(model,type=3)来查看卡方值和p值,这样输出结果和jamovi是相同的。

如何用SPSS做两因素方差分析的数据分析?

1、按照计量精确程度,由高到低可分为定比尺、定距尺度、定序尺度、定类尺度。

a.定类尺度:也称类别尺度或名义尺度,是将调查对象分类,标以各种名称,并确定其类别的方法。它实质上是一种分类体系。

b.定序尺度:也称等级尺度或顺序尺度,是按照某种逻辑顺序将调查对象排列出高低或大小,确定其等级及次序的一种尺度。

c.定距尺度:也称等距尺度或区间尺度,是一种不仅能将变量(社会现象)区分类别和等级,而且可以确定变量之间的数量差别和间隔距离的方法。

d.定比尺度:也称比例尺度或等比尺度,是一种除有上述三种尺度的全部性质之外,还有测量不同变量(社会现象)之间的比例或比率关系的方法。

2、受极端数值影响较小的集中趋势值是众数和中位数。

3、用决策树进行分析时,用的方式是反推。

4、推断统计学研究如何根据样本数据去推断总体数量特征的方法。

描述统计学(descriptive statistics)是研究如何取得反映客观现象的数据(data tabulation),并通过图表形式对所搜集的数据进行加工处理和显示(data visualisation),进而通过综合概括与分析(statistical summaries)得出反映客观现象的规律性数量特征的一门学科。

5、描述统计与推断统计有何区别和联系?

区别:描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计是研究如何利用样本数据来推断总体特征的方法。

联系:描述统计学和推断统计学是现代统计学的两个组成部分呢,相辅相成、缺一不可,描述统计学是现代统计学的基础和前提,推断统计学是现代统计学的核心和关键。

6、R中,使用哪一个函数进行logit回归?

glm

7、bootstrap

Bootstrap方法根据给定的原始样本复制观测信息对总体的分布特性进行统计推断,不需要额外的信息,Efron(19)认为该方法也属于非参数统计方法。Bootstrap方法从观察数据出发,不需任何分布定,针对统计学中的参数估计及设检验问题,利用Bootstrap方法产生的自举样本计算的某统计量的数据集可以用来反映该统计量的抽样分布,即产生经验分布,这样,即使我们对总体分布不确定,也可以近似估计出该统计量及其置信区间,由此分布可得到不同置信水平相应的分位数——即为通常所谓的临界值,可进一步用于设测验。因而,Bootstrap方法能够解决许多传统统计分析方法不能解决的问题。在Bootstrap的实现过程中,计算机的地位不容忽视(Diaconis et al.,1983),因为Bootstrap涉及到大量的模拟计算。可以说如果没有计算机,Bootstrap理论只可能是一纸空谈。随着计算机的快速发展,计算速度的提高,计算费时大大降低。在数据的分布设太牵强或者解析式太难推导时,Bootstrap为我们提供了解决问题的另一种有效的思路。因此,该方法在生物科学研究中有一定的利用价值和实际意义

 非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法.其核心思想和基本步骤如下:

(1) 用重样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样.

(2) 根据抽出的样本计算给定的统计量T.

(3) 重复上述N次(一般大于1000),得到N个统计量T.

(4) 计算上述N个统计量T的样本方差,得到统计量的方差.

应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好.通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸.

具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘.

进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算.。

8、统计对现象总体数量特征的认识是从个体到总体。

9、抽样误差与非抽样误差有什么区别?

抽样误差:抽样方法本身所引起的误差。当由总体中随机地抽取样本时,哪个样本被抽到是随机的,由所抽到的样本得到的样本指标x与总体指标μ之间偏差,称为实际抽样误差。举个列子,为了方便计算我就举小的列子,自己可以放大,10个男生 身高有3个为170,4个为175,3个为180, 平均身高为175,抽样抽了5个人,分别是170,175,175,175,175,很明显就存在误差了。

非抽样误差是指除抽样误差以外所有的误差的总和。引起非抽样误差的原因很多,比如抽样框不齐全,访问员工作经验有限,被访者不配合访问而加以虚的回答,问卷设计本身存在缺陷等等。

10、研究者想收集证据予以支持的设通常称原设。

11、根据统计分析方法的研究和应用来分,可将统计学分为理论统计学和应用统计学。

12、统计分组的关键在于选择分组标志和划分相邻两组间的界限。

13、下面的哪一个误差属于随机误差?(A)

A.随机误差 B.抽样框误差C.回答误差D.无回答误差

14、小钱收集了上海、江苏和浙江三省2007年三次产业的增加值的资料,如果要反映2007年这三个省三次产业的结构,用什么图形最为合适?()

A.直方图 B.散点图 C.饼图 D.折线图

15、tableau文件类型: .twb .tds .tde .bat

16、以一、二、三等品来衡量产品质地的优劣,那么该产品等级是(D)。

A.品质标志 B.数量标志 C.质量指标 D.数量指标

自由度为0是怎么回事

1、确保数据满足平行性设的前提下,用协方差分析进行检验, 在菜单栏上执行:analyse--GLM--univariate。

2、将变量放入各自的框中,从上到下依次是:因变量、固定因素、斜变量(连续变量)。

3、点击model按钮,进入model对话框,在custom模式下,设置type为main effect,将两个变量放入模型。

4、点击options按钮,设置输出的参数,下幅图是设置的参数。

5、点击ok开始处理数据,并输出结果就完成了。

dps是什么意思

总自由度=样本量

模型自由度=参数(自变量)个数

一般用F检验

F=(模型方差/模型自由度)(非模型方差/非模型自由度),服从F(模型自由度,非模型自由度)分布

p是由F得出来的值,如果两者的互作自由度为0,就无法计算F值,p就无从得知

怎么用SPSS求IC50值?

 dps在游戏中屡屡出现,那么玩游戏的你们有没有注意过它的意思呢?下面是我给大家整理的dps是什么意思,供大家参阅!

dps是什么意思

 DPS在游戏中屡屡出现,一般是Damage Per Second,秒伤害的意思。同时也指能够高输出高攻的单位。

DPS的后期单位

 DPS单位在DOTA里多是后期型半后期型英雄,往往具有高伤害和高爆发,在团战中是重要的火力输出。比如像巨魔战将(巨魔)、矮人狙击手(火枪)、黑暗游侠(小黑)、沉默术士(沉默)、幻影刺客(幻刺)、骷髅射手(骨弓)、影魔()、黑曜毁灭者(黑鸟)、敌法师(敌法)、灵魂守卫(魂守)、幻影长矛手(猴子)、风行者(风行)等等。而魅惑魔女(小鹿)、山岭巨人(小小)、剑圣、剧毒术士(剧毒)、众神之王(宙斯)等却是前中期优秀的DPS。

 在这些后期DPS英雄中,绝大多数是要在游戏的中后期才得以发威的(所以叫后期),需要靠等级和装备的提升才得以发挥力量。它们大多数合成的装备有腿,狂战斧,大炮,金箍棒,疯狂面具,振奋宝石,蝴蝶以及最牛的圣剑+不朽之守护(圣盾系列)PS:不出意外,出来以上武器也游戏结束了。这些后期DPS英雄,在前期多半是很脆弱的,它们需要在其它魔法英雄的GANK中好好的保存自己。才能好好的打钱,出装备,让己方部队在后期得到攻击支持。作为一个DPS英雄其实不应该完全的在前期单独行动,有时也需要配合己方英雄去进行GANK和反GANK。而作为前中期的DPS则要主动的寻求战斗 在前中期最具力量的时候带领己方打出优势而为己方后期型DPS创造更多发展的时间和空间。

DPS的wow

 魔兽世界(WOW)中DPS指伤害输出。WOW中的DPS主要是在排副本时被提及。完成一个副本中需要不同的角色,坦克(TANK)、治疗(HEALS)、伤害输出(DPS)。而其中伤害输出(即DPS)占了很重要的一个部分,同时它又分为法系DPS和物理系DPS。由于所有职业都可以进行数目不等的输出,所以输出职业在WOW中最为常见。在所有职业中,只能作为DPS的是法师(FS)、术士(SS)、盗贼(DZ)、猎人(LR),其他的职业如战士(ZS)、圣骑士(QS)、德鲁伊(小D)、死亡骑士(DK)、武僧(WS)也可以作为坦克出现,萨满(SM)、牧师(MS)、德鲁伊(小D)、圣骑士(QS)、武僧(WS)也可作为治疗职业出现。值得注意的是圣骑(QS)、德鲁伊(小D)和武僧(WS)在3种角色中都可以充当,并且德鲁伊(小D)被称作唯一一个4天赋4系的职业,拥有法系和物理系dps加上坦克和治疗。

 有时也指秒伤害或者某段战斗中的总伤害量。秒伤害一般是BOSS输出的平均伤害或者打木桩的平均伤害。全程伤害是指进入副本后到所有战斗结束每个人造成的伤害总量。某一BOSS的DPS是指在与此BOSS的一次战斗中,每个人对此BOSS(也包括BOSS召唤的小怪)造成的每秒伤害总量。

DPS软件

 中国人自主知识产权的统计软件,在期刊检索中,国内遥遥领先、逐年增长的科技文献中的引用次数则显示了DPS数据处理系统国内应用的广泛程度,其应用已遍及自然科学和社会科学各个领域。

 中国人自主知识产权的统计软件DPS

 1、DPS统计软件是目前国内唯一一款实验设计及统计分析功能齐全、价格上适合于国内用户的具自主知识产权、技术上达到国际先进水平的国产多功能统计分析软件包。并在某些方面已处于国际领先地位(如实验设计中大样本时的均匀实验设计、多元统计分析中动态聚类分析)。

 2、在期刊检索中,国内遥遥领先、逐年增长的科技文献中的引用次数则显示了DPS数据处理系统国内应用的广泛程度,其应用已遍及自然科学和社会科学各个领域。

 3、包括均匀设计、混料均匀设计在内的丰富的试验设计功能。并在均匀设计中用了独创算法,实现了大型均匀设计表(最大可达100个因子8000个水平)构造的重大突破!且混料均匀设计可适合任意约束条件的情形。

 4、完善的统计分析功能涵盖了所有统计分析内容,是目前国内统计分析功能最全软件包。DPS的一般线性模型(GLM)可以处理各种类型试验设计方差分析,特别是一些用SPSS菜单操作解决不了、用SAS编程很难折腾的多因素裂区混杂设计、格子设计等方差分析问题,用DPS菜单操作可轻松搞定。现有版本应用GLM进行分析可处理因子数已不受限制。

 5、独特的非线性回归建模技术实现了?可想即可得?的用户需求,参数拟合精度高。

 6、不断丰富的专业统计分析模块: 从上个世纪90年代开始,不断地完成了随机前沿面模型、数据包络分析(DEA,含Malmquist指数计算功能等)、顾客满意指数模型(结构方程模型)、数学生态、生物测定、地理统计、遗传育种、生存分析、水文频率分析、量表分析、质量控制图、ROC曲线分析等内容,并还在不断地扩充......

 7、DPS=Excel+SPSS 她既有Excel那样方便的在工作表里面处理基础统计分析的功能,又实现了SPSS高级统计分析的计算。DPS提供的十分方便的可视化操作界面,可借助图形处理的数据建模功能为您处理复杂模型提供了最直观的途径。这些功能是同类软件中所欠缺的。

 8、有些不是统计分析的功能,如支持向量机、模糊数学方法、灰色系统方法、各种类型的线性规划、非线性规划、层次分析法、BP神经网络、径向基函数(RBF)、数据包络分析等,在DPS里面也可以找到。

 9、根据用户要求,不断吸纳新的统计方法,如一般线性模型的多元方差分析,支持向量机,小波分析,偏最小二乘回归,投影寻踪回归,投影寻踪综合评价,灰色系统方法,混合分布参数估计,含定性变量的多元逐步回归分析,三角模糊数分析,优势分析(Dominance analysis),稳健回归(M估计),随机前沿面模型及面板数据统计分析等,并在不断探索,吸纳更多功能,使系统更加完善。

 10、篇幅达135万字的配套巨著,既是使用说明书,又是统计教材;她堪称是国内目前最为全面的统计学百科全书。同时系统提供的一键切换的汉英双语界面又是不可多得的数据统计分析方面的汉英双语词典,并可使DPS系统适用于不同类型的用户群。

 

转录组入门(7):差异表达分析

打开spss,建立变量。(需要建立三个变量,分别是浓度,抑制率,和总数。小数位数按照实际要求设置。)输入数据。总数用1或者100,其他按实际输入开始计算。

分析—回归—probit响应频率为抑制率,观测值汇总会总数,协变量为浓度,转换选择对数底为10,模型选择logit用 SPSS 计算 IC50点击确定即可。在弹出的输出界面的置信限制中找到概率0.50的估计浓度即为IC50。

扩展资料:

spss求IC50值的原理及特点:

SPSS 是统计产品与服务解决方案的简称,为 IBM 公司的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有 Windows 和 macOS 等版本。

使用方法:在“剂量”一栏依次输入你选中的几个剂量,下面“抑制率”一栏输入对应的%抑制率(不可为小数),输完后点击“计算IC50”,便在“IC”值一栏显示所得的IC50值。(所有输入数据均为数值,不带单位)如果剂量较多,可以分几次输入,分别求得几个IC50,然后求个平均值。

2009 年开始 SPSS 更名为 PASW,旗下主要 4 个产品组相对应更名:

PASW Statistics(原名 SPSS Statistics):统计分析。

PASW Modeler(原名 Clementine):数据挖掘。

Data Collection family(原名 Dimensions):数据收集。

PASW Collaboration and Deployment Services(原名 Predictive Enterprise Services):企业应用服务。

功能组成,SPSS 18.0 由 17 个功能模组组成:

Base System 基础程式。

Advanced Models 高等统计模组(GEE/GLM/存活分析)。

Regression Models 进阶回归模组。

Custom Tables 多变量表格。

Forecasting 时间序列分析。

Categories 类别资料分析/多元尺度方法。

Conjoint 联合分析。

Exact Tests 精确检定。

Missing Value Analysis 遗漏值分析。

Neural Networks 类神经网络。

Decision Trees 决策树。

Data Preparation 资料准备。

原先三个样本的HTSeq-count计数的数据可以在我的GitHub中找到,但是前面已经说过Jimmy失误让我们分析的人类就只有3个样本, 另外一个样本需要从另一批数据获取(请注意batch effect),所以不能保证每一组都有两个重复。

我一直坚信”你并不孤独“这几个字,遇到这种情况的人肯定不止我一个,于是我找到了几种解决方法

以上方法都会在后续进行介绍,但是我们DESeq2必须得要有重复的问题亟待解决,没办法我只能自己瞎编了。虽然是编,我们也要有模有样,不能直接复制一份,要考虑到高通量测序的read是默认符合泊松分布的。我是这样编的。

这仅仅是一种填坑的方法而已,更好模拟数据的方法需要参阅更加专业的文献, 有生之年 我希望能补上这一个部分。

这部分内容最先在 RNA-Seq Data Analysis 的8.5.3节看到,刚开始一点都不理解,但是学完生物统计之后,我认为这是理解所有差异基因表达分析R包的关键。

基本上,统计课都会介绍如何使用 t检验 用来比较两个样本之间的差异,然后在样本比较多的时候使用 方差分析 确定样本间是否有差异。当然前是样本来自于正态分布的群体,或者随机独立大量抽样。

对于基因芯片的差异表达分析而言,由于普遍认为其数据是服从正态分布,因此差异表达分析无非就是用t检验和或者方差分析应用到每一个基因上。高通量一次性找的基因多,于是就需要对多重试验进行矫正,控制阳性。目前在基因芯片的分析用的最多的就是 limma

但是 ,高通量测序(HTS)的read count普遍认为是服从泊松分布(当然有其他不同意见),不可能直接用正态分布的 t检验 方差分析 。 当然我们可以简单粗暴的使用对于的 非参数检验 的方法,但是统计力不够,结果的p值矫正之估计一个差异基因都找不到。老板花了一大笔钱,结果却说没有差异基因,是个负结果,于是好几千经费打了水漂,他肯定是不乐意的。因此,还是得要用参数检验的方法,于是就要说到方差分析和线性模型之间的关系了。

线性回归和方差分析是同一时期发展出的两套方法。在我本科阶段的田间统计学课程中就介绍用 方差分析 (ANOVA)分析不同肥料处理后的产量差异,实验设计如下

这是最简单的单因素方差分析,每一个结果都可以看成 yij = ai + u + eij, 其中u是总体均值,ai是每一个处理的差异,eij是随机误差。

:方差分析(Analysis of Variance, ANAOVA)名字听起来好像是检验方差,但其实是为了判断样本之间的差异是否真实存在,为此需要证明不同处理内的方差显著性大于不同处理间的方差。

线性回归 一般是用于量化的预测变量来预测量化的响应变量。比如说体重与身高的关系建模:

当然线性回归也可用处理名义型或有序型因子(也就是离散变量)作为预测变量,如果要画图的话,就是下面这个情况。

如果我们需要通过一个实验找到不同处理后对照组和控制组的基因变化,那么基因表达可以简单写成, y = a + b · treament + e。 和之前的 yij = ai + u + eij 相比,你会发现公式是如此的一致。 这是因为线性模型和方差分析都是 广义线性模型 (generalizing linear models, GLM)在正态分布的预测变量的特殊形式。而GLM本身只要用合适的 连接函数 是可以处理对任意类型的变量进行建模的。

目前认为read count之间的差异是符合负二项分布,也叫gamma-Possion分布。那么问题来了,如何用GLM或者LM分析两个处理件的差异呢?其实可以简单的用上图的拟合直线的斜率来解释,如果不同处理之间存在差异,那么这个拟合线的斜率必定不为零,也就是与X轴平行。但是这是一种便于理解的方式(虽然你也未必能理解),实际更加复杂,考虑因素更多。

注1 负二向分布有两个参数,均值(mean)和离散值(dispersion). 离散值描述方差偏离均值的程度。泊松分布可以认为是负二向分布的离散值为1,也就是均值等于方差(mean=variance)的情况。

注2 这部分涉及大量的统计学知识,不懂就用维基百科一个个查清楚。

聊完了线性模型和方差分析,下面的设计矩阵(design matrix)就很好理解了, 其实就是用来告诉不同的差异分析函数应该如何对待变量。比如说我们要研究的KD和control之间变化,设计矩阵就是

那么比较矩阵(contrast matrix)就是告诉差异分析函数应该如何对哪个因素进行比较, 这里就是比较不同处理下表达量的变化。

其实read count如何标准化的方法有很多,最常用的是FPKM和RPKM,虽然它们其实是错的-- FPKM/RPKM是错的 。

我推荐阅读 Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-Seq data , 了解不同标准化方法之间的差异。

有一些方法是要求原始数据,有一些则要求经过某类标准化后的数据,记得区分。

关于DESeq2分析差异表达基因,其实在 s://.bioconductor.org/help/workflows/rnaseqGene/ 里面介绍的非常清楚了。

我们已经准备好了count matrix,接下来就是把数据导入DESeq2。DESeq2导入数据的方式有如下4种,基本覆盖了主流read count软件的结果。

DESeq2要求的数据是raw count, 没必要进行FPKM/TPM/RPFKM/TMM标准化。

本来我们是可以用DESeq2为htseq-count专门提供的 DESeqDataSetFromHTSeq ,然而很尴尬数据不够要自己凑数,所以只能改用 DESeqDataSetFromMatrix 了 :cold_sweat:

导入数据,构建 DESeq2 所需的 DESeqDataSet 对象

: 这一步到下一步之间可以过滤掉一些low count数据,节省内存,提高运行速度

使用 DESeq 进行差异表达分析: DESeq 包含三步,estimation of size factors(estimateSizeFactors), estimation of dispersion(estimateDispersons), Negative Binomial GLM fitting and Wald statistics(nbinomWaldTest),可以分布运行,也可用一步到位,最后返回 results 可用的DESeqDataSet对象。

用results获取结果: results的参数非常的多,这里不好具体展开 :pensive: 但是你们会自己看的吧

我们可用mcols查看每一项结果的具体含义,比如说 log2FoldChange 表示倍数变化取log2结果,还能画个火山图。一般简单粗暴的用2到3倍作为阈值,但是对于低表达的基因,3倍也是噪音,那些高表达的基因,1.1倍都是生物学显著了。更重要的没有考虑到组内变异,没有统计学意义。 padj 就是用BH对多重试验进行矫正。

用summary看描述性的结果,大致是上调的基因占总体的11%,下调的是7.1%(KD vs control)

画个MA图,还能标注p值最小的基因。

下图是没有经过 statistical moderation平缓log2 fold changes的情况

如果经过 lfcShrink 收缩log2 fold change, 结果会好看很多

当然还有火山图,不过留给其他方法作图,我们先把差异表达的基因找出来。

一般p value 小于0.05就是显著了, 显著性不代表结果正确,只用于给后续的富集分析和GSEA提供排序标准和筛选而已。关于P值的吐槽简直无数, 请多注意。

edgeR在函数说明中称其不但可以分析SE, CE的RNA-Seq,Tag-RNA,或RNA-seq, 也能分析ChIP-Seq和CRISPR得到的read counts数据。嗯,我信了:confused:!

edgeR使用 DGEList 函数读取count matrix数据,也就说你需要提供一个现成的matrix数据,而不是指望它能读取单独的文件,然后进行合并(当然机智的我发现,其实可以用 tximport 或 DESeqDataSetFromHTSeq 读取单独的文件,然后传递给 DGEList )

第一步: 构建DGEList对象

第二步: 过滤 low counts数据。与DESeq2的预过滤不同,DESeq2的预过滤只是为了改善后续运算性能,在运行过程中依旧会自动处理low count数据,edgeR需要在分析前就要排除那些low count数据,而且非常严格。从生物学角度,有生物学意义的基因的表达量必须高于某一个阈值。从统计学角度上, low count的数据不太可能有显著性差异,而且在多重试验矫正阶段还会拖后腿。 综上所诉,放心大胆的过滤吧。

根据经验(又是经验 :dog: ), 基因至少在某一些文库的count超过10 ~ 15 才被认为是表达。这一步全靠尝试, 剔除太多就缓缓,剔除太少就严格点。 我们可以简单的对每个基因的raw count进行比较,但是建议用CPM(count-per-million) 标准化 后再比较,避免了 文库大小 的影响。

这里的0.5(即阈值)等于 10/(最小的文库的 read count数 /1000000),keep.lib.size=FALSE表示重新计算文库大小。

第三步: 根据组成偏好(composition bias)标准化。edgeR的 calcNormFactors 函数使用 TMM算法 对DGEList标准化

大部分的mRNA-Seq数据分析用TMM标准化就行了,但是也有例外,比如说single-cell RNA-Seq(Lun, Bach, and Marioni 2016), 还有就是global differential expression, 基因组一半以上的基因都是差异表达的,请尽力避免,(D. Wu et al. 2013), 不然就需要用到内参进行标准化了(Risso et al. 2014).

第四步: 实验设计矩阵(Design matrix), 类似于DESeq2中的design参数。 edgeR的线性模型和差异表达分析需要定义一个实验设计矩阵。很直白的就能发现是1vs0

第五步: 估计离散值(Dispersion)。前面已经提到负二项分布(negative binomial,NB)需要均值和离散值两个参数。edgeR对每个基因都估测一个经验贝叶斯稳健离散值(mpirical Bayes moderated dispersion),还有一个公共离散值(common dispersion,所有基因的经验贝叶斯稳健离散值的均值)以及一个趋势离散值

还可以进一步通过quasi-likelihood (QL)拟合NB模型,用于解释生物学和技术性导致的基因特异性变异 (Lund et al. 2012; Lun, Chen, and Smyth 2016).

注1 估计离散值这个步骤其实有许多 estimate*Disp 函数。当不存在实验设计矩阵(design matrix)的时候, estimateDisp 等价于 estimateCommonDisp 和 estimateTagwiseDisp 。而当给定实验设计矩阵(design matrix)时, estimateDisp 等价于 estimateGLMCommonDisp , estimateGLMTrendedDisp 和 estimateGLMTagwiseDisp 。 其中tag与gene同义。

注2 其实这里的第三, 四, 五步对应的就是DESeq2的 DESeq 包含的2步,标准化和离散值估测。

第六步: 差异表达检验(1)。这一步主要构建比较矩阵,类似于DESeq2中的 results 函数的 contrast 参数。

这里用的是 glmQLFTest 而不是 glmLRT 是因为前面用了glmQLTFit进行拟合,所以需要用QL F-test进行检验。如果前面用的是 glmFit ,那么对应的就是 glmLRT . 作者称QL F-test更加严格。多重试验矫正用的也是BH方法。

后续就是提取显著性差异的基因用作下游分析,做一些图看看

第六步:差异表达检验(2)。上面找到的显著性差异的基因,没有考虑效应值,也就是具体变化了多少倍。我们也可用找表达量变化比较大的基因,对应的函数是 glmTreat 。

经过上面两个方法的洗礼,基本上套路你也就知道了,我先简单小结一下,然后继续介绍limma包的 voom 。

Limma原先用于处理基因表达芯片数据,可是说是这个领域的老大 :sunglasses: 。如果你仔细看edgeR导入界面,你就会发现,edgeR有一部分功能依赖于limma包。Limma用经验贝叶斯模型( Empirical Bayesian model)让结果更稳健。

在处理RNA-Seq数据时,raw read count先被转成log2-counts-per-million (logCPM),然后对mean-variance关系建模。建模有两种方法:

数据预处理 : Limma使用edgeR的DGEList对象,并且过滤方法都是一致的,对应edgeR的第一步,第二步, 第三步

差异表达分析 : 使用”limma-trend“

差异表达分析 : 使用”limma-voom“

如果分析基因芯片数据,必须好好读懂LIMMA包。

基本上每一个包,我都提取了各种的显著性基因,比较就需要用韦恩图了,但是我偏不 :stuck_out_tongue: 我要用UpSetR.

感觉limma的结果有点奇怪,有生之年在折腾吧。

好吧,这部分我鸽了

[1] Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-Seq data

[2] s://.bioconductor.org/help/workflows/rnaseqGene/

[3] s://.bioconductor.org/help/workflows/RnaSeqGeneEdgeRQL/

[4] s://.bioconductor.org/help/workflows/RNAseq123/