Skip to content

Commit

Permalink
fixed minor issues
Browse files Browse the repository at this point in the history
  • Loading branch information
hcp4715 committed Sep 23, 2024
1 parent 1a2805a commit 5c613fa
Show file tree
Hide file tree
Showing 2 changed files with 3 additions and 3 deletions.
4 changes: 2 additions & 2 deletions Book/1001-lesson1_2024.Rmd
Original file line number Diff line number Diff line change
Expand Up @@ -113,11 +113,11 @@ pdf.options(height=10/2.54, width=10/2.54, family="GB1") # 注意:此设置要

使用R有助于增强计算的可重复性。如果我们能够精确地重复我们的分析,并且得到相同的结果,那么我们的研究就更加可信。在讨论心理学研究的可重复性时,我们发现即使是有了公开的数据和代码,也很难保证研究的精确重复。最近的[一个研究](https://doi.org/10.1177/09567976221140828)发现,在14篇文章中,只有一篇能够完全精确地重复出来。这表明我们在数据分析的过程中,很多微小的步骤如果没有被完整记录下来,就很难保证研究的可重复性。为了解决这个问题,现在越来越多的人鼓励使用编程语言,如R语言,来记录数据分析的每一步。这样,我们可以从原始数据开始,记录下所有的数据处理步骤,从而确保研究的可重复性。例如,我与合作者2020年发表的[一篇文章](https://doi.org/10.1525/collabra.301)中,我们公开了所有的数据和代码,并且有小组检查了这些数据和代码,发现能够得到与我们报告中大致相同的结果。

R会提供新的统计方法。IJzerman 2018年的Collabra: Psychology这篇文章(<https://doi.org/10.1525/collabra.165>),我是合作者之一.当时也通过互联网来合作收集的数据。在这个文章当中,他就使用了机器学习的方法,叫做(条件)随机森林(conditional random forest)。它实际上是在机器学习里面常见的一个方法。它的特点就是说即便只有比较少的数据,也能够得到比较稳健的结果。当然这个****数据是相对于机器学习里面的小的数据,因为机器学习里面可能动则就是上十万百万的数据。相比而言,我们的数据是很小的,就几百人上千人。所以当拿到这1,000多人的数据之后,他想去探索这么多变量之间到底哪些变量之间有一个比较稳定的关系,他就采用了随机森林的方法,最后也发现他感兴趣的那个变量,就是身体的温度和这个社交网络的复杂程度是有关系的
R生态中有大量的统计方法。[IJzerman等(2018, Collabra: Psychology)](https://doi.org/10.1525/collabra.165)这篇论文(我是合作者之一)就是一个例子.当时我们通过互联网合作收集数据。Hans IJzerman使用了机器学习的方法——(条件)随机森林(conditional random forest)。这个方法是在机器学习中常见的一个方法,它的特点是在数据较少时也能够得到比较稳健的结果。当然这里**小数据**是相对于计算机领域的数据来说是*小的*,因为他们可能动则就是十万百万的数据。当时拿到这1,000多人的数据后,Hans想去探索在我们测量的这么多变量中,到底有哪些变量能够稳定地预测核心体温,所以采用了随机森林的方法,最后我们发现最关心的那个变量——社交网络的复杂程度——确实能够预测体温

<img src="./pic/chp1/image-20230302201218927.png" style="zoom:67%;"/>

R会提供更合适的方法。比方说我们实验室实验当中非常常用的反应时间,它基本上都是偏态的分布,对于这种偏态分布的数据到底应该采用什么样的一个模型,到底是用传统的线性模型还是应该用广义的线性模型。如果使用r,那我们可以很灵活的使用r里面比较新的一些回归模型的包。在这包里面我们可以使用最适合这个模型的,比方说GLM。我们甚至可以通过模型比较的方式找到哪一个模型是最适合的。也就是说正是因为在R有一个很强大的community,然后这里面有众多可以选择的r的工具包。这样我们就能够不仅仅是使用新的方法,它也可以帮助我们不断的去选出更加适合的方法
R生态中有比传统方法更合适的方法。比方说我们认知实验当中常需要分析反应时间(reaction times, RT)。RT数据基本上都是偏态的分布,对于这种偏态分布的数据应该采用什么统计模型?传统的线性模型还是广义的线性模型。在R语言中,我们可以很灵活的使用一些更灵活的回归模型的工具包。在这些包里面,可以在广义线性模型(generalized linear model, GLM)的框架下选择更适合RT分布的模型。我们甚至可以通过模型比较的方法找到哪一个模型是最适合的。正是因为R语言有强大的community和更多可能的工具包,为我们提供了多种选项。这样我们就能够不仅仅是使用新的方法,它也可以帮助不断选出更加适合的方法

![](./pic/chp1/image-20230302201236318.png)

Expand Down
2 changes: 1 addition & 1 deletion README.md
Original file line number Diff line number Diff line change
Expand Up @@ -30,7 +30,7 @@
- 司远宁,信阳师范大学教育科学学院硕士生;
- 武婷婷,南京师范大学心理学院硕士生;
- 温佳慧,南京师范大学心理学院硕士生;
- 亓鹤潼,南京师范大学文学院硕士生;
- **亓鹤潼**,南京师范大学文学院硕士生;
- 陈逸群,南京师范大学心理学院硕士。


Expand Down

0 comments on commit 5c613fa

Please sign in to comment.