自然语言语义关系研究

本研究获得了$1750(2019暑假)与$3500(2020暑假)的奖学金

从大一下至大三上学期(02/2019~12/2020),我主要的研究项目采用了发展心理学与计算语言学的方法来探索类别关系(taxonomic relations)与主题关系(associative/thematic relations) 这两种不同的语义关系(semantic relations)1

了解儿童是如何习得语义结构的(semantic structure acquisition)、不同语义关系对于语言产出(language production)的不同影响,对语言习得的理论、早期语言发展干预的应用,以及人类语言认知模型的构建都很重要。

我大一与大二的几个学期(2019春、暑假、2020秋、春、暑假)主要是在认知发展实验室Catarina Vales博士和Anna Fisher教授指导下研究4-6岁儿童的语义结构发展(semantic structure development)与不同语义关系语言输入(linguistic input)的联系。行为实验的数据收集采用了空间整理方法(spatial arrangement method),而不同的语义关系则是通过利用语料库(包括ChildesWikiCommon CrawlTASA)计算分析逐点互信息(PMI)、潜在语义分析(LSA),与GloVE词向量等自然语言处理的工具来实现的。

Gephi对不同词语之间的不同语义联系进行可视化2 筛选实验素材的过程运用了R语言的ggplot扩展包

2019年暑假,我与另一位同学一起在$3500的Ireland award的资助下研究此课题;2020年暑假,我获得了$3500的暑期本科生研究奖学金(SURF)以继续研究,并在实验室与校内本科生研究会议(Meeting of the Minds Undergraduate Research Symposium: MoM)上进行了项目展示。

墙报展示 @ 2021 MoM
视频展示 @ 2021 MoM

在大三上学期,我加入了Bonnie Nozari教授的实验室,在现有图片命名任务(picture naming task)实验架构的基础上设计了打字实验(typing experiment)所需素材、对抗平衡的实验方法(counterbalancing method)、并改写了线上实验的程序。同时,我在David Plaut教授的并行分布模型课(parallel distributed processing)的结课论文中,利用Lens搭建了一个循环神经网络(fully recurrent neural network),以对此行为实验进行建模。

在这些研究经历中,我学习并应用了许多技能,包括Python (NLTK library), R, Gephi, jspsych, javaScript, HTML, CSS, Lens等,也对Qualtrics, psiTurkMTurk等心理学线上实验平台有了了解。

打字图片命名实验的素材选择。

我为PDP学期论文搭建的循环神经网络结构示意图。

  1. 一些专业名词的中文释义可能不准确,以英文原意为准。 

  2. 此图中HGLL 代表着相近的类别关系&不同的主题关系(High taxonomic (Global) and Low associative/thematic (Local) similarity),LGHL)则代表了相近的主题关系&不同的类别关系。