我有一个一般的方法论问题。我有两列数据,一列是年龄的数字变量,另一列是一个短字符变量,用于文本响应问题。

我的目标是根据文本响应对年龄变量进行分组(即,为年龄变量创建切点)。我不熟悉进行这种分析的任何一般方法。您会推荐哪些一般方法?理想情况下,我想根据文本响应的语言相似性对年龄变量进行分类。

有帮助吗?

解决方案

由于这是一般的方法论问题,因此假设我们只有一个基于文本的变量 - 句子中的单词总数。首先,值得 可视化 您的数据。我会假装我有以下数据:

number of words vs. age

在这里,我们看到年龄和响应中单词数之间的略有依赖性。我们可以假设年轻人(大约12至25岁之间)倾向于使用1-4个单词,而25-35岁的人则尝试给出更长的答案。但是,我们如何拆分这些要点?我会这样做:

enter image description here

在2D情节中,它看起来很简单,这就是它在实践中的大多数时间。但是,您要求按单个变量 - 年龄分配数据。也就是说,这样的事情:

enter image description here

这是一个很好的分裂吗?我不知道。实际上,这取决于您的实际需求和对“切点”的解释。这就是为什么我问 具体的 任务。无论如何,这种解释取决于您。

实际上,您将拥有更多基于文本的变量。例如,您可以将每个单词用作功能(别忘了 茎或妖精 它首先是响应中从零到许多出现的值。可视化高维数据并不是一件容易的事,因此您需要一种在不绘制数据的情况下发现数据组的方法。 聚类 是为此的一般方法。尽管聚类算法可能与任意维度的数据一起使用,但我们仍然只有2D来绘制它,因此让我们回到我们的示例中。

使用算法 k均值 您可以获得这样的2组:

enter image description here

两个点 - 红色和蓝色 - 显示群集中心,由k均值计算。您可以使用这些点的坐标将数据按任何轴的任何子集拆分,即使您有10K尺寸。但同样,这里最重要的问题是: 哪些语言特征将提供合理的年龄分组.

其他提示

如果我正确理解您,我将尝试一些特征化方法将文本列转换为数字值。然后,您可以照常进行分析。有一本关于NLP的好书叫 驯服文字 这将提供多种思考文本变量的方法。

许可以下: CC-BY-SA归因
scroll top