根据文本数据对连续变量进行分组的一般选择？

https://datascience.stackexchange.com/questions/1113

16-10-2019
|

题

我有一个一般的方法论问题。我有两列数据，一列是年龄的数字变量，另一列是一个短字符变量，用于文本响应问题。

我的目标是根据文本响应对年龄变量进行分组（即，为年龄变量创建切点）。我不熟悉进行这种分析的任何一般方法。您会推荐哪些一般方法？理想情况下，我想根据文本响应的语言相似性对年龄变量进行分类。

解决方案

由于这是一般的方法论问题，因此假设我们只有一个基于文本的变量 - 句子中的单词总数。首先，值得 可视化 您的数据。我会假装我有以下数据：

number of words vs. age

在这里，我们看到年龄和响应中单词数之间的略有依赖性。我们可以假设年轻人（大约12至25岁之间）倾向于使用1-4个单词，而25-35岁的人则尝试给出更长的答案。但是，我们如何拆分这些要点？我会这样做：

enter image description here

在2D情节中，它看起来很简单，这就是它在实践中的大多数时间。但是，您要求按单个变量 - 年龄分配数据。也就是说，这样的事情：

enter image description here

这是一个很好的分裂吗？我不知道。实际上，这取决于您的实际需求和对“切点”的解释。这就是为什么我问 具体的 任务。无论如何，这种解释取决于您。

实际上，您将拥有更多基于文本的变量。例如，您可以将每个单词用作功能（别忘了茎或妖精它首先是响应中从零到许多出现的值。可视化高维数据并不是一件容易的事，因此您需要一种在不绘制数据的情况下发现数据组的方法。聚类是为此的一般方法。尽管聚类算法可能与任意维度的数据一起使用，但我们仍然只有2D来绘制它，因此让我们回到我们的示例中。

使用算法 k均值 您可以获得这样的2组：

enter image description here

两个点 - 红色和蓝色 - 显示群集中心，由k均值计算。您可以使用这些点的坐标将数据按任何轴的任何子集拆分，即使您有10K尺寸。但同样，这里最重要的问题是： 哪些语言特征将提供合理的年龄分组.

其他提示

如果我正确理解您，我将尝试一些特征化方法将文本列转换为数字值。然后，您可以照常进行分析。有一本关于NLP的好书叫驯服文字这将提供多种思考文本变量的方法。

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange