创建挖掘结构时,通过选择外部数据的列,然后指定数据用于建模的方式,定义挖掘结构中的列。 因此,挖掘结构列不仅仅是数据源中的数据副本:它们定义挖掘模型如何使用来自源的数据。 可以分配用于确定如何离散化数据的属性、描述如何分布数据值的属性
挖掘结构列设计为灵活且可扩展,因为用于生成挖掘模型的每个算法都可以使用结构中的不同列来解释数据。 与其为每个模型创建一组数据,不如使用单个挖掘结构,并使用其中的列来定制每个模型的数据。
定义挖掘结构列
定义结构列的基本数据类型和内容类型派生自用于创建结构的数据源。 可以在挖掘结构中更改这些设置,还可以设置建模标志并设置连续列的分布。
挖掘结构列的定义必须包含以下信息:
ID:列的唯一名称,通常与名称相同。 在创建挖掘结构后,这部分无法更改,但名称可以更改。
名称:列的名称或别名。
内容:描述数据是离散还是连续的枚举。
类型:指示常规数据类型的枚举。
分布:描述值的预期分布的枚举。 如果列是连续的,则包含分布。
建模标志:一个枚举,指示如何处理缺失值等。 也可以对挖掘模型定义建模标志,但模型标志不同于结构列上使用的标志。
绑定:指定源数据的属性。
第三方算法还可以包括可在挖掘结构列上定义的自定义属性。
有关数据挖掘结构和数据挖掘模型的详细信息,请参阅挖掘结构(Analysis Services - 数据挖掘)。
相关内容
有关如何定义和使用挖掘结构列的详细信息,请参阅以下主题。
主题 | 链接 |
---|---|
描述可用于定义挖掘结构列的数据类型。 | 数据类型(数据挖掘) |
描述可用于挖掘结构列中包含的每种类型的数据的内容类型。 内容类型依赖于数据类型。 内容类型在模型级别分配,并确定模型如何使用列数据。 | 内容类型(数据挖掘) |
介绍嵌套表的概念,并说明如何将嵌套表作为挖掘结构列添加到数据源。 | 分类列 (数据挖掘) |
列出并说明可以在挖掘结构列上设置的分布属性,以指定列中值的预期分布。 | 列分布 (数据挖掘) |
解释离散化(有时也称为装箱)的概念,并描述了 Analysis Services 提供的用于离散化连续数值数据的方法。 | 离散化方法 (数据挖掘) |
描述可以在挖掘结构列上设置的建模参数。 | 建模标志 (数据挖掘) |
描述分类列,这是一种特殊的列类型,可用于将一个挖掘结构列与另一个挖掘结构列相关联。 | 分类列 (数据挖掘) |
了解如何添加和修改挖掘结构列。 | 数据挖掘结构任务和指南 |