无监督离散化的常用的无监督的离散化过程
无监督离散化过程划分一个连续变量时,仅考虑这个属性数据的分布特性,而有监督的离散化过程,除此之外还需考虑每一个对象的分类信息。常用的无监督的离散化过程包括:
①等宽区间法;
②等频区间法;
③串分析方法。
有监督的离散化是为了使被离散化属性与分类属性之间的某种关系测度最大化,例如可利用熵测度或信息增益测度(Quinlan,1993;Catlett,1991;Fayyad&Irani,1993)。无监督的离散化算法运行速度快,而有监督的离散化算法由于考虑了分类标识,因而可产生精度较高的离散树。