博客
关于我
自然划分的3-4-5规则
阅读量:295 次
发布时间:2019-03-03

本文共 769 字,大约阅读时间需要 2 分钟。

自然划分的3-4-5规则常被用来将数值数据(连续型数据)划分为相对一致、更自然的区间, 规则的划分步骤:

(1) 如果一个区间最高有效位上包含3,6,7或9个 不同的值,就将该区间划分为3个等宽子区间; (为7的话,划分成 2,3,2的宽度比例) ;

(2) 如果一个区间最高有效位上包含2,4,或8个不 同的值,就将该区间划分为4个等宽子区间;

(3) 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;

将该规则递归的应用于每个子区间,产生给定数值属性的概念分层

对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。 如 选择5%-95%的数据,再进行以上规则的划分。

实例1:如某公司的销售增量在 -180~383之间,采用该规则进行划分如下,首先取定一个整的左闭右开的区间

向下取整-180 是 -200 ,向上取整383是400

[-200,400)。最高位是百分位,最高有效位有-2、-1、1、2、3,4一共6个,分成3个等宽区间 (注意0的情况)

a1 [-200,0)             a2 [0,200)              a3[200,400)

再划分每个区间的最高有效位是2个,子区间划分4个

a1 [-200,0)             a2 [0,200)              a3[200,400)

     a11[-200,-150)          a21[0,50)               a31[200,250)

      a12[-150,-100)          a22[50,100)            a32[250,300)

      a13[-100,-50)            a23[100,150)          a33[300,350)

      a14[-50,0)                  a24[150,200)          a34[350,400)

      

 a14[-50,0)                a24[150,200)          a34[350,400)

 

转载地址:http://vndq.baihongyu.com/

你可能感兴趣的文章
CentOS 8 已下载ntpdate 却无法使用crond进行时间同步
查看>>
Mybatis的这些坑!把我坑惨了!
查看>>
在 IntelliJ IDEA 中使用 Git,太方便了!
查看>>
7 个显著提升编码效率的IntelliJ IDEA必备插件
查看>>
企业API接口设计之token、timestamp、sign具体实现
查看>>
不懂别瞎搞!Redis 性能优化的 13 条军规!
查看>>
卸载 Navicat!事实已证明,正版客户端,它更牛逼……
查看>>
想彻底了解maven,有这篇文章足够了(中)
查看>>
Intellij IDEA 一些让人爱不释手的小技巧
查看>>
idea连接服务器远程调试(Dockerfile版)
查看>>
ElasicJob分布式定时任务
查看>>
feign调用上传文件接口(MultipartFile)
查看>>
centos 文件格式不对执行报错 || centos查看或者修改文件格式
查看>>
win锁屏界面用户名修改
查看>>
Java设计模式 —— 桥接模式(Bridge)
查看>>
计算机三级 信息安全技术历年真题(二)总共十套 3月底之前更完
查看>>
详解: 最小生成树
查看>>
[编程题]:n头牛中选择满足所有m种特性的牛(百度2021)
查看>>
Redis中的删除策略和逐出算法
查看>>
Redis的持久化策略RDB和AOF
查看>>