残缺数据的清洗方法
残缺数据的清洗方法主要包括以下几步:
1. 确定缺失值范围:计算每个字段的缺失值比例,然后根据缺失比例和字段重要性,制定策略。
2. 去除不需要的字段:实际操作非常简单,可以直接删除,但需要提醒您,在清理数据时,每做一步都备份,或者在小规模数据上成功测试,然后处理所有数据。
3. 填充缺失内容:一些缺失值可以通过三种方式被填充,即根据商业知识或经验推测填补缺失值、用相同的指标的计算结果(均值、中位数、众数等)填充缺失值、以不同指标的计算结果填充缺失值。
4. 重新取数:由于某些指标非常重要又缺失率高,那就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。
5. 关联性验证:若您的数据来自多种来源,则必须进行关联验证。如果不关联,这个数据据需要我们清洗。
标签: #科技数码
郑重声明:图文由自媒体作者发布,我们尊重原作版权,但因数量庞大无法逐一核实,图片与文字所有方如有疑问可与我们联系,核实后我们将予以删除。