处理数据缺失的方法
admin
2023-05-20 18:22:36
0

处理数据缺失的方法是什么?这个问题可能是我们日常工作经常见到的。通过这个问题,希望你能收获更多。下面是解决这个问题的步骤内容。

数据缺失是数据科学家在处理数据时经常遇到的问题,本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法,但总有一款更适合当下情况。

我在数据清理与探索性分析中遇到的最常见问题之一就是处理缺失数据。首先我们需要明白的是,没有任何方法能够完美解决这个问题。不同问题有不同的数据插补方法——时间序列分析,机器学习,回归模型等等,很难提供通用解决方案。在这篇文章中,我将试着总结最常用的方法,并寻找一个结构化的解决方法。
插补数据vs删除数据

在讨论数据插补方法之前,我们必须了解数据丢失的原因。
1随机丢失(MARMissing at Random):随机丢失意味着数据丢失的概率与丢失的数据本身无关,而仅与部分已观测到的数据有关。
2完全随机丢失(MCARMissing Completely at Random):数据丢失的概率与其假设值以及其他变量值都完全无关。
3非随机丢失(MNARMissing not at Random):有两种可能的情况。缺失值取决于其假设值(例如,高收入人群通常不希望在调查中透露他们的收入);或者,缺失值取决于其他变量值(假设女性通常不想透露她们的年龄,则这里年龄变量缺失值受性别变量的影响)。

在前两种情况下可以根据其出现情况删除缺失值的数据,而在第三种情况下,删除包含缺失值的数据可能会导致模型出现偏差。因此我们需要对删除数据非常谨慎。请注意,插补数据并不一定能提供更好的结果。

处理数据缺失的方法


删除

列表删除

按列表删除(完整案例分析)会删除一行观测值,只要其包含至少一个缺失数据。你可能只需要直接删除这些观测值,分析就会很好做,尤其是当缺失数据只占总数据很小一部分的时候。然而在大多数情况下,这种删除方法并不好用。因为完全随机缺失(MCAR)的假设通常很难被满足。因此本删除方法会造成有偏差的参数与估计。

处理数据缺失的方法

成对删除

在重要变量存在的情况下,成对删除只会删除相对不重要的变量行。这样可以尽可能保证充足的数据。该方法的优势在于它能够帮助增强分析效果,但是它也有许多不足。它假设缺失数据服从完全随机丢失(MCAR)。如果你使用此方法,最终模型的不同部分就会得到不同数量的观测值,从而使得模型解释非常困难。

处理数据缺失的方法

观测行34将被用于计算ageNaDV1的协方差;观测行234将被用于计算DV1DV2的协方差。

处理数据缺失的方法

删除变量

在我看来,保留数据总是比抛弃数据更好。有时,如果超过60%的观测数据缺失,直接删除该变量也可以,但前提是该变量无关紧要。话虽如此,插补数据总是比直接丢弃变量好一些。

处理数据缺失的方法

以上就是处理数据缺失方法的简略介绍,详细使用情况还需要大家自己亲自动手使用过才能领会。如果想了解更多相关内容,欢迎关注行业资讯频道!

相关内容

热门资讯

文科改名潮:加了“智能”二字,... 过去几年里,“文科无用”“文科就业难”的讨论不断发酵。高校文科专业的变动也频繁且剧烈,据教育部数据,...
赛力斯申请多轴机器人运动轨迹校... 国家知识产权局信息显示,重庆赛力斯凤凰智创科技有限公司申请一项名为“多轴机器人运动轨迹校验方法、装置...
电信运营商开始卖Token,估... 2026年5月17日,中国电信正式推出了全国层面的试商用Token套餐,这标志着运营商的计费模式正从...
史上最大IPO,谁最躺赢? 今年科技IPO的热闹程度是空前的。 Cerebras刚刚在5月14日率先登场,发行价185美元,首日...
当“确定性”出现裂缝:迪拜的枢... 战争降临照片上是一幢写字楼,黑烟正从某一层往外冒,有几层的玻璃窗被完全击碎,窗框还挂着锯齿形的边角—...
视频丨“一部手机走天下” 中国... 从一线城市商圈到县域小店,从夜市摊贩到景区门票,在我们的日常生活中,二维码无处不在,移动支付普及率已...
2026世界电信和信息社会日报... 央广网南宁5月16日消息(记者梁瑜琳)在世界电信和信息社会日即将到来之际,5月15日,2026世界电...
当第一批丁克住进医院,关键时刻... 子女作为父母生命的延续和资源的继承者,自然该承担起养老的重担。而没有子女者住进医院,手术签字、术后付...
原创 他... 2026年5月16号,一张泛黄的老照片在社交媒体上突然翻红。照片的拍摄时间大概在上世纪90年代中期,...
5·17世界电信日|中国电信发... (图片来源:摄图网) 5月17日,为深入推进“人工智能+”行动,中国电信联合生态合作伙伴,发布“网...