SQL必知必会(实战:数据清洗)
数据清洗的准则
数据集或多或少地会存在数据质量问题。这⾥我们使⽤泰坦尼克号乘客⽣存预测数据集,你可以从GitHub上下载这个数据集。
数据集格式为 csv,⼀共有两种⽂件:train.csv 是训练数据集,包含特征信息和存活与否的标签;test.csv 是测试数据集,只包含特征信息。
数据集中包括了以下字段,具体的含义如下:
数据存在数据缺失值是⾮常常见的情况,此外我们还需要考虑数据集中某个字段是否存在单位标识不统⼀,数值是否合法,以及数据是否唯⼀等情况。要考虑的情况⾮常多,这⾥我将数据清洗中需要考虑的规则总结为 4 个关键点,统⼀起来称之为“完全合⼀”准则。
好的数据分析师必定是⼀名数据清洗⾼⼿,要知道在整个数据分析过程中,不论是在时间还是功夫上,数据清洗⼤概都占到了 80%。
mysql删除重复的数据保留一条

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。