spark note

数据清理与转换

  1. 类别数据的编码:有意义的数值
  2. 从文本数据,图像数据,音频数据中提取有用信息
  3. 数值数据转换为类别数据,例如将年龄分段:20-25,26-30
  4. 对数值特征进行转换,数值变量进行对数转换,处理值域比较大的变量
  5. 对特征正则化、标准化,保证同一模型的不同变量的值域相同
  6. 对现有变量进行组合或转换,生成新特征。例如从其他数据求平均数,求用户下单的平均价格。