分类与回归的概念分析

分类 vs 回归:本质区别一句话

两者都属于监督学习,区别只在输出值的类型

  • 回归(Regression):输出是连续数值,预测"多少 / 多大 / 多贵"。

  • 分类(Classification):输出是离散类别,预测"是哪一类 / 是或否"。

用"问句"一眼分辨

问法

任务类型

原因

这房子能卖多少钱

回归

答案是一个数(50 万 / 128 万…连续)

这封邮件是垃圾还是正常

分类

答案是二选一(离散)

明天气温多少

回归

26.5°C 这种连续值

这张图里是猫/狗/鸟

分类

三选一

用户会不会点击这个广告?

分类

会/不会 二分类

用户对这个商品打几分(1-5 星)?

回归

分数是连续区间(严格说 1-5 是离散,但评级预测常按回归做)

模型与目标函数的差别

回归常用模型:线性回归、岭回归、Lasso、GBDT 回归、神经网络回归。

  • 目标:最小化预测值与真实值的差距

  • 损失函数:MSE(均方误差)、MAE(平均绝对误差)

  • 评测:RMSE、R²

分类常用模型:逻辑回归(名字骗人,其实是分类)、SVM、决策树分类、GBDT 分类、Softmax 网络。

  • 目标:把样本分到正确类别

  • 损失函数:交叉熵(Cross Entropy)、Hinge Loss(SVM)

  • 评测:准确率、精确率、召回率、F1、AUC

几个典型例子

回归例子

  1. 房价预测:输入面积、地段、房龄 → 输出价格 325 万

  2. 股价预测:输入历史 K 线 → 输出明天收盘价 18.73

  3. 用电量预估:输入天气、日期 → 输出今日耗电 1240 kWh

分类例子

  1. 垃圾邮件识别:输入邮件文本 → 输出 { spam, ham }

  2. 医疗诊断:输入 CT 特征 → 输出 { 恶性, 良性 }

  3. 手写数字识别(MNIST):输入 28×28 像素 → 输出 {0,1,2,…,9}

  4. 信贷风控:输入用户信息 → 输出 { 违约, 不违约 }

一个容易混的点:逻辑回归为啥叫"回归"却是分类?

历史命名坑。逻辑回归本质是:先算一个线性回归的得分 z=wTx+b,再套一个Sigmoid​ 压到 (0,1) 之间当成概率,最后按阈值(如 0.5)切成两类。

  • 底层用了回归结构,但任务是分类​ → 所以名字里带"回归",实际干的是二分类的活。

💡 判断口诀:看输出是要"一个数"还是要"归个类",别看模型名。

两者还能互相转

  • 回归 → 分类:把连续值分桶。比如预测年龄(回归)转成 {儿童, 青年, 中年, 老年}(分类)。

  • 分类 → 回归:把类别标成序数。比如评分 1-5 星,当回归做也行,当 5 个分类做也行,看业务诉求。