分析式AI算法（小模型）概览与应用实操

一、概述

大模型能力虽强，但它也并不是万能的：

首先，如果对数据安全有要求，就需要本地部署，本地部署如果要效果好，需要尽可以部署满血版，这样资源消耗会比较大；
如果在本地部署蒸馏版本，那么对应用效果就需要降低预期；
再次，一些特定场景用小模型应用效果会更好，比如量化交易，二手车价格预测，动态图像识别等。

分析式AI与生成式AI的区别：

分析式AI与生成式AI并不完全冲突：

一方面，我们可以通过生成式AI的代码生成能力轻松的将分析式AI的模型打造出来；
另一方面，智能体（Agent）非常依赖插件打造，大模型可以理解应用的上下文，决定在什么时候可以去调用工具（插件），这里的插件有时就是一个小模型（如量化交易，医疗诊断）。

二、机器学习的概要介绍

早期的时候我通过Coursera的《Machine Learning》《Deep Learning》已经比较深入的学习过机器学习相关原理内容。所以这里主要站在当前大环境下，站在一个比较宏观的角度去简要的看一下机器学习相关的内容，以及怎么去应用它们。

1、10大经典模型

如果我们要让生成式AI帮我们写代码实现一个功能，需要知道我们要用的算法名称是什么，算法适用场景，对算法有大致的了解。

关于机器学习模型的10大经典模型如下：

分类算法（事先有人类确定好的固定的类型标签，需要人为标注）：C4.5，朴素贝叶斯（Naive Bayes），SVM，KNN， Adaboost，CART
聚类算法（机器把有相似特性的目标进行自动的划分，不需要人为标注）：K-Means，EM
关联分析（目标之间的关系）：Apriori
连接分析（影响力分析）：PageRank

2、机器学习算法工具包

机器学习的应用实际是调各类包，把数据喂给模型，适当调整部分参数。对于给定任务，同类型算法，到底哪类算法更好，现在有AI编程的情况下，可以都去尝试一下，对比哪个效果更好。

3、机器学习概览

机器学习包括监督学习，无监督学习，半监督学习，强化学习。

符号学派，认为事情都是有因果的，机器可以自己摸索出规律，典型代表为决策树
贝叶斯学派，因果之间不是必然发生，是有一定概率的，即P(A|B)，典型代表为朴素贝叶斯
类推学派，通过类比可以让我们学习到很多未知的知识，所以我们需要先定义“相似度”，通过相似度进行发现
联结学派，模仿人脑神经元的工作原理，所有模式识别和记忆建立在神经元的不同连接方式上，典型代表为神经网络，深度学习
进化学派，上帝通过基因选择来适者生存，典型代表为遗传算法

4、分类与回归的区别

分类与回归是监督学习中的两大核心任务，二者既有联系又有区别。

输出类型

分类：预测离散类别标签（如“男/女”、“是/否”）。

回归：预测连续数值（如房价、资产金额）。

目标函数

分类常用交叉熵损失（Cross-Entropy），回归常用均方误差（MSE）。

概率视角

分类的输出可视为类别的概率（如逻辑回归），而回归可通过阈值处理转化为分类（如预测概率>0.5为一类）。

模型共享

某些模型（如朴素贝叶斯、决策树、SVM、逻辑回归、神经网络）通过调整输出层即可切换任务：

分类：Softmax输出离散概率。

回归：线性输出连续值。

问题转化

回归问题可离散化为分类（如年龄预测→年龄段分类）。某些分类任务（如有序分类）可视为回归的离散特例。

有序分类的类别具有明确的顺序关系（如“差/中/好”、“1~5星评分”），类别标签不仅是符号，还隐含了连续的潜在变量。

分类与回归的本质共性

均为从输入数据中学习映射关系 f(X)→Y，核心目标是最小化预测与真实值的差异。

分类与回归是监督学习的一体两面，区别在于输出空间的性质，但二者共享模型框架和优化思想。实际应用中常相互转化或结合（如回归后分类）。

三、分析式AI应用实践-附数据

本文的分析式AI应用实践案例是一个二手车价格预测的问题，这是一个线性回归问题。

ToDo：

给你一辆车的各个属性（除了price字段），预测它的价格

我们具备的数据集包括以下两个文件，数据来自某交易平台的二手车交易记录。训练集大概有15000条训练数据，数据中也有些噪声数据。在实践中需要对数据进行处理。测试集的数据没有价格，需要通过算法进行预测

测试集的数据项描述如下：

评价标准MAE(Mean Absolute Error)：

本例中MAE小于500元，即认为算法合格。

下面我们利用AI编程来实现算法，我用的腾讯的CodeBuddy，官网下载安装即可，自带IDE，CodeBuddy也可以以插件的形式集成到VS Code中。（如果大家有其它AI编程工具也是OK的）

Step1，新建一个项目目录，把数据放到项目目录下

Step2，数据加载，原始数据是用空格分隔，输入提示词：

编写Python代码，读取used_car_train_20200313.csv和used_car_testB_20200421.csv的前5行数据，显示全部列

将这些数据表的字段，写入到.md

Step3，数据拆分，从训练集中随机拆分出20%的数据作为验证集

从used_car_train_20200313.csv中随机切分出20%的数据存入used_car_validation.csv中，作为模型验证集

Step4，数据探索，数据整体情况，查看缺失值，缺失值可视化，查看label的分布（该项目中price为label）

帮我进行EDA

Step4，特征选择，分析与二手车价格强相关的特征，结合EDA分析结果，对特征进行二次加工。

帮我对价格进行对数变换，过滤缺失值和异常值

Step5，模型训练，可以分别尝试使用决策树、随机森林RF、朴素贝叶斯、XGBoost、SVM、线性回归等，分别进行对比，看哪个模型的MAE更小。

去掉SaleID以及model、brand、name、regionCode，使用XGBoost构建price预测模型

使用验证集对模型进行验证，看看模型的MAE，如果模型预测的price进行了对数变换，在输出结果进行MAE计算时需要进行反变换

如果对MAE效果不满意，比如发现预测误差过大，可以再让AI对模型参数进行调整

使用更多的训练轮数，更小的学习率，加入早停法，此外你看下特征工程还有哪些需要优化的，重新对模型进行训练，并用验证集验证MAE

Step6，模型预测，得到Price，并写入指定的格式，格式保持与used_car_sample_submit.csv一致

使用训测试集进行预测得到price，写入到.csv，表头是SaleID, price

注：也可以试着用决策树模型或者CatBoost来预测试试，进行效果对比。