返回文章列表
AI

分析式AI算法(小模型)概览与应用实操

米一
2025-12-04
6天前
分析式AI算法(小模型)概览与应用实操

一、概述

大模型能力虽强,但它也并不是万能的:

  • 首先,如果对数据安全有要求,就需要本地部署,本地部署如果要效果好,需要尽可以部署满血版,这样资源消耗会比较大;
  • 如果在本地部署蒸馏版本,那么对应用效果就需要降低预期;
  • 再次,一些特定场景用小模型应用效果会更好,比如量化交易,二手车价格预测,动态图像识别等。

分析式AI与生成式AI的区别:

分析式AI与生成式AI并不完全冲突:

  • 一方面,我们可以通过生成式AI的代码生成能力轻松的将分析式AI的模型打造出来;
  • 另一方面,智能体(Agent)非常依赖插件打造,大模型可以理解应用的上下文,决定在什么时候可以去调用工具(插件),这里的插件有时就是一个小模型(如量化交易,医疗诊断)。

二、机器学习的概要介绍

早期的时候我通过Coursera的《Machine Learning》《Deep Learning》已经比较深入的学习过机器学习相关原理内容。所以这里主要站在当前大环境下,站在一个比较宏观的角度去简要的看一下机器学习相关的内容,以及怎么去应用它们。

1、10大经典模型

如果我们要让生成式AI帮我们写代码实现一个功能,需要知道我们要用的算法名称是什么,算法适用场景,对算法有大致的了解。

关于机器学习模型的10大经典模型如下:

  • 分类算法(事先有人类确定好的固定的类型标签,需要人为标注):C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN, Adaboost,CART
  • 聚类算法(机器把有相似特性的目标进行自动的划分,不需要人为标注):K-Means,EM
  • 关联分析(目标之间的关系):Apriori
  • 连接分析(影响力分析):PageRank

2、机器学习算法工具包

机器学习的应用实际是调各类包,把数据喂给模型,适当调整部分参数。对于给定任务,同类型算法,到底哪类算法更好,现在有AI编程的情况下,可以都去尝试一下,对比哪个效果更好。

3、机器学习概览

机器学习包括监督学习,无监督学习,半监督学习,强化学习。

  • 符号学派,认为事情都是有因果的,机器可以自己摸索出规律,典型代表为决策树
  • 贝叶斯学派,因果之间不是必然发生,是有一定概率的,即P(A|B),典型代表为朴素贝叶斯
  • 类推学派,通过类比可以让我们学习到很多未知的知识,所以我们需要先定义“相似度”,通过相似度进行发现
  • 联结学派,模仿人脑神经元的工作原理,所有模式识别和记忆建立在神经元的不同连接方式上,典型代表为神经网络,深度学习
  • 进化学派,上帝通过基因选择来适者生存,典型代表为遗传算法

4、分类与回归的区别

分类与回归是监督学习中的两大核心任务,二者既有联系又有区别。

  • 输出类型

分类:预测离散类别标签(如“男/女”、“是/否”)。

回归:预测连续数值(如房价、资产金额)。

  • 目标函数

分类常用交叉熵损失(Cross-Entropy),回归常用均方误差(MSE)。

  • 概率视角

分类的输出可视为类别的概率(如逻辑回归),而回归可通过阈值处理转化为分类(如预测概率>0.5为一类)。

  • 模型共享

某些模型(如朴素贝叶斯、决策树、SVM、逻辑回归、神经网络)通过调整输出层即可切换任务:

分类:Softmax输出离散概率。

回归:线性输出连续值。

  • 问题转化

回归问题可离散化为分类(如年龄预测→年龄段分类)。 某些分类任务(如有序分类)可视为回归的离散特例。

有序分类的类别具有明确的顺序关系(如“差/中/好”、“1~5星评分”),类别标签不仅是符号,还隐含了连续的潜在变量。

  • 分类与回归的本质共性

均为从输入数据中学习映射关系 f(X)→Y,核心目标是最小化预测与真实值的差异。

分类与回归是监督学习的一体两面,区别在于输出空间的性质,但二者共享模型框架和优化思想。 实际应用中常相互转化或结合(如回归后分类)。

三、分析式AI应用实践-附数据

本文的分析式AI应用实践案例是一个二手车价格预测的问题,这是一个线性回归问题。

ToDo:

给你一辆车的各个属性(除了price字 段),预测它的价格

我们具备的数据集包括以下两个文件,数据来自某交易平台的二手车交易记录。训练集大概有15000条训练数据,数据中也有些噪声数据。在实践中需要对数据进行处理。测试集的数据没有价格,需要通过算法进行预测

测试集的数据项描述如下:

评价标准MAE(Mean Absolute Error):

本例中MAE小于500元,即认为算法合格。

下面我们利用AI编程来实现算法,我用的腾讯的CodeBuddy,官网下载安装即可,自带IDE,CodeBuddy也可以以插件的形式集成到VS Code中。(如果大家有其它AI编程工具也是OK的)

  • Step1,新建一个项目目录,把数据放到项目目录下
  • Step2,数据加载,原始数据是用空格分隔,输入提示词:
编写Python代码,读取used_car_train_20200313.csv和used_car_testB_20200421.csv的前5行数据,显示全部列
将这些数据表的字段,写入到.md


  • Step3,数据拆分,从训练集中随机拆分出20%的数据作为验证集
从used_car_train_20200313.csv中随机切分出20%的数据存入used_car_validation.csv中,作为模型验证集


  • Step4,数据探索,数据整体情况,查看缺失值,缺失值可视化,查看label的分布(该项目中price为label)
帮我进行EDA
  • Step4,特征选择,分析与二手车价格强相关的特征,结合EDA分析结果,对特征进行二次加工。
帮我对价格进行对数变换,过滤缺失值和异常值
  • Step5,模型训练,可以分别尝试使用决策树、随机森林RF、朴素贝叶斯、XGBoost、SVM、线性回归等,分别进行对比,看哪个模型的MAE更小。
去掉SaleID以及model、brand、name、regionCode,使用XGBoost构建price预测模型
使用验证集对模型进行验证,看看模型的MAE,如果模型预测的price进行了对数变换,在输出结果进行MAE计算时需要进行反变换

如果对MAE效果不满意,比如发现预测误差过大,可以再让AI对模型参数进行调整

使用更多的训练轮数,更小的学习率,加入早停法,此外你看下特征工程还有哪些需要优化的,重新对模型进行训练,并用验证集验证MAE
  • Step6,模型预测,得到Price,并写入指定的格式,格式保持与used_car_sample_submit.csv一致
使用训测试集进行预测得到price,写入到.csv,表头是SaleID, price

注:也可以试着用决策树模型或者CatBoost来预测试试,进行效果对比。

本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。

分享文章
合作伙伴

本站所有广告均是第三方投放,详情请查询本站用户协议