Obsidian日历插件全新方法:高效掌握你的时间管理与笔记系统
2026/6/17 5:38:50
通过本章学习,读者应能够:
本章重点在于:
把“现实问题”转化为“人工智能可以处理的问题”。
在实际工作中,数据并不是抽象存在的。
它通常来源于:
例如,在一个简单的健身应用中,系统可能每天记录:
这些记录汇总在一起,就形成了人工智能训练所需的数据。
对人工智能而言,数据就是对现实世界的“数字化描述”。
在人工智能训练中,样本通常表示一次完整记录。
以健身数据为例:
在表格中:
每一行通常就是一个样本。
特征是对样本的描述性信息。
在健身场景中,可能包括:
这些信息本身不是结果,但会影响结果。
标签是模型要学习和预测的对象。
例如:
在训练阶段,标签是已知的;
在预测阶段,标签是未知的。
可以用一句话记住三者关系:
特征是原因,标签是结果,样本是一次完整记录。
importpandasaspd data={'age':[25,30,45,35,50],'exercise_minutes':[30,20,10,40,15],'calories_burned':[300,200,120,380,150],'daily_steps':[8000,6000,3000,10000,4000]}df=pd.DataFrame(data)print(df)输出示意:
age exercise_minutes calories_burned daily_steps 0 25 30 300 8000 1 30 20 200 6000 2 45 10 120 3000 3 35 40 380 10000 4 50 15 150 4000在这个示例中:
样本:每一行(一天的数据)
特征:
ageexercise_minutescalories_burned标签:
daily_steps这是一个预测数值的任务。
X=df[['age','exercise_minutes','calories_burned']]y=df['daily_steps']print(X)print(y)这一步是所有建模工作的起点。
在理解数据后,下一步必须回答一个问题:
模型要预测的“结果”,到底是什么类型?
回归问题的特点是:
常见业务示例:
本章中的健身示例,就是一个典型的回归问题。
分类问题的特点是:
例如:
如果我们将问题改为:
“该用户今天是否达成 8000 步目标?”
那么问题类型就变成了分类问题。
如果问题类型判断错误:
这是人工智能训练师在实际工作中必须首先判断的一步。
可以用以下思路快速判断:
这个判断方法简单,但非常实用。
通过本章学习,应重点掌握:
这些内容将直接影响后续的数据处理和模型训练方式。
请判断下列问题属于哪一类:
第 1 题:
第 2 题: