拒绝无效复盘：你的运营数据，可能从一开始就洗错了（实验7-1）-酒店常州论坛

2.7 实验七：自媒体运营分析

数据清洗与预处理 + 作品特征构建 + 可视化探索

本实验围绕班级自媒体作品运营数据展开，实验内容由三个连续部分组成：第一部分为数据清洗与预处理，主要完成原始数据导入、平台筛选、缺失值处理、字段整理和目标表输出；第二部分为作品特征构建，主要计算互动总数，并从作品标题中提取关键词特征；第三部分为可视化探索，主要基于前两个实验生成的数据表，在助睿BI中制作指标卡、排名图、标题影响分析图和趋势图，最终形成自媒体运营分析仪表盘。

三个实验之间具有明显的递进关系：实验7-1解决“数据能不能用”的问题，实验7-2解决“数据能不能进一步分析”的问题，实验7-3解决“分析结果如何展示和解释”的问题。整体流程为：原始数据进入助睿ETL后，先输出全平台概况表和重点平台内容分析表，再在内容分析表中补充互动指标和标题特征，最后将结果导入助睿BI完成可视化展示

2.7.1 实验7-1：自媒体运营分析——数据清洗与预处理

一、实验目的

本实验基于全班同学在多个自媒体平台发布作品后形成的互动数据，使用助睿ETL完成数据清洗与预处理。原始数据中包含B站、CSDN、微信、知乎、小红书等多个平台的作品记录，但不同平台的数据完整程度不同，部分平台存在浏览数量为0、互动字段缺失或无效记录较多的情况。因此，在正式进行作品分析之前，需要先对原始数据进行整理。

本实验的主要目标是通过助睿ETL完成多源数据的过滤、填充、聚合和字段筛选，并输出两张核心数据表。一张是全平台概况数据表summary_all_platforms，用于后续展示全平台作品数量、总浏览量和总互动情况；另一张是内容分析表content_analysis，用于保存B站和CSDN的有效作品明细数据，并作为实验7-2作品特征构建的基础数据。实验手册中也强调，本部分需要使用“分支处理”思路，将全平台概况统计与重点平台深度分析分开处理。

二、实验环境

项目	内容
实验平台	助睿在线实验平台
数据处理工具	助睿ETL
数据来源	自媒体作品数据明细.csv
主要处理方式	数据导入、排序、分组、过滤、缺失值填充、字段选择、表输出
输出结果	`summary_all_platforms`、`content_analysis`

三、核心设计思路

原始数据不能直接用于后续分析，主要原因包括以下几点：第一，平台较多，但并不是所有平台都具有完整的浏览数据；第二，部分作品浏览数量、点赞数量、收藏数量等指标可能为0或存在空值；第三，后续可视化既需要展示全平台整体情况，又需要对B站和CSDN进行重点分析，因此不能简单地只保留某一类数据。

因此，本实验采用双分支处理方式：

分支	处理目标	处理方式	输出表
分支1	生成全平台概况数据	按日期和平台分组，对数值字段求和	`summary_all_platforms`
分支2	生成重点平台有效明细数据	只保留B站和CSDN，且浏览数量大于0的记录，再进行缺失值填充和字段筛选	`content_analysis`

四、目标表设计

1. 全平台概况表：`summary_all_platforms`

该表用于保存所有平台的汇总数据，不对平台进行筛选，主要服务于后续仪表盘中的全平台指标卡。

字段名	类型	说明
`crawl_date`	DATE	采集日期
`platform`	VARCHAR(20)	平台名称
`content_count`	INT	作品数量
`total_views`	INT	总浏览数
`total_likes`	INT	总点赞数
`total_favorites`	INT	总收藏数
`total_shares`	INT	总分享数
`total_coins`	INT	总投币数，仅B站使用
`total_recommend`	INT	总推荐数，仅微信使用
`total_likes_zhihu`	INT	总喜欢数，仅知乎使用
`total_approvals`	INT	总赞同数，仅知乎使用

这张表保留所有平台数据，目的是展示整体分发情况。不同平台的特色互动指标不强行合并，例如B站的投币、微信的推荐、知乎的赞同含义不同，因此分别保留为独立字段，更便于后续解释。

2. 内容分析表：`content_analysis`

该表用于保存B站和CSDN的有效作品明细，是实验7-2和实验7-3的重要基础表。

字段名	类型	说明
`date`	DATE	采集日期
`author_name`	VARCHAR(100)	作者昵称
`title`	VARCHAR(500)	作品标题
`platform`	VARCHAR(20)	平台，主要为B站或CSDN
`likes`	INT	点赞数
`favorites`	INT	收藏数
`shares`	INT	分享数
`coins`	INT	投币数，仅B站使用
`views`	INT	播放量或阅读量
`url`	VARCHAR(500)	作品链接
`total_interaction`	INT	互动总数，实验7-2中计算
`has_best`	TINYINT(1)	是否包含“保姆级”
`has_lowcode`	TINYINT(1)	是否包含“零代码”
`has_practice`	TINYINT(1)	是否包含“实战”
`has_tutorial`	TINYINT(1)	是否包含“教程”或“指南”
`has_pit`	TINYINT(1)	是否包含“踩坑”

其中，total_interaction和五个标题特征字段在实验7-1中先作为预留字段，具体数值会在实验7-2中通过计算器组件和JavaScript代码组件生成。(community)

五、实验步骤

步骤1：导入原始数据

首先，将实验提供的自媒体作品数据明细.csv文件从公共空间复制到个人文件库中，然后在助睿ETL中作为数据源导入。导入后需要查看数据预览，确认字段是否完整，例如日期、作者名称、作品标题、平台、浏览数量、点赞数量、收藏数量、分享数量、投币数量、作品链接等字段是否能够正常读取。

步骤2：全平台聚合统计

为了保留所有平台的整体发布情况，需要在数据清洗前单独建立一个分支，对全平台数据进行汇总。该分支使用“排序记录”和“分组”组件，按照日期和平台进行排序、分组，并对所有数值字段进行求和。处理完成后，将结果输出到summary_all_platforms表中。

配置项	设置内容
分组字段	日期、平台
聚合方式	对浏览数量、点赞数量、收藏数量、分享数量、投币数量等数值字段求和
输出表	`summary_all_platforms`
作用	支撑仪表盘顶部的全平台概况指标卡

步骤3：过滤重点平台有效记录

在第二条分支中，需要对原始数据进行过滤，只保留B站和CSDN两个平台中浏览数量大于0的有效记录。由于微信、知乎、小红书等平台的浏览数量大量为0，难以支撑后续深度分析，因此本实验只针对B站和CSDN进行重点平台分析。

过滤条件如下：

(平台 = 'B站' AND 浏览数量 > 0) OR (平台 = 'CSDN' AND 浏览数量 > 0)

该条件同时完成了两个任务：一是筛选平台，只保留B站和CSDN；二是筛选有效记录，只保留已经产生浏览行为的作品。

步骤4：填充缺失值

经过筛选后，需要继续处理字段中的空值。由于作者名称、作品标题等字段后续会用于分组、标题关键词识别和图表展示，如果存在空值，可能导致后续处理异常。因此，需要使用“填充缺失值”组件对空值进行统一处理。

字段类型	处理方式	目的
文本字段	填充为默认值，如“未知”或空字符串	避免分组和标题识别异常
数值字段	按实际情况填充为0或保留已有数值	避免后续计算时报错
标题字段	保证不为空	支撑实验7-2关键词特征提取

步骤5：字段选择

原始数据中可能存在一些与分析无关的辅助字段，例如source_file，该字段主要用于表示采集批次，在后续分析中作用不大，因此可以剔除。通过“字段选择”组件，只保留后续实验需要使用的核心字段。

保留字段如下：

date, author_name, title, platform, likes, favorites, shares, coins, views, url

保留字段	说明
`date`	用于趋势分析
`author_name`	用于学生排名分析
`title`	用于作品排名和标题特征提取
`platform`	用于区分B站和CSDN
`likes`	点赞数
`favorites`	收藏数
`shares`	分享数
`coins`	投币数，B站特有
`views`	播放量或阅读量
`url`	作品链接

步骤6：输出目标表

最后，将清洗后的重点平台作品明细数据输出到content_analysis表中。运行转换流后，需要进行数据探查，检查输出结果是否符合要求。

检查重点包括：

检查内容	判断标准
平台筛选是否正确	只包含B站和CSDN
浏览数量是否有效	`views > 0`
字段是否完整	核心字段均已保留
空值是否处理	作者、标题等字段无明显异常
是否保留日期	日期字段可用于后续趋势分析

六、实验结果分析

通过本实验，原始自媒体运营数据被整理为两张结构清晰、用途不同的数据表。summary_all_platforms保存全平台聚合结果，能够用于展示全班作品发布规模、平台覆盖情况和整体浏览互动情况；content_analysis保存B站和CSDN的有效作品明细，能够用于后续计算互动指标、提取标题特征和制作排名图表。

本实验的关键在于分支处理。全平台概况统计不删除平台数据，保证整体指标完整；重点平台分析则通过过滤条件去除无效记录，使后续分析更加准确。经过清洗与预处理后，数据结构更加规范，也为后续特征工程和可视化分析奠定了基础。

基于这些特点，本实验的可视化分析重点如下：

分析维度	分析目标	核心问题
核心指标	了解整体数据情况	整体表现如何？
排名分析	对比学生和作品之间的差异	谁做得好？什么内容表现好？
标题影响	量化标题关键词对互动效果的影响	什么标题更有效？
趋势分析	观察数据随时间变化	流量是否持续增长？

三、仪表盘布局思路

本实验仪表盘采用“先总后分、左右对照”的布局方式。

区域	内容	作用
顶部	核心指标卡	快速展示整体情况
中部左侧	B站排名、标题分析、趋势图	展示视频平台表现
中部右侧	CSDN排名、标题分析、趋势图	展示图文平台表现
底部	趋势或补充分析图表	观察时间变化和长尾效果

整体阅读路径为：先通过指标卡建立整体认知，再通过排名图发现表现差异，然后通过标题影响分析定位原因，最后通过趋势图观察数据变化规律。

【截图位置2.7.3-2：仪表盘布局草图或整体规划截图】

四、实验步骤

步骤1：连接数据源

进入助睿BI平台后，选择前面实验已经生成的数据表。由于团队私有数据库数据源通常已经完成连接，因此本实验可以直接使用实验7-1和实验7-2输出的结果表。

【截图位置2.7.3-3：进入助睿BI平台截图】

步骤2：构建数据集

本实验需要创建三个数据集。

数据集	来源表	主要用途
全平台概况数据集	`summary_all_platforms`	制作全平台作品总数、平台数、总浏览数、总互动数等指标卡
重点平台深度分析数据集	`content_analysis`	制作B站和CSDN的学生排名、作品排名、趋势分析
标题关键词互动数据集	`title_feature_analysis`	制作标题关键词平均互动数和提升倍率图

【截图位置2.7.3-4：创建summary_all_platforms数据集截图】

【截图位置2.7.3-5：创建content_analysis数据集截图】

【截图位置2.7.3-6：创建title_feature_analysis数据集截图】

步骤3：制作核心指标卡

指标卡用于展示最关键的总体数据，使读者能够快速了解全班自媒体作品的整体运营情况。根据实验手册，本部分指标卡分为全平台概况和重点平台概况两类。(community)

图表	数据集	配置方法	解读要点
全平台作品数	全平台概况数据集	对作品数量求和	展示全班共采集了多少作品
分发平台数	全平台概况数据集	对平台进行去重计数	展示数据覆盖了几个平台
全平台总浏览数	全平台概况数据集	对浏览数量求和	展示全平台流量规模
全平台总互动数	全平台概况数据集	对互动数量求和或使用计算字段	展示整体互动水平
B站作品数	全平台概况数据集	筛选平台=B站，统计作品数	展示B站内容体量
CSDN作品数	全平台概况数据集	筛选平台=CSDN，统计作品数	展示CSDN内容体量
B站总播放量	全平台概况数据集	筛选平台=B站，对浏览数量求和	展示B站总流量
CSDN总阅读量	全平台概况数据集	筛选平台=CSDN，对浏览数量求和	展示CSDN总流量

【截图位置2.7.3-7：全平台作品数指标卡截图】

【截图位置2.7.3-8：分发平台数指标卡截图】

【截图位置2.7.3-9：全平台总浏览数和总互动数指标卡截图】

【截图位置2.7.3-10：B站和CSDN核心指标卡截图】

步骤4：制作排名分析图表

排名图表主要用于回答“谁做得好”和“什么内容表现好”这两个问题。学生排名侧重观察个人整体运营水平，作品排名侧重发现单篇爆款内容。

图表	数据集	配置方法	解读要点
B站学生平均播放量排名TOP10	重点平台深度分析数据集	筛选平台=B站；维度=作者名称；指标=平均值(浏览数量)；降序排序；限额10	找出B站整体运营表现较好的学生
B站作品播放量排名TOP10	重点平台深度分析数据集	筛选平台=B站；维度=作品标题；指标=浏览数量；降序排序；限额10	找出B站单篇播放量较高的作品
CSDN学生平均阅读量排名TOP10	重点平台深度分析数据集	筛选平台=CSDN；维度=作者名称；指标=平均值(浏览数量)；降序排序；限额10	找出CSDN整体阅读表现较好的学生
CSDN作品阅读量排名TOP10	重点平台深度分析数据集	筛选平台=CSDN；维度=作品标题；指标=浏览数量；降序排序；限额10	找出CSDN单篇阅读量较高的作品

通过学生排名和作品排名结合分析，可以先找到表现突出的学生，再进一步查看其具体作品标题、平台和互动情况，从而总结可借鉴的运营经验。

【截图位置2.7.3-11：B站学生平均播放量TOP10图表截图】

【截图位置2.7.3-12：B站作品播放量TOP10图表截图】

【截图位置2.7.3-13：CSDN学生平均阅读量TOP10图表截图】

【截图位置2.7.3-14：CSDN作品阅读量TOP10图表截图】

步骤5：制作标题影响分析图表

标题影响分析是本实验中较有业务价值的部分。由于作品内容较为接近，标题写法可能成为影响点击和互动的重要因素。实验7-2已经生成了title_feature_analysis表，因此本实验可以直接使用该表分析不同关键词的互动效果。

标题关键词提升倍率计算公式为：

提升倍率 = avg_interaction / overall_avg

如果提升倍率大于1，说明包含该关键词的作品平均互动数高于整体平均水平；如果提升倍率小于1，则说明包含该关键词的作品互动效果低于整体平均水平。

图表	数据集	配置方法	解读要点
B站标题特征提升倍率条形图	标题关键词互动数据集	筛选平台=B站；计算`avg_interaction / overall_avg`；按关键词展示	找出B站较有效的标题关键词
B站标题特征对比柱状图	标题关键词互动数据集	筛选平台=B站；展示各关键词平均互动数，并设置整体平均互动水平线	比较不同关键词的平均互动差异
CSDN标题特征提升倍率条形图	标题关键词互动数据集	筛选平台=CSDN；计算`avg_interaction / overall_avg`；按关键词展示	找出CSDN较有效的标题关键词
CSDN标题特征对比柱状图	标题关键词互动数据集	筛选平台=CSDN；展示各关键词平均互动数，并设置整体平均互动水平线	比较不同关键词在CSDN中的效果

【截图位置2.7.3-15：B站标题特征提升倍率条形图截图】

【截图位置2.7.3-16：B站标题特征平均互动数对比图截图】

【截图位置2.7.3-17：CSDN标题特征提升倍率条形图截图】

【截图位置2.7.3-18：CSDN标题特征平均互动数对比图截图】

步骤6：制作趋势分析图表

趋势分析用于观察播放量或阅读量随采集日期的变化情况。需要注意的是，这里的日期是采集日期，不一定是作品发布时间。因此，趋势图展示的是截至某个采集日期，平台作品累计播放量或阅读量的变化。

图表	数据集	配置方法	解读要点
B站每日播放量趋势折线图	重点平台深度分析数据集	筛选平台=B站；维度=日期；指标=求和(浏览数量)	展示B站累计流量变化趋势
CSDN每日阅读量趋势折线图	重点平台深度分析数据集	筛选平台=CSDN；维度=日期；指标=求和(浏览数量)	展示CSDN累计阅读量变化趋势

趋势图的解读重点包括曲线是否持续上升、是否出现拐点、是否趋于平稳。如果曲线持续上升，说明作品可能存在持续传播效果；如果先上升后平稳，说明流量可能逐渐达到平台曝光上限；如果波动较大，则可能受到发布时间、平台推荐机制或个别作品表现的影响。

【截图位置2.7.3-19：B站每日播放量趋势折线图截图】

【截图位置2.7.3-20：CSDN每日阅读量趋势折线图截图】

步骤7：搭建综合仪表盘

完成所有图表后，将指标卡、排名图、标题影响图和趋势图整合到一个综合仪表盘中。仪表盘顶部放置核心指标卡，中部按照B站和CSDN左右分栏展示排名和标题分析，底部放置趋势分析图表。这样的布局能够让读者按照“整体情况—平台表现—标题影响—时间趋势”的顺序理解数据。

【截图位置2.7.3-21：综合仪表盘编辑页面截图】

【截图位置2.7.3-22：综合仪表盘最终展示效果截图】

五、图表解读方法

图表类型	观察重点	分析方向
排名图	关注前3名和后3名	头部代表优秀实践，尾部反映常见问题
对比图	关注不同组之间的差距	差距大说明影响因素可能明显，差距小说明影响有限
分布图	关注数据集中区间和异常点	判断整体水平是否偏低，以及是否存在离群作品
趋势图	关注曲线方向和拐点	判断数据是持续增长、趋于平稳还是波动较大
散点图	关注两个指标之间的关系	判断是否存在正相关、负相关、无相关或异常点

六、实验结果分析

通过本实验，可以从多个维度观察自媒体作品运营情况。核心指标卡展示了整体作品规模、平台覆盖情况和总浏览互动情况，使读者能够快速了解本次数据的基本情况。排名图表进一步展示了不同学生和不同作品之间的表现差异，有助于发现表现较好的学生和具有代表性的爆款作品。

标题影响分析是本实验的重要分析部分。通过比较不同关键词对应的平均互动数和提升倍率，可以判断某些标题表达是否更容易获得用户关注。例如，如果“实战”或“教程/指南”的提升倍率高于1，说明这类标题可能更容易让用户感受到内容的实用价值，从而提升点击和互动。但在解释结果时，还需要结合样本数量判断，避免因为样本过少导致结论不稳定。

趋势分析则展示了B站播放量和CSDN阅读量随采集日期变化的情况。如果趋势线持续上升，说明作品仍在不断获得浏览；如果趋势线逐渐平稳，说明作品流量可能已经接近稳定状态。通过趋势图，可以进一步判断作品是否具有持续传播效果。

七、实验小结

本实验完整完成了从数据清洗到特征构建，再到可视化探索的全过程。实验7-1通过助睿ETL对原始自媒体数据进行清洗，输出了全平台概况表和重点平台内容分析表；实验7-2在内容分析表基础上计算互动总数并提取标题关键词特征，同时生成关键词级别的汇总表；实验7-3则基于这些结果表，在助睿BI中制作核心指标卡、排名图、标题影响分析图和趋势图，最终形成综合仪表盘。

整体来看，本实验不仅完成了数据处理流程，也体现了完整的数据分析思路：先保证数据质量，再构建具有业务意义的分析指标，最后通过可视化图表提炼运营结论。通过该实验，可以更清楚地理解自媒体运营分析中“数据清洗—特征工程—可视化洞察”之间的关系。

企业官网建设流程全解析

2.7 实验七：自媒体运营分析

数据清洗与预处理 + 作品特征构建 + 可视化探索

2.7.1 实验7-1：自媒体运营分析——数据清洗与预处理

一、实验目的

二、实验环境

三、核心设计思路

四、目标表设计

1. 全平台概况表：`summary_all_platforms`

2. 内容分析表：`content_analysis`

五、实验步骤

步骤1：导入原始数据

步骤2：全平台聚合统计

步骤3：过滤重点平台有效记录

步骤4：填充缺失值

步骤5：字段选择

步骤6：输出目标表

六、实验结果分析

三、仪表盘布局思路

四、实验步骤

步骤1：连接数据源

步骤2：构建数据集

步骤3：制作核心指标卡

步骤4：制作排名分析图表

步骤5：制作标题影响分析图表

步骤6：制作趋势分析图表

步骤7：搭建综合仪表盘

五、图表解读方法

六、实验结果分析

七、实验小结

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

2.7 实验七：自媒体运营分析

数据清洗与预处理 + 作品特征构建 + 可视化探索

2.7.1 实验7-1：自媒体运营分析——数据清洗与预处理

一、实验目的

二、实验环境

三、核心设计思路

四、目标表设计

1. 全平台概况表：summary_all_platforms

2. 内容分析表：content_analysis

五、实验步骤

步骤1：导入原始数据

步骤2：全平台聚合统计

步骤3：过滤重点平台有效记录

步骤4：填充缺失值

步骤5：字段选择

步骤6：输出目标表

六、实验结果分析

三、仪表盘布局思路

四、实验步骤

步骤1：连接数据源

步骤2：构建数据集

步骤3：制作核心指标卡

步骤4：制作排名分析图表

步骤5：制作标题影响分析图表

步骤6：制作趋势分析图表

步骤7：搭建综合仪表盘

五、图表解读方法

六、实验结果分析

七、实验小结

热门文章

文章分类

标签云

相关文章

多维聚合实战：维度拓扑、度量规则与数据变形链路

豫北工装产业上下游配套协同发展现状深度梳理

4563563

需要专业的网站建设服务？

1. 全平台概况表：`summary_all_platforms`

2. 内容分析表：`content_analysis`