拒绝无效复盘:你的运营数据,可能从一开始就洗错了(实验7-1)
2026/7/3 3:59:34 网站建设 项目流程

2.7 实验七:自媒体运营分析

数据清洗与预处理 + 作品特征构建 + 可视化探索

本实验围绕班级自媒体作品运营数据展开,实验内容由三个连续部分组成:第一部分为数据清洗与预处理,主要完成原始数据导入、平台筛选、缺失值处理、字段整理和目标表输出;第二部分为作品特征构建,主要计算互动总数,并从作品标题中提取关键词特征;第三部分为可视化探索,主要基于前两个实验生成的数据表,在助睿BI中制作指标卡、排名图、标题影响分析图和趋势图,最终形成自媒体运营分析仪表盘。

三个实验之间具有明显的递进关系:实验7-1解决“数据能不能用”的问题,实验7-2解决“数据能不能进一步分析”的问题,实验7-3解决“分析结果如何展示和解释”的问题。整体流程为:原始数据进入助睿ETL后,先输出全平台概况表和重点平台内容分析表,再在内容分析表中补充互动指标和标题特征,最后将结果导入助睿BI完成可视化展示


2.7.1 实验7-1:自媒体运营分析——数据清洗与预处理

一、实验目的

本实验基于全班同学在多个自媒体平台发布作品后形成的互动数据,使用助睿ETL完成数据清洗与预处理。原始数据中包含B站、CSDN、微信、知乎、小红书等多个平台的作品记录,但不同平台的数据完整程度不同,部分平台存在浏览数量为0、互动字段缺失或无效记录较多的情况。因此,在正式进行作品分析之前,需要先对原始数据进行整理。

本实验的主要目标是通过助睿ETL完成多源数据的过滤、填充、聚合和字段筛选,并输出两张核心数据表。一张是全平台概况数据表summary_all_platforms,用于后续展示全平台作品数量、总浏览量和总互动情况;另一张是内容分析表content_analysis,用于保存B站和CSDN的有效作品明细数据,并作为实验7-2作品特征构建的基础数据。实验手册中也强调,本部分需要使用“分支处理”思路,将全平台概况统计与重点平台深度分析分开处理。


二、实验环境

项目内容
实验平台助睿在线实验平台
数据处理工具助睿ETL
数据来源自媒体作品数据明细.csv
主要处理方式数据导入、排序、分组、过滤、缺失值填充、字段选择、表输出
输出结果summary_all_platformscontent_analysis

三、核心设计思路

原始数据不能直接用于后续分析,主要原因包括以下几点:第一,平台较多,但并不是所有平台都具有完整的浏览数据;第二,部分作品浏览数量、点赞数量、收藏数量等指标可能为0或存在空值;第三,后续可视化既需要展示全平台整体情况,又需要对B站和CSDN进行重点分析,因此不能简单地只保留某一类数据。

因此,本实验采用双分支处理方式:

分支处理目标处理方式输出表
分支1生成全平台概况数据按日期和平台分组,对数值字段求和summary_all_platforms
分支2生成重点平台有效明细数据只保留B站和CSDN,且浏览数量大于0的记录,再进行缺失值填充和字段筛选content_analysis


四、目标表设计

1. 全平台概况表:summary_all_platforms

该表用于保存所有平台的汇总数据,不对平台进行筛选,主要服务于后续仪表盘中的全平台指标卡。

字段名类型说明
crawl_dateDATE采集日期
platformVARCHAR(20)平台名称
content_countINT作品数量
total_viewsINT总浏览数
total_likesINT总点赞数
total_favoritesINT总收藏数
total_sharesINT总分享数
total_coinsINT总投币数,仅B站使用
total_recommendINT总推荐数,仅微信使用
total_likes_zhihuINT总喜欢数,仅知乎使用
total_approvalsINT总赞同数,仅知乎使用

这张表保留所有平台数据,目的是展示整体分发情况。不同平台的特色互动指标不强行合并,例如B站的投币、微信的推荐、知乎的赞同含义不同,因此分别保留为独立字段,更便于后续解释。


2. 内容分析表:content_analysis

该表用于保存B站和CSDN的有效作品明细,是实验7-2和实验7-3的重要基础表。

字段名类型说明
dateDATE采集日期
author_nameVARCHAR(100)作者昵称
titleVARCHAR(500)作品标题
platformVARCHAR(20)平台,主要为B站或CSDN
likesINT点赞数
favoritesINT收藏数
sharesINT分享数
coinsINT投币数,仅B站使用
viewsINT播放量或阅读量
urlVARCHAR(500)作品链接
total_interactionINT互动总数,实验7-2中计算
has_bestTINYINT(1)是否包含“保姆级”
has_lowcodeTINYINT(1)是否包含“零代码”
has_practiceTINYINT(1)是否包含“实战”
has_tutorialTINYINT(1)是否包含“教程”或“指南”
has_pitTINYINT(1)是否包含“踩坑”

其中,total_interaction和五个标题特征字段在实验7-1中先作为预留字段,具体数值会在实验7-2中通过计算器组件和JavaScript代码组件生成。(community)


五、实验步骤

步骤1:导入原始数据

首先,将实验提供的自媒体作品数据明细.csv文件从公共空间复制到个人文件库中,然后在助睿ETL中作为数据源导入。导入后需要查看数据预览,确认字段是否完整,例如日期、作者名称、作品标题、平台、浏览数量、点赞数量、收藏数量、分享数量、投币数量、作品链接等字段是否能够正常读取。


步骤2:全平台聚合统计

为了保留所有平台的整体发布情况,需要在数据清洗前单独建立一个分支,对全平台数据进行汇总。该分支使用“排序记录”和“分组”组件,按照日期和平台进行排序、分组,并对所有数值字段进行求和。处理完成后,将结果输出到summary_all_platforms表中。

配置项设置内容
分组字段日期、平台
聚合方式对浏览数量、点赞数量、收藏数量、分享数量、投币数量等数值字段求和
输出表summary_all_platforms
作用支撑仪表盘顶部的全平台概况指标卡


步骤3:过滤重点平台有效记录

在第二条分支中,需要对原始数据进行过滤,只保留B站和CSDN两个平台中浏览数量大于0的有效记录。由于微信、知乎、小红书等平台的浏览数量大量为0,难以支撑后续深度分析,因此本实验只针对B站和CSDN进行重点平台分析。

过滤条件如下:

(平台 = 'B站' AND 浏览数量 > 0) OR (平台 = 'CSDN' AND 浏览数量 > 0)

该条件同时完成了两个任务:一是筛选平台,只保留B站和CSDN;二是筛选有效记录,只保留已经产生浏览行为的作品。


步骤4:填充缺失值

经过筛选后,需要继续处理字段中的空值。由于作者名称、作品标题等字段后续会用于分组、标题关键词识别和图表展示,如果存在空值,可能导致后续处理异常。因此,需要使用“填充缺失值”组件对空值进行统一处理。

字段类型处理方式目的
文本字段填充为默认值,如“未知”或空字符串避免分组和标题识别异常
数值字段按实际情况填充为0或保留已有数值避免后续计算时报错
标题字段保证不为空支撑实验7-2关键词特征提取


步骤5:字段选择

原始数据中可能存在一些与分析无关的辅助字段,例如source_file,该字段主要用于表示采集批次,在后续分析中作用不大,因此可以剔除。通过“字段选择”组件,只保留后续实验需要使用的核心字段。

保留字段如下:

date, author_name, title, platform, likes, favorites, shares, coins, views, url
保留字段说明
date用于趋势分析
author_name用于学生排名分析
title用于作品排名和标题特征提取
platform用于区分B站和CSDN
likes点赞数
favorites收藏数
shares分享数
coins投币数,B站特有
views播放量或阅读量
url作品链接


步骤6:输出目标表

最后,将清洗后的重点平台作品明细数据输出到content_analysis表中。运行转换流后,需要进行数据探查,检查输出结果是否符合要求。

检查重点包括:

检查内容判断标准
平台筛选是否正确只包含B站和CSDN
浏览数量是否有效views > 0
字段是否完整核心字段均已保留
空值是否处理作者、标题等字段无明显异常
是否保留日期日期字段可用于后续趋势分析


六、实验结果分析

通过本实验,原始自媒体运营数据被整理为两张结构清晰、用途不同的数据表。summary_all_platforms保存全平台聚合结果,能够用于展示全班作品发布规模、平台覆盖情况和整体浏览互动情况;content_analysis保存B站和CSDN的有效作品明细,能够用于后续计算互动指标、提取标题特征和制作排名图表。

本实验的关键在于分支处理。全平台概况统计不删除平台数据,保证整体指标完整;重点平台分析则通过过滤条件去除无效记录,使后续分析更加准确。经过清洗与预处理后,数据结构更加规范,也为后续特征工程和可视化分析奠定了基础。


基于这些特点,本实验的可视化分析重点如下:

分析维度分析目标核心问题
核心指标了解整体数据情况整体表现如何?
排名分析对比学生和作品之间的差异谁做得好?什么内容表现好?
标题影响量化标题关键词对互动效果的影响什么标题更有效?
趋势分析观察数据随时间变化流量是否持续增长?

三、仪表盘布局思路

本实验仪表盘采用“先总后分、左右对照”的布局方式。

区域内容作用
顶部核心指标卡快速展示整体情况
中部左侧B站排名、标题分析、趋势图展示视频平台表现
中部右侧CSDN排名、标题分析、趋势图展示图文平台表现
底部趋势或补充分析图表观察时间变化和长尾效果

整体阅读路径为:先通过指标卡建立整体认知,再通过排名图发现表现差异,然后通过标题影响分析定位原因,最后通过趋势图观察数据变化规律。

【截图位置2.7.3-2:仪表盘布局草图或整体规划截图】


四、实验步骤

步骤1:连接数据源

进入助睿BI平台后,选择前面实验已经生成的数据表。由于团队私有数据库数据源通常已经完成连接,因此本实验可以直接使用实验7-1和实验7-2输出的结果表。

【截图位置2.7.3-3:进入助睿BI平台截图】


步骤2:构建数据集

本实验需要创建三个数据集。

数据集来源表主要用途
全平台概况数据集summary_all_platforms制作全平台作品总数、平台数、总浏览数、总互动数等指标卡
重点平台深度分析数据集content_analysis制作B站和CSDN的学生排名、作品排名、趋势分析
标题关键词互动数据集title_feature_analysis制作标题关键词平均互动数和提升倍率图

【截图位置2.7.3-4:创建summary_all_platforms数据集截图】

【截图位置2.7.3-5:创建content_analysis数据集截图】

【截图位置2.7.3-6:创建title_feature_analysis数据集截图】


步骤3:制作核心指标卡

指标卡用于展示最关键的总体数据,使读者能够快速了解全班自媒体作品的整体运营情况。根据实验手册,本部分指标卡分为全平台概况和重点平台概况两类。(community)

图表数据集配置方法解读要点
全平台作品数全平台概况数据集对作品数量求和展示全班共采集了多少作品
分发平台数全平台概况数据集对平台进行去重计数展示数据覆盖了几个平台
全平台总浏览数全平台概况数据集对浏览数量求和展示全平台流量规模
全平台总互动数全平台概况数据集对互动数量求和或使用计算字段展示整体互动水平
B站作品数全平台概况数据集筛选平台=B站,统计作品数展示B站内容体量
CSDN作品数全平台概况数据集筛选平台=CSDN,统计作品数展示CSDN内容体量
B站总播放量全平台概况数据集筛选平台=B站,对浏览数量求和展示B站总流量
CSDN总阅读量全平台概况数据集筛选平台=CSDN,对浏览数量求和展示CSDN总流量

【截图位置2.7.3-7:全平台作品数指标卡截图】

【截图位置2.7.3-8:分发平台数指标卡截图】

【截图位置2.7.3-9:全平台总浏览数和总互动数指标卡截图】

【截图位置2.7.3-10:B站和CSDN核心指标卡截图】


步骤4:制作排名分析图表

排名图表主要用于回答“谁做得好”和“什么内容表现好”这两个问题。学生排名侧重观察个人整体运营水平,作品排名侧重发现单篇爆款内容。

图表数据集配置方法解读要点
B站学生平均播放量排名TOP10重点平台深度分析数据集筛选平台=B站;维度=作者名称;指标=平均值(浏览数量);降序排序;限额10找出B站整体运营表现较好的学生
B站作品播放量排名TOP10重点平台深度分析数据集筛选平台=B站;维度=作品标题;指标=浏览数量;降序排序;限额10找出B站单篇播放量较高的作品
CSDN学生平均阅读量排名TOP10重点平台深度分析数据集筛选平台=CSDN;维度=作者名称;指标=平均值(浏览数量);降序排序;限额10找出CSDN整体阅读表现较好的学生
CSDN作品阅读量排名TOP10重点平台深度分析数据集筛选平台=CSDN;维度=作品标题;指标=浏览数量;降序排序;限额10找出CSDN单篇阅读量较高的作品

通过学生排名和作品排名结合分析,可以先找到表现突出的学生,再进一步查看其具体作品标题、平台和互动情况,从而总结可借鉴的运营经验。

【截图位置2.7.3-11:B站学生平均播放量TOP10图表截图】

【截图位置2.7.3-12:B站作品播放量TOP10图表截图】

【截图位置2.7.3-13:CSDN学生平均阅读量TOP10图表截图】

【截图位置2.7.3-14:CSDN作品阅读量TOP10图表截图】


步骤5:制作标题影响分析图表

标题影响分析是本实验中较有业务价值的部分。由于作品内容较为接近,标题写法可能成为影响点击和互动的重要因素。实验7-2已经生成了title_feature_analysis表,因此本实验可以直接使用该表分析不同关键词的互动效果。

标题关键词提升倍率计算公式为:

提升倍率 = avg_interaction / overall_avg

如果提升倍率大于1,说明包含该关键词的作品平均互动数高于整体平均水平;如果提升倍率小于1,则说明包含该关键词的作品互动效果低于整体平均水平。

图表数据集配置方法解读要点
B站标题特征提升倍率条形图标题关键词互动数据集筛选平台=B站;计算avg_interaction / overall_avg;按关键词展示找出B站较有效的标题关键词
B站标题特征对比柱状图标题关键词互动数据集筛选平台=B站;展示各关键词平均互动数,并设置整体平均互动水平线比较不同关键词的平均互动差异
CSDN标题特征提升倍率条形图标题关键词互动数据集筛选平台=CSDN;计算avg_interaction / overall_avg;按关键词展示找出CSDN较有效的标题关键词
CSDN标题特征对比柱状图标题关键词互动数据集筛选平台=CSDN;展示各关键词平均互动数,并设置整体平均互动水平线比较不同关键词在CSDN中的效果

【截图位置2.7.3-15:B站标题特征提升倍率条形图截图】

【截图位置2.7.3-16:B站标题特征平均互动数对比图截图】

【截图位置2.7.3-17:CSDN标题特征提升倍率条形图截图】

【截图位置2.7.3-18:CSDN标题特征平均互动数对比图截图】


步骤6:制作趋势分析图表

趋势分析用于观察播放量或阅读量随采集日期的变化情况。需要注意的是,这里的日期是采集日期,不一定是作品发布时间。因此,趋势图展示的是截至某个采集日期,平台作品累计播放量或阅读量的变化。

图表数据集配置方法解读要点
B站每日播放量趋势折线图重点平台深度分析数据集筛选平台=B站;维度=日期;指标=求和(浏览数量)展示B站累计流量变化趋势
CSDN每日阅读量趋势折线图重点平台深度分析数据集筛选平台=CSDN;维度=日期;指标=求和(浏览数量)展示CSDN累计阅读量变化趋势

趋势图的解读重点包括曲线是否持续上升、是否出现拐点、是否趋于平稳。如果曲线持续上升,说明作品可能存在持续传播效果;如果先上升后平稳,说明流量可能逐渐达到平台曝光上限;如果波动较大,则可能受到发布时间、平台推荐机制或个别作品表现的影响。

【截图位置2.7.3-19:B站每日播放量趋势折线图截图】

【截图位置2.7.3-20:CSDN每日阅读量趋势折线图截图】


步骤7:搭建综合仪表盘

完成所有图表后,将指标卡、排名图、标题影响图和趋势图整合到一个综合仪表盘中。仪表盘顶部放置核心指标卡,中部按照B站和CSDN左右分栏展示排名和标题分析,底部放置趋势分析图表。这样的布局能够让读者按照“整体情况—平台表现—标题影响—时间趋势”的顺序理解数据。

【截图位置2.7.3-21:综合仪表盘编辑页面截图】

【截图位置2.7.3-22:综合仪表盘最终展示效果截图】


五、图表解读方法

图表类型观察重点分析方向
排名图关注前3名和后3名头部代表优秀实践,尾部反映常见问题
对比图关注不同组之间的差距差距大说明影响因素可能明显,差距小说明影响有限
分布图关注数据集中区间和异常点判断整体水平是否偏低,以及是否存在离群作品
趋势图关注曲线方向和拐点判断数据是持续增长、趋于平稳还是波动较大
散点图关注两个指标之间的关系判断是否存在正相关、负相关、无相关或异常点

六、实验结果分析

通过本实验,可以从多个维度观察自媒体作品运营情况。核心指标卡展示了整体作品规模、平台覆盖情况和总浏览互动情况,使读者能够快速了解本次数据的基本情况。排名图表进一步展示了不同学生和不同作品之间的表现差异,有助于发现表现较好的学生和具有代表性的爆款作品。

标题影响分析是本实验的重要分析部分。通过比较不同关键词对应的平均互动数和提升倍率,可以判断某些标题表达是否更容易获得用户关注。例如,如果“实战”或“教程/指南”的提升倍率高于1,说明这类标题可能更容易让用户感受到内容的实用价值,从而提升点击和互动。但在解释结果时,还需要结合样本数量判断,避免因为样本过少导致结论不稳定。

趋势分析则展示了B站播放量和CSDN阅读量随采集日期变化的情况。如果趋势线持续上升,说明作品仍在不断获得浏览;如果趋势线逐渐平稳,说明作品流量可能已经接近稳定状态。通过趋势图,可以进一步判断作品是否具有持续传播效果。


七、实验小结

本实验完整完成了从数据清洗到特征构建,再到可视化探索的全过程。实验7-1通过助睿ETL对原始自媒体数据进行清洗,输出了全平台概况表和重点平台内容分析表;实验7-2在内容分析表基础上计算互动总数并提取标题关键词特征,同时生成关键词级别的汇总表;实验7-3则基于这些结果表,在助睿BI中制作核心指标卡、排名图、标题影响分析图和趋势图,最终形成综合仪表盘。

整体来看,本实验不仅完成了数据处理流程,也体现了完整的数据分析思路:先保证数据质量,再构建具有业务意义的分析指标,最后通过可视化图表提炼运营结论。通过该实验,可以更清楚地理解自媒体运营分析中“数据清洗—特征工程—可视化洞察”之间的关系。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询