2.7 实验七:自媒体运营分析
数据清洗与预处理 + 作品特征构建 + 可视化探索
本实验围绕班级自媒体作品运营数据展开,实验内容由三个连续部分组成:第一部分为数据清洗与预处理,主要完成原始数据导入、平台筛选、缺失值处理、字段整理和目标表输出;第二部分为作品特征构建,主要计算互动总数,并从作品标题中提取关键词特征;第三部分为可视化探索,主要基于前两个实验生成的数据表,在助睿BI中制作指标卡、排名图、标题影响分析图和趋势图,最终形成自媒体运营分析仪表盘。
三个实验之间具有明显的递进关系:实验7-1解决“数据能不能用”的问题,实验7-2解决“数据能不能进一步分析”的问题,实验7-3解决“分析结果如何展示和解释”的问题。整体流程为:原始数据进入助睿ETL后,先输出全平台概况表和重点平台内容分析表,再在内容分析表中补充互动指标和标题特征,最后将结果导入助睿BI完成可视化展示
2.7.1 实验7-1:自媒体运营分析——数据清洗与预处理
一、实验目的
本实验基于全班同学在多个自媒体平台发布作品后形成的互动数据,使用助睿ETL完成数据清洗与预处理。原始数据中包含B站、CSDN、微信、知乎、小红书等多个平台的作品记录,但不同平台的数据完整程度不同,部分平台存在浏览数量为0、互动字段缺失或无效记录较多的情况。因此,在正式进行作品分析之前,需要先对原始数据进行整理。
本实验的主要目标是通过助睿ETL完成多源数据的过滤、填充、聚合和字段筛选,并输出两张核心数据表。一张是全平台概况数据表summary_all_platforms,用于后续展示全平台作品数量、总浏览量和总互动情况;另一张是内容分析表content_analysis,用于保存B站和CSDN的有效作品明细数据,并作为实验7-2作品特征构建的基础数据。实验手册中也强调,本部分需要使用“分支处理”思路,将全平台概况统计与重点平台深度分析分开处理。
二、实验环境
| 项目 | 内容 |
|---|---|
| 实验平台 | 助睿在线实验平台 |
| 数据处理工具 | 助睿ETL |
| 数据来源 | 自媒体作品数据明细.csv |
| 主要处理方式 | 数据导入、排序、分组、过滤、缺失值填充、字段选择、表输出 |
| 输出结果 | summary_all_platforms、content_analysis |
三、核心设计思路
原始数据不能直接用于后续分析,主要原因包括以下几点:第一,平台较多,但并不是所有平台都具有完整的浏览数据;第二,部分作品浏览数量、点赞数量、收藏数量等指标可能为0或存在空值;第三,后续可视化既需要展示全平台整体情况,又需要对B站和CSDN进行重点分析,因此不能简单地只保留某一类数据。
因此,本实验采用双分支处理方式:
| 分支 | 处理目标 | 处理方式 | 输出表 |
|---|---|---|---|
| 分支1 | 生成全平台概况数据 | 按日期和平台分组,对数值字段求和 | summary_all_platforms |
| 分支2 | 生成重点平台有效明细数据 | 只保留B站和CSDN,且浏览数量大于0的记录,再进行缺失值填充和字段筛选 | content_analysis |
四、目标表设计
1. 全平台概况表:summary_all_platforms
该表用于保存所有平台的汇总数据,不对平台进行筛选,主要服务于后续仪表盘中的全平台指标卡。
| 字段名 | 类型 | 说明 |
|---|---|---|
crawl_date | DATE | 采集日期 |
platform | VARCHAR(20) | 平台名称 |
content_count | INT | 作品数量 |
total_views | INT | 总浏览数 |
total_likes | INT | 总点赞数 |
total_favorites | INT | 总收藏数 |
total_shares | INT | 总分享数 |
total_coins | INT | 总投币数,仅B站使用 |
total_recommend | INT | 总推荐数,仅微信使用 |
total_likes_zhihu | INT | 总喜欢数,仅知乎使用 |
total_approvals | INT | 总赞同数,仅知乎使用 |
这张表保留所有平台数据,目的是展示整体分发情况。不同平台的特色互动指标不强行合并,例如B站的投币、微信的推荐、知乎的赞同含义不同,因此分别保留为独立字段,更便于后续解释。
2. 内容分析表:content_analysis
该表用于保存B站和CSDN的有效作品明细,是实验7-2和实验7-3的重要基础表。
| 字段名 | 类型 | 说明 |
|---|---|---|
date | DATE | 采集日期 |
author_name | VARCHAR(100) | 作者昵称 |
title | VARCHAR(500) | 作品标题 |
platform | VARCHAR(20) | 平台,主要为B站或CSDN |
likes | INT | 点赞数 |
favorites | INT | 收藏数 |
shares | INT | 分享数 |
coins | INT | 投币数,仅B站使用 |
views | INT | 播放量或阅读量 |
url | VARCHAR(500) | 作品链接 |
total_interaction | INT | 互动总数,实验7-2中计算 |
has_best | TINYINT(1) | 是否包含“保姆级” |
has_lowcode | TINYINT(1) | 是否包含“零代码” |
has_practice | TINYINT(1) | 是否包含“实战” |
has_tutorial | TINYINT(1) | 是否包含“教程”或“指南” |
has_pit | TINYINT(1) | 是否包含“踩坑” |
其中,total_interaction和五个标题特征字段在实验7-1中先作为预留字段,具体数值会在实验7-2中通过计算器组件和JavaScript代码组件生成。(community)
五、实验步骤
步骤1:导入原始数据
首先,将实验提供的自媒体作品数据明细.csv文件从公共空间复制到个人文件库中,然后在助睿ETL中作为数据源导入。导入后需要查看数据预览,确认字段是否完整,例如日期、作者名称、作品标题、平台、浏览数量、点赞数量、收藏数量、分享数量、投币数量、作品链接等字段是否能够正常读取。
步骤2:全平台聚合统计
为了保留所有平台的整体发布情况,需要在数据清洗前单独建立一个分支,对全平台数据进行汇总。该分支使用“排序记录”和“分组”组件,按照日期和平台进行排序、分组,并对所有数值字段进行求和。处理完成后,将结果输出到summary_all_platforms表中。
| 配置项 | 设置内容 |
|---|---|
| 分组字段 | 日期、平台 |
| 聚合方式 | 对浏览数量、点赞数量、收藏数量、分享数量、投币数量等数值字段求和 |
| 输出表 | summary_all_platforms |
| 作用 | 支撑仪表盘顶部的全平台概况指标卡 |
步骤3:过滤重点平台有效记录
在第二条分支中,需要对原始数据进行过滤,只保留B站和CSDN两个平台中浏览数量大于0的有效记录。由于微信、知乎、小红书等平台的浏览数量大量为0,难以支撑后续深度分析,因此本实验只针对B站和CSDN进行重点平台分析。
过滤条件如下:
(平台 = 'B站' AND 浏览数量 > 0) OR (平台 = 'CSDN' AND 浏览数量 > 0)该条件同时完成了两个任务:一是筛选平台,只保留B站和CSDN;二是筛选有效记录,只保留已经产生浏览行为的作品。
步骤4:填充缺失值
经过筛选后,需要继续处理字段中的空值。由于作者名称、作品标题等字段后续会用于分组、标题关键词识别和图表展示,如果存在空值,可能导致后续处理异常。因此,需要使用“填充缺失值”组件对空值进行统一处理。
| 字段类型 | 处理方式 | 目的 |
|---|---|---|
| 文本字段 | 填充为默认值,如“未知”或空字符串 | 避免分组和标题识别异常 |
| 数值字段 | 按实际情况填充为0或保留已有数值 | 避免后续计算时报错 |
| 标题字段 | 保证不为空 | 支撑实验7-2关键词特征提取 |
步骤5:字段选择
原始数据中可能存在一些与分析无关的辅助字段,例如source_file,该字段主要用于表示采集批次,在后续分析中作用不大,因此可以剔除。通过“字段选择”组件,只保留后续实验需要使用的核心字段。
保留字段如下:
date, author_name, title, platform, likes, favorites, shares, coins, views, url| 保留字段 | 说明 |
|---|---|
date | 用于趋势分析 |
author_name | 用于学生排名分析 |
title | 用于作品排名和标题特征提取 |
platform | 用于区分B站和CSDN |
likes | 点赞数 |
favorites | 收藏数 |
shares | 分享数 |
coins | 投币数,B站特有 |
views | 播放量或阅读量 |
url | 作品链接 |
步骤6:输出目标表
最后,将清洗后的重点平台作品明细数据输出到content_analysis表中。运行转换流后,需要进行数据探查,检查输出结果是否符合要求。
检查重点包括:
| 检查内容 | 判断标准 |
|---|---|
| 平台筛选是否正确 | 只包含B站和CSDN |
| 浏览数量是否有效 | views > 0 |
| 字段是否完整 | 核心字段均已保留 |
| 空值是否处理 | 作者、标题等字段无明显异常 |
| 是否保留日期 | 日期字段可用于后续趋势分析 |
六、实验结果分析
通过本实验,原始自媒体运营数据被整理为两张结构清晰、用途不同的数据表。summary_all_platforms保存全平台聚合结果,能够用于展示全班作品发布规模、平台覆盖情况和整体浏览互动情况;content_analysis保存B站和CSDN的有效作品明细,能够用于后续计算互动指标、提取标题特征和制作排名图表。
本实验的关键在于分支处理。全平台概况统计不删除平台数据,保证整体指标完整;重点平台分析则通过过滤条件去除无效记录,使后续分析更加准确。经过清洗与预处理后,数据结构更加规范,也为后续特征工程和可视化分析奠定了基础。
基于这些特点,本实验的可视化分析重点如下:
| 分析维度 | 分析目标 | 核心问题 |
|---|---|---|
| 核心指标 | 了解整体数据情况 | 整体表现如何? |
| 排名分析 | 对比学生和作品之间的差异 | 谁做得好?什么内容表现好? |
| 标题影响 | 量化标题关键词对互动效果的影响 | 什么标题更有效? |
| 趋势分析 | 观察数据随时间变化 | 流量是否持续增长? |
三、仪表盘布局思路
本实验仪表盘采用“先总后分、左右对照”的布局方式。
| 区域 | 内容 | 作用 |
|---|---|---|
| 顶部 | 核心指标卡 | 快速展示整体情况 |
| 中部左侧 | B站排名、标题分析、趋势图 | 展示视频平台表现 |
| 中部右侧 | CSDN排名、标题分析、趋势图 | 展示图文平台表现 |
| 底部 | 趋势或补充分析图表 | 观察时间变化和长尾效果 |
整体阅读路径为:先通过指标卡建立整体认知,再通过排名图发现表现差异,然后通过标题影响分析定位原因,最后通过趋势图观察数据变化规律。
【截图位置2.7.3-2:仪表盘布局草图或整体规划截图】
四、实验步骤
步骤1:连接数据源
进入助睿BI平台后,选择前面实验已经生成的数据表。由于团队私有数据库数据源通常已经完成连接,因此本实验可以直接使用实验7-1和实验7-2输出的结果表。
【截图位置2.7.3-3:进入助睿BI平台截图】
步骤2:构建数据集
本实验需要创建三个数据集。
| 数据集 | 来源表 | 主要用途 |
|---|---|---|
| 全平台概况数据集 | summary_all_platforms | 制作全平台作品总数、平台数、总浏览数、总互动数等指标卡 |
| 重点平台深度分析数据集 | content_analysis | 制作B站和CSDN的学生排名、作品排名、趋势分析 |
| 标题关键词互动数据集 | title_feature_analysis | 制作标题关键词平均互动数和提升倍率图 |
【截图位置2.7.3-4:创建summary_all_platforms数据集截图】
【截图位置2.7.3-5:创建content_analysis数据集截图】
【截图位置2.7.3-6:创建title_feature_analysis数据集截图】
步骤3:制作核心指标卡
指标卡用于展示最关键的总体数据,使读者能够快速了解全班自媒体作品的整体运营情况。根据实验手册,本部分指标卡分为全平台概况和重点平台概况两类。(community)
| 图表 | 数据集 | 配置方法 | 解读要点 |
|---|---|---|---|
| 全平台作品数 | 全平台概况数据集 | 对作品数量求和 | 展示全班共采集了多少作品 |
| 分发平台数 | 全平台概况数据集 | 对平台进行去重计数 | 展示数据覆盖了几个平台 |
| 全平台总浏览数 | 全平台概况数据集 | 对浏览数量求和 | 展示全平台流量规模 |
| 全平台总互动数 | 全平台概况数据集 | 对互动数量求和或使用计算字段 | 展示整体互动水平 |
| B站作品数 | 全平台概况数据集 | 筛选平台=B站,统计作品数 | 展示B站内容体量 |
| CSDN作品数 | 全平台概况数据集 | 筛选平台=CSDN,统计作品数 | 展示CSDN内容体量 |
| B站总播放量 | 全平台概况数据集 | 筛选平台=B站,对浏览数量求和 | 展示B站总流量 |
| CSDN总阅读量 | 全平台概况数据集 | 筛选平台=CSDN,对浏览数量求和 | 展示CSDN总流量 |
【截图位置2.7.3-7:全平台作品数指标卡截图】
【截图位置2.7.3-8:分发平台数指标卡截图】
【截图位置2.7.3-9:全平台总浏览数和总互动数指标卡截图】
【截图位置2.7.3-10:B站和CSDN核心指标卡截图】
步骤4:制作排名分析图表
排名图表主要用于回答“谁做得好”和“什么内容表现好”这两个问题。学生排名侧重观察个人整体运营水平,作品排名侧重发现单篇爆款内容。
| 图表 | 数据集 | 配置方法 | 解读要点 |
|---|---|---|---|
| B站学生平均播放量排名TOP10 | 重点平台深度分析数据集 | 筛选平台=B站;维度=作者名称;指标=平均值(浏览数量);降序排序;限额10 | 找出B站整体运营表现较好的学生 |
| B站作品播放量排名TOP10 | 重点平台深度分析数据集 | 筛选平台=B站;维度=作品标题;指标=浏览数量;降序排序;限额10 | 找出B站单篇播放量较高的作品 |
| CSDN学生平均阅读量排名TOP10 | 重点平台深度分析数据集 | 筛选平台=CSDN;维度=作者名称;指标=平均值(浏览数量);降序排序;限额10 | 找出CSDN整体阅读表现较好的学生 |
| CSDN作品阅读量排名TOP10 | 重点平台深度分析数据集 | 筛选平台=CSDN;维度=作品标题;指标=浏览数量;降序排序;限额10 | 找出CSDN单篇阅读量较高的作品 |
通过学生排名和作品排名结合分析,可以先找到表现突出的学生,再进一步查看其具体作品标题、平台和互动情况,从而总结可借鉴的运营经验。
【截图位置2.7.3-11:B站学生平均播放量TOP10图表截图】
【截图位置2.7.3-12:B站作品播放量TOP10图表截图】
【截图位置2.7.3-13:CSDN学生平均阅读量TOP10图表截图】
【截图位置2.7.3-14:CSDN作品阅读量TOP10图表截图】
步骤5:制作标题影响分析图表
标题影响分析是本实验中较有业务价值的部分。由于作品内容较为接近,标题写法可能成为影响点击和互动的重要因素。实验7-2已经生成了title_feature_analysis表,因此本实验可以直接使用该表分析不同关键词的互动效果。
标题关键词提升倍率计算公式为:
提升倍率 = avg_interaction / overall_avg如果提升倍率大于1,说明包含该关键词的作品平均互动数高于整体平均水平;如果提升倍率小于1,则说明包含该关键词的作品互动效果低于整体平均水平。
| 图表 | 数据集 | 配置方法 | 解读要点 |
|---|---|---|---|
| B站标题特征提升倍率条形图 | 标题关键词互动数据集 | 筛选平台=B站;计算avg_interaction / overall_avg;按关键词展示 | 找出B站较有效的标题关键词 |
| B站标题特征对比柱状图 | 标题关键词互动数据集 | 筛选平台=B站;展示各关键词平均互动数,并设置整体平均互动水平线 | 比较不同关键词的平均互动差异 |
| CSDN标题特征提升倍率条形图 | 标题关键词互动数据集 | 筛选平台=CSDN;计算avg_interaction / overall_avg;按关键词展示 | 找出CSDN较有效的标题关键词 |
| CSDN标题特征对比柱状图 | 标题关键词互动数据集 | 筛选平台=CSDN;展示各关键词平均互动数,并设置整体平均互动水平线 | 比较不同关键词在CSDN中的效果 |
【截图位置2.7.3-15:B站标题特征提升倍率条形图截图】
【截图位置2.7.3-16:B站标题特征平均互动数对比图截图】
【截图位置2.7.3-17:CSDN标题特征提升倍率条形图截图】
【截图位置2.7.3-18:CSDN标题特征平均互动数对比图截图】
步骤6:制作趋势分析图表
趋势分析用于观察播放量或阅读量随采集日期的变化情况。需要注意的是,这里的日期是采集日期,不一定是作品发布时间。因此,趋势图展示的是截至某个采集日期,平台作品累计播放量或阅读量的变化。
| 图表 | 数据集 | 配置方法 | 解读要点 |
|---|---|---|---|
| B站每日播放量趋势折线图 | 重点平台深度分析数据集 | 筛选平台=B站;维度=日期;指标=求和(浏览数量) | 展示B站累计流量变化趋势 |
| CSDN每日阅读量趋势折线图 | 重点平台深度分析数据集 | 筛选平台=CSDN;维度=日期;指标=求和(浏览数量) | 展示CSDN累计阅读量变化趋势 |
趋势图的解读重点包括曲线是否持续上升、是否出现拐点、是否趋于平稳。如果曲线持续上升,说明作品可能存在持续传播效果;如果先上升后平稳,说明流量可能逐渐达到平台曝光上限;如果波动较大,则可能受到发布时间、平台推荐机制或个别作品表现的影响。
【截图位置2.7.3-19:B站每日播放量趋势折线图截图】
【截图位置2.7.3-20:CSDN每日阅读量趋势折线图截图】
步骤7:搭建综合仪表盘
完成所有图表后,将指标卡、排名图、标题影响图和趋势图整合到一个综合仪表盘中。仪表盘顶部放置核心指标卡,中部按照B站和CSDN左右分栏展示排名和标题分析,底部放置趋势分析图表。这样的布局能够让读者按照“整体情况—平台表现—标题影响—时间趋势”的顺序理解数据。
【截图位置2.7.3-21:综合仪表盘编辑页面截图】
【截图位置2.7.3-22:综合仪表盘最终展示效果截图】
五、图表解读方法
| 图表类型 | 观察重点 | 分析方向 |
|---|---|---|
| 排名图 | 关注前3名和后3名 | 头部代表优秀实践,尾部反映常见问题 |
| 对比图 | 关注不同组之间的差距 | 差距大说明影响因素可能明显,差距小说明影响有限 |
| 分布图 | 关注数据集中区间和异常点 | 判断整体水平是否偏低,以及是否存在离群作品 |
| 趋势图 | 关注曲线方向和拐点 | 判断数据是持续增长、趋于平稳还是波动较大 |
| 散点图 | 关注两个指标之间的关系 | 判断是否存在正相关、负相关、无相关或异常点 |
六、实验结果分析
通过本实验,可以从多个维度观察自媒体作品运营情况。核心指标卡展示了整体作品规模、平台覆盖情况和总浏览互动情况,使读者能够快速了解本次数据的基本情况。排名图表进一步展示了不同学生和不同作品之间的表现差异,有助于发现表现较好的学生和具有代表性的爆款作品。
标题影响分析是本实验的重要分析部分。通过比较不同关键词对应的平均互动数和提升倍率,可以判断某些标题表达是否更容易获得用户关注。例如,如果“实战”或“教程/指南”的提升倍率高于1,说明这类标题可能更容易让用户感受到内容的实用价值,从而提升点击和互动。但在解释结果时,还需要结合样本数量判断,避免因为样本过少导致结论不稳定。
趋势分析则展示了B站播放量和CSDN阅读量随采集日期变化的情况。如果趋势线持续上升,说明作品仍在不断获得浏览;如果趋势线逐渐平稳,说明作品流量可能已经接近稳定状态。通过趋势图,可以进一步判断作品是否具有持续传播效果。
七、实验小结
本实验完整完成了从数据清洗到特征构建,再到可视化探索的全过程。实验7-1通过助睿ETL对原始自媒体数据进行清洗,输出了全平台概况表和重点平台内容分析表;实验7-2在内容分析表基础上计算互动总数并提取标题关键词特征,同时生成关键词级别的汇总表;实验7-3则基于这些结果表,在助睿BI中制作核心指标卡、排名图、标题影响分析图和趋势图,最终形成综合仪表盘。
整体来看,本实验不仅完成了数据处理流程,也体现了完整的数据分析思路:先保证数据质量,再构建具有业务意义的分析指标,最后通过可视化图表提炼运营结论。通过该实验,可以更清楚地理解自媒体运营分析中“数据清洗—特征工程—可视化洞察”之间的关系。