实验7-1:自媒体运营分析-数据清洗与预处理

发布时间:2026/7/6 4:02:58
实验7-1:自媒体运营分析-数据清洗与预处理 数据清洗与预处理步骤 1创建自媒体专属项目并导入原始数据源1操作目的新建专属实验项目用于存放自媒体相关转换流、数据表与数据源文件从平台公共资源导入自媒体作品数据明细.csv原始业务数据校验文件字段与数据总量为后续 ETL 清洗聚合提供原始输入素材。2操作说明打开浏览器访问助睿在线实验平台 https://lab.guilian.cn/输入个人账号密码完成登录登录成功后点击页面左侧导航栏【数据集成】功能模块在项目列表区域点击新建项目按钮项目名称填写「自媒体运营分析」确认创建完成项目初始化切换至当前新建项目的资源库页面找到顶部【公共空间 - 数据资源】检索输入框输入文件名自媒体作品数据明细.csv进行检索在检索结果中找到目标 CSV 文件点击文件右侧「更多」按钮选择导出功能导出路径选中当前自媒体项目专属文件库目录等待文件后台导入完成回到项目本地文件库双击导入后的文件打开预览窗口逐项核对字段采集日期、平台、作者昵称、标题、浏览、点赞、收藏、分享、投币、采集批次 source_file 全部存在统计总记录共 5702 条字段无缺失、数据无损坏即校验通过。3关键截图图1 新建实验项目添加图片注释不超过 140 字可选图1 新建实验项目图2 打开实验项目添加图片注释不超过 140 字可选图2 新建「自媒体运营分析」项目完成后的文件库页面图3 公共空间导出文件操作添加图片注释不超过 140 字可选图 3 公共空间导出自媒体作品明细数据集弹窗配置界面步骤 2创建全平台概况汇总表1操作目的搭建存储全平台每日大盘指标的数据表用于统计各平台每日作品总量、总浏览、各类互动指标支撑可视化大盘指标卡的数据读取需求。2操作说明新建独立转换流拖拽【执行一个 SQL 脚本】组件数据库连接选择团队私有数据库粘贴下方建表 SQL 语句配置完成后点击执行生成summary_all_platforms数据表。CREATE TABLE summary_all_platforms (id INT AUTO_INCREMENT PRIMARY KEY,crawl_date DATE COMMENT 采集日期,platform VARCHAR(20) COMMENT 平台名称,content_count INT COMMENT 作品数量,total_views INT COMMENT 总浏览数,total_likes INT COMMENT 总点赞数,total_favorites INT COMMENT 总收藏数,total_shares INT COMMENT 总分享数,total_coins INT COMMENT 总投币数仅B站,total_recommend INT COMMENT 总推荐数仅微信,total_likes_zhihu INT COMMENT 总喜欢数仅知乎,total_approvals INT COMMENT 总赞同数仅知乎) COMMENT 全平台每日汇总统计表;3关键截图图4 新建转换流添加图片注释不超过 140 字可选图 4 创建全平台概况汇总表专用转换流图5 SQL脚本组件配置添加图片注释不超过 140 字可选图5 创建 summary_all_platforms 表的 SQL 脚本配置界面图6 执行转换流添加图片注释不超过 140 字可选图6 转换流执行成功日志截图步骤 3创建内容分析明细表1操作目的搭建存储 B 站、CSDN 单作品明细数据表存放清洗后的有效作品基础信息作为后续标题特征计算、排名图表的底层数据源。2操作说明新建转换流拖拽【执行一个 SQL 脚本】组件并绑定团队私有数据库输入建表语句执行生成content_analysis表预留互动总数、五大标题特征空白字段供下一实验更新填充。CREATE TABLE content_analysis (id INT AUTO_INCREMENT PRIMARY KEY,date DATE COMMENT 采集日期,author_name VARCHAR(100) COMMENT 作者昵称,title VARCHAR(500) COMMENT 作品标题,platform VARCHAR(20) COMMENT 平台B站 / CSDN,likes INT COMMENT 点赞数,favorites INT COMMENT 收藏数,shares INT COMMENT 分享数,coins INT COMMENT 投币数仅B站,views INT COMMENT 播放量/阅读量,url VARCHAR(500) COMMENT 作品链接,total_interaction INT COMMENT 互动总数,has_best TINYINT(1) COMMENT 是否含“保姆级”,has_lowcode TINYINT(1) COMMENT 是否含“零代码”,has_practice TINYINT(1) COMMENT 是否含“实战”,has_tutorial TINYINT(1) COMMENT 是否含“教程/指南”,has_pit TINYINT(1) COMMENT 是否含“踩坑”) COMMENT B站、CSDN有效作品明细宽表;3关键截图图7 新建转换流添加图片注释不超过 140 字可选图 7 创建 content_analysis 内容分析表转换流命名弹窗界面图8 SQL脚本组件配置添加图片注释不超过 140 字可选图 8 执行一个 SQL 脚本组件配置界面创建内容分析明细表图9 执行转换流添加图片注释不超过 140 字可选图 9 内容分析表建表转换流画布与执行成功日志界面步骤 4搭建双分支 ETL 转换流完成全平台聚合分支处理1操作目的对全部平台原始数据按日期、平台分组聚合统计每日大盘作品、流量、互动总量写入全平台概况汇总表。2操作说明新建主清洗转换流拖拽【CSV 文件输入】读取导入好的原始 CSV数据分流后第一条分支依次添加【排序记录】组件排序字段crawl_date、platform、【分组】组件按日期、平台分组数值字段全部求和末尾接入【表输出】组件目标表选择 summary_all_platforms勾选裁剪表完成字段映射。3关键截图图10 CSV文件输入组件配置添加图片注释不超过 140 字可选图10 CSV 文件输入组件参数配置界面图11 排序记录组件配置添加图片注释不超过 140 字可选图11 排序记录组件配置按采集日期、平台升序图 12 分组组件配置添加图片注释不超过 140 字可选图 12 分组组件基础信息配置图13 分组组件配置添加图片注释不超过 140 字可选图13 分组组件聚合字段与求和统计规则配置界面图14 表输出组件配置添加图片注释不超过 140 字可选图14 表输出组件配置步骤 6搭建重点平台清洗过滤分支1操作目的过滤筛选出 B 站、浏览量大于 0 与 CSDN 浏览量大于 0 的有效作品剔除无分析价值平台与零曝光脏数据。2操作说明原始 CSV 分流第二条分支接入【过滤记录】组件配置过滤条件(platform B 站 AND views 0) OR (platform CSDN AND views 0)匹配数据流入后续组件不匹配无效数据分流至【空操作】组件丢弃。3关键截图图 15 过滤记录组件配置添加图片注释不超过 140 字可选图 15 过滤记录组件条件配置界面筛选 B 站、CSDN 有效曝光作品图16 连接空操作组件添加图片注释不超过 140 字可选图16 连接空操作组件步骤 7缺失值填充与冗余字段剔除1操作目的统一填充标题、作者空文本为 “未知”删除无业务意义采集标记字段精简明细数据表字段。2操作说明过滤后数据接入【替换 NULL 值】组件作者、标题空字符串统一替换为 “未知”再拖拽【字段选择】组件移除 source_file 采集批次字段仅保留业务分析所需字段。3关键截图图 17 替换 NULL 值组件配置添加图片注释不超过 140 字可选图 17 替换 NULL 值组件配置界面统一将标题、作者空文本填充为 “未知”图 18 字段选择组件配置界面添加图片注释不超过 140 字可选图 18 字段选择组件配置界面删除 source_file 等冗余采集字段步骤 8明细数据入库 content_analysis 表1操作目的将清洗后的 B 站、CSDN 有效作品明细写入内容分析明细表供实验 7-2 特征工程使用。2操作说明字段选择组件后连接【表输出】组件目标表选定 content_analysis开启裁剪表完成流字段与数据表字段一一映射等待数据写入。3关键截图图 19 表输出组件配置添加图片注释不超过 140 字可选图 19 表输出组件基础配置界面目标表指定为 content_analysis 内容分析明细表图 20 表输出组件配置添加图片注释不超过 140 字可选图 20 表输出组件数据库字段映射配置界面完成流字段与目标表字段一一对应步骤 9执行转换流并校验数据1操作目的运行整套 ETL 流程校验两张数据表数据完整性确认清洗、聚合结果无误。2操作说明检查所有组件连线、过滤、映射配置无错误点击工具栏执行按钮运行转换流执行完毕进入元数据面板分别查询两张数据表核对记录条数、字段填充结果。3关键截图图21 执行转换流添加图片注释不超过 140 字可选图 21 全平台聚合统计转换流完整画布与执行成功日志界面图22 查询summary_all_platforms表添加图片注释不超过 140 字可选图 22 summary_all_platforms 全平台概况汇总表数据预览界面图23查询content_analysis表添加图片注释不超过 140 字可选图 23 content_analysis 内容分析明细表数据预览界面3.3.3 自媒体运营分析——作品特征构建本实验基于实验 7-1 输出的content_analysis清洗明细表完成互动指标计算、标题关键词特征提取并统计各关键词平均互动效果存入title_feature_analysis关键词汇总表分为两大处理模块明细特征更新、关键词聚合统计。步骤 1表输入读取清洗后的作品明细1操作目的读取实验 7-1 产出的content_analysis有效作品数据作为特征计算的数据源保留 id、标题、各项互动字段用于后续加工。2操作说明新建转换流拖拽【表输入】组件数据库连接选择团队私有数据库数据表指定content_analysis预览核对字段id、title、likes、favorites、shares、coins 完整共 5702 条记录。3关键截图图 24 新建转换流添加图片注释不超过 140 字可选图 24 新建转换流命名为「更新 content_analysis 表」图 25 表输入组件配置添加图片注释不超过 140 字可选图 25 表输入组件配置界面读取 content_analysis 明细表基础字段步骤 2JavaScript 组件提取五大标题 0/1 特征标记1操作目的通过脚本匹配标题文本自动生成has_best、has_lowcode、has_practice、has_tutorial、has_pit五个布尔特征字段标记标题是否包含指定实操关键词。2操作说明表输出下游连接【JavaScript 代码】组件在脚本编辑区粘贴匹配代码var title title;var has_best title.indexOf(保姆级) ! -1 ? 1 : 0;var has_lowcode title.indexOf(零代码) ! -1 ? 1 : 0;var has_practice title.indexOf(实战) ! -1 ? 1 : 0;var has_tutorial (title.indexOf(教程) ! -1 || title.indexOf(指南) ! -1) ? 1 : 0;var has_pit title.indexOf(踩坑) ! -1 ? 1 : 0;输出字段勾选 5 个特征字段点击测试脚本无报错后确认配置。3关键截图图 25 JavaScript 代码配置添加图片注释不超过 140 字可选图 26 JavaScript代码组件配置界面实现标题关键词0/1特征标记逻辑并输出5个特征字段步骤 3计算器组件计算总互动 total_interaction1操作目的整合点赞、收藏、分享、投币四项互动指标生成单作品综合互动总量字段。2操作说明JS 组件后接入【计算器】组件新增字段total_interaction计算公式填写likes favorites shares coins值类型选择整数。3关键截图图 27 计算器组件配置添加图片注释不超过 140 字可选图 27 计算器组件配置设置总互动计算表达式步骤 4插入 / 更新组件回填特征至原明细表1操作目的以 id 为主键匹配原有数据新增互动、标题特征字段不重复新增数据支持多次重复运行转换流。2操作说明计算器下游拖拽【插入 / 更新】组件目标表选择content_analysis匹配关键字设为 id待更新字段勾选total_interaction、has_best、has_lowcode、has_practice、has_tutorial、has_pit完成流字段与数据库字段一一映射。区分表输出会新增重复行插入 / 更新仅按 id 更新指定字段无冗余数据。3关键截图图28 新建转换流添加图片注释不超过 140 字可选图 28 新建转换流命名为「更新 content_analysis表」图 29 插入 / 更新组件配置添加图片注释不超过 140 字可选图 29 插入/更新组件配置界面以id为主键更新content_analysis表互动与标题特征字段步骤 5执行明细特征转换流并校验数据1操作目的运行特征更新流程校验明细表新增互动、标题特征字段填充正常。2操作说明检查组件连线、脚本、计算规则无误后点击运行执行完成进入元数据预览content_analysis每条作品均生成 total_interaction 与 5 个 0/1 标题标记。3关键截图图 30 运行转换流添加图片注释不超过 140 字可选图 30 更新 content_analysis 表完整转换流画布与执行成功日志界面图31 查看content_analysis表添加图片注释不超过 140 字可选图 31 更新后 content_analysis 表数据预览含互动、标题特征字段步骤 6执行 SQL 创建关键词汇总目标表1操作目的搭建存储分平台、分关键词平均互动、样本量、整体均值、提升倍率的数据表。2操作说明新建独立 SQL 转换流绑定团队私有数据库执行建表语句CREATE TABLE title_feature_analysis (id INT AUTO_INCREMENT PRIMARY KEY,platform VARCHAR(20) COMMENT 平台B站/CSDN,feature_name VARCHAR(50) COMMENT 关键词名称,avg_interaction DECIMAL(10,2) COMMENT 含该关键词平均互动,overall_avg DECIMAL(10,2) COMMENT 平台整体平均互动,sample_count INT COMMENT 含该关键词作品数量) COMMENT 标题关键词互动效果统计表;3关键截图图32 新建转换流添加图片注释不超过 140 字可选图 32 新建转换流命名为「创建标题分析表」图 33 执行一个 SQL 脚本组件配置添加图片注释不超过 140 字可选图 33 创建 title_feature_analysis 表 SQL 脚本配置界面图34 运行转换流添加图片注释不超过 140 字可选图 34 创建标题分析表转换流画布与 SQL 脚本执行成功日志界面步骤 7搭建分支计算平台全局平均互动 overall_avg1操作目的读取清洗完成的作品明细按平台分组计算全量作品整体平均互动量作为各关键词互动效果的对比基准数据。2操作说明新建名为「输出关键词级别的汇总表」的转换流拖拽【表输入】组件读取 content_analysis 明细表表输入后连接【排序记录】组件按 platform 字段升序排序再接入【分组】组件以 platform 为分组字段聚合计算 total_interaction 均值得到平台整体平均互动 overall_average完成基准数据分支搭建。3关键截图图35 新建转换流添加图片注释不超过 140 字可选图 35 新建转换流命名为「输出关键词级别的汇总表」图36 表输入组件配置添加图片注释不超过 140 字可选图 36 表输入组件配置界面读取已完成特征更新的 content_analysis 明细表图 37 排序记录组件配置添加图片注释不超过 140 字可选图 37 排序记录组件配置界面按 platform 平台字段升序排列数据图 38 分组组件配置添加图片注释不超过 140 字可选图 38 分组聚合组件配置界面按平台分组计算整体平均互动值 overall_average图39 排序记录组件配置添加图片注释不超过 140 字可选图39 排序记录 1 组件配置界面按 platform 平台字段升序排列关键词分支原始数据步骤 8单关键词过滤、聚合、常量标记以保姆级为例1操作目的筛选标题包含 “保姆级” 关键词的作品数据统计对应作品样本数量、单关键词平均互动量为后续合并基准均值做数据准备。2操作说明复制读取 content_analysis 明细表的表输入组件搭建并行分支下游接入【过滤记录】组件设置条件 has_best 1 筛选目标作品过滤后连接【排序记录 1 】组件按 platform 升序规整数据再接入【分组】组件按平台分组计算平均互动量与作品样本总数。3关键截图图 40 过滤记录配置添加图片注释不超过 140 字可选图 40 过滤记录配置筛选含 “保姆级” 标题作品图41 排序记录组件配置添加图片注释不超过 140 字可选图41 排序记录组件配置界面按 platform 平台字段升序处理基准均值分支数据图 42 分组组件配置添加图片注释不超过 140 字可选图42 分组组件配置界面统计单关键词作品平均互动量与样本数量图43 排序记录组件配置添加图片注释不超过 140 字可选图43 排序记录 2 组件配置界面用于关键词统计分支数据预排序步骤 9记录集连接合并基准均值与关键词统计数据1操作目的将平台全局平均互动基准数据与各关键词统计数据合并实现同一行内同时存放平台基准均值、关键词平均互动与样本量为后续入库做数据整合。2操作说明将计算全局均值的基准分支、各关键词统计分支一同接入【记录集连接】组件匹配字段设置为 platform 完成数据左连接每条关键词分支在分组后搭配【增加常量】组件新增 feature_name 字符串字段填入对应关键词名称用于区分数据类型。3关键截图图 43 记录集连接组件配置添加图片注释不超过 140 字可选图 43 记录集连接组件配置合并基准与关键词数据图44 增加常量组件配置添加图片注释不超过 140 字可选图 44 增加常量组件配置界面新增 feature_name 字段赋值 “踩坑” 标记当前统计关键词步骤 10表输出写入 title_feature_analysis 表1操作目的将单关键词统计结果持久化存入汇总表不勾选裁剪表保留多条关键词数据。2操作说明连接后数据接入【表输出】目标表选择 title_feature_analysis取消 “运行前清空表”完成 platform、feature_name、avg_interaction、overall_avg、sample_count 字段映射。3关键截图图 45 表输出组件配置添加图片注释不超过 140 字可选图 45 表输出组件基础配置界面指定写入 title_feature_analysis 汇总表图 46 表输出组件配置添加图片注释不超过 140 字可选图 46 表输出组件数据库字段映射界面完成统计字段匹配步骤 11完整关键词转换流执行校验汇总数据1操作目的运行全部分支校验五大关键词分平台统计结果完整共 10 条有效记录。2操作说明复制 5 套关键词分支完成全量配置检查所有过滤、聚合、连接配置后执行预览 title_feature_analysis 表区分 B 站、CSDN 各关键词样本量与平均互动数值。3关键截图图47 运行转换流添加图片注释不超过 140 字可选图 47 输出关键词级别的汇总表完整双分支转换流画布与执行成功日志界面图 48 查看title_feature_analysis 表添加图片注释不超过 140 字可选图 48 title_feature_analysis 关键词汇总表最终数据预览界面展示各平台关键词平均互动、基准均值与样本量统计结果