AI辅助数据分析实践
跨学科通用能力训练营
7月15日上午,“AI时代数据分析的多场景应用”跨学科通用能力训练营第三讲在线上线下同步开展。本期邀请华东师范大学图书馆平台与技术馆员陈金传为同学们分享AI辅助数据分析的相关知识和实践案例。
陈金传介绍了数据分析的概念、流程和方法。数据分析是指运用数学、统计学、逻辑推理和计算机科学的方法和技巧,对原始数据进行系统地检查、清洗、转换、建模和解释的过程,其目的是发现数据中的趋势、模式、关联和异常,从而提取有价值的信息,支持决策制定和知识发现。数据分析的流程包括数据收集、数据清洗、数据探索、数据转换、数据分析、结果解释和数据可视化七步。
他进一步简要举例介绍了数据分析的方法和工具,包括描述性分析、探索性分析、相关性分析、回归分析、分类分析、聚类分析和时间序列分析等。同时,还提到了不同分析方法会用到的工具。以某图书馆图书借阅数据为例,陈金传示范了如何使用Python进行包括借阅排行等数据分析。同时也让同学们思考:AI辅助下的数据分析是什么样的?
陈金传向同学们介绍了AI辅助数据分析的相关知识。他介绍了AI辅助数据分析的相关平台,包括智谱清言、Kimi、豆包、文心一言等等,并指出不同平台各有利弊,功能也不一样,推荐多个平台结合起来用。结合具体案例,陈金传手把手带领同学们进行AI辅助数据分析。在数据预处理方面,由于在线大模型处理文件的大小有限,可以用AI写程序,将csv文件表头按照对应方式进行替换,并将大文件拆分成十个大小相同的小文件,每个文件包含表头。在数据探索方面,可以先请AI给出可以关注的关键指标,如借阅频率、就业趋势、图书类型分布、读者行为、逾期率等。在数据分析方面,可以让AI根据相关内容进行相关指标的数据分析,并进行可视化。最后,在探索和处理好数据之后,可以用AI根据相关数据写一份总结报告,但目前写报告的能力有限,报告内容仅做参考。
陈金传总结了AI辅助数据分析的优势和劣势。他认为AI的优势在于自动化数据处理和分析、增强数据洞察和解释、能够提高数据处理的效率和生产力;劣势在于数据隐私和安全无法完全保障、模型可解释度和可信度不高、模型偏差和公平性仍存在,以及技术门槛和成本较高。
为方便同学们进一步学习数据分析,陈老师推荐了有关AI大模型和数据分析的馆藏书籍,欢迎大家开展自主学习。更多阅读可参考相关书籍及资料。