Python 语法简单好写,背后社群强大,在数据分析领域占有一席之地,甚至现在许多开源软件和套件,也大多以Python 作为主要的实作语言。
Python 市场广大、工作机会多,吸引许多非程式背景的人学习,但「写」代码对于零基础的初学者而言还是有些门槛,有什么无痛接轨的工具吗?
目前有个叫Mito 的外挂程序,操作上和Excel 一样简单,不用「写」代码就能用Python 做数据分析,能协助编程初学者衔接学习 Python。
加载一个Jupyter 外挂后,无需写代码就能做数据分析,还帮你生成相应程式?
没错,只需要下载这个名为Mito 的小工具包,用Python 做数据分析,变得和用Excel 一样简单:
运行速度比Excel 更快,也不需要到处搜各种Python 教学了。
和Excel 一样直觉好用,而且更快更全面
Mito 是Jupyter notebook 的一个可编辑电子表格外挂,在编辑.csv 表格(带格式转换功能)时,就能生成相关Python 程式。
Mito,是粒线体Mitochondria 的缩写。具体来说,Mito 的出现,像是将Python 的强大功能和Excel 的易用性进行了结合。
只需要掌握Excel 的用法,就能使用Python 的数据分析功能,还能将写出来的程式「打包带走」。
它弥补了Excel 在数据分析上的几个缺陷:
Excel 无法做大数据分析(大型数据集处理得不好)Excel 运行缓慢Excel 无法轻松创建可重复流程同时,又比SQL 和Python 更简单、直观。毕竟这些专业工具对于0 基础初学者来说,需要至少几年时间,才能完全上手。
据Mito 内测用户表示,这款外挂让他们用Python 做数据分析的效率提升了10 倍,因为用户可以直接在Mito 里编写Excel 公式,如=SUM(A1, 100)。
那么,Mito 是怎么做到将Excel 逻辑转换成Python 程序的呢?
作者们编写了一种名为Transpiler 的程序,有点类似于编译器的功能,采用抽象语法树(AST),解析Excel 源代码,并转换成Python 的源代码。
相比于采用专业软件如Alteryx(需要5000 美元/月)进行数据分析,Mito 所生成的Python 代码可以根据需要自行修改,灵活性更高一点。
目前,Mito 采用亚马逊云端平台 (AWS)保存用户的相关数据,每个用户拥有一个独立账户。
当然,用户也可以选择将数据保存在本地。
还能自动生成Python 代码
以分析美国各州的「家庭平均收入」和「允许托运的火车站数量」这两个数据的关系为例。
首先,上传「家庭平均收入」和「允许托运的火车站数量」两份数据。
数据处理的格式是.csv,当然也可以输入Excel 文件,并用Mito 转成两份.csv 文件。
然后,将这两份数据集合并在一起,只需要用鼠标勾选对应功能、选中相关数据列就行。
啪!代码就生成好了。
然后,是做数据透视表,在完成分组后,采用聚合(aggregate)功能来切换聚合方法。
还包括数据过滤功能,同样立刻就能生成相关代码。
包含升降序排序功能,快速简洁。
然后就是相关数据统计、分析出结果了,流程直观。
保存分析文件的方法也很简单,文件是以Python 编写的,而不是用比较难懂的VBA。
要想重复上面的步骤的话,也非常容易,Mito 自带「重复已保存分析步骤」功能,一键就能用同样的方法分析其他数据。
确实要比一行行编写代码简单多了。
是谁开发了Mito?
那么,Mito 的作者们,为什么要搞这个软件?
因为他们发现,所谓的「几天上手Python 数据分析」,其实根本没有那么容易……
初学者要想用Python 搞数据分析,就得不停地查看各种文档、和求助StackOverflow。
要想真正快速用Python 分析数据,最后还得自己编写软件。
三位作者Aaron Diamond-Reivich、Jake Diamond-Reivich 和Nate Rush 都来自宾大,在学校期间,他们学习了电脑科学、统计学和商业分析相关的课程。
也正是在搞数据分析的时候,他们萌生了想要制作Mito 的想法。
作者表示,软件目前还没有开源,因为他们还在思考,如何支持维护这个项目,并转到开源路径上来。
不过,它现在已经可以使用了。
感兴趣的小伙伴们,可以上手试试了!