excel学习库

excel表格_excel函数公式大全_execl从入门到精通

python 数据分析之处理excel

作者按:

上次给大家分享了数据分析中要用的anaconda以及一些模块的安装和导入,至于具体如何使用python处理excel还有点模糊,今天就来研究一下如何使用,提高工作效率。

1、pandas数据模块

首先引入import pandas as pd ,这个as就是为了方便少打点字起的别名,pd就是代表pandas,import numpy as np,import matplotlib as plt,这里的np、plt都是别名。

(1)数据结构Series

Series就是一维数组,由一组数据和与之相关的索引组成,如何创建呢,如图所示

这里使用的方法是Series(),传入不同对象就可以实现,默认索引从0开始,也可以指定索引

(2)数据结构DataFrame

Series是一组数据和一组索引组成,DataFrame就是一组数据和一对索引组成,怎么创建呢,如图

这是传入一个单一列表,行和列都是从0开始,再传入一个多列数据,如图

如何获取行列索引呢,利用colums方法获取列索引,利用index方法获取行索引,如图

有三行两列

2、读取excel文件

现在excel文件格式基本都是xlsx结尾,python如何读取呢,利用read_excel()方法

如图

注意:这里读取地址的时候windows默认是\users\反斜杠,需要前面加一个r转义符,不然无法读取。

读取的时候一般默认是读取第一个Sheet,从0计数,如图读取Sheet2

有时候文件列数特别多,我们只需要其中几列得到话,怎么办呢,这里就用一个usecols参数指定要取得列,如图所示,useclos = 默认索引或者自定义索引

3、处理数据

(1)空值处理

有些行某些列数据格是空的,就用方法dropna()删除这一行,但如果只想删除全空值得行,就可以加一个参数how = all即可,如图所示

(2)重复值处理

重复数据集有多条,这样就可以使用python中drop_duplicates()方法进行重复值判断并删除,默认保留第一行值,如图所示

(3)数据类型转化

pandas中的数据主要有int、float、object、string_、unicode、datetime64[ns],可以使用dtype方法获取某一列数据类型,如图hah列为float类型

如果想转换为整型怎么设置呢,这里使用astype方法转换目标类型即可

到这里,对于python数据分析中如何使用pandas模块处理excel表格,应该有一个大致的了解了,马上去实践吧,祝学习顺利!

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«    2024年12月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
    文章归档
      友情链接