pandas dataframe column_pandas回顾小结(一)

news/2024/7/5 5:00:02 标签: pandas dataframe column, pandas nan判断

9dbd5bec95740cc0cb87588e4d01ee69.png

回顾pandas的一些内容

pandas是一个用于数据分析的库,必备库,官网:pandas documentation

pandas最核心的两个数据结构:Series、DataFrame

先看看pandas安装是否成功

import pandas as pd
pd.__version__

7838e8e448baafdbb94e1cd6207b83d2.png

Series

用来表示一维数据结构,和数组类似,由index和value组成

class pandas.Series( data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
s = pd.Series([3,5,7])

创建一个Series对象

1a4b3ae8d2cdf9e4c00f89bbe364cf90.png

0,1,2就是默认初始化的索引,3,5,7是我们传入的data

我们当然也可以传入index

s = pd.Series([3,5,7], index=['one', 'two', 'three'])

1285e0ca0c220c3373bec99b5faebbd8.png

我们可以查看Series的index和value

s.index
s.values

1eb7e039dea7e7e3b39f2d74e87af90b.png

这里,我们可以发现,index和value都是有dtype的,就都是有类型的

筛选

这里和numpy很像,可以使用索引来选择指定元素

这里可以使用index做筛选,也可以使用索引,这个index理解为标签

s['one']
s['two']

s[1]
s[1:2]

4947842ca7976f7a2ca3b08ede58afdb.png

在numpy中提到的一些筛选方法,Series中同样适用

比如,布尔数组筛选

s[s>5]

bce2495a0ef382c6857142bea093f406.png

基本的四则运算

s+1
s*2

da4db410e3643391ae4226822af8cf6a.png

常用函数

获取唯一值:

Series.unique()

返回series中的唯一值

s = pd.Series([1,3,3,4,5,5,7])
s.unique()

57e65d7c2596d0dc5ab0c21cb0c933de.png

还有一个类似的函数

Series.value_counts( normalize=False, sort=True, ascending=False, bins=None, dropna=True)

返回的也是唯一值,但是多了唯一值出现的次数

s.value_counts()

6364502513107787ccec073eaf138584.png
Series.isin( values)

判断所属关系,是否包含指定的元素

s = pd.Series(['lama', 'cow', 'lama', 'beetle', 'lama', 'hippo'], name='animal')
s.isin(['cow', 'lama'])

5025813c8f7245c84e1042c22b311072.png

这里返回的是一个Boolean数组,正好可以用来筛选数据

s[s.isin(['cow', 'lama'])]

3f461f7b262bbf661c41980e027b2dff.png
Series.isna() Series.isnull()

用来判断是否包含NaN(Not a Number)

s = pd.Series(['aaa', 'bbb', np.NaN])
s.isna()

b15bfcf5e5b89fb5871bba499d21f1c8.png

相对应的还有

Series.notna() Series.notnull()

上述4个函数返回的也是Boolean数组,都可以用来筛选


DataFrame

DataFrame就是将Series拓展到多维,和日常使用的Excel非常像

DataFrame除了有index,还有column,就像行索引和列索引

class pandas.DataFrame( data=None, index=None, columns=None, dtype=None, copy=False)
df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
df

2b820e26bc903b98c8e5b2510ae97532.png

这里,会将key自动识别为column,自动生成index

我们也可以直接传入data,指定index和column

df = pd.DataFrame([[1,2,3],[4,5,6]], columns=['a','b','c'], index=['one','two'])

ade5c996940cb93151281ceca2b998b6.png

基础信息

df.index
df.columns
df.values

62c52b668a7d965a01b7517e4d253d4f.png

筛选数据

可以使用columns直接进行筛选

df['a']
df[['a','b']]

4707da9115e09cef68122784b014cfca.png

http://www.niftyadmin.cn/n/1425344.html

相关文章

求职网组件研究 一学会使用

1.安装sqlserver2005学习版后的问题:由于一开始不能选择混合模式安装,所有以下有两部要设置修改的:1.安全性,登陆名,sa设置密码;状态:启用登录;2.sqlserver配置管理器/sqlserver2005网络配置/sqlexpress的协议/启用TCP…

python:random模块

import random# 获取大于0且小于1的随机浮点型数字 print(random.random()) # 获取大于等于1且小于等于10之间的整数 print(random.randint(1,10)) # 获取大于等于1且小于10之间的整数 print(random.randrange(1,10)) # 从列表中多选一 print(random.choice([11,522,433])) # 从…

JSF核心编程之7 JSF事件处理

1.三种事件&#xff1a; 阶段事情&#xff0c;生命周期事情 值变化事件 动作事件 2JSF生命周期&#xff08;包含6个阶段&#xff09; 重建视图->应用请求值->处理事件(直接事件)->处理验证->处理事件(值事件)-> 呈现响应<-处理事件(动作事件)<-调用应用…

oa开发好转行吗_【科技信息】数字档案管理系统上线OA

点击蓝字关注我们员工甲&#xff1a;数字管理系统是啥&#xff1f;你知道吗员工乙&#xff1a;额...我不知道&#xff0c;这是什么东东?员工甲&#xff1a;靓仔(女)语塞...我也不知道&#xff0c;听别人讲的。数字档案管理系统是为公司员工查询各类档案(人事档案除外)和利用电…

python:random函数

import random# 获取大于0且小于1的随机浮点型数字 print(random.random()) # 获取大于等于1且小于等于10之间的整数 print(random.randint(1,10)) # 获取大于等于1且小于10之间的整数 print(random.randrange(1,10)) # 从列表中多选一 print(random.choice([11,522,433])) # 从…

大数据实训报告_2020年河南专升本大数据报告

2020年河南专升本大数据报告一文带你全面深入地了解河南专升本各项报考大数据。现在将2020年河南省专升本各项指标数据正式公开&#xff0c;以帮助尚处于备考阶段的考生&#xff0c;能够清晰全面的了解河南省专升本报考现状及发展趋势&#xff0c;进而有针对性和目的性地进行专…

map知识补充

1 map知识 Map<String,List> resultnew HashMap<String,List>(); 取值&#xff1a; result.get(Object key); 设值&#xff1a; result.put(K key, V value);

python:hash模块

一、了解hash Python的hashlib提供了常见的摘要算法&#xff0c;如MD5&#xff0c;SHA1等等。 什么是摘要算法呢&#xff1f;摘要算法又称哈希算法、散列算法。它通过一个函数&#xff0c;把任意长度的数据转换为一个长度固定的数据串&#xff08;通常用16进制的字符串表示&a…