DataFrame

2.pandas统计分析基础（读取数据、dataframe、索引）

笔记说明：本文是我的学习笔记，大部分内容整理自黄红梅,张良均等.Python数据分析与应用[M].北京:人民邮电出版社,2018,80-130. 还有部分片断知识来自网络搜索补充。推荐这个博客帖子https://blog.csdn.net/hhtnan/article/details/80080240 文章目录1…

【Spark SQL】5、DataFrameDataSet的简单使用

DataFrame与RDD的互操作 /*** DataFrame和RDD的互操作*/ object DataFrameRDDApp {def main(args: Array[String]) {val spark SparkSession.builder().appName("DataFrameRDDApp").master("local[2]").getOrCreate()//inferReflection(spark)program(sp…

df寻找nan空值TypeError: ufunc 'isnan' not supported for the input types,...错误解决方案

不要用numpy 的 isnan 用pd.isna index df[A].index[pd.isna(df[A])] 即可找出index

python dataframe列计算众数、中位数、平均值、极值、标准差等统计量

b pd.DataFrame({a:[1,3,3,4],b:[2,2,2,2]}) a pd.DataFrame()# 分别计算均值，标准差、众数、最值、中位数 a[mean][b[a].mean() for i in range(len(b)) ] a[std][round(b[a].std(),2) for i in range(len(b)) ] a[mode] [b[a].mode()[0] for i in range(len(b…

保存带 numpy.ndarray 的 dataframe

# 创建 DataFrame texts ["hi", "hello", "you"] embeddings [np.random.randn(10,) for i in range(3)] df pd.DataFrame({"text":texts, "embedding":embeddings})type(df.embedding.values[0]) # numpy.ndarray# 保存…

Spark - RDD / ROW / sql.DataFrame 互转

一.引言 SparkSql 相比较 HiveSql 具有更快的运行速度和更高的灵活性，平常使用中经常需要进行数据转换，常见的有 RDD[T] -> DataFrame，DataFrame -> RDD[T] 还有 RDD[row] -> sql.dataFrame，下面简单介绍下常用用法。初…

Gradio Dataframe 学习笔记

Gradio Dataframe 学习笔记 0. 简介1. 使用场景2. 测试数据3. 学习代码4. 更多功能5. 学习资源6. 总结 0. 简介 Gradio是一个用于构建交互式机器学习界面的Python库。它可以轻松创建各种类型的界面，包括用于数据可视化和探索的界面。 Gradio Dataframe 组件是 Gra…

Python学习笔记（7）：数据框

前一篇文章提到了序列,可以理解为Excel里没有列名的一列数据,那么Excel里的由行列组成的表数据是如何对应到Python中的呢？就是今天要说的数据框：DataFrame。它是由一组数据和一对索引（行索引和列索引）组成的二维数据结构&#x…

Pandas 数据清洗和处理

Pandas 数据清洗和处理文章目录Pandas 数据清洗和处理1 DataFrame 选取奇\偶行1 DataFrame 选取奇\偶行生成数据： import pandas as pd import numpy as np np.random.seed(1071) df pd.DataFrame(np.random.randint(1, 30, (7, 2)), columnslist(AB), indexra…

RDD 、 DataFrame 和 DataSet 详解

RDD、DataFrame和DataSet的区别 RDD、DataFrame和DataSet是容易产生混淆的概念，必须对其相互之间对比，才可以知道其中异同。 RDD和DataFrame RDD-DataFrame上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，但…

Spark将DataFrame写入MySQL时遇到的问题

DataFrame如何写入MySQL val host "localhost" val port "3306" val user "user" val password "password" val database "test" val table "test" val saveMode SaveMode.Overwrite // 支持4中写入方式…

数据预处理方式合集

删除空行 #del all None value data_all.dropna(axis1, howall, inplaceTrue) 删除空列 #del all None value data_all.dropna(axis0, howall, inplaceTrue) 缺失值处理观测缺失值观测数据缺失值有一个比较好用的工具包——missingno，直接传入DataFrame&…

【Spark SQL】6、常用API的学习

所有功能的入口点都是SparkSession类。要创建基本的SparkSession，只需使用SparkSession.builder() import org.apache.spark.sql.SparkSessionval spark SparkSession.builder().appName("Spark SQL basic example").config("spark.some.config.op…

Dataframe学习笔记：记录一下工作上使用的几种示例

Dataframe学习笔记：记录一下工作上使用的几种示例 0. 引言1. Dataframe 简介2. Dataframe 使用场景3. 创建测试数据4. 示例学习5. 总结 0. 引言最近工作上开发 AI 应用，经常使用到 Dataframe，所以整理和记录一下工作上使用的几种示例。 1.…

Python Pandas处理csv文件常用操作代码

常识使用pandas.read_csv从csv文件中读取数据，对于csv中缺失的空值，读进dataframe会自动补为numpy.nan，且数据类型为float 操作读取csv文件，存储为dataframe数据类型 df pandas.read_csv(csv_path)查看csv文件的dataframe的…

Python访问ElasticSearch

ElasticSearch是广受欢迎的NoSQL数据库，其分布式架构提供了极佳的数据空间的水平扩展能力，同时保障了数据的可靠性；反向索引技术使得数据检索和查询速度非常快。更多功能参见官网介绍 https://www.elastic.co/cn/elasticsearch/ 下面简单罗列…

Python Pandas DataFrame：筛选和删除含特定值的行与列

Python Pandas DataFrame：挑选和删除含特定值的行与列 🌈 个人主页：高斯小哥 🔥 高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程 👈 希望得…

pandas中的Series和DataFrame的区别与转化

1.series数据类型 1. Series相当于数组numpy.array类似 Series 它是有索引，如果我们未指定索引，则是以数字自动生成。 objSeries([4,7,-5,3])print obj #输出结果如下： 0 4 1 7 2 -5 3 3如果数据被存在一个python字典中&#x…

Python DataFrame 操作笔记

Python 中的pandas库是一个好用的数据处理库。使用最多的是DataFrame这个数据结构。新建空DataFrame： lsit[] datapd.DataFrame(list) 新建指定列名的DataFrame： datapd.DataFrame({"name":"","age":"",&q…

pandas修改DataFrame行/列/字段值

增加/修改一列有如下几种方法增加一列： 增加具有相同值的一列 import pandas as pd dict {English:[85,73,98], Math:[60,80,58], Science:[90,60,74], French: [95,87,92] } dfpd.DataFrame(dict,index[2018,2019,2020]) print(df) print(\n) …

数据分析-Pandas如何选择数据子集

数据分析-Pandas如何选择数据子集 Dataframe的数据中，选择某一列，某一行，或者某个子区域，该怎么办呢？ python数据分析-数据表读写到pandas 经典算法-遗传算法的python实现经典算法-遗传算法的一个简单例子大模型…

Spark SQL, DataFrames and Datasets指南

spark 2.4.4 Spark SQL是用于处理结构化数据的Spark模块。不同于基本的Spark RDD API，Spark SQL提供的接口为Spark提供了关于数据和正在执行的计算更多的信息。Spark SQL可以利用这些额外的信息在内部执行额外的优化。与Spark SQL交互的方式有多种例如SQL和Dataset API。无论…

尚硅谷大数据技术Spark教程-笔记08【SparkSQL（介绍、特点、数据模型、核心编程、案例实操、总结）】

尚硅谷大数据技术-教程-学习路线-笔记汇总表【课程资料下载】视频地址：尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【SparkCore（概述、快速上手、运行环境、运行架构）】尚硅谷大数据技术Spark教程…

SparkSQL基础解析（三）

1、 Spark SQL概述 1.1什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和 DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提…

DataFrame入门

文章目录 1. 数据集合加载2. 使用常用的属性/方法查看数据情况type()shapecolumnsdtypesinfo() 3. 查看部分数据获取一列数据获取多列数据按行加载数据同时取出行列数据切片语法 4. 简单数据分析5. 数据可视化总结 1. 数据集合加载 pd.read_csv()方法不仅可以加载CSV文件&…

python的dataframe转换为多维矩阵

python的dataframe转换为多维矩阵有两种方法： 一种利用as_matrix()属性一种利用values import pandas as pd import numpy as np df pd.DataFrame(np.random.rand(3,4),columnslist(abcd),indexlist(ABC)) print(df) print(values) print(df.values) pr…

Pandas DataFrame的多重索引 MultiIndex 切片取单个df

#轴向转化函数解决分组索引问题df1df.stack(0) df1df1[LK].unstack() 找了好久的资料，也没有发现相关办法，我想要从一个多重索引下取到需要单独的小dataframe。就用这个土办法可以实现。我大概浪费了一个半小时在这上面，希望把知识传递在…

python dataframe

dataframe为pandas中的数据格式，通常用来存储时间序列数据，比如K线数据，这在量化分析时通常用到。 1、创建dataframe import pandas as pd df0 pd.DataFrame([[1,2,3,4],[5,6,7,8]], columns[a, b, c, d]) 2、读取csv文件为dataframe格式…

Python常用Dataframe语句

删除列S# 方法1 df df.drop(S, axis1) # 方法2 df.drop(S, axis1, inplaceTrue)删除列K中包含字符a的行df df[~df[K].str.contains(a)]删除列S中值不为1的行df df[df[S] ! 1]删除列S中值不为1，2，3的行df df[(df[S] ! 1) & (df[S] ! 2) & (df…

Pandas学习笔记 Series DataFrame

Series import numpy as np import pandas as pd import sys from pandas import Series,DataFrameobjSeries([4,7,-5,3],index[d,b,a,c]) objobj[[d,c]]obj[b]6 obj obj*2obj[obj>2]np.exp(obj)sdata{hi:35,mi:49,ji:59,ki:89} #由字典创建序列 obj1Series(sdata) obj1sta…

Dataframe 常用操作手册

官方文档：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html 文章目录1 df的构造1.1 读取excel.csv1.2 字典/series转df1.3 多个df操作1.4 df 属性值df.info()df.head(5)df.indexdf.columnsdf.shapedf.describe()df.items(…

pandas之DataFrame基础

pandas之DataFrame基础1. DataFrame定义2. DataFrame的创建形式3. DataFrame的属性4. DataFrame的运算5. pandas访问相关操作5.1 使用 loc[]显示访问5.2 iloc[] 隐式访问5.3 总结6. 单层索引和多层级索引6.1 索引种类与使用6.2 索引相关设置6.3 索引构造6.4 索引访问6.5 索引变…

1.python3数据读取、新建sheet写入数据

笔记说明：超链接加不进来！！！一加进来就卡死，真是崩溃！openpyxl这块不是我写的，是从一个人的博客上摘下来的。就是下面这个。 https://blog.csdn.net/weixin_43094965/article/details/82226263…

dataframe 查找的isin()用法

import pandas as pddf pd.read_excel(分类标准-新.xlsx)#list0[7662,7667,7672,7677,7682,7688,7693,7698,7704,7662,7709,7714,7719,7725,7730,7735,7741,7709,7746,7751,7756,7762,7767,7772,7778,7746,7783,7783] list0[7664,7669,7674,7679,7684,7690,7695,7700,7706,766…

Pandas中DataFrame和array相互转化（DataFrame数据直接水平合并）