python文本文件读取与存储

# CSV文件的读取

In [1]:

import csv      # 通过Python自带的csv库创建CSV文件
fp = open('H:/python数据分析/数据/ch4ex1.csv','w',newline='')    # 新建CSV文件
writer = csv.writer(fp)    
writer.writerow(('id','name','grade'))    # 向CSV写入数据
writer.writerow(('1','lucky','87'))
writer.writerow(('2','peter','92'))
writer.writerow(('3','lili','85'))
fp.close()

In [2]:

!type H:python数据分析数据ch4ex1.csv   
'''通过!type方法查看数据，type方法只适用于Windows系统，UNIX系统使用！cat命令。'''

id,name,grade
1,lucky,87
2,peter,92
3,lili,85

In [3]:

import pandas as pd
df = pd.read_csv(open('H:/python数据分析/数据/ch4ex1.csv'))    # 使用read_csv函数读取CSV文件
'''读取CSV文件时，如果文件路径中有中文，需要加open函数，否则会报错'''
df

Out[3]:

	id	name	grade
0	1	lucky	87
1	2	peter	92
2	3	lili	85

In [4]:

df = pd.read_table(open('H:/python数据分析/数据/ch4ex1.csv'),sep=',')
'''使用read_table进行读取CSV文件，指定分隔符即可'''
df

Out[4]:

	id	name	grade
0	1	lucky	87
1	2	peter	92
2	3	lili	85

In [5]:

df = pd.read_csv(open('H:/python数据分析/数据/ch4ex1.csv'),index_col='id')
'''默认情况下，读取的DataFrame的行索引是从0开始进行计数'''
'''通过index_col参数指定id列为行索引'''
df

Out[5]:

	name	grade
id
1	lucky	87
2	peter	92
3	lili	85

In [6]:

import csv      # 通过Python自带的csv库创建CSV文件
fp = open('H:/python数据分析/数据/ch4ex2.csv','w',newline='')
writer = csv.writer(fp)
writer.writerow(('school','id','name','grade'))    # 写入数据
writer.writerow(('a','1','lucky','87'))
writer.writerow(('a','2','peter','92'))
writer.writerow(('a','3','lili','85'))
writer.writerow(('b','1','coco','78'))
writer.writerow(('b','2','kevin','87'))
writer.writerow(('b','3','heven','96'))
fp.close()

In [7]:

!type H:python数据分析数据ch4ex2.csv    # 查看数据

school,id,name,grade
a,1,lucky,87
a,2,peter,92
a,3,lili,85
b,1,coco,78
b,2,kevin,87
b,3,heven,96

In [8]:

df = pd.read_csv(open('H:/python数据分析/数据/ch4ex2.csv'),index_col=[0,'id'])  
'''层次化索引，传入列编号或者列名组成的列表即可'''
df

Out[8]:

		name	grade
school	id
a	1	lucky	87
	2	peter	92
	3	lili	85
b	1	coco	78
	2	kevin	87
	3	heven	96

In [9]:

import csv    # 通过Python自带的csv库创建CSV文件
fp = open('H:/python数据分析/数据/ch4ex3.csv','w',newline='')
writer = csv.writer(fp)
writer.writerow(('1','lucky','87'))
writer.writerow(('2','peter','92'))
writer.writerow(('3','lili','85'))
fp.close()

In [10]:

!type H:python数据分析数据ch4ex3.csv    # 查看数据

1,lucky,87
2,peter,92
3,lili,85

In [12]:

df = pd.read_csv(open('H:/python数据分析/数据/ch4ex3.csv'))    # 默认情况读取，会指定第一行为标题行
df

Out[12]:

	1	lucky	87
0	2	peter	92
1	3	lili	85

In [13]:

df = pd.read_csv(open('H:/python数据分析/数据/ch4ex3.csv'),header=None)   # 通过header参数分配默认的标题行
'''
如果表头的type和csv内容的type相一致的时候，那么直接读取，会让第一行来当表头
此时加header=None，可以让第一行不当表头，而默认给0、1 来当表头
header这个属性是指，在不加header=None这个属性所出来的数据的基础上，把那个数据的表头去掉，换成0开头的表头
'''
df

Out[13]:

	0	1	2
0	1	lucky	87
1	2	peter	92
2	3	lili	85

In [14]:

df = pd.read_csv(open('H:/python数据分析/数据/ch4ex3.csv'),names=['id','name','grade'])
'''
通过names参数给其指定列名
当设置了names属性之后，header无论设不设置，都会是None
'''
df

Out[14]:

	id	name	grade
0	1	lucky	87
1	2	peter	92
2	3	lili	85

In [15]:

import csv    # 通过Python自带的csv库创建CSV文件并写入数据
fp = open('H:/python数据分析/数据/ch4ex4.csv','w',newline='')
writer = csv.writer(fp)
writer.writerow(['#This is grade'])
writer.writerow(('id','name','grade'))
writer.writerow(('1','lucky','87'))
writer.writerow(('2','peter','92'))
writer.writerow(('3','lili','85'))
writer.writerow(['#time'])
fp.close()

In [16]:

!type H:python数据分析数据ch4ex4.csv   # 查看数据

#This is grade
id,name,grade
1,lucky,87
2,peter,92
3,lili,85
#time

In [17]:

df = pd.read_csv(open('H:/python数据分析/数据/ch4ex4.csv'),skiprows=[0,5])   # 通过skiprows参数跳过一些行
'''无论是带表头还是不带表头，skiprows=2的效果，都是读第三行（也就是跳了两行读）'''
df

Out[17]:

	id	name	grade
0	1	lucky	87
1	2	peter	92
2	3	lili	85

In [19]:

df = pd.read_csv(open('H:/python数据分析/数据/titanic.csv'),nrows=10)
'''通过nrows参数，可以选择只读取部分行数据'''
df

Out[19]:

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	0	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	0	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	0	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	0	373450	8.0500	NaN	S
5	6	0	3	Moran, Mr. James	male	NaN	0	0	330877	8.4583	NaN	Q
6	7	0	1	McCarthy, Mr. Timothy J	male	54.0	0	0	17463	51.8625	E46	S
7	8	0	3	Palsson, Master. Gosta Leonard	male	2.0	3	1	349909	21.0750	NaN	S
8	9	1	3	Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)	female	27.0	0	2	347742	11.1333	NaN	S
9	10	1	2	Nasser, Mrs. Nicholas (Adele Achem)	female	14.0	1	0	237736	30.0708	NaN	C

In [20]:

df = pd.read_csv(open('H:/python数据分析/数据/titanic.csv'),nrows=10,usecols=['Survived','Sex'])
'''通过usecols参数进行部分列的选取'''
df

Out[20]:

	Survived	Sex
0	0	male
1	1	female
2	1	female
3	1	female
4	0	male
5	0	male
6	0	male
7	0	male
8	1	female
9	1	female

In [21]:

df = pd.read_csv(open('H:/python数据分析/数据/titanic.csv'))
'''
在处理很大文件的时候，需要对文件进行逐块读取，
首先通过info函数查看泰坦尼克号的生还者数据，共有891条数据
'''
df.info()


RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

In [22]:

chunker = pd.read_csv(open('H:/python数据分析/数据/titanic.csv'),chunksize=100)
'''通过chunksize参数，即可逐步读取文件
设定读取的行数，返回一个固定行数的迭代器，
每次读取只消耗相应行数对应的dataframe的内存，
从而可以有效的解决内存消耗过多的问题
'''
chunker

Out[22]:

In [23]:

df = pd.read_csv(open('H:/python数据分析/数据/titanic.csv'))
df['Sex'].value_counts()

Out[23]:

male      577
female    314
Name: Sex, dtype: int64

In [24]:

from pandas import Series
import pandas as pd
chunker = pd.read_csv(open('H:/python数据分析/数据/titanic.csv'),chunksize=100)
sex = Series([])
for i in chunker:       # 返回的是可迭代的TextFileReader。通过迭代，可以对Sex列进行计数
    sex = sex.add(i['Sex'].value_counts(),fill_value=0)
sex

Out[24]:

male      577.0
female    314.0
dtype: float64

read_csv/read_table参数

TXT文件的读取

In [25]:

fp = open('H:/python数据分析/数据/ch4ex6.txt','a+')   # 创建TXT文件
fp.writelines('id?name?grade'+'
')    # 写入数据
fp.writelines('1?lucky?87'+'
')
fp.writelines('2?peter?92'+'
')
fp.writelines('3?lili?85'+'
')
fp.close()

In [26]:

!type H:python数据分析数据ch4ex6.txt   # 查看数据

id?name?grade
1?lucky?87
2?peter?92
3?lili?85

In [27]:

import pandas as pd
df = pd.read_table(open('H:/python数据分析/数据/ch4ex6.txt'),sep='?')   # 读取TXT文件
'''通过read_table函数中的sep参数进行分隔符的指定'''
df

Out[27]:

	id	name	grade
0	1	lucky	87
1	2	peter	92
2	3	lili	85

In [28]:

!type H:python数据分析数据ch4ex7.txt  # 查看TXT文件，以空格隔开的文件

id   name grade
1 lucky  87
2  peter    92
3  lili 85

In [29]:

df = pd.read_table(open('H:/python数据分析/数据/ch4ex7.txt'),sep='s+')  # 正则表达式处理空格读取数据
df

Out[29]:

	id	name	grade
0	1	lucky	87
1	2	peter	92
2	3	lili	85

#文本存储

In [30]:

import pandas as pd
df = pd.read_csv(open('H:/python数据分析/数据/ch4ex1.csv'))
df

Out[30]:

	id	name	grade
0	1	lucky	87
1	2	peter	92
2	3	lili	85

In [31]:

'''利用DataFrame的to_csv方法，可以将数据存储到以逗号分隔的CSV文件中'''
df.to_csv('H:/python数据分析/数据/out1.csv')
!type H:python数据分析数据out1.csv

,id,name,grade
0,1,lucky,87
1,2,peter,92
2,3,lili,85

In [32]:

'''通过sep参数指定存储的分隔符,默认情况下会存储行和列索引'''
df.to_csv('H:/python数据分析/数据/out2.csv',sep='?')
!type H:python数据分析数据out2.csv

?id?name?grade
0?1?lucky?87
1?2?peter?92
2?3?lili?85

In [33]:

'''通过设置index和header分别处理行和列索引'''
df.to_csv('H:/python数据分析/数据/out3.csv',index=False)
!type H:python数据分析数据out3.csv

id,name,grade
1,lucky,87
2,peter,92
3,lili,85

展开阅读全文

页面更新：2024-04-18

标签：表头空格函数消耗索引属性参数文件方法数据

1 2 3 4 5

ICRA 2023 - 利用真实世界中的海量无标注点云提升房屋结构估计

Paper 地址： https://arxiv.org/abs/2301.13865开源代码仓库地址： https://github.com/AIR-DISCOVER/Omni-PQ 图 1 一、简介室内场景的框架预测任务（Room layout estimation, [1, 2, 3, 4, 5] ）是一项长期存在的机器人

特斯拉高速公路方向盘突然脱落！特斯拉官方：不存在质量缺陷！

没有见过像特斯拉这样嘴硬的汽车品牌，即使是对美国消费者，同样也很强硬。但是硬跟硬还不太一样。此前，有美国特斯拉Model Y车主在社交平台上分享了自己驾驶特斯拉遭遇的“惊险一幕”。自己的Model Y才提车一周，然而在高速

中国新能源车弯道超车就是个笑话！电池原料完全依赖进口！怎么破

最近几年，中国新能源车的发展突飞猛进，以比亚迪为首的新能源车销量一个劲得暴涨，可见中国新能源车发展前景一片光明，似乎中国汽车弯道超车指日可待！但是有一个巨大的难题如果不解决，中国新能源汽车不仅弯道超车就是个笑话

亚马逊在中国推出6款基于自研芯片Graviton及英特尔Ice Lake新实例

品玩2月10日讯，据界面新闻报道，亚马逊云科技2月10日宣布通过与光环新网和西云数据的合作推出6款新的实例。其中包括在北京区域推出Amazon EC2 R6gd，在北京区域和宁夏区域推出Amazon EC2 C6i、Amazon EC2 M6i、Amazon EC2

QQ崩了？嗯，是崩了！

QQ是一款由中国腾讯公司开发的即时通讯软件。QQ在1999年由腾讯公司开发，首次发布于2000年。起初，它只是一款基于网络的通讯工具，可以用来即时地与好友聊天。但随着技术的不断发展，QQ逐渐成为了一款集聊天、博客、游戏、社

高通骁龙X35发布！全球首个NR-Light调制解调器、射频系统

智东西作者 | 程茜编辑 | 心缘智东西2月8日报道，本周三，高通发布全球首个5G NR-Light调制解调器及射频系统骁龙X35。骁龙X35是集成了优化的射频集成电路（RFIC）和电源管理集成电路（PMIC）模组的3GPP Release 17 RedCap（Reduced

AI时代来临，美国有ChatGPT，中国有什么

这几天美国openAI公司（这个公司母公司是谷歌）的 ChatGPT概念火起来了，实际上人工智能不是才兴起的，前几年阿尔法狗，曾经打败过中韩人工围棋天才。那么AI时代，从分析型AI转向生产内容型AI时代，美国有ChatGPT，中国有什么？人们不

不会灭亡的生物，你知道吗？

地球上有一种不会灭亡的生物，曾经历过五次物种大灭绝事件后依然存在，打破了我们对生命与环境的认知，甚至在没有防护措施的外太空中也毫发无损，这就是无敌般存在的水熊虫。那么它到底有多厉害？水熊虫是一种缓步动物门生物，

1Password宣布今年夏季将支持苹果Passkey

IT之家 2 月 10 日消息，苹果去年秋季在推出 iOS 16 和 macOS Ventura 系统时，上线了通行密钥（Passkey）功能。1Password 团队宣布计划在今年夏季全面支持 Passkey，意味着用户可以使用 Passkey 来解锁 1Password 账号了。1Pa

这些APP被工信部通报！看看你手机里有吗？

工信部2月8日对墨迹天气极速版、掌上公交等46款侵害用户权益的移动互联网应用程序（APP）及第三方软件开发工具包（SDK）进行通报，要求这46款APP及SDK在2月15日前完成整改落实工作。依据相关法律法规，工信部组织第三方检测机构

三六零王者归来？

富凯摘要：2022年，三六零净利润预计亏损24.8亿元，这也是回归A股后的首次亏损。作者|AK尽管专门进行了风险提示，2月9日，受ChatGPT概念刺激的三六零股价依旧涨停，截至收盘，三六零股价涨9.98%，报收9.7元/股，已连续三个交易日涨停。

一周舆报 - 不倒翁小姐姐回应生娃憔悴：拒绝利用容貌传播婚育焦虑

2.3-2.9一周网络热点事件汇总 01、百度类ChatGPT产品名为ERNIEBOT概述：近日，百度即将推出一款类似于ChatGPT产品的消息引发外界关注，2月7日上午，百度确认了该消息并表示，“该项目名字确定为文心一言，英文名ERNIE Bot，三月份

国内芯片“一哥”业绩曝光！透露这些信号

中国基金报记者冯尧芯片行业何时可见春意？“消费类库存半年内可以消化完毕，汽车尤其是新能源领域供不应求”，中芯国际（00981.HK）联合首席执行官赵海军在2月10日的业绩会上透露。就在前一日晚间，这家国内晶圆制造“一哥”披

华东理工大学、上海交通大学研究团队：用于CO甲烷化的Ni/CeO2催化剂还原过程重构行为调控研究

文章速递华东理工大学朱明辉、上海交通大学彭冲研究团队在中国工程院院刊《Engineering》2022年7期刊发《用于CO甲烷化的Ni/CeO2催化剂还原过程重构行为调控研究》一文，指出还原预处理是活化负载型金属催化剂的重要步

外媒：苹果大势已去

近段时间，不少美企科技巨头陆续公布了财报，情况变得更加糟糕，基本上都出现业绩大幅下滑，像英特尔、高通、AMD等。于是，纷纷开始削减支出、裁员自救等。而苹果似乎是个例外，仅仅只是暂停招聘。但其实，苹果尽管实力雄厚，依然未

上滑加载更多 ↓

python文本文件读取与存储

# CSV文件的读取

read_csv/read_table参数

TXT文件的读取

#文本存储

ICRA 2023 - 利用真实世界中的海量无标注点云提升房屋结构估计

特斯拉高速公路方向盘突然脱落！特斯拉官方：不存在质量缺陷！

中国新能源车弯道超车就是个笑话！电池原料完全依赖进口！怎么破

亚马逊在中国推出6款基于自研芯片Graviton及英特尔Ice Lake新实例

QQ崩了？嗯，是崩了！

高通骁龙X35发布！全球首个NR-Light调制解调器、射频系统

AI时代来临，美国有ChatGPT，中国有什么

不会灭亡的生物，你知道吗？

1Password宣布今年夏季将支持苹果Passkey

这些APP被工信部通报！看看你手机里有吗？

三六零王者归来？

一周舆报 - 不倒翁小姐姐回应生娃憔悴：拒绝利用容貌传播婚育焦虑

国内芯片“一哥”业绩曝光！透露这些信号

华东理工大学、上海交通大学研究团队：用于CO甲烷化的Ni/CeO2催化剂还原过程重构行为调控研究

外媒：苹果大势已去

热血传奇：黑暗光年锁子甲的获得方法攻略

看懂这三个养生方法，春天决不会再生病

从春节大数据看2023年中国经济走向

软件 - 2023年商业智能与数据十大趋势

2022年全国规上工业企业经营数据公布 2023年“拼发展

专家分析过敏性鼻炎的预防方法有哪些

难度大！孙颖莎冲击“6冠王”，三线作战消耗严重，单打最被

欧足联公布欧洲俱乐部工资数据，皇马薪金支出全欧第二巴

SpringBoot 2.0 中 HikariCP 数据库连接池原理解析

大数据资源服务平台顶层设计及业务应用建设和运营综合