数据科学相关文章

一文掌握Pandas数据结构
在网络上的Pandas教程中,很多都提到了如何使用Pandas将已有的数据(如csv,如hdfs等)直接加载成Pandas数据对象,然后在其基础上进行数据分析操作,但是,很多时候,我们需要自己创建Pandas数据对象,并填入一些数据,常见的应用场景如:我们想要将现有的数据进行处理,并生成一个新的Pandas数据对象,还有,我们想利用Pandas的数据保存功能(比如to_csv, to_json, to_hdf等等)把我们采集到的数据写入到IO里边,因此掌握Pandas对象的特性,以及如何创建也是很重要的。因此在本篇文章中,我们主要侧重于介绍Pandas数据结构本身的特性,以及如何创建一个Series或者DataFrame数据对象,并填入一些数据。
阅读更多
利用Pandas索引和选取数据
使用Pandas做数据分析的时候,用的最多的功能恐怕就是对于数据集的索引,选组数据子集。Pandas库提供了很多非常实用的方法,了解并熟练使用这些方法而不是用for循环的方法将会事半功倍。在这一篇文章中,我们将着重介绍这些方法。 我们将使用2019年全国新能源汽车的销量数据作为演示数据,数据保存在一个csv文件中,读者可以在GitHub仓库下载到 https://github.com/pythonlibrary/practice-pandas-skills.git 本篇文章中会使用到两个库pandas 和 numpy,确保它们都正确的安装,而工作环境则使用jupyter notebook,如果有需要学习如何搭建环境的,可以阅读 数据科学家的一种工作环境 – virtualenv和Jupyter Notebook 。
阅读更多
数据科学家的一种工作环境 – virtualenv和Jupyter Notebook
工欲善其事,必先利其器 在进行工作之前,创建一个顺手的环境是必须的,那么什么是一个顺手的工作环境呢,针对数据分析而言,我认为需要满足以下几个方面: 隔离不同的应用领域的库 – 这一条适用于所有场景,不仅针对数据分析,因为python最为强大的地方是生态,针对不同的场景,有不同的库可以满足快速开发的要求,我们不希望在数据分析的环境中安装那些无关的(比如说串口通讯)的库,因此我们需要一个隔离环境; 快速调试,快速获得灵感 – 数据分析应用场景下,往往需要不停的重组,不停的画图,来帮助理解数据; 趁手的编辑器 – 敲代码的时候比较高效,有贴心的快捷键,最好还能修改主题; 基于以上目标后两点,在数据分析领域,普遍使用Jupyter Notebook作为环境。Jupyter Notebook是一种交互式的开发环境,用户可以选择单独运行某一段python代码,并获得输出,而代码运行的变量,对象等数据都是保存在内存中,不会释放,因此在后边继续运行其他的代码片段的时候可以访问到之前创建好的数据结构。另外,Jupyter Notebook,会将代码的数据结果(可能是表格,可能是图像,也可能是普通的打印输出)连同代码本身保存在一个后缀为ipynb的文件中,因此在什么时候打开这样的文件都能看到之前运行的结果,方便结果分享。
阅读更多
数据可视化 – 利用Bokeh和Bottle.py在网上展示你的数据
本文将展示如何使用python搭建一个网页应用来展示你的数据图表 很多有关于使用python搭建网页应用的文章聚焦在如何教读者搭建一个网页应用(大多是博客),很多关于使用python做数据可视化的文章聚焦在如何教读者使用python的图表库来做可视化(大多是在jupyter notebook环境下)
阅读更多