您好,欢迎来到保捱科技网。
搜索
您的当前位置:首页python 分析泰坦尼克号生还率

python 分析泰坦尼克号生还率

来源:保捱科技网

泰坦尼克号数据集,是kaggle(Titanic: Machine Learning from Disaster)上入门机器学习(ML)的一个好的可选数据集,当然,也是不错的练习数据分析的数据集。对 python ,在数据分析方面,作为一柄利器,涵盖了「数据获取→数据处理→数据分析→数据可视化」这个流程中每个环节, 这风骚的操作,也是没谁了。

这个项目做下来,除了没有涉及到数据抓取(python爬虫)外,基本上把python 数据处理分析的各个版块都做了一个完整的贯穿。对此进行归纳总结,算是倒逼自己对所接触到的知识,进行结构化的梳理和输出。

探索的问题

主要探寻坦尼克号上的生还率和各因素(客舱等级、年龄、性别、上船港口等)的关系。

获取数据

# 用于数据分析
import pandas as pd
import numpy as np

# 用于绘图
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

# 读取前五行数据
data_t = pd.read_csv('titanic-data.csv')
data_t.head()
复制代码
PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked
0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S
1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.2833 C85 C
2 3 1 3 Heikkinen, Miss. Laina female 26.0 0 0 STON/O2. 3101282 7.9250 NaN S
3 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 0 113803 53.1000 C123 S
4 5 0 3 Allen, Mr. William Henry male 35.0 0 0 373450 8.0500 NaN S
# 数据集信息,包含数据集大小,列名,类型
data_t.info()
data_t.columns.values
复制代码
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 12 columns):
PassengerId    1 non-null int
Survived       1 non-null int
Pclass         1 non-null int
Name           1 non-null object
Sex            1 non-null object
Age            714 non-null float
SibSp          1 non-null int
Parch          1 non-null int
Ticket         1 non-null object
Fare           1 non-null float
Cabin          204 non-null object
Embarked       8 non-null object
dtypes: float(2), int(5), object(5)
memory usage: 83.6+ KB





array(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'], dtype=object)
复制代码

数据观察

  • 载入 titanic-data.csv 到一个 DataFrame ,然后用 head() 函数打印出前5行数据(p.s 用 tail() 函数可以打印出后5行)。

  • 通过对数据的初步观测,这个数据样本一共有 1 行 * 12 列数据,字段包含: 'PassengerId(乘客id)', 'Survived(是否活下来)', 'Pclass(船舱等级)', 'Name(姓名)', 'Sex(性别)', 'Age(年龄)', 'SibSp(兄弟姐妹同行数量)','Parch(父母配偶同行数量)', 'Ticket(票)', 'Fare(费)', 'Cabin(船舱)', 'Embarked(上船站)'

  • 其中, 定类变量 包括 Survived,Sex,Embarked, 定序变量 包括 Pclass, 数字变量 包括 PassengerId,Age,SibSp,Parch,Fare

  • 通过观测发现,Age、Cabin、Embarked 包含了有空值

# 字段分析
def y(x):
    return data_t[x].unique()
print('='*20 + 'Survived字段内容' + '='*20)
print(y('Survived'))
print('='*20 + 'Sex字段内容' + '='*20)
print(y('Sex'))
print('='*20 + 'Pclass字段内容' + &#

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baoaiwan.cn 版权所有 赣ICP备2024042794号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务