Я смотрю на знаменитый Титаник набор данных с соревнований Kaggle здесь: http://www.kaggle.com/c/titanic-gettingStarted/dataпанды scatter_matrix - сюжетные категориальные переменные
Я загрузки и обработки данных с помощью:
# import required libraries
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
# load the data from the file
df = pd.read_csv('./data/train.csv')
# import the scatter_matrix functionality
from pandas.tools.plotting import scatter_matrix
# define colors list, to be used to plot survived either red (=0) or green (=1)
colors=['red','green']
# make a scatter plot
scatter_matrix(df,figsize=[20,20],marker='x',c=df.Survived.apply(lambda x:colors[x]))
df.info()
Как я могу добавить категориальные столбцы, такие как «Секс» и «Вперед» к сюжету?
Точечная участок не является хорошим выбором для категориальных переменных, так что это не будет действительно иметь смысл «добавить» те переменные этого рассеяния матрицы. Вы можете сделать другой набор графиков с этими переменными (например, ящики с каждой числовой переменной, сгруппированные по категориям). – BrenBarn
BrenBarn - спасибо .... Я не полностью согласен с вами ... когда факторы ограничены (например, пол: мужчина, женщина, неизвестно). Я нахожу очень проницательным подход к этим целым числам, таким как 1,2 и 3, и строить их в диаграмме рассеяния. Если я помню правильно наизусть, R обрабатывает его факторы в такой кадре данных, как при построении диаграммы рассеяния. Надеюсь, что с пандами можно было бы сделать то же самое. –
Я думаю, вы захотите взглянуть на граненые и парегриды моряков для этого типа сюжета: http://web.stanford.edu/~mwaskom/software/seaborn/examples/scatterplot_matrix.html –