分类目录归档:机器学习

机器学习-随机森林


随机森林

导入库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

导入数据集

dataset = pd.read_csv('../datasets/Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values

将数据集拆分成训练集和测试集

from sklearn.model_selection import train_test_split
X_tr...

阅读全文...

机器学习-决策树


决策树分类

导入需要用到的python库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

导入数据集

dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values

将数据集拆分为训练集和测试集

from sklearn.model_selection import train_test_split
X_tr...

阅读全文...

机器学习-支持向量机(SVM)


支持向量机 (SVM)

导入库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

导入数据

dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values

拆分数据集为训练集合和测试集合

from sklearn.model_selection import train_test_split
X_train, ...

阅读全文...

机器学习-k近邻实现


K近邻法 (K-NN)

数据集 | 社交网络

导入相关库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

导入数据集

dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values

将数据划分成训练集和测试集

from sklearn.model_selection import train_test...

阅读全文...

机器学习-逻辑回归


数据集 | 社交网络

该数据集包含了社交网络中用户的信息。这些信息涉及用户ID,性别,年龄以及预估薪资。一家汽车公司刚刚推出了他们新型的豪华SUV,我们尝试预测哪些用户会购买这种全新SUV。并且在最后一列用来表示用户是否购买。我们将建立一种模型来预测用户是否购买这种SUV,该模型基于两个变量,分别是年龄和预计薪资。因此我们的特征矩阵将是这两列。我们尝试寻找用户年龄与预估薪资之间的某种相关性,以及他是否购买SUV的决定。

步骤1 | 数据预处理

导入库

import numpy as np
import matplotlib.pyplot as plt
import pan...

阅读全文...

机器学习-多元线性回归


多元线性回归

第1步: 数据预处理

导入库

import pandas as pd
import numpy as np

导入数据集

dataset = pd.read_csv('50_Startups.csv')
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : ,  4 ].values

将类别数据数字化

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder = LabelEncoder()
X[: , ...

阅读全文...

机器学习-简单线性回归模型


简单线性回归模型

第一步:数据预处理

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

dataset = pd.read_csv('studentscores.csv')
X = dataset.iloc[ : ,   : 1 ].values
Y = dataset.iloc[ : , 1 ].values

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y...

阅读全文...

机器学习-数据预处理


数据预处理

如图所示,通过6步完成数据预处理。

第1步:导入库

import numpy as np
import pandas as pd

第2步:导入数据集

dataset = pd.read_csv('Data.csv')
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : , 3].values

第3步:处理丢失数据

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values = "NaN"...

阅读全文...