excel学习库

excel表格_excel函数公式大全_execl从入门到精通

入门机器学习之线性回归

什么是回归分析 在客观世界中普通存在着变量之间的关系,变量之间的关系一般来说可以分成确定性关系和不确定关系,确定性关系是说变量之间的关系是可以用函数关系来表示的,另一种不确定性关系即所谓相关关系。例如人的身高和体重之间存在关系,一般来说,人高一些,体重要重一些,但同样高的人,体重往往不一样,人的血压与年龄之间也存在关系,但同年龄人血压往往是不相同的,气象中的温度和湿度之前的关系也是这样,这是因为我们涉及的变量是随机变量,上述所说的就是不确定性关系。回归分析是研究相关关系的是一种数学工具,是用一个变量取得的值去估计另一个变量所取得的值。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析。回归的含义是什么出自高尔顿种豆子的实验,通过大量数据统计,他发现个体小的豆子往往倾向于产生比其更大的子代,而个体大的豆子则倾向于产生比其小的子代,然后高尔顿认为这是由于新个体在向这种豆子的平均尺寸“回归”,大概的意思就是事物总是倾向于朝着某种“平均”发展,也可以说是回归于事物本来的面目。 回归分析的目的 回归分析的目的大致可分为两种: 第一,“预测”。预测目标变量,求解目标变量y和说明变量(x1,x2,…)的方程。y=a0+b1x1+b2x2+…+bkxk+误差 (方程A) 把方程A叫做(多元)回归方程或者(多元)回归模型。a0是y截距,b1,b2,…,bk是回归系数。当k=l时,只有1个说明变量,叫做一元回归方程。根据最小平方法求解最小误差平方和,非求出y截距和回归系数。若求解回归方程.分別代入x1,x2,…xk的数值,预n 测y的值。 第二,“因子分析”。因子分析是根据回归分析结果,得出各个自变量对目标变量产生的影响,因此,需要求出各个自变量的影响程度。希望初学者在阅读接下来的文章之前,首先学习一元回归分析、相关分析、多元回归分析、数量化理论等知识。本章节的目的就是尽可能将复杂难懂,而且实际应用中比较少用的数理知识去掉,以易于理解的口吻讲解线性回归。回归技术 有各种各样的回归技术用于预测。这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。 对于那些有创意的人,如果你觉得有必要使用上面这些参数的一个组合,你甚至可以创造出一个没有被使用过的回归模型。最常用的回归方法如下: 1、Linear Regression线性回归 它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。 线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。用一个方程式来表示它,即Y=a+b*X + e,其中a表示截距,b表示直线的斜率,e是误差项。这个方程可以根据给定的预测变量(s)来预测目标变量的值。 【一元线性回归和多元线性回归】的区别在于,多元线性回归有(>1)个自变量,而一元线性回归通常只有1个自变量。现在的问题是“我们如何得到一个最佳的拟合线呢?”。 2、Logistic Regression逻辑回归 逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,我们就应该使用逻辑回归 3、 Polynomial Regression多项式回归 对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。如方程所示:y=a+b*x^2,在这种回归技术中,最佳拟合线不是直线。而是一个用于拟合数据点的曲线。 4、Stepwise Regression逐步回归 在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回归方法: 标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。向前选择法从模型中最显著的预测开始,然后为每一步添加变量。向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显着性的变量。这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。 线性回归基本介绍 回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归,回归还有很多的变种,如locally weighted回归,logistic回归,等等,这个将在后面去讲。 一元线性回归回归分析(Regression Analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。比如下面的示例:图-广告费和销售额的拟合直线 图-身高和体重的拟合直线多元回归有多个因变量和一个因变量,二者的关系是多维空间的平面,数据的分布或者在平面上,或者在平面下侧,或者在平面上侧:多元回归的向量方程回归过程描述 用一个很简单的例子来说明回归,这个例子来自很多的地方,也在很多的open source的软件中看到,比如说weka。大概就是,做一个房屋价值的评估系统,一个房屋的价值来自很多地方,比如说面积、房间的数量(几室几厅)、地段、朝向等等,这些影响房屋价值的变量被称为特征(feature),feature在机器学习中是一个很重要的概念,有很多的论文专门探讨这个东西。在此处,为了简单,假设我们的房屋就是一个变量影响的,就是房屋的面积。 假设有一个房屋销售的数据如下:这个表类似于帝都5环左右的房屋价钱,我们可以做出一个图,x轴是房屋的面积。y轴是房屋的售价,如下:房屋销售xy直线如果来了一个新的面积,假设在销售价钱的记录中没有的,我们怎么办呢? 我们可以用一条曲线去尽量准的拟合这些数据,然后如果有新的输入过来,我们可以在将曲线上这个点对应的值返回。如果用一条直线去拟合,可能是下面的样子:数据预测绿色的点就是我们想要预测的点。 首先给出一些概念和常用的符号,在不同的机器学习书籍中可能有一定的差别。房屋销售记录表 - 训练集(training set)或者训练数据(training data), 是我们流程中的输入数据,一般称为x房屋销售价钱 - 输出数据,一般称为y拟合的函数(或者称为假设或者模型),一般写做 y = h(x)训练数据的条目数(#training set), 一条训练数据是由一对输入数据和输出数据组成的输入数据的维度(特征的个数,#features),n下面是一个典型的机器学习的过程,首先给出一个输入数据,我们的算法会通过一系列的过程得到一个估计的函数,这个函数有能力对没有见过的新数据给出一个新的估计,也被称为构建一个模型。就如同上面的线性回归函数。机器学习的过程我们用X1,X2..Xn 去描述feature里面的分量,比如x1=房间的面积,x2=房间的朝向,等等,我们可以做出一个估计函数:一维线性回归函数θ在这儿称为参数,在这儿的意思是调整feature中每个分量的影响力,就是到底是房屋的面积更重要还是房屋的地段更重要。为了如果我们令X0 = 1,就可以用向量的方式来表示了:线性回归函数向量表示函数我们程序也需要一个机制去评估我们θ是否比较好,所以说需要对我们做出的h函数进行评估,一般这个函数称为损失函数(loss function)或者错误函数\(error function\),描述h函数**不好**的程度,在下面,我们称这个函数为J函数在这儿我们可以做出下面的一个错误函数:损失函数这个错误估计函数是去对x(i)的估计值与真实值y(i)差的平方和作为错误估计函数,前面乘上的1/2是为了在求导的时候,这个系数就不见了。 总结: 本章主要是认识线性回归的基本术语和基础模型,机器学习不是一个曲高和寡的东西,它是将我们常用数学知识运用到工业、生活中,从而具备预测、分析的能力,希望借此降低我们的心里认知,走向机器学习。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«    2024年12月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
    文章归档
      友情链接