网站关键词怎么优化到首页专门下载工程建设标准的网站

张小明 2026/1/1 19:22:28
网站关键词怎么优化到首页,专门下载工程建设标准的网站,中原区建设局网站,网络营销的特点与方法有哪些线性回归是统计学和机器学习中最基础的回归分析方法#xff0c;核心目标是构建自变量#xff08;特征#xff09;与连续型因变量#xff08;标签#xff09;之间的线性关系模型#xff0c;通过拟合最优直线 / 超平面#xff0c;实现对连续值的预测。以下是从核心定义到应…线性回归是统计学和机器学习中最基础的回归分析方法核心目标是构建自变量特征与连续型因变量标签之间的线性关系模型通过拟合最优直线 / 超平面实现对连续值的预测。以下是从核心定义到应用要点的全维度梳理一、核心定义与模型形式1. 一元线性回归单特征适用于单个特征预测单个连续标签是线性回归的基础形式模型公式ywxbϵy因变量待预测的连续值如糖尿病病情指数x自变量单一特征如血糖值w回归系数斜率表示x每变化 1 单位y的平均变化量b截距x0时y的预测值ϵ随机误差残差表示模型无法解释的随机波动服从均值为 0 的正态分布。2. 多元线性回归多特征适用于多个特征预测单个连续标签如 10 个特征预测糖尿病病情是实际场景中最常用的形式模型公式yw1​x1​w2​x2​...wn​xn​bϵ矩阵简化形式YXWbϵX特征矩阵nsamples​×nfeatures​每行是一个样本每列是一个特征W回归系数向量nfeatures​×1每个元素对应一个特征的权重Y因变量向量nsamples​×1包含所有样本的真实标签。二、核心目标最小化残差平方和线性回归的优化目标是找到最优的W系数和b截距使得残差平方和SSE最小残差单个样本的真实值与预测值的偏差ei​yi​−y^​i​y^​i​为预测值残差平方和公式min∑i1n​(yi​−y^​i​)2min∑i1n​(yi​−(WXi​b))2核心逻辑让预测值尽可能贴近真实值偏差的平方和越小模型拟合效果越好。三、参数求解方法1. 最小二乘法解析解适用场景低维数据特征数少如 100、样本量适中且特征无严重多重共线性求解公式多元场景W(XTX)−1XTYXT为X的转置(XTX)−1为XTX的逆矩阵优缺点计算直接、有明确数学解但当XTX不可逆如特征线性相关时失效且高维数据下矩阵求逆计算成本极高。2. 梯度下降法数值解适用场景高维数据特征数多如 100、大规模样本如百万级核心逻辑沿残差平方和的负梯度方向迭代更新参数逐步逼近最优解常见变体批量梯度下降BGD每次用全量样本更新参数稳定但速度慢随机梯度下降SGD每次用单个样本更新参数速度快但波动大小批量梯度下降MBGD结合前两者用部分样本如 32/64 个更新兼顾速度与稳定性优缺点无解析解限制适配高维 / 大规模数据但需调参学习率、迭代次数等。四、模型评估指标1. 拟合优度R2决定系数核心含义模型可解释的因变量变异占总变异的比例取值范围(−∞,1]公式R21−∑i1n​(yi​−yˉ​)2∑i1n​(yi​−y^​i​)2​yˉ​为真实值的均值解读R21模型完美拟合预测值完全等于真实值0R21模型能解释部分变异值越接近 1拟合效果越好R20模型预测效果等同于直接用均值预测无解释能力R20模型效果差于均值预测通常是模型选择错误如用线性回归拟合非线性数据。2. 误差类指标均方误差MSEMSEn1​∑i1n​(yi​−y^​i​)2反映预测值与真实值的平均平方偏差值越小越好均方根误差RMSERMSEMSE​将误差还原为与因变量同量纲的单位更易解读如预测血糖时RMSE0.5 表示平均偏差 0.5mmol/L平均绝对误差MAEMAEn1​∑i1n​∣yi​−y^​i​∣对异常值的鲁棒性优于 MSE。五、线性回归的基本假设模型有效前提线性回归的可靠性依赖 4 个关键假设违反假设会导致模型系数失真、预测失效1. 线性性特征与因变量之间存在显著的线性关系如血糖越高糖尿病病情指数越高验证方法绘制特征与因变量的散点图、计算相关系数皮尔逊相关系数接近 ±1 则线性性强。2. 独立性样本之间相互独立无自相关性如时间序列数据中 “今天的血糖值影响明天的血糖值” 则违反独立性验证方法Durbin-Watson 检验DW 值接近 2 则无自相关。3. 同方差性残差的方差在所有样本上恒定无 “异方差”如低血糖样本的预测误差小高血糖样本的预测误差大验证方法绘制残差 - 预测值散点图若残差无明显趋势则满足同方差性。4. 正态性残差服从正态分布大部分残差集中在 0 附近极端残差极少验证方法绘制残差的 Q-Q 图、直方图或进行 Shapiro-Wilk 正态性检验。六、常见问题与解决方案1. 多重共线性问题多个特征之间高度相关如 “体重” 和 “BMI”导致XTX不可逆系数估计值不稳定、解释性失真解决方案特征选择删除冗余特征如删除 BMI保留体重正则化引入 L1Lasso/L2Ridge正则化惩罚过大的系数主成分分析PCA将高维相关特征降维为低维不相关特征。2. 过拟合问题模型在训练集上拟合极好R2接近 1但在测试集上效果极差泛化能力弱诱因特征数过多、样本量过少、无正则化约束解决方案简化模型减少特征数量如 Lasso 正则化自动筛选特征正则化添加 L2Ridge正则化限制系数大小增加样本量扩充训练数据降低模型对局部噪声的敏感度。3. 欠拟合问题模型在训练集和测试集上的效果都差R2接近 0诱因特征与因变量无线性关系、特征数量不足、模型过于简单解决方案增加特征引入更多与因变量相关的特征如预测糖尿病时添加 “糖化血红蛋白” 特征非线性变换对特征做多项式变换如x→x2拟合非线性趋势更换模型若线性关系不成立改用非线性模型如决策树、神经网络。七、适用场景与局限性1. 适用场景因变量为连续值如血糖、房价、销售额特征与因变量存在线性 / 近似线性关系对模型解释性要求高线性回归的系数可直接解释 “特征对因变量的影响方向和程度”数据量适中、特征维度不高或已做降维处理。2. 局限性无法拟合非线性关系如 “温度 - 销量” 的抛物线关系对异常值敏感极端值会大幅影响系数估计对多重共线性敏感需提前处理特征相关性仅适用于回归任务无法解决分类问题需结合 Sigmoid 函数扩展为逻辑回归。八、核心总结线性回归的核心是 “线性假设 最小二乘优化”是回归任务的 “入门基准模型”优势原理简单、解释性强、计算成本低是理解回归分析的基础关键使用前需验证线性假设、处理异常值 / 多重共线性使用中需通过正则化避免过拟合使用后需用R2、RMSE 等指标评估效果延伸线性回归是逻辑回归、岭回归、Lasso 回归等算法的基础掌握线性回归是理解更复杂回归模型的核心前提。实例糖尿病患者的预测import numpy as np import pandas as pd from sklearn.preprocessing import StandardScaler from sklearn.metrics import r2_score, mean_squared_error from sklearn.model_selection import train_test_split class MyLinearRegression: def __init__(self): self.coef_ None # 回归系数对应10个特征的w1-w10 self.intercept_ None # 截距对应b def fit(self, X, y): 训练模型用最小二乘法求解参数 X: 特征矩阵 (n_samples, n_features) y: 标签向量 (n_samples,) # 步骤1给X添加截距列全1列对应b的系数 X_with_intercept np.hstack([np.ones((X.shape[0], 1)), X]) # 步骤2最小二乘法公式求解参数 W (X^T X)^-1 X^T y # X^T X特征的协方差矩阵(X^T X)^-1逆矩阵X^T y特征与标签的协方差 X_T X_with_intercept.T try: X_T_X_inv np.linalg.inv(X_T X_with_intercept) # 矩阵求逆 except np.linalg.LinAlgError: # 若矩阵不可逆特征线性相关用伪逆 X_T_X_inv np.linalg.pinv(X_T X_with_intercept) W X_T_X_inv X_T y # 拆分截距和系数W[0]是截距W[1:]是10个特征的系数 self.intercept_ W[0] self.coef_ W[1:] def predict(self, X): 预测y w1x1 w2x2 ... w10x10 b return X self.coef_ self.intercept_ # ---------------------- 1. 读取CSV数据 ---------------------- df pd.read_csv(糖尿病数据.csv) # 检查缺失值必须处理否则矩阵运算报错 if df.isnull().any().any(): df df.fillna(df.mean()) # 缺失值用均值填充简单有效 # 拆分特征X和标签y前10列是特征最后1列是结果 X df.iloc[:, :-1].values # (n_samples, 10) y df.iloc[:, -1].values # (n_samples,) # ---------------------- 2. 数据预处理标准化 ---------------------- # 线性回归对尺度敏感10个特征需标准化Z-score scaler StandardScaler() X_scaled scaler.fit_transform(X) # 标准化后的特征 # 划分训练集/测试集避免过拟合验证模型泛化能力 X_train, X_test, y_train, y_test train_test_split( X_scaled, y, test_size0.2, random_state42 # 20%作为测试集 ) # ---------------------- 3. 训练手动实现的线性回归 ---------------------- my_lr MyLinearRegression() my_lr.fit(X_train, y_train) # 输出参数10个特征的系数 截距 print( 手动实现线性回归参数 ) print(f截距 b {my_lr.intercept_:.4f}) for i in range(10): print(f特征{i 1}的系数 w{i 1} {my_lr.coef_[i]:.4f}) # ---------------------- 4. 预测与评估 ---------------------- # 训练集预测 y_train_pred my_lr.predict(X_train) # 测试集预测 y_test_pred my_lr.predict(X_test) # 评估指标拟合优度R²、均方误差MSE print(\n 模型评估结果 ) # 训练集 print(f训练集 R² {r2_score(y_train, y_train_pred):.4f}) print(f训练集 MSE {mean_squared_error(y_train, y_train_pred):.4f}) # 测试集关键泛化能力 print(f测试集 R² {r2_score(y_test, y_test_pred):.4f}) print(f测试集 MSE {mean_squared_error(y_test, y_test_pred):.4f}) # ---------------------- 5. 对比sklearn官方实现验证正确性 ---------------------- from sklearn.linear_model import LinearRegression sk_lr LinearRegression() sk_lr.fit(X_train, y_train) print(\n sklearn官方线性回归参数对比验证 ) print(f截距 b {sk_lr.intercept_:.4f}) for i in range(10): print(f特征{i 1}的系数 w{i 1} {sk_lr.coef_[i]:.4f}) # 对比预测结果应几乎一致 sk_y_test_pred sk_lr.predict(X_test) print(f\nsklearn测试集 R² {r2_score(y_test, sk_y_test_pred):.4f}) # 加L2正则Ridge优化手动实现可参考或直接用sklearn from sklearn.linear_model import Ridge ridge_lr Ridge(alpha1.0) # alpha越大正则化越强 ridge_lr.fit(X_train, y_train) print(fRidge测试集 R² {r2_score(y_test, ridge_lr.predict(X_test)):.4f})截距 b 151.3457 特征1的系数 w1 1.8027 特征2的系数 w2 -11.5092 特征3的系数 w3 25.8006 特征4的系数 w4 16.5388 特征5的系数 w5 -44.3051 特征6的系数 w6 24.6408 特征7的系数 w7 7.7723 特征8的系数 w8 13.0952 特征9的系数 w9 35.0169 特征10的系数 w10 2.3150 模型评估结果 训练集 R² 0.5279 训练集 MSE 2868.5466 测试集 R² 0.4526 测试集 MSE 2900.1733 sklearn官方线性回归参数对比验证 截距 b 151.3457 特征1的系数 w1 1.8027 特征2的系数 w2 -11.5092 特征3的系数 w3 25.8006 特征4的系数 w4 16.5388 特征5的系数 w5 -44.3051 特征6的系数 w6 24.6408 特征7的系数 w7 7.7723 特征8的系数 w8 13.0952 特征9的系数 w9 35.0169 特征10的系数 w10 2.3150 sklearn测试集 R² 0.4526 Ridge测试集 R² 0.4541
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站制作费用低flash型网站

做生意的老板们,有没有算过这样一笔账?现在获客成本越来越高,平台抽成越来越狠,广告投放像打水漂。顾客来一次就消失,复购率低得让人心慌。这生意,难道只能越做越难?别急,今天我们拆…

张小明 2025/12/29 6:11:09 网站建设

个人做网站公司做商城网站报价

突破140亿参数!NextStep-1开创文本生成图像新范式,连续令牌技术登顶SOTA 【免费下载链接】NextStep-1-Large 项目地址: https://ai.gitcode.com/StepFun/NextStep-1-Large 在人工智能图像生成领域,自回归模型正迎来历史性突破。近日&…

张小明 2025/12/27 10:05:54 网站建设

做网站和软件哪个挣钱百度应用商店app下载安装

PaddlePaddle推荐系统Wide & Deep模型实战 在电商首页的“猜你喜欢”、短视频平台的推荐流、或是外卖App的商家排序中,背后往往都有一套精密的推荐系统在实时运转。这些系统需要从海量用户行为数据中捕捉偏好模式,在“记住常见组合”和“发现潜在兴…

张小明 2025/12/29 15:54:29 网站建设

网站微信认证费用预约支付wordpress

最近在创业做项目,做软件设计的时候会用到国外知名设计软件 Figma,但是因为初次使用踩了下订阅费用的坑,记录一下防止以后再踩坑 昨天(2025-12-3)银行信用卡收到一条 92 美元扣费提示震惊了我 我记得之前一个月 Pro 会…

张小明 2025/12/27 10:04:49 网站建设

如何添加网站后台深圳的网站建设公司哪家好

还记得第一次接触鸿蒙开发时的困惑吗?面对陌生的设备调试环境,你是不是也在想:有没有一种方式能像操作本地手机一样轻松控制远程设备?今天,我要向你介绍一款真正改变游戏规则的工具——HOScrcpy鸿蒙远程真机工具&#…

张小明 2025/12/27 10:04:15 网站建设

五屏网站建设品牌好大学网站建设方案书

CH340驱动安装全攻略:从“找不到COM口”到串口通信畅通无阻 你有没有遇到过这种情况——手里的开发板插上电脑,打开Arduino IDE却发现 端口是灰色的、设备管理器里多出个带黄色感叹号的“未知设备” ?别急,这八成不是板子坏了&…

张小明 2025/12/27 10:03:42 网站建设