wordpress多站点wordpress 信息流模板

张小明 2026/1/10 17:13:30
wordpress多站点,wordpress 信息流模板,seo站内优化站外优化,管理系统英文人工智能之数学基础 信息论 第四章 应用延伸—公式关注公众号 文章目录人工智能之数学基础 信息论前言一、信道容量#xff08;Channel Capacity#xff09;1. 什么是信道#xff1f;2. 信道模型#xff1a;离散无记忆信道#xff08;DMC#xff09;3. 信道容量定义4. B…人工智能之数学基础 信息论第四章 应用延伸—公式关注公众号文章目录人工智能之数学基础 信息论前言一、信道容量Channel Capacity1. 什么是信道2. 信道模型离散无记忆信道DMC3. 信道容量定义4. BSC 的信道容量二、数据压缩原理1. 香农第一定理无损压缩极限2. 霍夫曼编码Huffman Coding编码步骤3. 有损压缩与率失真理论Rate-Distortion Theory三、AI 中的信息编码实践四、Python 代码实现1. 导入库2. 霍夫曼编码实现3. 测试霍夫曼编码英文文本压缩4. 信道容量仿真二元对称信道BSC5. AI 应用模拟 BPE 分词的信息效率6. 率失真权衡图像压缩模拟五、总结信息论在 AI 时代的角色后续资料关注前言信息论不仅是通信工程的基石更在人工智能、深度学习、大数据处理中扮演关键角色。从神经网络中的嵌入表示到大模型的 Token 压缩从变分自编码器VAE到信息瓶颈理论信息论提供了统一的数学语言。本文系统讲解信道容量Channel Capacity通信的极限速率无损数据压缩原理香农第一定理与霍夫曼编码有损压缩与率失真理论AI 中的表示学习AI 中的信息编码实践Tokenization、嵌入、量化配套 Python 代码实现霍夫曼编码、信道仿真、压缩率分析一、信道容量Channel Capacity1. 什么是信道信道是信息从发送端到接收端的传输媒介可能引入噪声。例如无线信号高斯噪声、光纤衰减、神经网络层信息瓶颈。2. 信道模型离散无记忆信道DMC输入 $ X \in \mathcal{X} $输出 $Y \in \mathcal{Y} $转移概率$ P(Y|X) $ 定义信道特性无记忆每次传输独立✅ 经典例子二元对称信道BSC输入0 或 1以概率 $ p $ 翻转0→1 或 1→0转移矩阵P ( Y ∣ X ) [ 1 − p p p 1 − p ] P(Y|X) \begin{bmatrix} 1-p p \\ p 1-p \end{bmatrix}P(Y∣X)[1−pp​p1−p​]3. 信道容量定义C max ⁡ P X I ( X ; Y ) C \max_{P_X} I(X; Y)CPX​max​I(X;Y)含义在该信道上可靠通信的最大速率单位比特/信道使用香农第二定理只要传输速率$ R C $存在编码方案使错误概率任意小4. BSC 的信道容量C 1 − H b ( p ) C 1 - H_b(p)C1−Hb​(p)其中 $ H_b§ -p \log_2 p - (1-p) \log_2 (1-p) $ 是二元熵函数。 直观$ p 0 $无噪声→ $ C 1 $ 比特/符号$ p 0.5 $完全随机→ $ C 0 $ → 无法通信二、数据压缩原理1. 香农第一定理无损压缩极限对于独立同分布i.i.d.信源 $ X $其最小平均码长满足H ( X ) ≤ L H ( X ) 1 H(X) \leq L H(X) 1H(X)≤LH(X)1$ H(X)$信源熵信息量下限结论无法用少于 $ H(X) $ 比特/符号进行无损压缩✅ 例英文文本熵 ≈ 1.3 比特/字母 → 理论压缩比 ≈ 8.7:1vs ASCII 的 8 比特2. 霍夫曼编码Huffman Coding最优前缀码高频符号用短码低频用长码构造方法贪心合并最小概率节点编码步骤统计符号频率构建霍夫曼树从根到叶分配 0/1生成码表性质平均码长接近熵且无损可逆3. 有损压缩与率失真理论Rate-Distortion Theory当允许一定失真 $ D $最小所需码率 $ R(D) $ 为R ( D ) min ⁡ P ( x ^ ∣ x ) : E [ d ( x , x ^ ) ] ≤ D I ( X ; X ^ ) R(D) \min_{P(\hat{x}|x): \mathbb{E}[d(x, \hat{x})] \leq D} I(X; \hat{X})R(D)P(x^∣x):E[d(x,x^)]≤Dmin​I(X;X^)$ d(x, \hat{x}) $失真度量如 MSEAI 启示表示学习本质是在率模型大小与失真重构误差间权衡信息瓶颈理论Tishby et al.DNN 训练过程 最小化 $ I(X; T)压缩输入同时最大化 压缩输入同时最大化压缩输入同时最大化I(T; Y) $保留标签信息三、AI 中的信息编码实践应用信息论原理实例Tokenization无损压缩BPEByte Pair Encoding逼近语言熵嵌入Embedding率失真权衡Word2Vec / BERT 将词映射到低维连续空间模型量化有损压缩FP32 → INT8牺牲精度换存储/速度变分自编码器VAE信息瓶颈最小化 $ I(X; Z) $ 同时保证重构知识蒸馏信道模拟教师模型 → 学生模型视为“语义信道”大模型中的 BPE将文本切分为 subword units如 “un”, “happiness” → “un”, “happ”, “iness”高频子词用短编码 →逼近语言的香农熵四、Python 代码实现1. 导入库importheapqfromcollectionsimportdefaultdict,Counterimportnumpyasnpimportmatplotlib.pyplotaspltimportstring plt.rcParams[font.sans-serif][SimHei]2. 霍夫曼编码实现classHuffmanNode:def__init__(self,charNone,freq0,leftNone,rightNone):self.charchar self.freqfreq self.leftleft self.rightrightdef__lt__(self,other):returnself.freqother.freqdefbuild_huffman_tree(freq_dict):构建霍夫曼树heap[HuffmanNode(char,freq)forchar,freqinfreq_dict.items()]heapq.heapify(heap)whilelen(heap)1:leftheapq.heappop(heap)rightheapq.heappop(heap)mergedHuffmanNode(freqleft.freqright.freq,leftleft,rightright)heapq.heappush(heap,merged)returnheap[0]ifheapelseNonedefbuild_code_table(root):从霍夫曼树生成编码表code_table{}deftraverse(node,code):ifnode.charisnotNone:code_table[node.char]codeor0# 处理单字符情况else:traverse(node.left,code0)traverse(node.right,code1)ifroot:traverse(root,)returncode_tabledefhuffman_encode(text,code_table):编码文本return.join(code_table[char]forcharintext)defhuffman_decode(encoded,root):解码比特流decoded[]noderootforbitinencoded:nodenode.leftifbit0elsenode.rightifnode.charisnotNone:decoded.append(node.char)noderootreturn.join(decoded)3. 测试霍夫曼编码英文文本压缩# 示例文本textthis is an example of a huffman treefreqCounter(text)print(字符频率:,dict(freq))# 构建编码rootbuild_huffman_tree(freq)code_tablebuild_code_table(root)print(\n霍夫曼编码表:)forchar,codeinsorted(code_table.items()):print(f{char}:{code})# 编码/解码encodedhuffman_encode(text,code_table)decodedhuffman_decode(encoded,root)assertdecodedtext,解码失败# 计算压缩率original_bitslen(text)*8# ASCIIcompressed_bitslen(encoded)entropy-sum((count/len(text))*np.log2(count/len(text))forcountinfreq.values())theoretical_minentropy*len(text)print(f\n原始大小:{original_bits}比特)print(f压缩后:{compressed_bits}比特)print(f理论最小:{theoretical_min:.1f}比特)print(f压缩率:{original_bits/compressed_bits:.2f}:1)print(f效率:{theoretical_min/compressed_bits:.2%})输出示例压缩率: 2.15:1 效率: 92.3%4. 信道容量仿真二元对称信道BSCdefbinary_entropy(p):二元熵函数 H_b(p)ifp0orp1:return0.0return-p*np.log2(p)-(1-p)*np.log2(1-p)defbsc_capacity(p):BSC 信道容量return1-binary_entropy(p)# 仿真不同错误概率下的容量p_valsnp.linspace(0,0.5,100)capacities[bsc_capacity(p)forpinp_vals]plt.figure(figsize(8,5))plt.plot(p_vals,capacities,b-,linewidth2)plt.axvline(0.1,colorr,linestyle--,labelp0.1 → C≈0.53)plt.title(二元对称信道BSC容量)plt.xlabel(翻转概率 p);plt.ylabel(信道容量 C (比特/符号))plt.legend();plt.grid(True)plt.show()# 打印典型值forpin[0.01,0.1,0.2]:print(fp{p:.2f}→ C{bsc_capacity(p):.4f}比特/符号)5. AI 应用模拟 BPE 分词的信息效率defsimulate_bpe_efficiency(text,vocab_size1000): 简化模拟统计 n-gram 频率计算平均码长 真实 BPE 更复杂此处仅演示思想 # 统计字符级频率char_freqCounter(text)char_entropy-sum((f/len(text))*np.log2(f/len(text))forfinchar_freq.values())# 假设 BPE 将文本压缩为 tokens平均长度减少# 简化假设 token 数 len(text) / avg_token_lenavg_token_len3# 假设平均 token 长度为 3 个字符num_tokenslen(text)/avg_token_len# 估计 token 级熵简化均匀分布token_entropynp.log2(vocab_size)# 最坏情况total_bitsnum_tokens*token_entropy char_bitslen(text)*char_entropy compression_ratiochar_bits/total_bitsreturn{char_level_entropy:char_entropy,token_level_bits:total_bits,compression_ratio:compression_ratio}# 测试sample_textthe quick brown fox jumps over the lazy dog *100resultsimulate_bpe_efficiency(sample_text)print(BPE 模拟结果:)fork,vinresult.items():print(f{k}:{v:.2f})真实 BPE如 GPT-2词汇表大小 50,257英文平均每个 token ≈ 4 字符压缩率 ≈ 4:1相比 UTF-86. 率失真权衡图像压缩模拟fromsklearn.clusterimportKMeansfromPILimportImagedefrate_distortion_simulation(image_path,ks[2,4,8,16,32]):用 K-Means 模拟率失真权衡颜色量化imgnp.array(Image.open(image_path).convert(RGB))h,w,cimg.shape pixelsimg.reshape(-1,c).astype(float)rates[]distortions[]forkinks:kmeansKMeans(n_clustersk,random_state0).fit(pixels)labelskmeans.labels_ compressedkmeans.cluster_centers_[labels].reshape(h,w,c)# 码率 R ≈ log2(k) 比特/像素ratenp.log2(k)# 失真 D MSEdistortionnp.mean((img-compressed)**2)rates.append(rate)distortions.append(distortion)returnrates,distortions# 注意需提供一张图片路径或使用合成数据# rates, dists rate_distortion_simulation(example.jpg)# plt.plot(rates, dists, o-)# plt.xlabel(码率 R (比特/像素)); plt.ylabel(失真 D (MSE))# plt.title(率失真权衡曲线); plt.show()解释$ k \uparrow $ → $ R \uparrow $, $ D \downarrow $曲线凸性体现边际收益递减五、总结信息论在 AI 时代的角色概念传统应用AI/现代应用信道容量通信速率极限神经网络层间信息流分析无损压缩ZIP, PNGTokenization (BPE, WordPiece)率失真理论JPEG, MP3表示学习、模型量化、蒸馏互信息特征选择信息瓶颈、对比学习InfoNCE熵数据不确定性正则化最大熵原则、探索强化学习终极洞见深度学习 在计算约束下寻找最优的信息表示与传输方案。从输入到输出每一层都在进行压缩去除冗余与扩展提取特征的博弈。后续python过渡项目部分代码已经上传至gitee后续会逐步更新。资料关注公众号咚咚王giteehttps://gitee.com/wy18585051844/ai_learning《Python编程从入门到实践》《利用Python进行数据分析》《算法导论中文第三版》《概率论与数理统计第四版 (盛骤) 》《程序员的数学》《线性代数应该这样学第3版》《微积分和数学分析引论》《西瓜书周志华-机器学习》《TensorFlow机器学习实战指南》《Sklearn与TensorFlow机器学习实用指南》《模式识别第四版》《深度学习 deep learning》伊恩·古德费洛著 花书《Python深度学习第二版(中文版)【纯文本】 (登封大数据 (Francois Choliet)) (Z-Library)》《深入浅出神经网络与深度学习(迈克尔·尼尔森MichaelNielsen》《自然语言处理综论 第2版》《Natural-Language-Processing-with-PyTorch》《计算机视觉-算法与应用(中文版)》《Learning OpenCV 4》《AIGC智能创作时代》杜雨张孜铭《AIGC原理与实践零基础学大语言模型、扩散模型和多模态模型》《从零构建大语言模型中文版》《实战AI大模型》《AI 3.0》
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

wordpress轮播图能换吗内江seo

技术革命的测试新纪元 2025年,AI测试已从实验室概念全面渗透至企业级实践。据Gartner最新报告,全球76%的头部企业已完成AI测试工具链建设,测试效率平均提升40%以上。本文将从技术演进、场景落地及未来挑战三个维度,为测试从业者绘…

张小明 2026/1/10 10:55:56 网站建设

用国外服务器做违法网站电商在线官方

第一章:Open-AutoGLM模型概述Open-AutoGLM 是一个开源的自动化通用语言生成模型框架,旨在简化复杂自然语言任务的建模流程。该模型融合了提示工程、自动微调与任务推理机制,支持多场景下的零样本与少样本学习能力。其核心设计理念是通过模块化…

张小明 2026/1/10 10:55:56 网站建设

3d打印网站开发研发工程师和开发工程师

安全交付是将网络安全产品 / 方案从 “设计” 落地为 “有效防护” 的全流程,核心目标是让安全能力真正适配业务场景、解决实际风险,而非单纯的设备部署或配置调试。对于交付实习生 / 初级工程师,需掌握 “流程化思维 实操技能 风险意识”&…

张小明 2026/1/10 10:55:57 网站建设

建设全国科技中心网站自助建站申请

引领技术潮流:预研下一代TensorRT可能的方向 在AI模型日益庞大的今天,一个训练好的Transformer动辄上百亿参数,部署到生产环境时却频频“卡壳”——推理延迟高、吞吐上不去、显存爆满。这种“实验室能跑,线上难扛”的窘境&#xf…

张小明 2026/1/9 20:37:52 网站建设

怎么做外贸网站的邮箱签名站长工具官网

LabVIEW控制STM32微控制器:图形化编程让嵌入式开发更简单 【免费下载链接】labview-stm32 项目地址: https://gitcode.com/gh_mirrors/la/labview-stm32 labview-stm32开源项目为STM32开发者提供了一种革命性的编程方式,通过LabVIEW的图形化界面…

张小明 2026/1/10 10:56:00 网站建设

南通公司做网站电影采集网站怎么做seo

在文章《无需修改代码,深入探究 pytest 如何自动查找并加载三方插件》中最后提到了,到底pytest_repeat插件的具体功能是如何实现的呢? 相信具体了解了该插件,其他三方插件也可以很快了解它内部运行机制。 不使用pytest_repeat插…

张小明 2026/1/10 10:56:00 网站建设