归一化(softmax)、信息熵、交叉熵

机器学习中经常遇到这几个概念，用大白话解释一下：

一、归一化

把几个数量级不同的数据，放在一起比较（或者画在一个数轴上），比如：一条河的长度几千甚至上万km，与一个人的高度1.7m，放在一起，人的高度几乎可以被忽略，所以为了方便比较，缩小他们的差距，但又能看出二者的大小关系，可以找一个方法进行转换。

另外，在多分类预测时，比如：一张图，要预测它是猫，或是狗，或是人，或是其它什么，每个分类都有一个预测的概率，比如是猫的概率是0.7，狗的概率是0.1，人的概率是0.2… , 概率通常是0到1之间的数字，如果我们算出的结果，不在这个范围，比如：700，10，2 ，甚至负数，这样就需要找个方法，将其转换成0-1之间的概率小数，而且通常为了满足统计分布，这些概率的和，应该是1。

最常用的处理方法，就是softmax，原理如上图（网上淘来的）。

类似的softmax(1)=0.12，softmax(-3)=0，这个方法在数学上没毛病，但是在实际运用中，如果目标值x很大，比如10000，那e的10000次方，很可能超出编程语言的表示范围，所以通常做softmax前，要对数据做一下预处理（比如：对于分类预测，最简单的办法，所有训练集整体按比例缩小）

二、信息熵

热力学中的热熵是表示分子状态混乱程度的物理量，而且还有一个所谓『熵增原理』，即：宇宙中的熵总是增加的，换句话说，分子状态总是从有序变成无序，热量总是从高温部分向低温部分传递。香农借用了这个概念，用信息熵来描述信源的不确定度。

简单点说，一个信息源越不确定，里面蕴含的信息量越大。举个例子：吴京《战狼2》大获成功后，说要续拍《战狼3》，但是没说谁当女主角，于是就有各种猜测，各种可能性，即：信息量很大。但是没过多久，吴京宣布女主角确定后，大家就不用再猜测女主角了，信息量相比就没这么大了。

这个例子中，每种猜测的可能性其实就是概率，而信息量如何衡量，可以用下面的公式来量化计算，算出来的值即信息熵：