C++从零实现神经网络

一、Net类的设计与神经网络初始化

闲言少叙，直接开始
既然是要用C++来实现，那么我们自然而然的想到设计一个神经网络类来表示神经网络，这里我称之为Net类。由于这个类名太过普遍，很有可能跟其他人写的程序冲突，所以我的所有程序都包含在namespace liu中，由此不难想到我姓刘。在之前的博客反向传播算法资源整理中，我列举了几个比较不错的资源。对于理论不熟悉而且学习精神的同学可以出门左转去看看这篇文章的资源。这里假设读者对于神经网络的基本理论有一定的了解。

神经网络的要素
在真正开始coding之前还是有必要交代一下神经网络基础，其实也就是设计类和写程序的思路。简而言之，神经网络的包含几大要素：
神经元节点
层（layer）
权值（weights）
偏置项（bias）
神经网络的两大计算过程分别是前向传播和反向传播过程。每层的前向传播分别包含加权求和（卷积？）的线性运算和激活函数的非线性运算。反向传播主要是用BP算法更新权值。虽然里面还有很多细节，但是对于作为第一篇的本文来说，以上内容足够了。
Net类的设计
Net类——基于Mat
神经网络中的计算几乎都可以用矩阵计算的形式表示，这也是我用OpenCV的Mat类的原因之一，它提供了非常完善的、充分优化过的各种矩阵运算方法；另一个原因是我最熟悉的库就是OpenCV......有很多比较好的库和框架在实现神经网络的时候会用很多类来表示不同的部分。比如Blob类表示数据，Layer类表示各种层，Optimizer类来表示各种优化算法。但是这里没那么复杂，主要还是能力有限，只用一个Net类表示神经网络。
还是直接让程序说话，Net类包含在Net.h中，大致如下。
#ifndef NET_H
#define NET_H
#endif // NET_H
#pragma once
#include <iostream>
#include<opencv2\core\core.hpp>
#include<opencv2\highgui\highgui.hpp>
//#include<iomanip>
#include"Function.h"
namespace liu
{
class Net
{
public:
std::vector<int> layer_neuron_num;
std::vector<cv::Mat> layer;
std::vector<cv::Mat> weights;
std::vector<cv::Mat> bias;
public:
Net() {};
~Net() {};
//Initialize net:genetate weights matrices、layer matrices and bias matrices
// bias default all zero
void initNet(std::vector<int> layer_neuron_num_);
//Initialise the weights matrices.
void initWeights(int type = 0, double a = 0., double b = 0.1);
//Initialise the bias matrices.
void initBias(cv::Scalar& bias);
//Forward
void forward();
//Forward
void backward();
protected:
//initialise the weight matrix.if type =0,Gaussian.else uniform.
void initWeight(cv::Mat &dst, int type, double a, double b);
//Activation function
cv::Mat activationFunction(cv::Mat &x, std::string func_type);
//Compute delta error
void deltaError();
//Update weights
void updateWeights();
};
}
说明
以上不是Net类的完整形态，只是对应于本文内容的一个简化版，简化之后看起来会更加清晰明了。
成员变量与成员函数
成员变量与成员函数
现在Net类只有四个成员变量，分别是：
每一层神经元数目（layer_neuron_num）
层（layer）
权值矩阵（weights）
偏置项（bias）
权值用矩阵表示就不用说了，需要说明的是，为了计算方便，这里每一层和偏置项也用Mat表示，每一层和偏置都用一个单列矩阵来表示。
Net类的成员函数除了默认的构造函数和析构函数，还有：
initNet()：用来初始化神经网络
initWeights()：初始化权值矩阵，调用initWeight()函数
initBias()：初始化偏置项
forward()：执行前向运算，包括线性运算和非线性激活，同时计算误差
backward()：执行反向传播，调用updateWeights()函数更新权值。
这些函数已经是神经网络程序核心中的核心。剩下的内容就是慢慢实现了，实现的时候需要什么添加什么，逢山开路，遇河架桥。
神经网络初始化
initNet()函数
先说一下initNet()函数，这个函数只接受一个参数——每一层神经元数目，然后借此初始化神经网络。这里所谓初始化神经网络的含义是：生成每一层的矩阵、每一个权值矩阵和每一个偏置矩阵。听起来很简单，其实也很简单。
实现代码在Net.cpp中。
这里生成各种矩阵没啥难点，唯一需要留心的是权值矩阵的行数和列数的确定。值得一提的是这里把权值默认全设为0。
//Initialize net
void Net::initNet(std::vector<int> layer_neuron_num_)
{
layer_neuron_num = layer_neuron_num_;
//Generate every layer.
layer.resize(layer_neuron_num.size());
for (int i = 0; i < layer.size(); i++)
{
layer[i].create(layer_neuron_num[i], 1, CV_32FC1);
}
std::cout << "Generate layers, successfully!" << std::endl;
//Generate every weights matrix and bias
weights.resize(layer.size() - 1);
bias.resize(layer.size() - 1);
for (int i = 0; i < (layer.size() - 1); ++i)
{
weights[i].create(layer[i + 1].rows, layer[i].rows, CV_32FC1);
//bias[i].create(layer[i + 1].rows, 1, CV_32FC1);
bias[i] = cv::Mat::zeros(layer[i + 1].rows, 1, CV_32FC1);
}
std::cout << "Generate weights matrices and bias, successfully!" << std::endl;
std::cout << "Initialise Net, done!" << std::endl;
}
权值初始化
initWeight()函数
权值初始化函数initWeights()调用initWeight()函数，其实就是初始化一个和多个的区别。
偏置初始化是给所有的偏置赋相同的值。这里用Scalar对象来给矩阵赋值。
//initialise the weights matrix.if type =0,Gaussian.else uniform.
void Net::initWeight(cv::Mat &dst, int type, double a, double b)
{
if (type == 0)
{
randn(dst, a, b);
}
else
{
randu(dst, a, b);
}
}
//initialise the weights matrix.
void Net::initWeights(int type, double a, double b)
{
//Initialise weights cv::Matrices and bias
for (int i = 0; i < weights.size(); ++i)
{
initWeight(weights[i], 0, 0., 0.1);
}
}
偏置初始化是给所有的偏置赋相同的值。这里用Scalar对象来给矩阵赋值。
//Initialise the bias matrices.
void Net::initBias(cv::Scalar& bias_)
{
for (int i = 0; i < bias.size(); i++)
{
bias[i] = bias_;
}
}
至此，神经网络需要初始化的部分已经全部初始化完成了。
初始化测试
我们可以用下面的代码来初始化一个神经网络，虽然没有什么功能，但是至少可以测试下现在的代码是否有BUG:
#include"../include/Net.h"
//<opencv2\opencv.hpp>
using namespace std;
using namespace cv;
using namespace liu;
int main(int argc, char *argv[])
{
//Set neuron number of every layer
vector<int> layer_neuron_num = { 784,100,10 };
// Initialise Net and weights
Net net;
net.initNet(layer_neuron_num);
net.initWeights(0, 0., 0.01);
net.initBias(Scalar(0.05));
getchar();
return 0;
}
亲测没有问题。
本文先到这里，前向传播和反向传播放在下一篇内容里面。
源码
源码链接
所有的代码都已经托管在Github上面，感兴趣的可以去下载查看。欢迎提意见。
公众号后台回复“神经网络”可得源码链接地址。

二、前向传播与反向传播

前言
前一篇文章C++实现神经网络之壹—Net类的设计和神经网络的初始化中，大部分还是比较简单的。因为最重要事情就是生成各种矩阵并初始化。神经网络中的重点和核心就是本文的内容——前向和反向传播两大计算过程。每层的前向传播分别包含加权求和（卷积？）的线性运算和激活函数的非线性运算。反向传播主要是用BP算法更新权值。本文也分为两部分介绍。
前向过程
前向过程简介
如前所述，前向过程分为线性运算和非线性运算两部分。相对来说比较简单。
线型运算可以用Y = WX+b来表示，其中X是输入样本，这里即是第N层的单列矩阵，W是权值矩阵，Y是加权求和之后的结果矩阵，大小与N+1层的单列矩阵相同。b是偏置，默认初始化全部为0。不难推知（鬼知道我推了多久！），W的大小是(N+1).rows * N.rows。正如上一篇中生成weights矩阵的代码实现一样:
weights[i].create(layer[i + 1].rows, layer[i].rows, CV_32FC1);
非线性运算可以用O=f(Y)来表示。Y就是上面得到的Y。O就是第N+1层的输出。f就是我们一直说的激活函数。激活函数一般都是非线性函数。它存在的价值就是给神经网络提供非线性建模能力。激活函数的种类有很多，比如sigmoid函数，tanh函数，ReLU函数等。各种函数的优缺点可以参考更为专业的论文和其他更为专业的资料。
我们可以先来看一下前向函数forward()的代码：
//Forward
void Net::forward()
{
for (int i = 0; i < layer_neuron_num.size() - 1; ++i)
{
cv::Mat product = weights[i] * layer[i] + bias[i];
layer[i + 1] = activationFunction(product, activation_function);
}
}
for循环里面的两句就分别是上面说的线型运算和激活函数的非线性运算。
激活函数activationFunction()里面实现了不同种类的激活函数，可以通过第二个参数来选取用哪一种。代码如下：
//Activation function
cv::Mat Net::activationFunction(cv::Mat &x, std::string func_type)
{
activation_function = func_type;
cv::Mat fx;
if (func_type == "sigmoid")
{
fx = sigmoid(x);
}
if (func_type == "tanh")
{
fx = tanh(x);
}
if (func_type == "ReLU")
{
fx = ReLU(x);
}
return fx;
}
各个函数更为细节的部分在Function.h和Function.cpp文件中。在此略去不表，感兴趣的请君移步Github。
需要再次提醒的是，上一篇博客中给出的Net类是精简过的，下面可能会出现一些上一篇Net类里没有出现过的成员变量。完整的Net类的定义还是在Github里。
反向传播过程
反向传播
反向传播原理是链式求导法则，其实就是我们高数中学的复合函数求导法则。这只是在推导公式的时候用的到。具体的推导过程我推荐看看下面这一篇教程，用图示的方法，把前向传播和反向传播表现的清晰明了，强烈推荐！
Principles of training multi-layer neural network using backpropagation。
一会将从这一篇文章中截取一张图来说明权值更新的代码。在此之前，还是先看一下反向传播函数backward()的代码是什么样的：
//Forward
void Net::backward()
{
calcLoss(layer[layer.size() - 1], target, output_error, loss);
deltaError();
updateWeights();
}
可以看到主要是是三行代码，也就是调用了三个函数：
第一个函数calcLoss()计算输出误差和目标函数，所有输出误差平方和的均值作为需要最小化的目标函数。
第二个函数deltaError()计算delta误差，也就是下图中delta1*df()那部分。
第三个函数updateWeights()更新权值，也就是用下图中的公式更新权值。
下面是从前面强烈推荐的文章中截的一张图：

就看下updateWeights()函数的代码：
//Update weights
void Net::updateWeights()
{
for (int i = 0; i < weights.size(); ++i)
{
cv::Mat delta_weights = learning_rate * (delta_err[i] * layer[i].t());
weights[i] = weights[i] + delta_weights;
}
}
核心的两行代码应该还是能比较清晰反映上图中的那个权值更新的公式的。图中公式里的eta常被称作学习率。训练神经网络调参的时候经常要调节这货。
计算输出误差和delta误差的部分纯粹是数学运算，乏善可陈。但是把代码贴在下面吧。
calcLoss()函数在Function.cpp文件中：
//Objective function
void calcLoss(cv::Mat &output, cv::Mat &target, cv::Mat &output_error, float &loss)
{
if (target.empty())
{
std::cout << "Can't find the target cv::Matrix" << std::endl;
return;
}
output_error = target - output;
cv::Mat err_sqrare;
pow(output_error, 2., err_sqrare);
cv::Scalar err_sqr_sum = sum(err_sqrare);
loss = err_sqr_sum[0] / (float)(output.rows);
}
deltaError()在Net.cpp中：
//Compute delta error
void Net::deltaError()
{
delta_err.resize(layer.size() - 1);
for (int i = delta_err.size() - 1; i >= 0; i--)
{
delta_err[i].create(layer[i + 1].size(), layer[i + 1].type());
//cv::Mat dx = layer[i+1].mul(1 - layer[i+1]);
cv::Mat dx = derivativeFunction(layer[i + 1], activation_function);
//Output layer delta error
if (i == delta_err.size() - 1)
{
delta_err[i] = dx.mul(output_error);
}
else //Hidden layer delta error
{
cv::Mat weight = weights[i];
cv::Mat weight_t = weights[i].t();
cv::Mat delta_err_1 = delta_err[i];
delta_err[i] = dx.mul((weights[i + 1]).t() * delta_err[i + 1]);
}
}
}
注意
需要注意的就是计算的时候输出层和隐藏层的计算公式是不一样的。
另一个需要注意的就是......难道大家没觉得本系列文章的代码看起来非常友好吗
至此，神经网络最核心的部分已经实现完毕。剩下的就是想想该如何训练了。这个时候你如果愿意的话仍然可以写一个小程序进行几次前向传播和反向传播。还是那句话，鬼知道我在能进行传播之前到底花了多长时间调试！

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

1回复贴，共1页

<<返回曹妃甸职业...吧

分享到:

日	一	二	三	四	五	六