p153 页里面的SoftmaxWithLoss类中的backward函数dx求得值为何要/batch_size呢?正常传递self.y-self.t相减完每一行不就是一个数据的y-t吗,如果/batch_size,那矩阵里的每一个差值都将变小啊
评论了
p153 页里面的SoftmaxWithLoss类中的backward函数dx求得值为何要/batch_size呢?正常传递self.y-self.t相减完每一行不就是一个数据的y-t吗,如果/batch_size,那矩阵里的每一个差值都将变小啊