#37 交叉熵损失函数的理解问题

Open
created 1 year ago by open2333 · 1 comments
open2333 commented 1 year ago
<!-- 需要按照模板,填写每一项内容,请勿改动 --> ### 问题所属任务编号(Task 01-05) Task 03 ### 运行环境(操作系统版本、Python 版本)/ 非程序问题 非程序问题 ### 完整的报错信息(截图或复制均可)/ 问题详细描述 H(p,q)表示交叉熵,Dkl(p||q)表示kl散度,H(p,q)=H(p)+Dkl(p||q),Kl散度当q=p的时候可以到0, 而交叉熵最小智能是h(p),这里去优化交叉熵或是kl散度是不是没有什么区别呀?而且能优化到0不是更好吗?请助教老师们帮忙解答一下为什么优化交叉熵损失函数是好的选择。 ### 描述你期望看到的结果
anine09 added this to the 未分配助教 milestone 1 year ago
anine09 added the
非程序问题
label 1 year ago
anine09 added the
Task 03
label 1 year ago
leafy-lee commented 1 year ago
详细信息可以参考 stackexchange 上的问题:https://stats.stackexchange.com/questions/357963/what-is-the-difference-between-cross-entropy-and-kl-divergence?newreg=f9c50acac96b4b019c10abfc4e0a6b95 分类模型学习的目标是希望学习P\_{truth}(y|x) := P(truth),但是真实分布是未知的,我们只能通过数据集$P(D)$来近似真实分布,因此我们有P(model)≈P(D)≈P(truth)。同时在更新梯度的时候我们并没有用到整个数据集,而是使用minibatch的方法,因此在工程中交叉熵会比KL散度更加稳定。(当然我好像看t-SNE或者saliency任务也会用KL散度作为损失函数。
anine09 modified the milestone from 未分配助教 to 助教解答过 1 year ago
Sign in to join this conversation.
No Milestone
No Assignees
2 Participants
Notifications
Due Date

No due date set.

Dependencies

This issue currently doesn't have any dependencies.

Loading…
There is no content yet.