新浪体育_新浪体育直播 10年专注环保设备研发制造 环保设备【http://droidcellphone.com】系统设计\制作\安装一条龙服务
新浪体育直播 中文网址:【麻豆视频.COM】
当前位置:新浪体育直播 > 新浪体育直播 > 案例分类2 >
15

05_二分类问题案例 - 电影评论分类

作者:admin 来源:未知 时间:1622648478 点击:

[文章前言]:IMDB 数据集,它包含来自互联网电影数据库(IMDB)的 50 000 条严重两极分化的评论。数据集被分为用于训练的 25 000 条评论与用于测试的 25 000 条评论,训练集和测试集都包含 50% 的正面

  IMDB 数据集,它包含来自互联网电影数据库(IMDB)的 50 000 条严重两极分化的评论。数据集被分为用于训练的 25 000 条评论与用于测试的 25 000 条评论,训练集和测试集都包含 50% 的正面评论和 50% 的负面评论。

  IMDB 数据集也内置于 Keras 库。它已经过预处理:评论(单词序列)已经被转换为整数序列,其中每个整数代表字典中的某个单词。

  参数 num_words=10000 的意思是仅保留训练数据中前 10 000 个最常出现的单词。低频单词将被舍弃。 - train_data 和 test_data 这两个变量都是评论组成的列表 - 每条评论又是单词索引组成的列表(表示一系列单词) - 里面的单词又用数值化了,比如‘a’ = 1 - 通过统计该单词出现的次数来排序,顺序的数值就用来代表该数据 - train_labels 和 test_labels 都是 0 和 1 组成的列表,其中 0代表负面(negative),1 代表正面(positive)

  需要将列表转换为张量 -填充列表:使其具有相同的长度,再将列表转换成形状为 (samples, word_indices)的整数张量

  需要确定架构 - 选择网络类型:全连接层(Dense) - 网络层数:3层 - 每层网络的类型:16个隐藏单元 - 两个中间层,每层都有 16 个隐藏单元,使用relu作为激活函数 - 第三层输出一个标量:使用 sigmoid 激活以输出一个 0~1 范围内的概率值

  空间的维度直观地理解为“网络学习内部表示时所拥有的自由度”,隐藏单元越多(即更高维的表示空间),网络越能够学到更加复杂的表示,但网络的计算代价也变得更大。

  为什么需要激活函数- 如果没有 relu 等激活函数(也叫非线性),Dense 层将只包含线性运算 - 这种假设空间非常有限,无法利用多个表示层的优势,因为多个线性层堆叠实现的仍是线性运算,添加层数并不会扩展假设空间。 - 为了得到更丰富的假设空间,从而充分利用多层表示的优势,你需要添加非线性或激活函数。

  二分类问题,最好使用 binary_crossentropy(二元交叉熵)损失。对于输出概率值的模型,交叉熵(crossentropy)往往是最好的选择。交叉熵是来自于信息论领域的概念,用于衡量概率分布之间的距离,是真实分布与预测值之间的距离。

  为了在训练过程中监控模型在前所未见的数据上的精度,你需要将原始训练数据留出 10000个样本作为验证集.

  现在使用 512 个样本组成的小批量,将模型训练 20 个轮次,同时使用validation_data来验证模型。

  如你所见,训练损失每轮都在降低,训练精度每轮都在提升。这就是梯度下降优化的预期结果——你想要最小化的量随着每次迭代越来越小。但验证损失和验证精度并非如此:它们似乎在第四轮达到最佳值。 模型在训练数据上的表现越来越好,但在前所未见的数据上不一定表现得越来越好。准确地说,你看到的是过拟合(overfit)。

  训练好网络之后,你希望将其用于实践。你可以用 predict 方法来得到评论为正面的可能性大小。

  通常需要对原始数据进行大量预处理,以便将其转换为张量输入到神经网络中。单词序列可以编码为二进制向量,但也有其他编码方式。

  带有 relu 激活的 Dense 层堆叠,可以解决很多种问题(包括情感分类),你可能会经常用到这种模型。

  对于二分类问题(两个输出类别),网络的最后一层应该是只有一个单元并使用 sigmoid激活的 Dense 层,网络输出应该是 0~1 范围内的标量,表示概率值。

  对于二分类问题的 sigmoid 标量输出,你应该使用 binary_crossentropy 损失函数。

  无论你的问题是什么,rmsprop 优化器通常都是足够好的选择。这一点你无须担心。

  随着神经网络在训练数据上的表现越来越好,模型最终会过拟合,并在前所未见的数据上得到越来越差的结果。一定要一直监控模型在训练集之外的数据上的性能。

  分享关于人工智能,机器学习,深度学习以及计算机视觉的好文章,同时自己对于这个领域学习心得笔记。想要一起深入学习人工智能的小伙伴一起结伴学习吧!扫码上车!

  以上就是小编为大家介绍的05_二分类问题案例 - 电影评论分类的全部内容,如果大家还对相关的内容感兴趣,请持续关注江苏某某环保设备有限公司

  本文标题:05_二分类问题案例 - 电影评论分类  地址:/case/alfl2/1069.html



欢迎来到:❥❥新浪体育直播❤droidcellphone.com❤新浪体育直播,赛事活动,参加的玩家都可以活动福利礼包,游戏的玩法也很解压,全方位碾压你的游戏库。

XML地图 新浪体育直播

环保设备公司,10年品牌打造行业正规!

【Copyright ©2017-2021 新浪体育_新浪体育直播 】  版权所有

网站地图 新浪体育直播