稀疏自动编码器在文本分类中的应用研究

来源：纷纭教育

第１３卷第３１期２０１３年１１月　科学技术与工程　ＶｏＬ　１３　Ｎｏ．３１　Ｎｏｖ．２０１３　１６７１—１８１５（２０１３）３１・９４２２—０５　Ｓｃｉｅｎｃｅ　Ｔｅｃｈｎｏｌｏｇｙ　ａｎｄ　Ｅｎ￣ｎｅｅｆｉｎｇ　⑥２０１３　Ｓｃｉ．Ｔｅｃｈ．Ｅｎｇｒｇ．　稀疏自动编码器在文本分类中的应用研究　秦旺秀　芦恕平　（广西科技大学管理学院，柳州５４５００６）　摘要传统的文本分类算法都是采用期望交叉熵、信息增益和互信息等统计方法，通过设置阈值获取特征集。如果训练集　的数据量较大，则容易出现特征项不明确、特征信息丢失等缺陷。为解决上述问题，提出运用“深度学习”中的稀疏自动编码　器算法自动提取文本特征，然后结合深度置信网络形成ｓＤ算法进行文本分类。实验表明，在训练集较少的情况下，ｓＤ算法　的分类性能低于传统的支持向量机；但是在处理高维数据时，ＳＤ算法则比支持向量机具有较高的准确率和召回率。　关键词文本分类　深度学习　稀疏自动编码器　文献标志码Ａ　深度置信网络　中图法分类号ＴＰ３９１．３；　随着网络技术的不断发展，互联网成为了人们　发布和获取文本信息的重要途径。然而，文本数量　持续地递增，使文本排序变得杂乱无章，人们很难　快速而准确地获取所需的信息。因此，如何对大量　的文本进行有效的组织，帮助用户尽快找到所需的　核，最后利用ＳＶＭ进行分类。实验结果显示该算法　具有良好的文本分类效果。　综上所述，研究者们采用了不同的方法提高分　类算法的有效性，然而在特征选择方面基本都是采　用期望交叉熵、信息增益和互信息等统计方法　Ｊ，　然后设定特征项的阈值，通过人工筛选选择出有效　的特征集。这种方法选取特征的缺陷在于，对于数　据量较大、维数较多的数据集，容易导致特征项不　明确，分类精度下降等情况。为解决上述问题，本　文提出运用“深度学习”中的稀疏自动编码器自动　信息成为当代信息科学技术领域的重要研究　课题　。　目前，在文本分类领域已有不少相关的研究。　例如，李学相　将香农熵作为最大熵模型中的目标　函数，然后采用均值聚类算法对最优特征进行分　类，实验证明该算法能在较短的时间内获得特征　集。王进等　以　统计方法进行特征选择，利用布　尔权重计算特征权值，并且使用超边替代策略训练　超网络分类模型，从而实现了对测试集特征向量的　分类。朱云霞　应用互信息量的特征提取方法提　取特征项后，使用基于样本中心的径向基神经网络　选取样本特征，然后结合深度置信网络对训练集进　行分类，并且将实验结果与支持向量机算法比较，　表明该算法在处理数据量较大的样本集时具有较　高的分类准确率和召回率。　１稀疏自动编码器　稀疏自动编码器（ｓｐａｒｓｅ　ａｕｔｏ　ｅｎｃｏｄｅｒ，ＳＡＥ）是　利用人工神经网络的特点构造而成的网络，由于人　工神经网络本身是具有层次结构的系统，假设神经　算法进行文本分类。实验表明该算法具有较高的　运算速度和非线性映射能力。李侃等　使用信息　增益的方法选择文本特征，然后在混合多项式　（ＤＣＭ）流形上建立距离度量，构建统计流形上的　网络的输人和输出相同，然后训练调整参数，得到　每一层的权重，便可获得输入Ｉｎｐｕｔ的几种不同的　表示（每一层隐含层代表一种表示），这些表示即是　输入数据的特征，这就是自动编码器能自动获取数　据特征的原理。自动编码器（ａｕｔｏ　ｅｎｃｏｄｅｒ，ＡＥ）是可　Ｄｉｉｆｃｈｌｅｔ混合多项式扩散核和倒排文档频率扩散　２０１３年６月２５日收到　欠发达地区工业化与信息化融合　及其系统动力机制研究（１］ＦＪＬ００７）资助　第一作者简介：秦胜君（１９８４一），女，汉族，广西桂林人，讲师，博士。　研究方向：文本分类、数据挖掘等。Ｅ—ｍａｉｌ：ｊａｎｅ８００８＠ｇｍａｉｌ．ｃｏｒｎ。　以捕捉输入数据的最重要因素，从而尽可能复现输　入信号的神经网络。在自动编码器的基础上加人　３１期　秦胜君，等：稀疏自动编码器在文本分类中的应用研究　约束条件，要求节点大部分为０，只有少数不为０，则　形成稀疏自动编码器［　。由于文本分词之后形成　．，　（Ｗ，６）＝．，（Ｗ，６）＋卢∑ＫＬ（ｐ　１　　）。０　的矩阵是稀疏的，使用ＳＥＡ的效果会更好，因此本　文选用ＳＥＡ提取数据特征，其网络结构图如图１。　１层　图１　ＳＡＥ结构图　为求出ＳＡＥ的参数，首先根据网络的结构确定　损失函数的表达式，同时求出损失函数偏导函数的　表达式，然后利用优化算法获取网络最优的参数。　无稀疏约束时网络的损失函数表达式如下：　Ｊ（Ｗ，６）＝［　耋邶，　㈤　卜　ｎｌ一１　Ｓｌ　ｓｌ＋１　、争∑∑∑（　＂）　＝　［…１　２…（　１　（　一　㈤　）］＋　ｎｌ一１　Ｓｌ　Ｓｌ＋１　、∑∑∑（　Ｄ）　。　式中，　、Ｙ分别表示ＳＡＥ的输入和输出，　表示权　重，ｍ表示输入节点的个数。　ｈｗ（ｂ　　）＝　Ａ　＝＿厂（‘Ｗ　Ａ　　‘　＋Ｂ　‘　’）；，Ａ‘　＝　Ｗ‘　’Ｘ＋Ｂ‘　’）。　式中，　）＝忐ｌ十ｅ　。　添加稀疏编码约束条件之后，由于隐含节点输　出的平均值应尽量为０，因此，ＳＡＥ的损失函数表达　式为：　后一项为ＫＬ距离，其表达式如下：　ＫＬ（ｐ　ｌ　ｌ　＝ｐｌｇ　＋（１一ｐ）ｌｇ　。　ｐｉ　Ｌ—　３　隐含节点输出平均值表达式如下：　［　（　］。　上述表达式说明，如果隐含层的每一个节点输　出均值接近０．０５，则达到稀疏的目的。　求出损失函数之后，便可以求损失函数的偏导　函数。假设　为隐含层，　和　分别为输入和输　出层。　在输出层　中每个节点的误差表达式为　６　）＿　Ｉ　ｌ　Ｙ—ｈｒｃ，ｂ（　ｌ　：　一（Ｙ　—ｏ　。　（　）。　在隐含层己：中每个节点的误差表达式为　６　）＿『（∑　＝１　。　）＋　（一、　　＋ｐ　　）　））ｏ　最终计算所需的偏导数为　Ｊ（Ｗ，６；　）＝　；　ｊ（ｗ，　，ｙ）＝６　。　获得损失函数及其偏导数之后，便可以采用梯　度下降法求网络最优化的参数，整个流程如下：　（１）对于每一层ｌ，设置ＡＷ‘“：＝Ｏ，Ａｂ‘“：＝０。　（２）使用反向传播计算Ｖ　）‘，（Ｗ，ｂ；　，Ｙ）和　６（ｆ）ｌ，（Ｗ，ｂ；　，Ｙ）。　（３）令ＡＷ‘　：＝ＡＷ‘　＋　“　．，（Ｗ，ｂ；　，Ｙ）和　△６‘”：＝△６‘　＋ｖ６…．，（Ｗ，ｂ；　，Ｙ）。　（４）更新参数：　Ｗ㈤＝　（ｚ）～［（Ｌ…ａｗ㈣）＋ＡＷ㈣］；　）－　一。［　，扎　。　由ｈ述公式可知．损失函数是由每个训练样本　９４２４　科学技术与工程　１３卷　的损失叠加而成，与训练样本输入网络的顺序无　关。ＳＡＥ的训练过程便是通过梯度下降法，使损失　函数的偏导数尽可能达到最小。　２深度置信网络　深度置信网络（ｄｅｅｐ　ｂｅｌｉｅｆ　ｎｅｔｗｏｒｋｓ，ＤＢＮ）是一　个概率生成模型，区别于传统的判别模型的神经网　络。生成模型建立了观察数据和标签之间的联合　分布，对Ｐ（Ｏｂｓｅｒｖａｔｉｏｎ　ｌ　Ｌａｂｅ１）和Ｐ（Ｌａｂｅｌ　　ＩＯｂｓｅｒｖａ－　ｔｉｏｎ）都做了评估，而传统的神经网络只对后一项进　行评估。因此，使用ＤＢＮ进行文本分类时需要提供　有标签的训练集　。　ＤＢＮ是由多个波尔兹曼机（ｒｅｓｔｒｉｔｅｄ　ｂｏｌｔｚ．　ｍａｎ　ｍａｃｈｉｎｅｓ，ＲＢＭ）层组成。整个网络分为可视层　和隐含层，层间连接，但是层内的节点不连接。隐　含层用于捕捉在可视层表现出来的高阶数据相关　性。ＤＢＮ的结构图如图２所示。　隐含层　可视层　图２　ＤＢＮ结构图　ＤＢＮ的训练最开始通过对比分歧（ｃｏｎｔｒａｓｔｉｖｅ　ｄｉｖｅｒｇｅｎｃｅ）方法进行预训练获得生成模型的权值。　然后使用Ｇｉｂｂｓ采样，隐含层单元和可视层输入之　间的相关性差别作为权值更新的主要依据。使用　Ｇｉｂｂｓ采样之后，训练时间会显著减少，只需要单个　步骤就可以接近最大似然学习，降低了网络训练时　间。另一方面，ＤＢＮ通过利用带标签数据对判别性　能做调整，在分类任务中，其性能比单纯的ＢＰ算法　训练的网络好。ＤＢＮ的训练是一个复杂的过程，在　此不再详述，详情可参见文献［８］。　通过ＳＥＡ算法可以获取输人数据特征，而ＤＢＮ　具有较好的分类效果。因此，本文结合ＳＥＡ和ＤＢＮ　算法，形成ｓＤ算法进行文本分类，整个算法主要过　程描述如下：　第一步选择合适的训练样本集和测试集作为　实验对象。　第二步对数据集分词，去除停用词，将文本集　转换为矩阵表示。　第三步初始化ＳＥＡ和ＤＢＮ的参数（如学习率、　循环次数、隐含层单元个数等）。　第四步将训练集输入ＳＥＡ，取得特征向量，然　后进行验证，调整ＳＥＡ的参数，直到达到满意的特　征向量。　第五步比较特征向量的余弦，如果值为０，表明　两个特征向量相同，则删除其中一项。　第六步将训练集、特征集传人ＤＢＮ，进行分类，　检验分类结果，修正ＤＢＮ各项参数。最后分析文本　分类结果。　３仿真实验和结果分析　３．１实验数据集　实验数据集来源于搜狗全网新闻语料库（ｈｔ．　ｔｐ：／／ｗｗｗ．ｓｏｇｏｕ．ｃｏｍ／ｌａｂｓ／ｒｅｓｏｕｒｃｅｓ．ｈｔｍ１）。全网新　闻数据包含了多家新闻站点近２０个栏目的分类新　闻数据，样本从每个栏目中随机抽取。训练集数目　分为３００、８００和１　３００。文中运用ｌｕｃｅｎｅ和ＩＫＡｎａ．　１ｙｚｅｒ进行分词，然后计算词的信息增益，将文本数　据转化为矩阵向量。ｓＤ算法使用ｊａｖａ语言编写，开　发平台为ｅｃｌｉｐｓｅ。　３．２分类性能评价　文本分类的性能评价采用准确率（ｐｒｅｃｉｓｉｏｎ，Ｐ）　和召回率（ｒａｃａｌｌ，Ｒ）两个指标进行评估。　Ｐ＝　０＋Ｄ　；Ｒ＝　ａ＋ｃ　。　式中，０为判别正确为该类的文本数目，ｂ为判别错　误为该类的文本数目，ｃ为原本属于该类但是错判　为其他类的文本。　３．３结果分析　文中选取不同数目的训练集是用于和其他算　法做比较，在分析ＳＤ算法本身的参数对性能的影　响时，采用训练集的样本数目为８００。ＳＡＥ算法中　的初始参数设置：学习率＝０．１，下降率＝０．３，循环　次数＝２００。在ＳＡＥ算法中，隐含层的单元是输入　越器桨　３１期　秦胜君，等：稀疏自动编码器在文本分类中的应用研究　９４２５　数据的特征表示，去除掉停用词后，８００的训练集的　分词维数约为４　０００；因此，可以预先设置隐含层单　元个数为１００，然后根据准确率逐渐增加。ＤＢＮ算　法中的参数设置：对比分歧下降率＝０．１，循环次　数：１　０００，微调率：０．１，微调次数＝１　２００，输出单　元个数＝２０。　图３描述了不同的隐含层单元个数，训练集的　准确率和召回率的实验结果。图３中的实验结果是　在运行１０次之后的平均测试结果。　器　图３　隐含单兀个数对分类效果影响　ＳＥＡ算法中的隐含层单元数目对分类结果的　正确性具有较大的影响，因为隐含层单元的数目决　定着能否正确表示数据特征。隐含层的单元数目　如果太少，则特征向量的大部分都是１，只有少部分　是０，无法正确描述特征。相反，如果单元数目太　多，特征向量太稀疏也无法有效描述数据特征。由　图３可知，对于４　０００维的输入单元，隐含单元在　４００左右便可达到最优分类结果。隐含单元再多只　会增加训练时间，但是不会提高分类的准确性。目　前，并没有快速设置隐含单元个数的方法，只能通　过经验以及不断地实验来寻找最优的隐含单元数　目，这也是作者下一步的研究方向。　图４描述了在ＤＢＮ算法中，微调次数对精确率　和召回率的影响。　由图４可知，微调的次数越多算法的精度越高，　在微调１　４００次时，最高可达到９０％的精度，但是随　着微调次数增加，运算的时间也会成倍增加，因此，　在设置微调次数时，应考虑其运算时间是否在可接　图４微调次数对分类效果影响　受范围。　本文除分析ｓＤ算法的性能，还将ｓＤ算法与其　他算法的分类精度进行比较，如表１所示。　表１　ＳＤ算法与支持向量机算法比较　从表１可以看出，在样本数较少的情况下，ＳＤ　算法的精度远不如ＳＶＭ算法，而且ｓＤ算法在样本　数偏少时容易出现过度拟合现象，但是随着样本数　的逐渐增加，ＳＤ算法的优势也渐渐体现，准确率和　召回率都高出３个百分点。虽然ｓＤ算法的运行时　间比ＳＶＭ算法多出２０　ｓ，但是对于追求高精度的数　据而言，这样的时间差应该是可被接受的。　４总结　“深度学习”是计算机科学“机器学习”领域的　一个新兴研究方向，其致力于让机器掌握学习能　力，模拟人脑进行分析学习，认知图像、声音和文本　等数据。本文应用“深度学习”中的稀疏自动编码　器进行文本数据的特征提取，然后结合深度置信网　络将数据分类。通过实验分析了ＳＥＡ算法中的隐　含层单元数和ＤＢＮ算法的微调次数对分类精度的　影响，最后，将ｓＤ算法与支持向量机算法比较，得　９４２６　科学技术与工程　１３卷　出结论在样本数较多的前提下，ｓＤ算法分类的效果要优于传统的支持向量机算法。　４　朱云霞．结合聚类思想神经网络文本分类技术研究．计算机应　用研究，２０１２；２９（１）：１５５—１５８　５　王德庆，张辉．基于支持向量的迭代修正质心文本分类算法．　参考文献　６　北京航空航天大学学报，２０１３；３９（２）：２６９—２７５　单丽莉，刘秉权，孙承杰．文本分类中特征选择方法的比较与改　进．哈尔滨工业大学学报，２０１１；４３（１）：３１９—３２５　ｈｔｔｐ：／／ｄｅｅｐｌｅａｒｎｉｎｇ．ｓｔａｎｆｏｒｄ．ｅｄｕ／ｗｉｋｉ／ｉｎｄｅｘ．ｐｈｐ／Ａｕｔｏｅｎｅｏｄｅｒｓ—　１　崔建明，刘建明，廖周宇．基于ＳＶＭ算法的文本分类技术研究．　计算机仿真，２０１３；３０（２）：２９９—３ｏ４　２李学相．改进的最大熵权值算法在文本分类中的应用．计算机　科学，２０１２；３９（６）：２１０—２１２　３王进，金理雄，孙开伟．基于演化超网络的中文文本分类方法．　Ｑ　ａｎｄＳｐａｒｓｉｔｙ　—Ｈｉｎｔｏｎ　Ｇ　Ｅ．Ｌｅａｒｎｉｎｇ　ｍｕｌｔｉｐｌｅ　ｌａｙｅｒｓ　ｏｆ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ．Ｔｒｅｎｄｓ　ｉｎ　Ｃｏｇｎｉｔｉｖｅ　Ｓｃｉｅｎｃｅｓ，２００７；（１　１）：４２８－－－－－４３４　江苏大学学报（自然科学版），２０１３；３４（２）：１９６—２Ｏ１　Ｒｅｓｅａｒｃｈ　ｏｆ　Ｔｅｘｔ　Ｃａｔｅｇ０ｒｉｚａｔｉ０ｎ　Ｂａｓｅｄ　ｏｎ　Ｓｐａｒｓｅ　Ａｕｔｏｅｎｃｏｄｅｒ　Ａｌｇｏｒｉｔｈｍ　ＱＩＮ　Ｓｈｅｎｇ－ｊｕｎ，ＬＵ　Ｚｈｉ—ｐｉｎｇ　（Ｓｃｈｏｏｌ　ｏｆ　Ｍａｎａｇｅｍｅｎｔ，Ｇｕａｎｇｘｉ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆＴｅｃｈｎｏｌｏｇｙ，Ｌｉｕｚｈｏｕ　５４５００６，Ｐ．Ｒ．Ｃｈｉｎａ）　［Ａｂｓｔｒａｃｔ］Ｔｒａｄｉｔｉｏｎ　ｔｅｘｔ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ａｌｇｏｒｉｔｈｍｓ　ｕｓｅ　ｔｈｅ　ｅｘｐｅｃｔｅｄ　ｃｒｏｓｓ　ｅｎｔｒｏｐｙ，ｉｎｆｏｒｍａｔｉｏｎ　ｇａｉｎ　ａｎｄ　ｍｕｔｕａｌ　ｉｎｆｏｒｍａｔｉｏｎ　ｓｔａｔｉｓｔｉｃａｌ　ｍｅｔｈｏｄ　ｔｏ　ｇｅｔ　ｔｈｅ　ｆｅａｔｕｒｅ　ｓｅｔ，ｂｕｔ　ｔｈｅｓｅ　ｍｅｔｈｏｄｓ　ｒｅｑｕｉｒｅ　ｓｅｔｔｉｎｇ　ｔｈｒｅｓｈｏｌｄｓ．Ｉｆ　ｔｈｅ　ｔｒａｉｎｉｎｇ　ｄａｔａ　ｓｅｔ　ｉＳ　ｌａｒｇｅ　ｗｈｉｃｈ　ｐｒｏｎｅ　ｔｏ　ｆｅａｔｕｒｅ　ｉｔｅｍｓ　ｉＳ　ｎｏｔ　ｃｌｅａｒ．ｔｈｅ　ｆｅａｔｕｒｅ　ｉｎｆｏｒｍａｔｉｏｎ　ｌｏｓｓ　ａｎｄ　ｏｔｈｅｒ　ｄｅｆｅｃｔｓ．Ｉｎ　ｏｒｄｅｒ　ｔｏ　ｓｏｌｖｅ　ｔｈｅ　ａｂｏｖｅ　ｐｒｏｂｌｅｍ，ｔｈｅ　ｓｐａｒｓｅ　ａｕｔｏｅｎｃｏｄｅｒ　ａｌｇｏｒｉｔｈｍ　ｉｓ　ｕｓｅｄ　ｗｈｉｃｈ　ｂｅｌｏｎｇｓ　ｔｏ“ｄｅｅｐ　ｌｅａｒｎｉｎｇ”ａｕｔｏｍａｔｉｃａｌｌｙ　ｅｘ—　ｔｒａｃｔｓ　ｔｅｘｔ　ｆｅａｔｕｒｅｓ，ａｎｄ　ｔｈｅｎ　ｃｏｍｂｉｎｅｓ　ｗｉｔｈ　ｔｈｅ　ｄｅｅｐ　ｂｅｌｉｅｆ　ｎｅｔｗｏｒｋｓ　ｔｏ　ｆｏｒｍ　ＳＤ　ａｌｇｏｒｉｔｈｍ　ｆｏｒ　ｔｅｘｔ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ．　Ｅｘｐｅｒｉｍｅｎｔｓ　ｓｈｏｗ　ｔｈａｔ，ｉｎ　ｔｈｅ　ｃａｓｅ　ｏｆ　ｓｍａｌｌ　ｔｒａｉｎｉｎｇ　ｓｅｔ，ＳＤ　ａｌｇｏｒｉｔｈｍ　ｐｅｒｆｏｒｍｓ　ｌｏｗｅｒ　ｔｈａｎ　ｔｒａｄｉｔｉｏｎａｌ　ｓｕｐｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅｓ，ｂｕｔ　ｗｈｅｎ　ｄｅａｌｉｎｇ　ｗｉｔｈ　ｈｉｇｈ－ｄｉｍｅｎｓｉｏｎａｌ　ｄａｔａ，ＳＤ　ｈａｓ　ｈｉｇｈｅｒ　ａｃｃｕｒａｃｙ　ａｎｄ　ｒｅｃａｌｌ　ｒａｔｅ　ｔｈａｎ　ｓｕｐｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅ　ａｌｇｏｒｉｔｈｍ．　［Ｋｅｙ　ｗｏｒｄｓ］ｔｅｘｔ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｄｅｅｐ　ｌｅａｒｎｉｎｇ　ｓｐａｒｓｅ　ａｕｔｏｅｎｃｏｄｅｒ　ｄｅｅｐ　ｂｅｌｉｅｆ　ｎｅｔｗｏｒｋｓ　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文