基于自相似模型的互联网文章数序列的建模和预测

发布时间:2013-04-16 16:48:14 论文编辑:candace

第一章绪论


1.1互联网与网络论坛
互联网诞生于20世纪60年代。发展到今天,互联网的规模和应用已经远远超出了原先设计者的设想。在人类社会生活的各个方面,互联网都产生了广泛的影响。以互联网的出现为标志的信息和通讯技术革命大大加速了全球经济化的进程。
自我国1994年接入互联网以来,短短十几年,发展情况让世人瞩目。据2010年1月15日中国互联网络信息中心(CNNIC)发布的《第25次中国互联网络发展状况统计报告》显示,我国网民规模己达3.84亿。
随着互联网的普及,网络用户连入网络媒体的频率和时间逐渐增加。拥有不同兴趣爱好,不同背景,不同职业的人们需要载体和渠道来表达个人的情绪和观点,可以是口头言论,或是书面文字,甚至可以是具体行动。在这样的大背景下,网络成为联系现实的桥梁。无论身处何处,人们只要连入网络便可以组成一个虚拟的世界,分享观点,交流信息。早在1998年,联合国便将互联网列为继报纸、广播、电视之后的“第四媒体”。联合国教科文组织在《世界文化报告》中指出:“信息技术,特别是互联网及网页,具有改变世界及人类的潜力,计算机空间(CybersPace),即这些新关系发生的空间,使我们的时空概念、表现方式和语言发生了变化。”
随着互联网技术的突飞猛进及其广泛应用,社会已经不再将互联网视为单一的媒介,它己经演变成为繁衍众多新生媒介的基础平台和坚实后盾。兼容并包多种媒介的互联网无论现在还是未来都具有主宰力和强大的影响力。
在互联网的传播媒介、信息交换领域,人们经常使用电子邮件、即时消息通讯工具和网络论坛。网络论坛的英文简称为BBS,英文全称为BulletinBoardsystem(电子公告板)或者BulletinBoardserviee(公告板服务)。它是互联网上的一种电子信息服务形式。论坛为使用者提供了一块公共电子白板,或者说公共交流区域,每个用户都可以在区域内或者白板上书写、发布信息或提出看法。
网络论坛一般按不同的主题划分为很多版块。每个版块的设立依据的是大多数用户的喜好和兴趣。用户可以阅读别人关于某个主题的看法,也可以将自己的想法贴到论坛中与他人分享。一般来说,网络论坛也提供简单的留言功能,如果需要私下的交流,也可以将想说的话直接发到某个人的留言信箱中。
网络论坛的出现,打破了互联网上人与人之间交流的时间和空间限制。网络论坛中的用户在与别人进行交流时,无须考虑对方的年龄,学历,知识,社会地位,财富,外貌,心情状况,也无须知道对方的真实身份。网络论坛让参与讨论的人可以处于一个平等的位置与其他人进行任何问题的探讨。在一个开放的网络论坛中,一般不要求用户注册,普通用户可以随时浏览论坛中的文章"如果要提交自己的文章则一般需要注册。
网络论坛带给社会的影响可能比人们想象中的要大很多。它带来了一种全新的表达个人想法的渠道。在网络论坛上,用户可以畅所欲言,还可以讨论平时不经常或者不能讨论的问题。在大型的网络论坛中经常可以看到“火热”的文章,在一篇文章的后面跟着数以百计甚至数以千计的回复,构成了一个复杂但却有序的文章链。


1.2自相似性与分形
数学家B.B.Mandelbrot于1968年率先提出了“自相似”的概念,并把“自相似”作为物体的一种性质进行描述,如:一个自然现象,一个时间序列等。他通过研究海岸线等的物理曲线,发现这类不光滑的曲线具有自相似性:即无论将该图形的哪一部分取出,放大到原来的尺度后,所得图形都与原图形非常相似。通过观察,除了海岸线之外,具有自相似性的曲线、图形广泛存在于自然界中。
 

第二章自相似定义、模型和参数估计


2.1自相似过程
自相似过程是在统计上具有尺度不变性的一种随机过程。


2.2短相关性与相关模型
短相关性与长相关性的区别在于自相关函数值。
设有一个平稳的短相关随机序列,随着序列元素之间时间间隔的增加,序列元素值之间的相关度迅速下降。短相关随机序列的自相关函数随时间间隔的增加呈指数衰减。
实际应用中,马尔可夫类的模型细分出来有以下几种:
(1)ON/OFF模型(oN/oFFModel);
(2)Ipp模型(IntemiptedpoissonproeessModel);
(3)状态交替的更新过程(AlternatingstateRenewalProeess);
(4)马尔可夫调制的泊松过程(MMpp,MarkovModulatedpoissonProeess);
(5)马尔可夫调制的流过程(MMFp,MarkovModulatedFluidProeess)。
其中,马尔可夫调制的泊松过程是马尔可夫过程与泊松过程结合建立的模型"马尔可夫调制的流过程则是其与流体模型结合建立的模型。马尔可夫类流量模型便于处理,但是它的计算复杂度随着模型参数数目的增加而增加,并且不能用来描述长相关特征。
马尔可夫模型的每个状态对应一个可观测的物理事件。比如天气预测中的雨、雪等,此时可称其为天气预报的马尔可夫模型。根据此模型,可以计算出各种天气在某一时刻出现的概率。


第三章网络论坛文章数序列分析及建模...................................................21
3.1数据来源......................................................................................21
3.2自相似性的论证..............................................................................22
3.3马尔可夫模型的算法........................................................................23
3.4FARIMA模型算法及伪代码.......................................................................24
3.5入-ARMA模型算法及伪代码.................................................................27
3.6FARIMA模型和入-ARMA模型计算复杂度的对比.........................................29
3.7基于FARIMA模型和入-ARMA模型的拟合................................................,,30
第四章网络论坛文章数序列的预测..............................................................33
4.1预测原理...........................................................................................33
4.2预测算法.........................................................................................36
4.3预测结果及分析.......................................................................................38
第五章总结与展望...............................................................................41


第五章总结与展望


随着节Web2.0概念的提出,高速变化的互联网得到了人们越来越多的关注。网络论坛、博客等沟通交流形式己经成为互联网应用的热点。由于各种商业活动决策(如产品市场调查或广告投放)的需要,宏观上了解论坛或博客用户参与度的变化已经成为一个新的研究热点,对网络论坛中文章数随时间变化规律的研究最近也得到了人们的关注。因此,网络论坛特性的精确测量和刻画,对分析、理解和仿真网络论坛的动态变化,对指导网络论坛控制方案的设计都具有基础性的意义。
本文在对自相似基本概念和特征进行描述的基础上,重点讨论分析了基于自相似模型的网络论坛文章数序列的建模和预测,并通过计算机仿真实验验证了结果的有效性。
本文首先对自相似性的定义、常见模型和参数估计方法进行了介绍。介绍了什么是自相似现象,自相似现象数学上的定义,短相关特性、长相关特性和常见的模型。随后介绍了自相似序列的Hurst参数的估计方法,共列举了五种参数估计的方法。
随后,本文对网络论坛文章数序列在直观上表现出的自相似性给出了详细的论证方法和论证结果。结果表明网络论坛在数据角度存在自相似性,可以用自相似模型对网络论坛的文章数序列进行分析和建模。
本文给出了对网络论坛文章数序列进行分析的模型产生算法。模型算法包括:马尔可夫模型,EARIMA模型。基于避免EARIMA模型复杂参数估计和计算的目的,提出了改进的入-ARMA模型。通过实际数据对模型进行拟合,通过比较各个模型的优缺点,算法的复杂度,确定了模型的适用范围。
最后,本文结合FARIMA模型和入-ARMA模型对网络论坛的文章数进行预测,给出了基于时间序列模型进行预测的理论推导过程,并针对实际数据进行计算机仿真实验,实验的结果表明EARIMA模型在“较窄”的置信区间之内是相比其他模型准确性较好的预测模型。
通过本文的工作可以看出,自相似特性对互联网的影响几乎遍及各个方面。因此,基于网络论坛的研究对网络体系设计、网络传输协议完善等方面具有指导意义。本文的工作可以对改进网络论坛管理机制,改善相关网络交流领域的控制机制提供参考。
但是,本文的研究仍有许多不足,需要在今后的工作中进一步研究探讨。虽然,由子自相似的长相关特性,可以对满足特性的网络论坛文章数进行预测,并且结果比较乐观,但是,有研究表明,网络论坛中用户的思想和行为也是影响论坛未来文章数的重要方面。因此,将网络论坛文章的产生机制引入到网络论坛文章数的预测中来,将是一个很大的挑战。另外,本文在对入-ARMA模型适用范围的分析还比较简单,将来将在更多方面对该模型的定义、产生过程和适用范围进行探索。


参考文献:
[1]联合国教科文组织.关世杰译.世界文化报告(1998)[M].北京:北京大学出版社,2000,192.
[2]B.B.Mandelbrot.http://www.1daixie.com/dxwz/ TheFraetalgeometryofnature[M].NewYork:W.H.rreemanandeo.,1983:495.
[3]马书南.网络流量自相似特性的研究[D]:无锡:江南大学,2006
[4]程威,钟华,孙娇华.网络论坛中发帖行为复杂性研究[J].系统工程学报.2009,24(4):385一391
[5]陈世武.论网络论坛传播的的特点及产生的影响IJ].法制与社会.2010年2月(上):151.
[6]周四根.网络论坛的舆论监督机制研究田1.湘潭:湘潭大学,2009.
[7]曾剑平,张世永.网络论坛的自相似性及其模型[J1.计算机工程,2009,35(6):63一65
[8]刘次华.随机过程(第二版)=M].武汉:华中科技大学出版社,2001:36一65.
[9]张连芳,薛飞,王宙等.自相似网络业务的一个FARIMA模型[Jl.计算机研究与发展,2000,37(9):1138一1144.
[10]刘嘉埋,金志刚,薛飞,舒炎泰.基于FARIMA过程的网络业务预报与应用[J].电子信息学报,2001,23(4):403一407.