(完整word版)实训总结报告
天津市大学软件学院
2016级高职升本12周实训总结报告
项 目 名 称: 合作培养企业: 专 业 方 向: 项 目 负责人:
专 业 班 级: 企业名称-专业方向-班级名称 姓 名:
(完整word版)实训总结报告
实训起止日期:
(完整word版)实训总结报告
1 引言
1.1 背景及现状分析
在大数据时代下,人类社会产生的数据每天都在爆炸性的增长,在依托数据进行一些分析时,传统的采集数据的方式,像问卷,访谈,人工的定向统计等方法因为采集的样本少,可信度低等缺点已经不能再满足需求。在这种情况下,爬虫技术正在大数据领域悄然崛起!
爬虫可以采集互联网上海量的信息提供给需要者进行下一步的分析,预测,改进等工作,由于爬虫可以实时的,全面的而又有针对的采集互联网上信息,是大数据的基础,因此爬虫技术是当下一门正在走红或者说已经走红的技术,前景广阔。本项目将以医疗方面的采集数据为基础,采集建库并建设通用的数据关键词服务,结合医院对垂直领域的关注事件,进行媒体传播排名以及媒体传播趋势,具有较高的应用价值。
1.2 参考资料
需求分析说明书、概要设计说明书、网络资源
2 需求分析 项目背景:
一、行业大背景和潜力——大数据时代的来临
“大数据”是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性。在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据,并非公司顾客关系管理数据库的常态数据组。
(完整word版)实训总结报告
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。(在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法)大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据 。2013年5月10日,阿里巴巴集团董事局马云在淘宝十周年晚会上,将卸任阿里集团CEO的职位,并在晚会上做卸任前的演讲,马云说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。
从海量数据中“提纯”出有用的信息,这对网络架构和数据处理能力而言也是巨大的挑战。在经历了几年的批判、质疑、讨论、炒作之后,大数据终于迎来了属于它的时代。2012年3月22日,奥巴马宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。奥巴马甚至将大数据定义为“未来的新石油”。
大数据时代已经来临,它将在众多领域掀起变革的巨浪。但我们要冷静的看到,大数据的核心在于为客户挖掘数据中蕴藏的价值,而不是软硬件的堆砌。因此,针对不同领域的大数据应用模式、商业模式研究将是大数据产业健康发展的关键。我们相信,在国家的统筹规划与支持下,通过各地方因地制宜制定大数据产业发展策略,通过国内外IT龙头企业以及众多创新企业的积极参与,大数据产业未来发展前景十分广阔。
(完整word版)实训总结报告
大数据时代,互联网数据被认为规模最大、结果最复杂、潜在价值最高的源数据。虽然在软件领域出现了多款开源的爬虫工具,为用户带来了许多方便,但一般都不能较好的解决数据的两个关键问题:
1、采集质量。数据质量直接决定了数据能否最为可靠数据提供服务。对多
样性页面数据进行准确抽取是目前非常有挑战的难点。
2、采集时效性。对于新发布的数据,如何在较短的时间内采集到库中是当
前采集系统面临的又一个重要问题。采集频度高则需要有更多的硬件支持,同时要能处理好站点的封IP机制。除此之外,采集互联网爬虫的存储、服务、排重等各技术环节都具有转战,行业内也积累了高效的解决方案。
二、前景分析——爬虫与大数据
爬虫即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。
在大数据时代下,人类社会产生的数据每天都在爆炸性的增长,在依托数据进行一些分析时,传统的采集数据的方式,像问卷,访谈,人工的定向统计等方法因为采集的样本少,可信度低等缺点已经不能再满足需求。在这种情况下,爬虫技术正在大数据领域悄然崛起!相比之下,爬虫可以采集互联网上海量的信息提供给需要者进行下一步的分析,预测,改进等工作,由于爬虫可以实时的,全面的而又有针对的采集互联网上信息,是大数据的基础,因此爬虫技术是当下一门正在走红或者说已经走红的技术,前景广阔。互联网数据定向采集可做特定领域的问题发现、问题跟踪等。本项目将以医疗方面的采集数据为基础,采集建库并建设通用的数据关键词服务,结合医院对垂直领域的关注事件,进行媒体传播排名以及媒体传播趋势。
(完整word版)实训总结报告
综上所述,开发一款具有较高数据质量、对新数据探测周期短、可灵活扩展的分布式互联网爬虫具有技术理论的挑战,同时具有较高的应用价值。对于提升学生的实践能力、设计能力、解决问题的能力有极大的帮助。
项目目标和要求:
医疗方面的采集数据为基础,采集建库并建设通用的数据关键词服务,结合医院对垂直领域的关注事件,进行媒体传播排名以及媒体传播趋势。 一 ·基本要求
软件操作简便快捷,数据采集部分可以通过简单易懂的方式配置新网站数据的采集。数据分析模块通过基关键词过滤以及统计学思想计算媒体传播排名及趋势。
界面设计风格采用Web形式,用户界面简单明了,符合业务办理流程,具有人性化特点。软件设计结构模块化、程序结构化、数据格式标准化、代码统一化,各种文档资料规范化。
数据流程:
模块功能:
1数据采集模板配置工程
数据采集模板配置工程主要完成采集站点的频道模板配置,配置重要信息有: `website_name` varchar() DEFAULT '0' COMMENT '站点名称',
(完整word版)实训总结报告
`region` varchar() DEFAULT '0' COMMENT '境内 境外', `contry` varchar() DEFAULT '0' COMMENT '国家名称', `language` varchar() DEFAULT '0' COMMENT '语种',
`channel_url` varchar(256) DEFAULT '0' COMMENT '频道地址',, `title` varchar(256) DEFAULT '0' COMMENT '文章标题的path', `author` varchar() DEFAULT '0' COMMENT '文章作者的path', `pubtime` varchar(32) DEFAULT '0' COMMENT '发布时间的path', `content` longtext COMMENT '正文的path',
`source` varchar(50) DEFAULT '0' COMMENT '转发来源的path'
数据采集模板配置工程的开发与模板维护是相对的两个工作。模板工程需要保证系统的可用性,模板管理同学负责那些模板需要被采集等。
该工程基于Tomcat结合Web工程实现,只要实现对页面的form填写信息写入到模板库中。该部分需要开发人员及模板管理人员对xpath有比较深刻的认识,对JSoup Select的用法非常熟悉。
配置模块在写库之前需要对配置的xpath进行测试验证,如果测试通过则写入到模板库,如果失败则提示,并要求用户重新配置模板。
模板配置内容包括两类:一、频道中新闻列表的抽取,保证能把首页上的新闻url抽出来,如果想更深一步可以考虑进行翻页抽取url。二、具体页面的内容抽取,如标题、作者、发布时间等。
该子工程是整个基于爬虫做数据分析应用系统的基础。同时因为网站模板存在改版问题,模板管理同学需要能及时发现失效模板并进行修复。
对失效模板的精确展示并提供方便的修改入口,能极大的提升模板管理的成本。模板失效需要配备报警机制,对模板失效时间要及时进行邮件等形式的报警。 本工程参考图如下:
(完整word版)实训总结报告
由于本人的小组是负责做数据模板的采集,所以此项目的爬取网页和前台展示部分略
1.3 运行环境 开发环境:
模板配置与数据分析应用: 系统架构:MVC 开发工具:Eclipse 数据库:Mysql
开发技术:java、JFine、bootstarp、sql 中间件:Tomcat 、jdk1.7 采集工具:
开发工具:Eclipse 数据库:Mysql、Redis
开发技术:java、sql、多线程、队列 环境要求: CPU:1GHz 以上 内存:8GB以上
(完整word版)实训总结报告
2 项目设计
2.1 设计思路
本系统采用B/S系统结构,利用开发人员自身比较熟悉的开发工具Myeclipse进行开发。
的构架,使得在不考虑原有系统的情况下进行的设计开发,使得该系统的设计不与其他的系统相互影响制约,保证了系统的简便,开发人员专注于该系统的开发,使得能在有限的时间内完成该系统的开发工作。
2.2 模块功能介绍
完成多线程、网络爬虫和解析url三个功能。在webcrawl中同时有包含浏览器代理及动态ip防止反爬。 2.3 模块结构图
(完整word版)实训总结报告
2.4 程序流程图
2.5 功能设计分工
本人主要承担数据模板采集的测试工作包括前台展示
3 详细设计(小三黑体,居中)
程序描述:
包(default package)主要完成多线程、网络爬虫和解析url三个功能。它含有以下4个类:crawlrtext,multest,webcrawl,XpathTest。
功能:
完成多线程、网络爬虫和解析url三个功能。在webcrawl中同时有包含浏览器代理及动态ip防止反爬。
(完整word版)实训总结报告
模块设计:
XpathTest.java:含有类
XpathTest。解析url。
crawltext。通过main()函数开始执行代码,运行爬虫
crawltext.java:含有类
程序,调用dbupdatemodel()、webcrawl()和dbupdate()类,爬取网页。设置信号量,运行多线程。
webcrawl.java:含有类
webcrawl。创建httpclient实例和httppage实例,插入
URL并排重,获取含有网页内容的返回实体。
multest.java:含有类
multest。通过main()运行程序,连接URL数据库,解
析页面。设置信号量,运行多线程。
数据库设计:
public static final String url =
\"jdbc:mysql://localhost:3306/storage?characterEncoding=utf8&useSSL=true\"; public static final String name = \"com.mysql.jdbc.Driver\"; public static final String user = \"root\";
public static final String password = \"123456\"; public Connection conn = null; public PreparedStatement pst = null; public Statement stmt= null; //定义操作数据库需要的组件
ResultSet rs=null; //存储数据集合; public connectSQL(String sql){ try {
Class.forName(name);//指定连接类型
(完整word版)实训总结报告
conn = DriverManager.getConnection(url, user, password);//获取连接
pst = conn.prepareStatement(sql);//准备执行语句 } catch (Exception e) { e.printStackTrace(); } }
public connectSQL(){ }
public void close() { try {
try {
//1、加载驱动
Class.forName(name); //2、得到连接
conn=DriverManager.getConnection(url, user, password); System.out.println(\"数据库连接成功\");
} catch (Exception e) { }
e.printStackTrace();
this.conn.close(); //this.pst.close(); } catch (SQLException e) {
(完整word版)实训总结报告
e.printStackTrace(); }
数据库建表:
4 实现方案 以下为核心代码:
(完整word版)实训总结报告
(完整word版)实训总结报告
以下是程序截图:
(完整word版)实训总结报告
5 系统测试
系统测试内容如下:
测试名称 功能测试 内容 目的 进度安排 根据《SRS》验证系测试系统的功能需2017-07-07 统功能是否符合需求是否全部正确实到 求,包括 ①原定功能的检验 ②是否有冗余功能 ③是否有遗漏功能等 现, 是否有冗余功能, 是否有遗漏功能等 2017-07-14 安全性测试 测试用户管测试系统在没有授2017-07-15 理、用户鉴别、用权的内部或者外部(完整word版)实训总结报告
户授权等 用户对其进行攻击或者恶意破坏时如何进行处理,是否仍能保证数据的安全 易用性测试 测试系统易理解测试系统在实际使2017-07-15 性、易学习性、易用中能否达到简操作性 洁、易学特性 可靠性测试 测试系统的容错测试系统能否稳定2017-07-16 性、成熟性、易恢运行进行 复性 测试环境:
服务器:
终端:
2.1 3.2 软件环境
3.2.1 操作系统
编号 软件名称 型号 生产厂商 版本 来源 备注
(完整word版)实训总结报告
Windows XP 32 bit Microsoft Professional
版本2002 \\\\192.168.4.20\\Software\\Windows Sp3
Windows 7 32 bit Microsoft 旗舰版
正版系统
3.2.2 浏览器
编号 软件名称 型号
IE - Microsoft 测试截图及预期结果
生产厂商 版本 来源 8.0
微软公司