网站首页 > 实习报告> 文章内容

实训日记7:爬取文章数据团队日记7

※发布时间:2019-8-20 8:04:05   ※发布作者:habao   ※出自何处: 

  根据本人的考察,国内所有资讯网站的网页结构都十分混乱,不同类型的资讯所在的网页结构差别巨大,这让我们很难泛化地写出爬虫。

  根据我仔细观察,两者的超链接都存放在li标签中,于是我们对所有类型的资讯网页,都爬取其li标签内的内容。至于其中的噪声数据可以在爬虫内部处理。

  需要爬取标题,时间,作者,内容。其中内容爬取富文本即可。这一步很简单,找到网页结构中存放数据的标签,记录下即可。

  这里再次吐槽一下资讯网站爬取工作的难度。。。。文章内容里各种奇怪的编码字符,需要使用content=str(content).encode(gbk, ignore).decode(gbk)来删除非gbk编码的字符。然而,这样做仍然会有些玄学字符能够保存下来(原因至今未知),不过数量很少,只在第3、50、262条数据内存在,可以单独剔除。

  这样就终于爬取了我们的资讯网站所需要的数据。。。。看我博客可能说的比较简单,实际上每一步都挺麻烦的,因为网页结构混乱,字符编码混乱。。。对数据还要去噪。。。总之我还是太菜了,唉

  首先工程上我们实现了简单的注册登陆功能@AFXBR,这部分逻辑较为清晰,具体见链接内部,不再赘述。

  本周还实现了基于情绪分析的推荐系统算法@Jemary,本系统采用的是协同过滤推荐算法,根据用户-文章评分矩阵查找当前用户的最近邻居,利用最近邻居的评分来预测当前用户对项目的预测值,将评分最高的N个项目推荐给用户。

  4).针对预推荐的user,在user-user的得分表中选择与该用户最相似的N个用户,并在user-item表中选择这N个用户中已排序好的item集合中的topM;

  在pom.xml中添加打包方式为jar包;然后Build-Build Articts,选择jar包对应的选项,然后Build,将在target文件夹下出现对应的jar包;将其传送到服务器端,然后在8082端口启动;此时再访问页面可以看到已经可以成功加载数据了。

  接受思科培训内容包括超融合DNA协作Hyperflex上午主要是讲协作感觉就像是卖思科设备一样介绍思科设备主要是适用于各种大小会议的思科即时通讯设备其中感兴趣的是自动切画面到当前发言者,应用技术有:语...博文来自:搁浅的博客

  今日学习任务:安装STM32开发,初步了解STM32,包括寄存器的配置和原理今日任务完成情况:完成,调试成功今日开发中出现的问题汇总:软件使用不熟悉今日未解决问题:无今日开发收获:初步了解了STM...博文来自:Lakers_champion的博客

  考研完到杭州迈睿机器人公司实习了一个月,感觉收获不少,学到了很多工程相关的经验,之前对大型工程没有什么概念,有无从下手的感觉,现在经过一个月的实习,大致对实际的开发流程有了了解。这一个月的实习中,我基...博文来自:SeasonJoe的博客

  一、学习内容(一)学习怎么样定位到其他城市并获取该城市的天气(二)学习怎么样去完善天气预报的其他功能(三)完善天气预报页面的功能二、课后作业题目:完善天气预报页面:展示部分源码:.jsconstapp...博文来自:LIU_JY_的博客

  今天是实习的第二周的第三天,昨天刚拿到了电脑,然后装了常用的软件并进行了配置--jdk,git(版本控制),idea(javaIDE),xshell(远程连接Linux服务器),maven,tomca...博文来自:Hello World

  JDBC的编写1.加载驱动新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右Smarty...博文来自:Katha_rsis的博客

  实习日志【三】今天学习了ssm框架的初步搭建,老师手把手的教我们如何从目录开始逐渐创建一个ssm项目,并实现了显示所有数据的操作。在下午的自习时间里,我自学了ssm的相关知识,毕竟是第一次接触ssm,...博文来自:hhhephaestus的博客

  任务:升级部署在一台浪潮服务器、一台M3C服务器上的VMware,从5.1到5.5方便内外网版本对接。遇到的问题:在桃镜像安装系统上VMware的ios镜像不识别只能识别windows之类的操作系...博文来自:搁浅的博客

  实习日志Day1基本软件的安装宁波实习第一天,关于6个基本的软件/插件。JDK的安装学过JAVA的同学应该都有过JDK安装的经历,所以这次安装并没有遇到很大的困难。首先在JAVA官网下载适合自己电...博文来自:Programmerfjq的博客

  姓名:王皓澜日期:2018年6月27日今日学习任务:编写温度显示程序,并进行仿真。今日完成情况:除六段数码管显示有问题都已完成。400行代码开发。今日开发中出现的问题汇总:六段数码管显示有问题。今日未...博文来自:的博客

  实习日志【四】今天的学习任务是温习上次的ssm架构的构件,并完成了更新功能,更新功能有区别于其他功能的地方是在跳转页面的时候需要携带参数,并传参给下个页面。以下总结构件ssm的过程:pom.xml文件...博文来自:hhhephaestus的博客

  苏嵌项目实战学习日志姓名:胡超日期:18/7/18         今日学习任务   1.熟练掌握字符串的操作;(实现并使用字符串处理函数...博文来自:的博客

  苏嵌项目实战学习日志姓名:胡超日期:18/7/20         今日学习任务   1.学习特殊数组的使用; 2.了解数组的分类;(...博文来自:的博客

  姓名:羌杨洋    日期:2018年6月28日今日学习任务:完善昨天写的流水灯程序,完成答辩今日完成情况:完成今日开发中出现的问题汇总:问了程序里面的原理真的不太懂,编程内容却没有提问很无奈,明明有努...博文来自:weixin_42492671的博客

  参考:文档锁XS锁IXIS锁X排他锁,S共享锁,只有S锁和S锁的获取之间是不互斥的。意向锁其规则:事务获取X锁前,必须获取IX,获取S前,必须获取ISIX,IS又被称为意向锁,该锁被设计的目的是:...博文来自:jsh_941112341的博客

  遇到的问题小苏老师放弃挣扎让我试试看。今天自己尝试了用第一种方法进行。打电话给浪潮售后,关注了一个号,在线服务要来了对应版本的raid卡驱动。然后试着整合,过程中提示iso既不是4.x也不是5.x...博文来自:搁浅的博客

  今天是实训的第四天,今天主要学习了背景图片实现不同手机型号自适应高度;给地图页面加光标;自动获取用户权限得到用户头像和名称;其中背景图片只能使用网络图片或者base64格式的图片,故还学习了base6...博文来自:x1432553805的博客

  学习日记 姓名:朱锟 日期:06.24今日学习任务:昨日已完成今日任务完成情况:昨日已完成今日开发中出现的问题汇总:无今日未解决问题:无今日开发收获:昨日已完成任务,今天看了一天高数评价:还行.....博文来自:的博客

  学习日志    姓名:姚强 日期:2018.06.24今日学习任务: AD制图和pcb制图今日任务完成情况:完成课上的制图要求,完成51单片机最小系统和原理图和PCB图。今日开发中出现的问题汇总:PC...博文来自:的博客

  姓名:王皓澜     日期:2018年6月28日今日学习任务:完善昨天写的秒表的程序,完成答辩今日完成情况:完成今日开发中出现的问题汇总:无今日未解决问题:无今日开发收获:无评价:notenoug...博文来自:的博客

  苏嵌项目实战学习日志姓名:黄志恒日期:2018-9-5今日学习任务队列(对头,队尾,先进先出,链式结构)今日任务完成情况main.c#includeamp;lt;stdio.ham...博文来自:的博客

  苏嵌 项目实战 学习日志 姓名:胡超 日期:18/7/12    今日学习任务 1. 完成对之前几天所学内容的复习总结。2. 完成四道C语言成绩摸底题。今日任务完成情况 (详细说明本日任务是否按计划完...博文来自:的博客

  姓名:王皓澜 日期:2018.06.23今日学习任务: AD制图今日任务完成情况:完成课上的制图要求,安装软件,制作元件库和封装。今日开发中出现的问题汇总:软件的封装画图还不够熟练今日未解决问题:无今...博文来自:的博客

  实习第二天,分到了一个小需求,给某个编辑页面添加一个排序字段。首先通过需求文档里提到的接口去找控制器,但由于需求里的接口径是全名,而代码里的部分径前缀被定义为了常量,因此直接搜是搜不到的,费劲千辛...博文来自:Mutou_ren的博客

  1.实习手续2.熟悉业务3.了解团队负责的项目每天开会要说的内容:1:昨天做了什么2:今天要做什么3:工作上遇到的问题...博文来自:weixin_42992079的博客

  实习日志-1(javascript)由于前两天一个从早到晚不小心的重装了系统,导致7.12-7.14的实习笔记都没了,所以下面整理一下从7.17到今天的实习笔记javascript中关于this的用法...博文来自:timtim515515的博客

  我的生产实习日志1(一)   [折叠]根据学校的教学安排,我们班这学期有为期一个月的生产实习,方式是学生自主选择和老师推荐。家里托人让我在洛阳一拖来完成这次实习任务,今天是我第一次来到洛阳一拖,由于所...博文来自:wenchao11031的专栏

  今日学习任务:  c语言基础与提高今日任务完成情况:  学习与巩固c语言基础  加强对于c语言基本语法的理解研究如何使用位变量和对于scanfprintf等c库函数的使用代码量:500行。今日开发中出...博文来自:的博客

  2018.7.9到达公司,完成了基本的人事报到。找到自己座位,连接好电脑。前端带实习的负责人找我进行了一次简单的谈线.搭前端接到任务,安装工作需要的一些基本软件...博文来自:Belle_Chou的博客

  苏嵌学习日志     2018\7\9    姓名:成盛      班级:通卓161今日学习任务熟悉C语言的数据类型熟悉C语言的常量与变量熟悉C语言的运算符熟悉C语言的循环结构今日任务完成情况1...博文来自:cheng1064233793的博客

  redis复习持久化事务有序列表的排序持久化两种方式实现持久化,分别是AOF和RDBRDB即快照持久化,配置文件save601000save9001…形式,表示60s内有1000此访问就会创建快照,有...博文来自:jsh_941112341的博客

  实训日志二室内场景赋予材质及贴图制作凹凸贴图以及纹理编辑UV纹理器赋予材质赋予贴图赋予凹凸纹理关于颜色搭配室内场景打光灯光类型灯光基本属性客厅初步效果图厨房初步效果图室内场景赋予材质及贴图制作凹凸贴图...博文来自:cindyYD的博客

  前几天又去签了个实习协议,时间过得可线写着这个想起来前几天有位面试官居然真的看了我的博客...留的作业我也没做...不过这篇他应该不会看到吧(应该不会)。好吧,还是三件事,先说实习...博文来自:年年のBlog

  学习日志             姓名:成盛     班级:通卓161今日学习任务结构体联合体链表内存管理今日任务完成情况基本完成今日开发中出现的问题汇总不明白如何大小端问题今日未解决问题无今日开...博文来自:cheng1064233793的博客

  本文是我2019.02.22跟随外出其中遇到的问题以及吸取到的教训上午刚到机房发现管理交换机是IBM的s5120管理交换机在其中查看了IP地址、掩码以网关用于设备的交换机是Lenovostorag...博文来自:搁浅的博客

  苏嵌项目实战学习日志姓名:黄志恒日期:2018-9-6今日学习任务制作停车场系统今日任务完成情况(详细说明本日任务是否按计划完成,开发的代码量)main.c#includepark.h&q...博文来自:的博客

  姓名:曹佳鑫 日期:6月27号今日学习任务:中断、定时器的学习,以及课设的一部分。今日任务完成情况:课设的40%。今日开发中遇到的问题汇总:好多今日未解决的问题:好多今日开发收获:无评价:一般上课...博文来自:weixin_39008885的博客

  2018年1月8日,再次回到一段新的职场旅程。第一天的报道并没有想象中的简单,让我慢慢捋一捋:1.HR谈实习待遇,递交入职材料,签实习协议;2.领取电脑,安排工位,认识同事;3.按照组长,...博文来自:小菜鸟入门

  苏嵌 项目实战 学习日志 姓名:胡超 日期:18/07/11    今日学习任务 1、了解项目管理的方法及重要性(项目代码目录结构)2、熟练掌握Makefile基本语法的使用(目标、依赖、命令)3、企...博文来自:的博客

  Jenkins学习1.什么是JenkinsJenkins是一个开源软件项目,是基于Java开发的一种持续集成工具,用于持续重复的工作,旨在提供一个易用的软件平台,使软件的持续集成变成可能。Je...博文来自:的博客

  人都是有惰性的,我发现我就是晚癌,说好的每日实习总结,从上周拖到现在,做了近三十年的思想巨人,我想该行动了!在此自己:懒惰,比勤奋更能消耗身体。言归正传,解决Dubbo项目导入Eclipse后报找...博文来自:小菜鸟入门

  markdown学习斜体粗体这是一级标题这是二级标题这是一个参考式链接这是一个行内式链接这是一个引用示例(在首行插入表示引用)//标记代码区域(或者用~~~或者缩进4个空格或者tab)voidmai...博文来自:的博客眼皮跳吉凶

  财成国际

关键词:实习日志