用Kubernetes建立实验集群

我在大三下选修了软件定义网络这门选修课,其期末作业是使用Kubernetes来搭建一个实验集群。目前在互联网上有很多使用Kubernetes搭建集群的教程,但是我看了很多都感觉非常复杂。于是我参照官网的教程完成了这篇实验报告。

Read More

微博与elastic的亿级数据实践

本文适用于:
1、非计算机相关专业,并以微博内容为基础的科研人员或者做毕业设计的学生。
2、寻求存储和处理大规模JSON数据的人员。

注意:本文旨在提供解决存储和查询相关问题的思路,仅起抛砖引玉的作用。数据为网络上公开的数据集,采用梁博分享的2016国庆微博数据,在这里感谢梁博为广大科研工作者和做毕业设计的学生提供数据。下载链接为
http://pan.baidu.com/s/1cy1hyY 。总共有七个文件,解压出来100G左右。

Read More

使用微博语料训练词向量

去年底通过一个叫爬盟的神奇网站获得了一些微博的语料数据。这个网站采用众包爬取的方式,每个人爬取一些数据并上传到网站上,获得自己爬取的数据和积分,再通过积分下载别人爬取的数据。这个网站从2012年开始有第一批数据,到现在已经有五年了。根据推算,总共爬取TB级的数据(目测超过10TB),估计有数十亿甚至超过百亿的数据。我慢慢的也积累了一些数据,并用这些数据训练了词向量。
我先使用正则表达式过滤出中文字符,再进行分词,最后使用gensim训练出词向量。

Read More

虚拟黑群晖恢复文件小计

警告!警告!警告!本文仅供参考与研究,重要数据恢复请寻求专业机构帮助。在恢复数据前,建议将原始磁盘或虚拟磁盘文件多克隆几份。
按理说,虚拟黑裙晖应该会比物理黑裙晖稳定不少(自己曾有物理黑裙晖掉电就损毁的经历,反反复复几十次,人快疯掉了),但是在物理机磁盘出现坏道等问题后,虚拟磁盘文件也会损坏。

Read More