2019-07-30

BERT相关的一些实践

这篇文章是我在大三下时的选修课WEB搜索技术的期末个人学习报告。相关代码会在未来放出。

2019-07-30

用Kubernetes建立实验集群

我在大三下选修了软件定义网络这门选修课，其期末作业是使用Kubernetes来搭建一个实验集群。目前在互联网上有很多使用Kubernetes搭建集群的教程，但是我看了很多都感觉非常复杂。于是我参照官网的教程完成了这篇实验报告。

2019-07-30

移动端深度学习的现状与分析

这是我移动互联网这门选修课期末的大报告，主要写了移动端深度学习的一些基础的内容。

2017-09-04

微博与elastic的亿级数据实践

本文适用于：
1、非计算机相关专业，并以微博内容为基础的科研人员或者做毕业设计的学生。
2、寻求存储和处理大规模JSON数据的人员。

注意：本文旨在提供解决存储和查询相关问题的思路，仅起抛砖引玉的作用。数据为网络上公开的数据集，采用梁博分享的2016国庆微博数据，在这里感谢梁博为广大科研工作者和做毕业设计的学生提供数据。下载链接为
http://pan.baidu.com/s/1cy1hyY 。总共有七个文件，解压出来100G左右。

2017-03-25

使用微博语料训练词向量

去年底通过一个叫爬盟的神奇网站获得了一些微博的语料数据。这个网站采用众包爬取的方式，每个人爬取一些数据并上传到网站上，获得自己爬取的数据和积分，再通过积分下载别人爬取的数据。这个网站从2012年开始有第一批数据，到现在已经有五年了。根据推算，总共爬取TB级的数据（目测超过10TB），估计有数十亿甚至超过百亿的数据。我慢慢的也积累了一些数据，并用这些数据训练了词向量。
我先使用正则表达式过滤出中文字符，再进行分词，最后使用gensim训练出词向量。

2017-02-13