平时除了看论文还是看论文,感觉有点无聊,于是嘛就想着搞点东西来玩玩,然后就搞了一个非常简单的基于知识图谱的电影问答系统。系统是用python实现的,大概只花了1天吧,代码也仅有300多行,可以说是很容易上手了。然后在这里也简单的记录下整个搭建过程,梳理思路,给那些像我一样想玩玩的童鞋一些参考,大佬请自动跳过。
首先给来看看我们要实现的是什么东西,效果图如下:
完成这个系统主要涉及到以下一些知识点,其实知识点说不上,只需要对这些概念有印象即可,这个系统本来就是做着玩的,还不需要用那些复杂的东西。
- 网络爬虫
- 自然语言处理
- 知识图谱
- 图数据库
机器学习
看着这些点感觉内容挺多的,其实真正用到的只是一丢丢啦,比如说对于机器学习,其实我们就是用其中的一个分类器就可以了。这几部分我都写成了对应的处理类,代码也上传github了,想提前玩玩的可以去下载来试试
(要是能给我个star就更好了(我怎么也这么无耻的来要star了。。。。
本系列教程除了目录只有4篇,或许这并不是一个很详细的教程,主要是想帮助大家对代码的理解,理清思路或者扰乱思路。在做试验的时候,我就是先理清思路再写的,这是一个不错的方法,由于这个教程不是很详细,大家有被我搅晕的地方,可以给我发邮件(irvingbei@qq.com
或者xiongzy@std.uestc.edu.cn),也可以去网上找找资料。
接下来根据业务逻辑从以下几个问题入手来介绍整个构建过程:
- 系统的整体逻辑是怎么样的?(系统业务逻辑介绍)
- 需要做那些准备工作?(实验环境和实验数据准备)
- 接收到用户的问题后需要怎么处理用户问题?(用户问题预处理)
- 怎么识别用户到底问的啥?(用户问题分类)
-
对于这个系统的前端页面,是以前搞得一个基于信息检索的问答系统的界面,源代码见github
好啦,目录就这样吧,等后面把对应的部分写了就链接上。