硬件资源准备
首先需要准备计算机的硬件资源,可以是本地服务器,也可以是云服务器。
显存要求:12GB
由于我本地计算机没有相应的GPU资源可以直接调用,故选择云服务器资源。我选择的云服务器厂商是腾讯云,云服务器租赁教程如下:
首先,登录腾讯云,然后在首页选择产品。

1 | pip install -r requirements.txt |
修改源码中api.py文件中的模型路径。
本项目使用是langchain LLM框架和文心大模型4.0 API,结合现有知识库开发一个聊天机器人,该机器人不仅有大模型的基础知识,并且还可以根据提供的知识库文档进行问答。
1 | import torch |
1 | torch.__version__ |
'2.1.0+cu121'
在工作中我们经常会遇到这样的一些问题,例如公司服务器数据存放在公司内容,现在在外面出差无法通过资源浏览器直接访问,通常的做法是使用远程控制软件如to_desk、向日葵等等,这种方式虽然能够解决我们文件查找的问题,但是在进行传输的时候,第三方工具的传输速度太慢,并且这种方式也不太优雅;再比如,公司在做开发时,一般是很多人一起完成一个项目,每个人负责一部分代码,这个时候就设置到一个代码同步的问题,场景的做法就是在局域网中搭建gitlab,然后大家统一将代码上传到gitlab,但是有的时候由于一些原因有些工作需要回家完成,但是在家完成后又无法直接上传到公司的局域网gitlab,和其他同事之间就无法进行及时的同步进度~~~~。
这些问题在学习完本文的内容后都会得到解决。
我在这里演示的设备有3个:
例如,在此演示的发布库的项目结构如下所示:
1 | MinglogUtils |
| hadoop102 | hadoop103 | hadoop104 | |
|---|---|---|---|
| HDFS | NameNode DataNode | DataNode | SecondaryNameNode DataNode |
| YARN | NodeManager | ResourceManager NodeManager | NodeManager |
这里的规划方式和前面我们讲到的一致。
相关IP配置如下所示:
宿主机网络信息:
IP:192.168.128.66
GATEWAY:192.168.128.2
DNS1:192.168.128.2
集群网络配置:
hadoop102:192.168.128.102
hadoop103:192.168.128.103
hadoop104:192.168.128.104
现有数据score_info.txt文件,文件内容如下所示:
1 | 1001 01 90 |
编写HiveQL代码,完成以下问题:
创建score_info表,字段名分别为uid、subject_id和score。
1 | create table if not exists score_info( |
将数据导入score_info表。
1 | load data local |
求出每门学科的平均成绩。
1 | select uid, |
找出所有科目成绩都大于某个学科平均成绩的学生。
1 | select |
现有数据action.txt文件,文件内容如下所示:
1 | u01 2017/1/21 5 |
编写HiveQL代码,完成以下问题:
创建action表,字段名分别为userId,visitDate和visitCount。
1 | create table if not exists action( |
将数据导入action表。
1 | load data local |
统计出每个用户的月累计访问次数。
1 | select |
统计出每个用户的逐月累计访问次数。
1 | select |