硬件资源准备
首先需要准备计算机的硬件资源,可以是本地服务器,也可以是云服务器。
显存要求:12GB
由于我本地计算机没有相应的GPU
资源可以直接调用,故选择云服务器资源。我选择的云服务器厂商是腾讯云,云服务器租赁教程如下:
首先,登录腾讯云,然后在首页选择产品。
1 | pip install -r requirements.txt |
修改源码中api.py文件中的模型路径。
本项目使用是langchain LLM框架和文心大模型4.0 API,结合现有知识库开发一个聊天机器人,该机器人不仅有大模型的基础知识,并且还可以根据提供的知识库文档进行问答。
1 | import torch |
1 | torch.__version__ |
'2.1.0+cu121'
在工作中我们经常会遇到这样的一些问题,例如公司服务器数据存放在公司内容,现在在外面出差无法通过资源浏览器直接访问,通常的做法是使用远程控制软件如to_desk
、向日葵等等,这种方式虽然能够解决我们文件查找的问题,但是在进行传输的时候,第三方工具的传输速度太慢,并且这种方式也不太优雅;再比如,公司在做开发时,一般是很多人一起完成一个项目,每个人负责一部分代码,这个时候就设置到一个代码同步的问题,场景的做法就是在局域网中搭建gitlab
,然后大家统一将代码上传到gitlab
,但是有的时候由于一些原因有些工作需要回家完成,但是在家完成后又无法直接上传到公司的局域网gitlab
,和其他同事之间就无法进行及时的同步进度~~~~。
这些问题在学习完本文的内容后都会得到解决。
我在这里演示的设备有3个:
例如,在此演示的发布库的项目结构如下所示:
1 | MinglogUtils |
hadoop102 | hadoop103 | hadoop104 | |
---|---|---|---|
HDFS | NameNode DataNode | DataNode | SecondaryNameNode DataNode |
YARN | NodeManager | ResourceManager NodeManager | NodeManager |
这里的规划方式和前面我们讲到的一致。
相关IP
配置如下所示:
宿主机网络信息:
IP
:192.168.128.66
GATEWAY
:192.168.128.2
DNS1
:192.168.128.2
集群网络配置:
hadoop102
:192.168.128.102
hadoop103
:192.168.128.103
hadoop104
:192.168.128.104
现有数据score_info.txt
文件,文件内容如下所示:
1 | 1001 01 90 |
编写HiveQL
代码,完成以下问题:
创建score_info
表,字段名分别为uid
、subject_id
和score
。
1 | create table if not exists score_info( |
将数据导入score_info
表。
1 | load data local |
求出每门学科的平均成绩。
1 | select uid, |
找出所有科目成绩都大于某个学科平均成绩的学生。
1 | select |
现有数据action.txt
文件,文件内容如下所示:
1 | u01 2017/1/21 5 |
编写HiveQL
代码,完成以下问题:
创建action
表,字段名分别为userId
,visitDate
和visitCount
。
1 | create table if not exists action( |
将数据导入action
表。
1 | load data local |
统计出每个用户的月累计访问次数。
1 | select |
统计出每个用户的逐月累计访问次数。
1 | select |