Python数据科学_38_文本挖掘基础

发表于 2025-03-23 更新于 2025-04-07 分类于技术
本文字数： 38k 阅读时长 ≈ 34 分钟

文本向量化

文本向量化是将文本数据转化为数值向量的过程，它在自然语言处理（NLP）和机器学习任务中非常重要，有以下几个关键原因：

数学建模：计算机无法直接处理文本数据，因为文本是符号性的，不是数字。通过将文本向量化，可以将文本数据转化为计算机可以理解和处理的数值形式。这为数学建模、机器学习和深度学习提供了基础。
特征提取：文本向量化将文本数据中的信息提取出来，并将其表示为特征向量。这些特征向量包含了文本数据的语法和语义信息，使其可用于各种任务，如文本分类、情感分析、主题建模等。
模型输入：机器学习和深度学习模型通常接受数值输入。将文本向量化为数值向量后，可以将其用作模型的输入。这使得文本可以与其他数据类型（如图像、数值数据）一起用于训练和预测。
计算相似性：向量化后的文本使得计算文本之间的相似性变得更容易。可以使用向量空间模型（Vector Space Model）来测量文本之间的相似性，这对于信息检索、文档相似度计算和推荐系统非常有用。
维度减少：向量化可以将高维的文本数据表示转化为低维的数值向量，从而减少数据的复杂性，提高计算效率和模型训练速度。
特定任务需求：某些NLP任务，如情感分析或文本分类，需要将文本映射为类别或情感极性。文本向量化可以满足这些任务的输入要求。

ComfyUI介绍与基本使用

发表于 2024-11-20 分类于技术
本文字数： 2.5k 阅读时长 ≈ 2 分钟

AutoDL简介

AutoDL是一个GPU租用平台，它提供了各种型号的服务器供用户选择，使得用户可以在云端进行深度学习模型的训练和推理。这个平台的特点包括网络无要求、部署简单、稳定，且价格合理。无论是使用Mac电脑还是低配置的Windows电脑，用户都可以完全通过云端部署，自己租用服务器，并通过浏览器打开进行使用。AutoDL支持多种服务器配置，用户可以根据自己的需求租用相应配置的服务器，从而满足不同的计算需求。

Ollama简介

Ollama是一个功能强大的开源框架，旨在简化在Docker容器中部署和管理大型语言模型（LLM）的过程。本文将介绍Ollama的特点、优势以及如何在本地使用Ollama高效运行大型语言模型，为非专业读者提供清晰易懂的技术指南。

阅读全文 »

高性能WSGI Gunicorn

发表于 2024-06-24 分类于工具使用
本文字数： 3k 阅读时长 ≈ 3 分钟

为什么要使用Gunicorn

Flask自带的web服务器可用于开发环境运行调试，不适合部署在生产环境，无法满足线上的性能要求。

当使用，以下命令启动Flask应用时：

1	app.run(host = '0.0.0.0',port=6000)

Flask框架会有一段

WARNING: This is a development server. Do not use it in a production deployment. Use a production WSGI server instead.

Gunicorn是基于unix系统，被广泛应用的高性能的Python WSGI HTTP Server。用来解析HTTP请求的网关服务。它通常是在进行反向代理（如nginx），或者进行负载均衡（如AWS ELB）和一个web 应用（比如Django或者Flask）之间。

目前，gunicorn只能运行在Linux环境中，不支持windows平台。

阅读全文 »

使用Python的venv模块来创建虚拟环境

发表于 2024-06-24 分类于工具使用
本文字数： 376 阅读时长 ≈ 1 分钟

除了conda外，在Linux系统中，还可以使用Python的venv模块来创建Python虚拟环境。该模块创建出来的Python环境更加轻量化。

安装Python 3（如果尚未安装）

此步骤自行百度。

打开终端。

运行以下命令以创建虚拟环境：

1	python3 -m venv myenv

阅读全文 »

异步任务队列Celery

发表于 2024-06-23 分类于工具使用
本文字数： 4.7k 阅读时长 ≈ 4 分钟

Celery简介

Celery 是一个简单、灵活、可靠的分布式系统，处理大量消息，同时为操作提供维护这样一个系统所需的工具。它是一个专注于实时处理的任务队列，同时也支持任务调度。

Celery的架构由三部分组成，消息中间件（message broker），任务执行单元（worker）和任务执行结果存储（task result store）组成。

阅读全文 »

守护进程管理工具Pm2

发表于 2024-06-22 更新于 2024-06-23 分类于工具使用
本文字数： 4k 阅读时长 ≈ 4 分钟

简介

PM2是一个守护进程管理工具，帮助您管理和守护您的应用程序。它以简单直观的 CLI 命令行方式进行工作。

下载安装

最新的 PM2 版本可以使用 NPM 或 Yarn 安装：

# npm
npm install pm2@latest -g
# yarn
yarn global add pm2
# 二选一即可

建议使用npm安装，如果没有请自行百度安装。

输入pm2 -V打印PM2版本。

阅读全文 »

终端管理神器Tmux

发表于 2024-06-21 分类于工具使用
本文字数： 2.4k 阅读时长 ≈ 2 分钟

Tmux解决痛点

后台程序挂起。在使用Flask、FastAPI或Gradio启动某些服务或API时，往往会将当前会话变成服务监控状态，如果会话关闭会导致服务也随之关闭。

有的人可能会说，可以使用nohup将服务在后台执行，单是这样会生成额外的nohup.out文件，并且无法实时观看服务运行状态。
多个窗口之间来回切换。在Linux操作系统的使用过程中，可能会出现开启多个窗口的情况，随着窗口的逐步开启，自己都会忘记每个窗口有什么用，能不能关闭，管理起来非常麻烦。
终端工作环境可以实时保留，并且不会因会话关闭导致工作环境丢失。并且在不同设备上可以共享工作环境，不在拘泥于设备。

如果你也有以上烦恼，那么不妨试试Tmux这款工具。

阅读全文 »

Python数据科学_37_案例：基于Unet网络的直肠癌肿瘤区域分割——推理过程【计算机视觉】

发表于 2024-05-31 更新于 2025-04-07 分类于技术
本文字数： 4.7k 阅读时长 ≈ 4 分钟

读取数据

import SimpleITK as sitk
import matplotlib.pyplot as plt
import numpy as np
import cv2

import torch
import torch.nn as nn
import torch.nn.functional as F

from torchvision.transforms import v2 as transforms
from torch.utils.data import DataLoader, Dataset

1	dcm_path = 'data/10009.dcm'

阅读全文 »

Python数据科学_36_案例：基于Unet网络的直肠癌肿瘤区域分割【计算机视觉】

发表于 2024-05-30 更新于 2025-04-07 分类于技术
本文字数： 26k 阅读时长 ≈ 24 分钟

读取数据

1	import SimpleITK as sitk

1
2
3

import matplotlib.pyplot as plt
import numpy as np
import cv2

读取CT影像照片DCM文件

1	dcm_path = 'data/10009.dcm'

1
2
3

img = sitk.ReadImage(dcm_path)  # 读取DCM文件
img = sitk.GetArrayFromImage(img)  # 获取数组对象
img = img.squeeze()  # 删除维度为1的维度

1
2
3

img[img < 0] = 0
img[img > 255] = 255
img = np.array(img, dtype=np.uint8)

# 绘制图片
plt.imshow(img, cmap='gray')
plt.axis('off')
plt.show()

阅读全文 »

Ming-Log's Blog

Python数据科学_38_文本挖掘基础

文本向量化

ComfyUI介绍与基本使用

相关概念

基于AutoDL+Ollama的大模型在线部署

AutoDL简介

Ollama简介

高性能WSGI Gunicorn

为什么要使用Gunicorn

使用Python的venv模块来创建虚拟环境

安装Python 3（如果尚未安装）

打开终端。

异步任务队列Celery

Celery简介

守护进程管理工具Pm2

简介

下载安装

终端管理神器Tmux

Tmux解决痛点

Python数据科学_37_案例：基于Unet网络的直肠癌肿瘤区域分割——推理过程【计算机视觉】

读取数据

Python数据科学_36_案例：基于Unet网络的直肠癌肿瘤区域分割【计算机视觉】

读取数据

读取CT影像照片DCM文件