首页 › 业界区 › 业界 ›向量数据长什么样子？如何将一段文本数据转化为向量数据 ...

向量数据长什么样子？如何将一段文本数据转化为向量数据？

押疙 2025-7-2 23:13:46

在 https://www.cnblogs.com/twosedar/p/18957931 一文中，介绍了对向量的理解，那么向量数据真正长什么样子呢？如何将一段非结构化的数据，例如文本，转换为向量数据呢？
以下是一个简单的示例：

如果用Python语言编程，则需要用到Sentence Transformers库，它是一个专门用于生成句子向量的Python库，通过使用统一的API将句子或段落编码为固定长度的向量表示。
安装sentence transformers 库
#pip install sentence-transformers
在你的Python文件中，编写Python代码，第一行引入sentence transformers库

from sentence_transformers import SentenceTransformer #引入SentenceTransformer库

复制代码

然后需要根据任务需求选择一个的AI预训练模型：
AI预训练模型就像个多语言语义转换器——你可以把任何语言的句子丢给它（如中文“它是一只猫”或英文“it is a cat”），它可以立刻输出一串代表这段数据语义的数字向量。
在这里，我们选择的预训练模型为“all-MiniLM-L6-v2”（当然，还有其他很多模型可以选择）
你可以在HugginFace上下载这个模型，也可以在国内很多镜像网站上下载这个模型。例如 https://gitcode.com/hf_mirrors/all-MiniLM-L6-v2/tree/main
下载后存储到本地目录（放在与python代码同一目录）下（可以看到，所谓的预训练模型，是由一组文件组成的）

编写Python代码，加载此模型

# 1. 加载预训练模型
model = SentenceTransformer('./all-MiniLM-L6-v2') # 支持多语言的小型模型

复制代码

通过SentenceTransformer标准API将输入文本向量化：

# 2. 输入文本
sentence = "它是一只猫"
# 3. 将文本转换为向量
embeddings = model.encode(sentence)
print(f"{embeddings}")

复制代码

运行你的代码，就可以看到“它是一只猫”这段文字，用“all-MiniLM-L6-v2”这个模型，转化为向量后的数据长得什么样子了。注意“all-MiniLM-L6-v2”模型转化的向量是384个维度

以下是完整代码：

from sentence_transformers import SentenceTransformer #引入SentenceTransformer库# 1. 加载预训练模型
model = SentenceTransformer('./all-MiniLM-L6-v2') # 支持多语言的小型模型# 2. 输入文本
sentence = "它是一只猫"
# 3. 将文本转换为向量
embeddings = model.encode(sentence)
print(f"{embeddings}")

复制代码

来源：豆瓜网用户自行投稿发布，如果侵权，请联系站长删除

数据向量什么样子如何

回复

使用道具举报

业界

【URP】什么是[深度偏移]（Slope Scale Depth Bias）‌

0833

城徉汗
2025-08-31
安全

大一新生如何才能更好地规划大学四年

0681

贺蛟亡
2025-09-01
安全

数据运营DataOps扩展实时数据系统

0449

俏襟选
2025-09-02
程序

新糖心vlog版zblog带数据

023

新程序
2025-09-02
代码

如何使用 vxe-table 实现穿梭框的功能，同时还能支持数据拖拽穿梭

045

赖琳芳
2025-09-02
安全

大三学生如何使用jobleap.cn来提升面试成功率

0657

匡菲
2025-09-02
问答

做俯卧撑有什么好处

011

新程序
2025-09-03
业界

【App Service】在Azure环境中如何查看App Service实例当前的网络连接情况呢？

0973

穆望
2025-09-03
业界

国产化浪潮下，Gitee如何成为技术团队的项目管理新基建？

0862

判涔
2025-09-04
业界

面试官：如何确保动态线程池任务都执行完？

0872

庞悦
2025-09-04

2025-7-2 23:13:46

0

粉丝关注

13

主题发布

板块介绍填写区域，请于后台编辑

财富榜{圆}