数据集使用指南
GitCode AI 社区提供了全面的数据集管理功能,帮助您轻松创建、分享和使用高质量数据集。本指南将介绍数据集相关的主要操作。
数据集创建
创建新数据集
- 登录您的 GitCode AI 账号
- 进入"数据集" > “创建数据集”
- 填写数据集信息:
- 数据集ID
- 数据集名称
- 选择LICENSE模板
- 选择是否公开
- 选择LICENSE模板:
- PyTorchCreative Commons Attribution Non Commercial 3.0
- Creative Commons Attribution Non Commercial No IDerivatives 3.0
- Creative Commons Attribution Non Commercial Share Alike 2.0
- Creative Commons Attribution Non Commercial Share Alike 3.0
- H Research License
- Open Model, Data & Weights License Agreement
- Unknown
- 点击"创建数据集"完成
数据集配置
创建 dataset-config.yaml
文件来定义数据集结构:
dataset-name: my-awesome-dataset
version: 1.0.0
type: image-classification
format:
- jpg
- png
structure:
train: train/
validation: val/
test: test/
labels:
path: labels.csv
format: csv
数据集搜索
基本搜索
- 在搜索框输入关键词
- 使用过滤条件:
- 综合排序
- 最受欢迎
- 最多下载
- 最新创建
- 最近更新
高级搜索
支持以下搜索语法:
type:image
- 按数据类型搜索size:>1GB
- 按数据集大小搜索license:MIT
- 按许可证搜索language:chinese
- 按数据集语言搜索
数据集下载
- 进入数据集详情页
- 点击"克隆"按钮
- 复制项目地址
- 克隆到本地
- 使用 HTTPS 协议时,请配置并使用个人访问令牌替代登录密码进行克隆、推送等操作
- 使用 SSH 协议时,请在本地生成 SSH 公钥进行克隆、推送等操作
命令行下载
# 安装 GitCode CLI
pip install gitcode
# 下载完整数据集
gitcode download-dataset username/dataset-name
# 下载特定版本
gitcode download-dataset username/dataset-name --version v1.0.0
# 下载部分数据
gitcode download-dataset username/dataset-name --split train
数据集使用
openMind
# 需要先安装openmind-hub
pip install openmind-hub
# 设置环境变量:
import os
os.environ["OPENMIND_HUB_ENDPOINT"] = "https://api.gitcode.com"
# 下载数据集
from openmind_hub import snapshot_download
# 在配置并使用个人访问令牌申请访问令牌
token = ""
# 如果没有指定local_dir,请在~/.cache/openmind 下进行查看
snapshot_download("BAAI/Infinity-Instruct", local_dir = './Infinity-Instruct',token = token )
数据集版本控制
# 加载特定版本
dataset_v1 = load_dataset("username/dataset-name", version="1.0.0")
# 查看版本历史
dataset.version_history()
# 创建新版本
dataset.create_version("1.1.0", description="Added new samples")
最佳实践
数据质量控制
- 进行数据清洗
- 检查数据完整性
- 标注质量验证
数据集文档
- 详细的数据描述
- 数据收集方法
- 使用限制说明
- 隐私考虑
版本管理
- 语义化版本号
- 更新日志
- 变更说明
数据安全
- 数据脱敏
- 访问权限控制
- 合规性检查
常见问题
Q: 如何处理大型数据集? A: 可以使用流式加载或分片下载功能,避免一次性加载全部数据。
Q: 支持哪些数据格式? A: 支持常见的数据格式,如 CSV、JSON、图片、音频等,详见文档。
Q: 如何贡献数据? A: 您可以通过数据集更新功能提交新数据,或创建数据集分支进行协作。
Q: 数据集的存储限制是多少? A: 免费账户可以创建最大 10GB 的数据集,高级账户有更大的存储限制。