PaviaU类似高光谱数据集

PaviaU-Like Hyperspectral Dataset

版本: v1.1
生成日期: 2026-05-19
数据集规模: 3个场景，共21个文件
生成工具: HSI Generator v4.0.0

📌 数据集概述

本数据集是基于HSI Generator生成的模拟PaviaU高光谱数据集，包含三个不同场景的高光谱图像，用于高光谱图像处理、分类、目标检测等研究和应用。

与PaviaU数据集的关系

PaviaU是高光谱遥感领域的经典基准数据集，由ROSIS传感器在意大利帕维亚大学上空采集。本数据集模拟了PaviaU的关键特征：

特征参数	PaviaU原始数据	本数据集	说明
图像尺寸	610 × 340 像素	610 × 340 像素	完全一致
波段数	103	103	完全一致
波长范围	430-860 nm	430-860 nm	完全一致
光谱分辨率	~4 nm	~4 nm	完全一致
数据类型	float32	float32	完全一致
数据来源	ROSIS传感器实测	HSI Generator模拟	不同

重要说明: 本数据集是模拟数据，用于算法开发和测试，不应用于实际遥感应用。

📊 数据集内容

场景描述

1. pavia_u_urban（城市场景）

文件: pavia_u_urban.mat, pavia_u_urban.npy

场景特征:

城市环境模拟
包含材料: 沥青、混凝土、钢铁、绿叶植被、沙土、水体、枯草
材料分布比例:
- 沥青 (道路): 25%
- 混凝土 (建筑): 20%
- 钢铁 (金属结构): 15%
- 绿叶植被: 20%
- 沙土: 10%
- 水体: 5%
- 枯草: 5%

数据统计:

反射率范围: 0.0000 - 0.7755
平均反射率: 0.2550
标准差: 0.1950

适用场景:

城市地物分类
道路提取
建筑物检测
城市环境监测

2. pavia_u_agriculture（农业场景）

文件: pavia_u_agriculture.mat, pavia_u_agriculture.npy

场景特征:

农业环境模拟
包含材料: 小麦、壤土、枯草、水体、沥青
材料分布比例:
- 小麦 (农作物): 40%
- 壤土 (农田土壤): 30%
- 枯草: 15%
- 水体: 10%
- 沥青 (田间道路): 5%

数据统计:

反射率范围: 0.0000 - 0.6328
平均反射率: 0.1279
标准差: 0.1583

适用场景:

农作物分类
农田分割
作物长势监测
精准农业应用

3. pavia_u_mixed（混合场景）

文件: pavia_u_mixed.mat, pavia_u_mixed.npy

场景特征:

城市-农业混合环境模拟
包含材料: 绿叶植被、沙土、沥青、混凝土、水体、钢铁、枯草
材料分布比例:
- 绿叶植被: 25%
- 沙土: 20%
- 沥青: 20%
- 混凝土: 15%
- 水体: 10%
- 钢铁: 5%
- 枯草: 5%

数据统计:

反射率范围: 0.0000 - 0.7594
平均反射率: 0.1512
标准差: 0.1658

适用场景:

复杂场景分类
土地利用/覆盖分类
多类别目标检测
算法泛化能力测试

📁 文件结构

pavia_u_like/
├── README.md                           # 本文档
├── LICENSE                             # MIT许可证
├── pavia_u_visualization.png           # 可视化图表
│
├── pavia_u_urban.mat                   # 城市场景 (MATLAB格式)
├── pavia_u_urban.npy                   # 城市场景 (NumPy格式)
├── pavia_u_urban_wavelengths.txt       # 城市场景波长数据
├── pavia_u_urban_gt.mat                # 城市场景标注 (MATLAB格式)
├── pavia_u_urban_gt.npy                # 城市场景标注 (NumPy格式)
│
├── pavia_u_agriculture.mat             # 农业场景 (MATLAB格式)
├── pavia_u_agriculture.npy             # 农业场景 (NumPy格式)
├── pavia_u_agriculture_wavelengths.txt # 农业场景波长数据
├── pavia_u_agriculture_gt.mat          # 农业场景标注 (MATLAB格式)
├── pavia_u_agriculture_gt.npy          # 农业场景标注 (NumPy格式)
│
├── pavia_u_mixed.mat                   # 混合场景 (MATLAB格式)
├── pavia_u_mixed.npy                   # 混合场景 (NumPy格式)
├── pavia_u_mixed_wavelengths.txt       # 混合场景波长数据
├── pavia_u_mixed_gt.mat                # 混合场景标注 (MATLAB格式)
└── pavia_u_mixed_gt.npy                # 混合场景标注 (NumPy格式)

文件大小

文件类型	单个文件大小	总大小
.mat (MATLAB)	81.49 MB	244.47 MB
.npy (NumPy)	162.98 MB	488.94 MB
.mat (标注)	~0.2 MB	~0.6 MB
.npy (标注)	~0.2 MB	~0.6 MB
.txt (波长)	~1 KB	~3 KB
总计	-	~734 MB

🔧 数据格式说明

MATLAB格式 (.mat)

数据结构:

load('pavia_u_urban.mat')

% 可用变量:
% - data: 高光谱数据 (340 × 610 × 103)
% - wavelengths: 波长数组 (103 × 1)
% - shape: 数据形状 [340, 610, 103]
% - metadata: 元数据字符串

数据维度:

第1维: 高度 (340 像素)
第2维: 宽度 (610 像素)
第3维: 光谱波段 (103 波段)

数据类型: float32

反射率范围: 0.0 - 1.0

NumPy格式 (.npy)

数据结构:

import numpy as np

# 加载数据
hsi_data = np.load('pavia_u_urban.npy')
# 形状: (340, 610, 103)
# 类型: float64

# 加载波长
wavelengths = np.loadtxt('pavia_u_urban_wavelengths.txt', skiprows=1)
# 形状: (103,)
# 单位: nm

数据维度: 与MATLAB格式相同

数据类型: float64 (NumPy默认)

波长数据 (.txt)

格式: 纯文本，每行一个波长值

示例:

Wavelength (nm)
430.00
434.27
438.54
...
860.00

波长范围: 430 - 860 nm
波段数: 103
光谱分辨率: ~4.17 nm

标注数据 (Ground Truth)

文件: pavia_u_urban_gt.mat, pavia_u_urban_gt.npy 等

格式: 与 PaviaU 数据集格式一致

数据结构:

import numpy as np
import scipy.io as sio

# 加载标注数据
gt = sio.loadmat('pavia_u_urban_gt.mat')
labels = gt['gt']  # (340, 610)
# 或
labels = np.load('pavia_u_urban_gt.npy')  # (340, 610)

数据维度: 2D 数组 (340 × 610)

数据类型: uint8

类别说明:

Urban 场景 (7类)

ID	类别名称	英文	样本数
0	背景	Background	27,400
1	沥青	Asphalt	47,500
2	混凝土	Concrete	37,500
3	钢铁	Steel	27,500
4	绿叶植被	Vegetation	35,000
5	沙土	Sand	17,500
6	水体	Water	7,500
7	枯草	Dry Grass	7,500

Agriculture 场景 (5类)

ID	类别名称	英文	样本数
0	背景	Background	27,400
1	小麦	Wheat	72,500
2	壤土	Loam	55,000
3	枯草	Dry Grass	27,500
4	水体	Water	17,500
5	沥青	Asphalt	7,500

Mixed 场景 (7类)

ID	类别名称	英文	样本数
0	背景	Background	27,400
1	绿叶植被	Vegetation	47,500
2	沙土	Sand	37,500
3	沥青	Asphalt	37,500
4	混凝土	Concrete	25,000
5	水体	Water	17,500
6	钢铁	Steel	7,500
7	枯草	Dry Grass	7,500

💻 使用示例

Python示例

1. 基本加载和可视化

import numpy as np
import scipy.io as sio
import matplotlib.pyplot as plt

# 加载MAT文件
mat_data = sio.loadmat('pavia_u_urban.mat')
hsi_data = mat_data['data']  # (340, 610, 103)
wavelengths = mat_data['wavelengths'].flatten()  # (103,)

print(f'数据形状: {hsi_data.shape}')
print(f'波长范围: {wavelengths[0]:.1f} - {wavelengths[-1]:.1f} nm')
print(f'反射率范围: {hsi_data.min():.4f} - {hsi_data.max():.4f}')

# RGB合成显示
def get_rgb_image(hsi_data, r_band=80, g_band=40, b_band=20):
    """从高光谱数据提取RGB图像"""
    rgb = np.zeros((hsi_data.shape[0], hsi_data.shape[1], 3))
    rgb[:, :, 0] = hsi_data[:, :, r_band]  # Red
    rgb[:, :, 1] = hsi_data[:, :, g_band]  # Green
    rgb[:, :, 2] = hsi_data[:, :, b_band]  # Blue
    
    # 归一化到 0-1
    rgb = (rgb - rgb.min()) / (rgb.max() - rgb.min())
    return rgb

rgb_img = get_rgb_image(hsi_data)
plt.figure(figsize=(10, 6))
plt.imshow(rgb_img)
plt.title('PaviaU Urban - RGB合成')
plt.axis('off')
plt.show()

# 显示光谱曲线
pixel_y, pixel_x = 170, 305  # 中心像素
spectrum = hsi_data[pixel_y, pixel_x, :]

plt.figure(figsize=(12, 4))
plt.plot(wavelengths, spectrum, linewidth=2)
plt.xlabel('波长 (nm)')
plt.ylabel('反射率')
plt.title(f'像素 ({pixel_x}, {pixel_y}) 光谱曲线')
plt.grid(True, alpha=0.3)
plt.show()

2. 数据预处理

from sklearn.preprocessing import StandardScaler

# 加载数据
hsi_data = np.load('pavia_u_urban.npy')

# 1. 去除噪声波段（可选）
valid_bands = np.arange(10, 95)  # 去除前10和后8个波段
hsi_clean = hsi_data[:, :, valid_bands]

# 2. 归一化
scaler = StandardScaler()
h, w, b = hsi_clean.shape
hsi_normalized = scaler.fit_transform(
    hsi_clean.reshape(-1, b)
).reshape(h, w, b)

# 3. PCA降维
from sklearn.decomposition import PCA

n_components = 30
pca = PCA(n_components=n_components)
hsi_pca = pca.fit_transform(
    hsi_clean.reshape(-1, b)
).reshape(h, w, n_components)

print(f'原始数据: {hsi_data.shape}')
print(f'PCA后数据: {hsi_pca.shape}')
print(f'解释方差比: {pca.explained_variance_ratio_.sum():.2%}')

3. 分类示例

from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score

# 加载数据
hsi_data = np.load('pavia_u_urban.npy')
h, w, b = hsi_data.shape

# 创建模拟标签（实际应用中应使用真实标签）
# 这里简单地将图像分为4个区域
labels = np.zeros((h, w), dtype=int)
labels[:h//2, :w//2] = 0  # 类别0
labels[:h//2, w//2:] = 1  # 类别1
labels[h//2:, :w//2] = 2  # 类别2
labels[h//2:, w//2:] = 3  # 类别3

# 准备训练数据
X = hsi_data.reshape(-1, b)
y = labels.flatten()

# 采样部分数据用于训练（加速）
sample_idx = np.random.choice(len(X), size=5000, replace=False)
X_sample = X[sample_idx]
y_sample = y[sample_idx]

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X_sample, y_sample, test_size=0.3, random_state=42
)

# 训练SVM分类器
clf = SVC(kernel='rbf', random_state=42)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 评估
print(f'准确率: {accuracy_score(y_test, y_pred):.4f}')
print('\n分类报告:')
print(classification_report(y_test, y_pred))

MATLAB示例

1. 基本加载和可视化

% 加载数据
load('pavia_u_urban.mat');

% 显示基本信息
disp(['数据形状: ', num2str(shape)]);
disp(['波长范围: ', num2str(wavelengths(1)), ' - ', num2str(wavelengths(end)), ' nm']);

% RGB合成显示
rgb_img = zeros(340, 610, 3);
rgb_img(:,:,1) = data(:,:,80);  % Red
rgb_img(:,:,2) = data(:,:,40);  % Green
rgb_img(:,:,3) = data(:,:,20);  % Blue

% 归一化
rgb_img = (rgb_img - min(rgb_img(:))) / (max(rgb_img(:)) - min(rgb_img(:)));

figure;
imshow(rgb_img);
title('PaviaU Urban - RGB合成');
colorbar;

% 显示光谱曲线
pixel_y = 170;
pixel_x = 305;
spectrum = squeeze(data(pixel_y, pixel_x, :));

figure;
plot(wavelengths, spectrum, 'LineWidth', 2);
xlabel('波长 (nm)');
ylabel('反射率');
title(['像素 (', num2str(pixel_x), ', ', num2str(pixel_y), ') 光谱曲线']);
grid on;

2. 数据处理

% PCA降维
load('pavia_u_urban.mat');
[h, w, b] = size(data);

% 重塑为2D矩阵
X = reshape(data, [h*w, b]);

% PCA
[coeff, score, latent] = pca(X, 'NumComponents', 30);

% 重塑回3D
data_pca = reshape(score, [h, w, 30]);

disp(['原始波段数: ', num2str(b)]);
disp(['PCA后波段数: ', num2str(30)]);
disp(['解释方差: ', num2str(sum(latent(1:30))/sum(latent)*100), '%']);

🔬 技术细节

光谱生成方法

本数据集使用HSI Generator v4.0.0生成，采用以下方法：

1. 光谱库

基于项目的光谱库（9,182个光谱），包括：

矿物光谱（1,540个）
土壤光谱（450个）
植被光谱（600个）
水体光谱（200个）
人工材料（600个）
城市地物（500个）
其他类型（4,292个）

2. 参数化光谱模型

使用参数化方法生成光谱，考虑：

材料类型
物理特性（含水量、叶面积指数等）
环境因素
光谱变异

3. 空间分布

采用分块随机分布方法：

块大小: 50 × 50 像素
材料分配: 基于预设比例
边界处理: 自然过渡

4. 噪声模拟

添加传感器噪声：

噪声类型: 高斯噪声
噪声水平: σ = 0.02
条带噪声: 未添加

质量保证

所有数据均通过以下验证：

✅ 数据完整性

无NaN值
无Inf值
所有像素均有有效数据

✅ 数值范围

反射率在 [0, 1] 范围内
波长单调递增
数据类型正确

✅ 格式一致性

MAT和NPY格式数据一致
波长数据一致
元数据完整

✅ 光谱特性

光谱曲线平滑
特征吸收峰明显
物理意义合理

📊 数据集统计

整体统计

场景	最大值	平均值	标准差
Urban	0.7755	0.2550	0.1950
Agriculture	0.6328	0.1279	0.1583
Mixed	0.7594	0.1512	0.1658

波段统计

波段范围	波段数	中心波长	主要应用
蓝光	430-500 nm	~465 nm	水体穿透、土壤区分
绿光	500-600 nm	~550 nm	植被绿峰
红光	600-700 nm	~650 nm	叶绿素吸收
红边	700-750 nm	~725 nm	植被胁迫
近红外	750-860 nm	~805 nm	植被生物量

🎯 应用场景

适合的应用

✅ 算法开发与测试

高光谱图像分类算法
目标检测算法
降维算法
解混算法

✅ 教育与培训

高光谱遥感教学
算法演示
实验练习

✅ 基准测试

算法性能对比
参数优化
模型验证

不适合的应用

❌ 实际遥感应用

地物识别
环境监测
资源调查
灾害评估

❌ 科学研究

物理机制研究
实际地物分析
真实场景验证

原因: 本数据集是模拟数据，不包含真实地物的物理特性和空间分布。

📚 参考文献

PaviaU原始数据集

Pavia University Dataset
- 来源: ROSIS (Reflective Optics System Imaging Spectrometer)
- 位置: 意大利帕维亚大学
- 时间: 2003年
- 参考: IEEE DataPort

🔗 相关资源

数据集

工具

HSI Generator - 本数据集的生成工具（HSI Generator v4.0.0）
ENVI - 专业高光谱处理软件
QGIS - 开源地理信息系统

Python库

scikit-learn - 机器学习
spectral - 高光谱处理
rasterio - 地理数据处理

📧 联系方式

数据集问题

如有关于本数据集的问题，请：

查看本文档
查看仓库中的其他文档
提交 Issue 或 Pull Request

工具问题

关于HSI Generator的问题，请：

查看本数据集的生成说明
参考相关论文和文档
提交 Issue 获取帮助

📜 许可声明

数据使用

本数据集免费开放，可用于：

✅ 科学研究
✅ 教学实验
✅ 算法开发
✅ 学术交流

使用限制

⚠️ 不得用于商业产品
⚠️ 不得声称拥有数据版权
⚠️ 使用时请注明数据来源

引用格式

如在论文或报告中使用本数据集，请引用：

@dataset{pavia_u_like_2026,
  author = {HSI Generator Project},
  title = {PaviaU-Like Hyperspectral Dataset},
  year = {2026},
  version = {1.0},
  generator = {HSI Generator v4.0.0},
  url = {https://atomgit.com/hunyuan2026/ggp}
}

📝 更新日志

v1.1 (2026-05-19)

✅ 添加标注数据 (Ground Truth)
✅ 与 PaviaU 格式完全一致
✅ 提供 MAT 和 NPY 两种格式
✅ Urban 场景: 7 类
✅ Agriculture 场景: 5 类
✅ Mixed 场景: 7 类

v1.0 (2026-05-19)

✅ 初始版本发布
✅ 包含3个场景（Urban, Agriculture, Mixed）
✅ 提供MAT和NPY两种格式
✅ 完整的波长数据
✅ 数据质量验证通过
✅ 可视化图表生成

🙏 致谢

本数据集的生成得益于：

HSI Generator开发团队
光谱库贡献者
PaviaU原始数据集提供者
开源社区的支持

最后更新: 2026-05-19
文档版本: v1.1
数据集版本: v1.1

PaviaU类似高光谱数据集

PaviaU-Like Hyperspectral Dataset

版本: v1.1
生成日期: 2026-05-19
数据集规模: 3个场景，共21个文件
生成工具: HSI Generator v4.0.0

📌 数据集概述

本数据集是基于HSI Generator生成的模拟PaviaU高光谱数据集，包含三个不同场景的高光谱图像，用于高光谱图像处理、分类、目标检测等研究和应用。

与PaviaU数据集的关系

PaviaU是高光谱遥感领域的经典基准数据集，由ROSIS传感器在意大利帕维亚大学上空采集。本数据集模拟了PaviaU的关键特征：

特征参数	PaviaU原始数据	本数据集	说明
图像尺寸	610 × 340 像素	610 × 340 像素	完全一致
波段数	103	103	完全一致
波长范围	430-860 nm	430-860 nm	完全一致
光谱分辨率	~4 nm	~4 nm	完全一致
数据类型	float32	float32	完全一致
数据来源	ROSIS传感器实测	HSI Generator模拟	不同

重要说明: 本数据集是模拟数据，用于算法开发和测试，不应用于实际遥感应用。

📊 数据集内容

场景描述

1. pavia_u_urban（城市场景）

文件: pavia_u_urban.mat, pavia_u_urban.npy

场景特征:

城市环境模拟
包含材料: 沥青、混凝土、钢铁、绿叶植被、沙土、水体、枯草
材料分布比例:
- 沥青 (道路): 25%
- 混凝土 (建筑): 20%
- 钢铁 (金属结构): 15%
- 绿叶植被: 20%
- 沙土: 10%
- 水体: 5%
- 枯草: 5%

数据统计:

反射率范围: 0.0000 - 0.7755
平均反射率: 0.2550
标准差: 0.1950

适用场景:

城市地物分类
道路提取
建筑物检测
城市环境监测

2. pavia_u_agriculture（农业场景）

文件: pavia_u_agriculture.mat, pavia_u_agriculture.npy

场景特征:

农业环境模拟
包含材料: 小麦、壤土、枯草、水体、沥青
材料分布比例:
- 小麦 (农作物): 40%
- 壤土 (农田土壤): 30%
- 枯草: 15%
- 水体: 10%
- 沥青 (田间道路): 5%

数据统计:

反射率范围: 0.0000 - 0.6328
平均反射率: 0.1279
标准差: 0.1583

适用场景:

农作物分类
农田分割
作物长势监测
精准农业应用

3. pavia_u_mixed（混合场景）

文件: pavia_u_mixed.mat, pavia_u_mixed.npy

场景特征:

城市-农业混合环境模拟
包含材料: 绿叶植被、沙土、沥青、混凝土、水体、钢铁、枯草
材料分布比例:
- 绿叶植被: 25%
- 沙土: 20%
- 沥青: 20%
- 混凝土: 15%
- 水体: 10%
- 钢铁: 5%
- 枯草: 5%

数据统计:

反射率范围: 0.0000 - 0.7594
平均反射率: 0.1512
标准差: 0.1658

适用场景:

复杂场景分类
土地利用/覆盖分类
多类别目标检测
算法泛化能力测试

📁 文件结构

pavia_u_like/
├── README.md                           # 本文档
├── LICENSE                             # MIT许可证
├── pavia_u_visualization.png           # 可视化图表
│
├── pavia_u_urban.mat                   # 城市场景 (MATLAB格式)
├── pavia_u_urban.npy                   # 城市场景 (NumPy格式)
├── pavia_u_urban_wavelengths.txt       # 城市场景波长数据
├── pavia_u_urban_gt.mat                # 城市场景标注 (MATLAB格式)
├── pavia_u_urban_gt.npy                # 城市场景标注 (NumPy格式)
│
├── pavia_u_agriculture.mat             # 农业场景 (MATLAB格式)
├── pavia_u_agriculture.npy             # 农业场景 (NumPy格式)
├── pavia_u_agriculture_wavelengths.txt # 农业场景波长数据
├── pavia_u_agriculture_gt.mat          # 农业场景标注 (MATLAB格式)
├── pavia_u_agriculture_gt.npy          # 农业场景标注 (NumPy格式)
│
├── pavia_u_mixed.mat                   # 混合场景 (MATLAB格式)
├── pavia_u_mixed.npy                   # 混合场景 (NumPy格式)
├── pavia_u_mixed_wavelengths.txt       # 混合场景波长数据
├── pavia_u_mixed_gt.mat                # 混合场景标注 (MATLAB格式)
└── pavia_u_mixed_gt.npy                # 混合场景标注 (NumPy格式)

文件大小

文件类型	单个文件大小	总大小
.mat (MATLAB)	81.49 MB	244.47 MB
.npy (NumPy)	162.98 MB	488.94 MB
.mat (标注)	~0.2 MB	~0.6 MB
.npy (标注)	~0.2 MB	~0.6 MB
.txt (波长)	~1 KB	~3 KB
总计	-	~734 MB

🔧 数据格式说明

MATLAB格式 (.mat)

数据结构:

load('pavia_u_urban.mat')

% 可用变量:
% - data: 高光谱数据 (340 × 610 × 103)
% - wavelengths: 波长数组 (103 × 1)
% - shape: 数据形状 [340, 610, 103]
% - metadata: 元数据字符串

数据维度:

第1维: 高度 (340 像素)
第2维: 宽度 (610 像素)
第3维: 光谱波段 (103 波段)

数据类型: float32

反射率范围: 0.0 - 1.0

NumPy格式 (.npy)

数据结构:

import numpy as np

# 加载数据
hsi_data = np.load('pavia_u_urban.npy')
# 形状: (340, 610, 103)
# 类型: float64

# 加载波长
wavelengths = np.loadtxt('pavia_u_urban_wavelengths.txt', skiprows=1)
# 形状: (103,)
# 单位: nm

数据维度: 与MATLAB格式相同

数据类型: float64 (NumPy默认)

波长数据 (.txt)

格式: 纯文本，每行一个波长值

示例:

Wavelength (nm)
430.00
434.27
438.54
...
860.00

波长范围: 430 - 860 nm
波段数: 103
光谱分辨率: ~4.17 nm

标注数据 (Ground Truth)

文件: pavia_u_urban_gt.mat, pavia_u_urban_gt.npy 等

格式: 与 PaviaU 数据集格式一致

数据结构:

import numpy as np
import scipy.io as sio

# 加载标注数据
gt = sio.loadmat('pavia_u_urban_gt.mat')
labels = gt['gt']  # (340, 610)
# 或
labels = np.load('pavia_u_urban_gt.npy')  # (340, 610)

数据维度: 2D 数组 (340 × 610)

数据类型: uint8

类别说明:

Urban 场景 (7类)

ID	类别名称	英文	样本数
0	背景	Background	27,400
1	沥青	Asphalt	47,500
2	混凝土	Concrete	37,500
3	钢铁	Steel	27,500
4	绿叶植被	Vegetation	35,000
5	沙土	Sand	17,500
6	水体	Water	7,500
7	枯草	Dry Grass	7,500

Agriculture 场景 (5类)

ID	类别名称	英文	样本数
0	背景	Background	27,400
1	小麦	Wheat	72,500
2	壤土	Loam	55,000
3	枯草	Dry Grass	27,500
4	水体	Water	17,500
5	沥青	Asphalt	7,500

Mixed 场景 (7类)

ID	类别名称	英文	样本数
0	背景	Background	27,400
1	绿叶植被	Vegetation	47,500
2	沙土	Sand	37,500
3	沥青	Asphalt	37,500
4	混凝土	Concrete	25,000
5	水体	Water	17,500
6	钢铁	Steel	7,500
7	枯草	Dry Grass	7,500

💻 使用示例

Python示例

1. 基本加载和可视化

import numpy as np
import scipy.io as sio
import matplotlib.pyplot as plt

# 加载MAT文件
mat_data = sio.loadmat('pavia_u_urban.mat')
hsi_data = mat_data['data']  # (340, 610, 103)
wavelengths = mat_data['wavelengths'].flatten()  # (103,)

print(f'数据形状: {hsi_data.shape}')
print(f'波长范围: {wavelengths[0]:.1f} - {wavelengths[-1]:.1f} nm')
print(f'反射率范围: {hsi_data.min():.4f} - {hsi_data.max():.4f}')

# RGB合成显示
def get_rgb_image(hsi_data, r_band=80, g_band=40, b_band=20):
    """从高光谱数据提取RGB图像"""
    rgb = np.zeros((hsi_data.shape[0], hsi_data.shape[1], 3))
    rgb[:, :, 0] = hsi_data[:, :, r_band]  # Red
    rgb[:, :, 1] = hsi_data[:, :, g_band]  # Green
    rgb[:, :, 2] = hsi_data[:, :, b_band]  # Blue
    
    # 归一化到 0-1
    rgb = (rgb - rgb.min()) / (rgb.max() - rgb.min())
    return rgb

rgb_img = get_rgb_image(hsi_data)
plt.figure(figsize=(10, 6))
plt.imshow(rgb_img)
plt.title('PaviaU Urban - RGB合成')
plt.axis('off')
plt.show()

# 显示光谱曲线
pixel_y, pixel_x = 170, 305  # 中心像素
spectrum = hsi_data[pixel_y, pixel_x, :]

plt.figure(figsize=(12, 4))
plt.plot(wavelengths, spectrum, linewidth=2)
plt.xlabel('波长 (nm)')
plt.ylabel('反射率')
plt.title(f'像素 ({pixel_x}, {pixel_y}) 光谱曲线')
plt.grid(True, alpha=0.3)
plt.show()

2. 数据预处理

from sklearn.preprocessing import StandardScaler

# 加载数据
hsi_data = np.load('pavia_u_urban.npy')

# 1. 去除噪声波段（可选）
valid_bands = np.arange(10, 95)  # 去除前10和后8个波段
hsi_clean = hsi_data[:, :, valid_bands]

# 2. 归一化
scaler = StandardScaler()
h, w, b = hsi_clean.shape
hsi_normalized = scaler.fit_transform(
    hsi_clean.reshape(-1, b)
).reshape(h, w, b)

# 3. PCA降维
from sklearn.decomposition import PCA

n_components = 30
pca = PCA(n_components=n_components)
hsi_pca = pca.fit_transform(
    hsi_clean.reshape(-1, b)
).reshape(h, w, n_components)

print(f'原始数据: {hsi_data.shape}')
print(f'PCA后数据: {hsi_pca.shape}')
print(f'解释方差比: {pca.explained_variance_ratio_.sum():.2%}')

3. 分类示例

from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score

# 加载数据
hsi_data = np.load('pavia_u_urban.npy')
h, w, b = hsi_data.shape

# 创建模拟标签（实际应用中应使用真实标签）
# 这里简单地将图像分为4个区域
labels = np.zeros((h, w), dtype=int)
labels[:h//2, :w//2] = 0  # 类别0
labels[:h//2, w//2:] = 1  # 类别1
labels[h//2:, :w//2] = 2  # 类别2
labels[h//2:, w//2:] = 3  # 类别3

# 准备训练数据
X = hsi_data.reshape(-1, b)
y = labels.flatten()

# 采样部分数据用于训练（加速）
sample_idx = np.random.choice(len(X), size=5000, replace=False)
X_sample = X[sample_idx]
y_sample = y[sample_idx]

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X_sample, y_sample, test_size=0.3, random_state=42
)

# 训练SVM分类器
clf = SVC(kernel='rbf', random_state=42)
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 评估
print(f'准确率: {accuracy_score(y_test, y_pred):.4f}')
print('\n分类报告:')
print(classification_report(y_test, y_pred))

MATLAB示例

1. 基本加载和可视化

% 加载数据
load('pavia_u_urban.mat');

% 显示基本信息
disp(['数据形状: ', num2str(shape)]);
disp(['波长范围: ', num2str(wavelengths(1)), ' - ', num2str(wavelengths(end)), ' nm']);

% RGB合成显示
rgb_img = zeros(340, 610, 3);
rgb_img(:,:,1) = data(:,:,80);  % Red
rgb_img(:,:,2) = data(:,:,40);  % Green
rgb_img(:,:,3) = data(:,:,20);  % Blue

% 归一化
rgb_img = (rgb_img - min(rgb_img(:))) / (max(rgb_img(:)) - min(rgb_img(:)));

figure;
imshow(rgb_img);
title('PaviaU Urban - RGB合成');
colorbar;

% 显示光谱曲线
pixel_y = 170;
pixel_x = 305;
spectrum = squeeze(data(pixel_y, pixel_x, :));

figure;
plot(wavelengths, spectrum, 'LineWidth', 2);
xlabel('波长 (nm)');
ylabel('反射率');
title(['像素 (', num2str(pixel_x), ', ', num2str(pixel_y), ') 光谱曲线']);
grid on;

2. 数据处理

% PCA降维
load('pavia_u_urban.mat');
[h, w, b] = size(data);

% 重塑为2D矩阵
X = reshape(data, [h*w, b]);

% PCA
[coeff, score, latent] = pca(X, 'NumComponents', 30);

% 重塑回3D
data_pca = reshape(score, [h, w, 30]);

disp(['原始波段数: ', num2str(b)]);
disp(['PCA后波段数: ', num2str(30)]);
disp(['解释方差: ', num2str(sum(latent(1:30))/sum(latent)*100), '%']);

🔬 技术细节

光谱生成方法

本数据集使用HSI Generator v4.0.0生成，采用以下方法：

1. 光谱库

基于项目的光谱库（9,182个光谱），包括：

矿物光谱（1,540个）
土壤光谱（450个）
植被光谱（600个）
水体光谱（200个）
人工材料（600个）
城市地物（500个）
其他类型（4,292个）

2. 参数化光谱模型

使用参数化方法生成光谱，考虑：

材料类型
物理特性（含水量、叶面积指数等）
环境因素
光谱变异

3. 空间分布

采用分块随机分布方法：

块大小: 50 × 50 像素
材料分配: 基于预设比例
边界处理: 自然过渡

4. 噪声模拟

添加传感器噪声：

噪声类型: 高斯噪声
噪声水平: σ = 0.02
条带噪声: 未添加

质量保证

所有数据均通过以下验证：

✅ 数据完整性

无NaN值
无Inf值
所有像素均有有效数据

✅ 数值范围

反射率在 [0, 1] 范围内
波长单调递增
数据类型正确

✅ 格式一致性

MAT和NPY格式数据一致
波长数据一致
元数据完整

✅ 光谱特性

光谱曲线平滑
特征吸收峰明显
物理意义合理

📊 数据集统计

整体统计

场景	最大值	平均值	标准差
Urban	0.7755	0.2550	0.1950
Agriculture	0.6328	0.1279	0.1583
Mixed	0.7594	0.1512	0.1658

波段统计

波段范围	波段数	中心波长	主要应用
蓝光	430-500 nm	~465 nm	水体穿透、土壤区分
绿光	500-600 nm	~550 nm	植被绿峰
红光	600-700 nm	~650 nm	叶绿素吸收
红边	700-750 nm	~725 nm	植被胁迫
近红外	750-860 nm	~805 nm	植被生物量

🎯 应用场景

适合的应用

✅ 算法开发与测试

高光谱图像分类算法
目标检测算法
降维算法
解混算法

✅ 教育与培训

高光谱遥感教学
算法演示
实验练习

✅ 基准测试

算法性能对比
参数优化
模型验证

不适合的应用

❌ 实际遥感应用

地物识别
环境监测
资源调查
灾害评估

❌ 科学研究

物理机制研究
实际地物分析
真实场景验证

原因: 本数据集是模拟数据，不包含真实地物的物理特性和空间分布。

📚 参考文献

PaviaU原始数据集

Pavia University Dataset
- 来源: ROSIS (Reflective Optics System Imaging Spectrometer)
- 位置: 意大利帕维亚大学
- 时间: 2003年
- 参考: IEEE DataPort

🔗 相关资源

数据集

工具

HSI Generator - 本数据集的生成工具（HSI Generator v4.0.0）
ENVI - 专业高光谱处理软件
QGIS - 开源地理信息系统

Python库

scikit-learn - 机器学习
spectral - 高光谱处理
rasterio - 地理数据处理

📧 联系方式

数据集问题

如有关于本数据集的问题，请：

查看本文档
查看仓库中的其他文档
提交 Issue 或 Pull Request

工具问题

关于HSI Generator的问题，请：

查看本数据集的生成说明
参考相关论文和文档
提交 Issue 获取帮助

📜 许可声明

数据使用

本数据集免费开放，可用于：

✅ 科学研究
✅ 教学实验
✅ 算法开发
✅ 学术交流

使用限制

⚠️ 不得用于商业产品
⚠️ 不得声称拥有数据版权
⚠️ 使用时请注明数据来源

引用格式

如在论文或报告中使用本数据集，请引用：

@dataset{pavia_u_like_2026,
  author = {HSI Generator Project},
  title = {PaviaU-Like Hyperspectral Dataset},
  year = {2026},
  version = {1.0},
  generator = {HSI Generator v4.0.0},
  url = {https://atomgit.com/hunyuan2026/ggp}
}

📝 更新日志

v1.1 (2026-05-19)

✅ 添加标注数据 (Ground Truth)
✅ 与 PaviaU 格式完全一致
✅ 提供 MAT 和 NPY 两种格式
✅ Urban 场景: 7 类
✅ Agriculture 场景: 5 类
✅ Mixed 场景: 7 类

v1.0 (2026-05-19)

✅ 初始版本发布
✅ 包含3个场景（Urban, Agriculture, Mixed）
✅ 提供MAT和NPY两种格式
✅ 完整的波长数据
✅ 数据质量验证通过
✅ 可视化图表生成

🙏 致谢

本数据集的生成得益于：

HSI Generator开发团队
光谱库贡献者
PaviaU原始数据集提供者
开源社区的支持

最后更新: 2026-05-19
文档版本: v1.1
数据集版本: v1.1

PaviaU类似高光谱数据集

PaviaU-Like Hyperspectral Dataset

📌 数据集概述

与PaviaU数据集的关系

📊 数据集内容

场景描述

1. pavia_u_urban（城市场景）

2. pavia_u_agriculture（农业场景）

3. pavia_u_mixed（混合场景）

📁 文件结构

文件大小

🔧 数据格式说明

MATLAB格式 (.mat)

NumPy格式 (.npy)

波长数据 (.txt)

标注数据 (Ground Truth)

Urban 场景 (7类)

Agriculture 场景 (5类)

Mixed 场景 (7类)

💻 使用示例

Python示例

1. 基本加载和可视化

2. 数据预处理

3. 分类示例

MATLAB示例

1. 基本加载和可视化

2. 数据处理

🔬 技术细节

光谱生成方法

1. 光谱库

2. 参数化光谱模型

3. 空间分布

4. 噪声模拟

质量保证

📊 数据集统计

整体统计

波段统计

🎯 应用场景

适合的应用

不适合的应用

📚 参考文献

PaviaU原始数据集

相关论文

🔗 相关资源

数据集

工具

Python库

📧 联系方式

数据集问题

工具问题

📜 许可声明

数据使用

使用限制

引用格式

📝 更新日志

v1.1 (2026-05-19)

v1.0 (2026-05-19)

🙏 致谢

PaviaU类似高光谱数据集

PaviaU-Like Hyperspectral Dataset

📌 数据集概述

与PaviaU数据集的关系

📊 数据集内容

场景描述

1. pavia_u_urban（城市场景）

2. pavia_u_agriculture（农业场景）

3. pavia_u_mixed（混合场景）

📁 文件结构

文件大小

🔧 数据格式说明

MATLAB格式 (.mat)

NumPy格式 (.npy)

波长数据 (.txt)

标注数据 (Ground Truth)

Urban 场景 (7类)

Agriculture 场景 (5类)

Mixed 场景 (7类)

💻 使用示例

Python示例

1. 基本加载和可视化