GewisLab/CNEnvAir
数据集数据集查看器文件和版本Pull Requests讨论
下载使用量0

CNEnvAir

中国环境空气数据集 - 少样本空气污染源解析研究用

数据集内容

数据集路径说明时间范围文件数
CHAPCHAP/中国高分辨率空气质量月均值数据2019-2024432
CN-airCN-air/中国城市空气质量监测数据2019-20246
Source Profilessource_profiles/各类污染源成分谱-21
ERA5-GEEera5_gee/气象再分析数据(月均)2019-202472

数据详情

CHAP - 高分辨率空气质量数据

6种污染物月均值网格数据,分辨率约0.01°:

污染物变量名文件命名大小
PM2.5CHAP_PM2.5CHAP_PM25_M1K_YYYYMM_V*.nc~464 MB
PM10CHAP_PM10CHAP_PM10_M1K_YYYYMM_V*.nc~596 MB
COCHAP_COCHAP_CO_M1K_YYYYMM_V*.nc~261 MB
SO2CHAP_SO2CHAP_SO2_M1K_YYYYMM_V*.nc~394 MB
NO2CHAP_NO2CHAP_NO2_M1K_YYYYMM_V*.nc~435 MB
O3CHAP_O3CHAP_O3_M1K_YYYYMM_V*.nc~485 MB

空间范围: 73.46°E - 134.93°E, 17.97°N - 53.67°N

NC文件结构:

lat: float32[nlat=3571]
lon: float32[nlon=6148]
{污染物}: uint16[nlat, nlon]  # 月均浓度 (μg/m³)

CN-air - 城市监测数据

文件时间范围说明
城市_20190101-20191231.parquet2019城市级空气质量日均值
城市_20200101-20201231.parquet2020同上
城市_20210101-20211231.parquet2021同上
城市_20220101-20221231.parquet2022同上
城市_20230101-20231231.parquet2023同上
城市_20240101-20241231.parquet2024同上

Parquet Schema: 城市, 日期, AQI, PM2.5, PM10, SO2, NO2, CO, O3 等

Source Profiles - 源成分谱

源解析研究所需的各类污染源成分谱数据(PM, 常规组分, 有机组分, 气态组分等):

类别文件数
工业燃烧源2
工业工艺过程1
民用燃烧源6
生物质燃烧1
畜牧源1
道路移动源1
非道路移动源4
PM源谱(5类)5

ERA5-GEE - 气象数据

来源: Google Earth Engine ECMWF/ERA5_LAND/DAILY_AGGR 逐日聚合后按月平均

分辨率: 25000m (约0.25°)

GEE变量名说明
temperature_2m2m气温 (K)
dewpoint_temperature_2m2m露点温度 (K)
u_component_of_wind_10m10m东向风 (m/s)
v_component_of_wind_10m10m北向风 (m/s)
surface_pressure地面气压 (Pa)
total_precipitation_sum总降水量 (m)
surface_solar_radiation_downwards_sum地表下行短波辐射 (J/m²)

区域: 73.5°E - 135.0°E, 17.97°N - 73.5°N

下载方式: GEE JavaScript代码导出到Google Drive

使用方法

克隆仓库

git clone https://atomgit.com/GewisLab/CNEnvAir.git
cd CNEnvAir

Python 读取示例

NetCDF (CHAP):

import xarray as xr

ds = xr.open_dataset("CHAP/CHAP_PM25_NC/CHAP_PM2.5_M1K_201901_V4.nc")
pm25 = ds["PM2.5"].values  # numpy array
print(ds)

Parquet (CN-air):

import pandas as pd

df = pd.read_parquet("CN-air/城市_20190101-20191231.parquet")
print(df.head())

源成分谱:

import pandas as pd

df = pd.read_parquet("source_profiles/PM_source_Industrial_boiler.parquet")
print(df.head())

ERA5 TIF:

import rasterio

with rasterio.open("era5_gee/era5_201901.tif") as src:
    data = src.read()
    print(src.crs)

文件格式

格式适用场景优势
.nc (NetCDF)栅格/网格数据自描述,跨平台
.parquet表格/站点数据列式存储,压缩率高
.tif (GeoTIFF)栅格数据GIS兼容

注意事项

  1. CHAP数据为月均值,分辨率约0.01°
  2. ERA5数据已预处理为月均值,分辨率0.1°
  3. 源成分谱数据可用于PMF/CMB等源解析模型
  4. 使用前请检查数据时间范围是否满足研究需求

引用

如使用本数据集,请注明来源。

问题反馈

如有数据问题,请提交Issue。