Dataset Schemas¶

DatasetSchema validates an Dataset — a dict-like container of aligned DataArray objects. It is the xarray counterpart of DataFrameSchema: each data variable corresponds to a Column, and shared coordinates correspond to an Index.

You can also express the same constraints with the declarative DatasetModel.

Basic usage¶

import numpy as np
import xarray as xr
import pandera.xarray as pa

schema = pa.DatasetSchema(
    data_vars={
        "temperature": pa.DataVar(dtype=np.float64, dims=("x", "y")),
        "pressure": pa.DataVar(dtype=np.float64, dims=("x", "y")),
    },
    coords={"x": pa.Coordinate(dtype=np.float64)},
)

ds = xr.Dataset(
    {
        "temperature": (("x", "y"), np.random.rand(3, 4)),
        "pressure": (("x", "y"), np.random.rand(3, 4)),
    },
    coords={"x": np.arange(3, dtype=np.float64)},
)
schema.validate(ds)

<xarray.Dataset> Size: 216B
Dimensions:      (x: 3, y: 4)
Coordinates:
  * x            (x) float64 24B 0.0 1.0 2.0
Dimensions without coordinates: y
Data variables:
    temperature  (x, y) float64 96B 0.03566 0.1425 0.5963 ... 0.3645 0.3388
    pressure     (x, y) float64 96B 0.6806 0.19 0.5897 ... 0.007568 0.6615

Dimensions and sizes¶

Dataset-level dims and sizes constrain the overall dimension structure, independent of individual DataVar specs:

schema = pa.DatasetSchema(
    data_vars={
        "temperature": pa.DataVar(dtype=float, dims=("x", "y")),
    },
    dims=("x", "y"),
    sizes={"x": 3, "y": 4},
)

ds_sized = xr.Dataset(
    {"temperature": (("x", "y"), np.random.rand(3, 4))},
)
schema.validate(ds_sized)

<xarray.Dataset> Size: 96B
Dimensions:      (x: 3, y: 4)
Dimensions without coordinates: x, y
Data variables:
    temperature  (x, y) float64 96B 0.3644 0.1446 0.6516 ... 0.3306 0.4599 0.754

Strict mode¶

strict=True — fail if the dataset has data variables not listed in data_vars.
strict="filter" — drop unlisted variables and return the filtered dataset.
strict=False (default) — extra variables are allowed.

schema = pa.DatasetSchema(
    data_vars={"temperature": pa.DataVar(dtype=float)},
    strict=True,
)

ds_extra = xr.Dataset({
    "temperature": (("x",), np.ones(3)),
    "extra": (("x",), np.zeros(3)),
})

try:
    schema.validate(ds_extra)
except pa.errors.SchemaError as exc:
    print(exc)

unexpected data variables: ['extra']

filter_schema = pa.DatasetSchema(
    data_vars={"temperature": pa.DataVar(dtype=float)},
    strict="filter",
)

filtered = filter_schema.validate(ds_extra)
print(list(filtered.data_vars))

['temperature']

Strict coordinates and attributes¶

strict_coords and strict_attrs work the same way at the coordinate and attribute level:

schema = pa.DatasetSchema(
    data_vars={"a": pa.DataVar(dtype=float, dims=("x",))},
    coords={"x": pa.Coordinate()},
    strict_coords=True,
)

ds_one_coord = xr.Dataset(
    {"a": (("x",), np.ones(3))},
    coords={"x": np.arange(3, dtype=np.float64)},
)
schema.validate(ds_one_coord)

<xarray.Dataset> Size: 48B
Dimensions:  (x: 3)
Coordinates:
  * x        (x) float64 24B 0.0 1.0 2.0
Data variables:
    a        (x) float64 24B 1.0 1.0 1.0

Encoding validation¶

Encoding can be validated at two levels in a DatasetSchema:

Per-variable — DataVar(encoding=...) validates ds[var].encoding
Dataset-level — DatasetSchema(encoding=...) validates ds.encoding

Both support dict-based matching (equality, regex, callable) and pydantic models. See Encoding Validation for full details and examples.

Dataset-level checks¶

Checks on the DatasetSchema receive the entire Dataset:

schema = pa.DatasetSchema(
    data_vars={
        "a": pa.DataVar(dtype=float, dims=("x",)),
        "b": pa.DataVar(dtype=float, dims=("x",)),
    },
    checks=pa.Check(lambda ds: bool((ds["a"] < ds["b"]).all())),
)

ds_ordered = xr.Dataset({
    "a": (("x",), [1.0, 2.0, 3.0]),
    "b": (("x",), [4.0, 5.0, 6.0]),
})
schema.validate(ds_ordered)

<xarray.Dataset> Size: 48B
Dimensions:  (x: 3)
Dimensions without coordinates: x
Data variables:
    a        (x) float64 24B 1.0 2.0 3.0
    b        (x) float64 24B 4.0 5.0 6.0

Lazy validation¶

Pass lazy=True to collect all errors into a single SchemaErrors:

schema = pa.DatasetSchema(
    data_vars={
        "temperature": pa.DataVar(dtype=np.float64, dims=("x",)),
    },
    strict=True,
)

ds_bad = xr.Dataset({
    "temperature": (("y",), np.ones(3)),
    "extra_var": (("x",), np.zeros(3)),
})

try:
    schema.validate(ds_bad, lazy=True)
except pa.errors.SchemaErrors as exc:
    print(exc)

{
    "SCHEMA": {
        "COLUMN_NOT_IN_SCHEMA": [
            {
                "schema": "schema",
                "column": null,
                "check": "strict_data_vars",
                "error": "unexpected data variables: ['extra_var']"
            }
        ],
        "MISMATCH_INDEX": [
            {
                "schema": "schema",
                "column": "temperature",
                "check": "dims",
                "error": "dim position 0: expected 'x', got 'y'"
            }
        ]
    }
}

Dataset Schemas¶

Basic usage¶

`DataVar`¶

Required variables¶

Default values¶

Aliases¶

Alignment constraints¶

Using `DataArraySchema` directly¶

`None` as a placeholder¶

`Coordinate`¶

Dimension vs auxiliary coordinates¶

Indexed coordinates¶

Checks on coordinates¶

Dimensions and sizes¶

Attributes¶

Equality matching¶

Regex matching¶

Callable predicates¶

Pydantic model¶

Strict mode¶

Strict coordinates and attributes¶

Encoding validation¶

Dataset-level checks¶

Lazy validation¶

See also¶

Dataset Schemas¶

Basic usage¶

DataVar¶

Required variables¶

Default values¶

Aliases¶

Alignment constraints¶

Using DataArraySchema directly¶

None as a placeholder¶

Coordinate¶

Dimension vs auxiliary coordinates¶

Indexed coordinates¶

Checks on coordinates¶

Dimensions and sizes¶

Attributes¶

Equality matching¶

Regex matching¶

Callable predicates¶

Pydantic model¶

Strict mode¶

Strict coordinates and attributes¶

Encoding validation¶

Dataset-level checks¶

Lazy validation¶

See also¶

`DataVar`¶

Using `DataArraySchema` directly¶

`None` as a placeholder¶

`Coordinate`¶