1
Доступно поисковых запросов: 1 из 2
Следующий пробный период начнётся: 31 января 2022 в 06:59
Снять ограничение

ГОСТ Р 57773-2017

Пространственные данные. Качество данных
Действующий стандарт
Проверено:  23.01.2022

Информация

Название Пространственные данные. Качество данных
Название английское Spatial data. Data quality
Дата актуализации текста 01.01.2018
Дата актуализации описания 01.01.2021
Дата издания 22.11.2017
Дата введения в действие 01.06.2018
Область и условия применения Настоящий стандарт устанавливает принципы описания качества пространственных данных, в том числе: - определяет компоненты для описания качества данных; - устанавливает компоненты и структуру содержания реестра для мер качества данных; - описывает общие процедуры оценки качества пространственных данных; - устанавливает принципы составления отчетности о качестве данных. Настоящий стандарт также определяет меры качества данных для использования при оценке и составлении отчетности об их качестве. Он предназначен для разработчиков данных, обеспечивающих информацию о качестве, для описания и оценки того, насколько набор данных соответствует спецификации продукта, а также для пользователей данных, пытающихся определить, обладают ли конкретные пространственные данные достаточным качеством, необходимым для их частного применения. Настоящий стандарт не преследует цель определения минимально приемлемых уровней качества пространственных данных
Опубликован Официальное издание. М.: Стандартинформ, 2017 год
Утверждён в Федеральное агентство по техническому регулированию и метрологии
Дата принятия 06.10.2017


ГОСТ Р 57773-2017
(ИСО 19157:2013)

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

ПРОСТРАНСТВЕННЫЕ ДАННЫЕ

Качество данных

Spatial data. Data quality

ОКС 35.240.70

Дата введения 2018-06-01

Предисловие

1 ПОДГОТОВЛЕН Федеральным государственным бюджетным учреждением "Федеральный научно-технический центр геодезии, картографии и инфраструктуры пространственных данных" (ФГБУ "Центр геодезии, картографии и ИПД") на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 394 "Географическая информация/геоматика"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 6 октября 2017 г. N 1367-ст

4 Настоящий стандарт является модифицированным по отношению к международному стандарту ИСО 19157:2013* "Географическая информация - Качество данных" (ISO 19157:2013 "Geographic information - Data quality, MOD") путем включения дополнительных фраз, слов, ссылок и внесения изменений по отношению к тексту применяемого международного стандарта, которые выделены курсивом**, подчеркиванием сплошной горизонтальной линией, а также невключения отдельных структурных элементов, ссылок и дополнительных элементов. Объяснения причин внесения этих технических отклонений приведены во введении.

________________

     * Доступ к международным и зарубежным документам, упомянутым в тексте, можно получить, обратившись в Службу поддержки пользователей.     

** В оригинале обозначения и номера стандартов и нормативных документов в разделах 3 "Нормативные ссылки", 6 "Обзор качеств данных", 7 "Компоненты качества данных", 9 "Оценка качества данных", 10 "Отчетность о качестве данных", Приложении А, Приложении В, Приложении С и отмеченные в разделе "Предисловие" знаком "**" выделены курсивом, остальные по тексту документа приводятся обычным шрифтом. - Примечания изготовителя базы данных.


Сопоставление структуры настоящего стандарта со структурой указанного международного стандарта приведено в дополнительном приложении ДА.

Наименование настоящего стандарта изменено относительно наименования указанного международного стандарта для приведения в соответствие с ГОСТ Р 1.5-2012 (пункт 3.5).

Сведения о соответствии ссылочных национальных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном стандарте, приведены в дополнительном приложении ДБ

5 ВВЕДЕН ВПЕРВЫЕ


Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. N 162-ФЗ "О стандартизации в Российской Федерации"**. Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ежемесячном информационном указателе "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)

Введение

Пространственные данные все чаще распространяют, обменивают и используют для целей, отличных от тех, которые предусматривались разработчиком. Информация о качестве доступных данных имеет важнейшее значение для процесса отбора наборов данных, в которых ценность данных напрямую связана с их качеством. Пользователям пространственных данных представляется множество наборов данных на выбор. В связи с этим возникает необходимость сравнения качества наборов данных с целью определения тех, которые наилучшим образом отвечают потребностям пользователя.

Цель описания качества пространственных данных состоит в облегчении сравнения и выбора набора данных, которые наилучшим образом удовлетворяют потребностям или требованиям приложений. Полные описания качества наборов данных будут способствовать распространению, обмену и использованию соответствующих наборов данных. Информация о качестве пространственных данных позволяет их разработчику оценить, насколько точно данный набор отвечает критериям, изложенным в спецификации продукта, и помогает пользователям данных оценить способность продукта удовлетворять требованиям его конкретного приложения. Для осуществления такой оценки используется ряд четко определенных процедур в последовательном порядке.

С целью облегчения сравнения важно, чтобы результаты в отчетах информации о качестве данных были выражены в сопоставимом виде, а также чтобы было общее понимание использованных мер качества данных. Эти меры качества обеспечивают дескрипторы качества пространственных данных путем сравнения с данными предметной области. Использование несовместимых мер делает сравнение качества данных невозможным. Настоящий стандарт устанавливает требования к компонентам и структуре мер качества данных и определяет общие базовые меры качества данных.

В настоящем стандарте отмечается, что мнение производителя и мнение пользователя о качестве данных могут не совпадать. Уровень соответствия качеству может быть установлен с помощью спецификации на продукт производителя данных или требований к качеству пользователя данных. Если пользователю данных требуется больше информации о качестве данных, чем предусмотрено их производителем, то пользователь данных может ознакомиться с ходом процесса оценки качества данных у производителя, чтобы получить дополнительную информацию. В этом случае требования пользователя данных рассматриваются как спецификация продукта с целью использования в процессе производства данных.

Цель настоящего стандарта - установить принципы описания качества пространственных данных и концепций обработки информации о качестве пространственных данных, а также последовательные и стандартные методы определения и выдачи информации о качестве наборов данных. Задачей стандарта также является обеспечение руководящими принципами процедур оценки количественной информации о качестве пространственных данных.

Настоящий стандарт является модифицированным по отношению к международному стандарту ИСО 19157:2013 "Географическая информация - Качество данных" (ISO 19157:2013 "Geographic information - Data quality"). В настоящий стандарт внесены изменения, необходимые для приведения его в соответствие современным международным и национальным стандартам, в частности изменен раздел нормативных ссылок, уточнена библиография, в тексте стандарта приведены ссылки на национальные стандарты.

     1 Область применения

Настоящий стандарт устанавливает принципы описания качества пространственных данных, в том числе:

- определяет компоненты для описания качества данных;

- устанавливает компоненты и структуру содержания реестра для мер качества данных;

- описывает общие процедуры оценки качества пространственных данных;

- устанавливает принципы составления отчетности о качестве данных.

Настоящий стандарт также определяет меры качества данных для использования при оценке и составлении отчетности об их качестве. Он предназначен для разработчиков данных, обеспечивающих информацию о качестве, для описания и оценки того, насколько набор данных соответствует спецификации продукта, а также для пользователей данных, пытающихся определить, обладают ли конкретные пространственные данные достаточным качеством, необходимым для их частного применения.

Настоящий стандарт не преследует цель определения минимально приемлемых уровней качества пространственных данных.

     2 Соответствие

Любой продукт, заявляющий о соответствии настоящему стандарту, должен отвечать всем требованиям, описанным в комплексе проверок, который приведен в приложении A, а именно:

- процесс оценки качества данных должен пройти проверку, изложенную в разделе A.1 приложения A;

- метаданные о качестве данных должны пройти проверку, изложенную в разделах A.2 и A.3 приложения A;

- независимый отчет о качестве должен пройти проверку, изложенную в разделе A.4 приложения A;

- меры качества данных должны пройти проверку, изложенную в разделе A.5 приложения A.

     3 Нормативные ссылки

В настоящем стандарте использованы нормативные ссылки на следующие стандарты:

ГОСТ Р 50779.72-99 Статистические методы. Процедуры выборочного контроля по альтернативному признаку. Часть 2. Планы выборочного контроля отдельных партий на основе предельного качества LQ

ГОСТ Р 57668-2017 Пространственные данные. Метаданные. Часть 1. Основные положения

ГОСТ Р 57656-2017 Пространственные данные. Метаданные. Часть 2. Расширения для изображений и матричных данных

ГОСТ Р 57657-2017 Пространственные данные. Спецификация информационного продукта

ГОСТ Р ИСО 2859-3-2009 Статистические методы. Процедуры выборочного контроля по альтернативному признаку. Часть 3. Контроль с пропуском партий

ГОСТ Р ИСО 3951-1-2015 Статистические методы. Процедуры выборочного контроля по количественному признаку. Часть 1. Требования к одноступенчатым планам на основе AQL при контроле последовательных партий по единственной характеристике и единственной AQL

Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячно издаваемого информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный документ, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого документа с учетом всех внесенных в данную версию изменений. Если заменен ссылочный документ, на который дана датированная ссылка, то рекомендуется использовать версию этого документа с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный документ, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.

     4 Термины и определения

4.1 точность (accuracy): Степень соответствия результата проверки или измерений принятому истинному значению.

Примечание - В настоящем стандарте истинным значением может выступать эталонное значение, принятое за истинное.

4.2 каталог (catalogue): Набор элементов (4.18) либо электронный или бумажный документ, который содержит информацию о наборе элементов.

4.3 соответствие (conformance): Выполнение заданных требований.

4.4 уровень соответствия качества (conformance quality level): Пороговое значение или набор пороговых значений для результирующих оценок качества данных (4.21), по которым определяют степень соответствия набора данных (4.8) спецификации информационного продукта (4.6) или потребностям пользователя.

4.5 корректность (correctness): Соответствие предметной области (4.24).

4.6 спецификация информационного продукта (data product specification): Детальное описание набора данных (4.8) или ряда наборов данных, а также дополнительная информация, которая обеспечивает его (их) создание, поставку и использование другой стороной.

4.7 базовая мера качества данных (data quality basic measure): Универсальная мера качества данных (4.21), используемая как основа для специализированных мер качества данных.

Примечание - Базовые меры качества данных - абстрактные типы данных. Непосредственное их использование при составлении отчета о качестве данных не представляется возможным.

4.8 набор данных (dataset): Идентифицируемая совокупность данных.

Примечание - Набором данных может быть также малая группа данных, которая, хотя и имеет некоторые ограничения в виде пространственной протяженности или типа объекта (4.15), физически расположена в пределах более крупного набора данных. Теоретически набором данных могут быть отдельный объект (4.11) или атрибут объекта (4.12), расположенные в пределах большого набора данных. Печатная копия топографической или морской карты может рассматриваться как набор данных.

4.9 комплект наборов данных (dataset series): Совокупность наборов данных (4.8), обладающих одинаковыми характеристиками.

4.10 метод прямой оценки (direct evaluation method): Метод оценки качества (4.21) набора данных (4.8), основанный на проверке элементов (4.18) набора данных.

4.11 пространственный объект, объект (feature): Абстракция явления реального мира.

Примечание - Объект может быть представлен как тип или экземпляр. Тип объекта (4.15) или экземпляр объекта (4.13) используются в зависимости от назначения.

4.12 атрибут пространственного объекта (feature attribute): Характеристика объекта (4.11).

Примечание - Атрибут объекта имеет имя, характеризуется определенным типом данных и имеет область допустимых значений. Атрибут экземпляра объекта (4.13) также имеет значение атрибута, принадлежащее области допустимых значений.

4.13 экземпляр объекта (feature instance): Объект данного типа (4.15), имеющий определенные значения атрибутов объекта (4.12).

4.14 операция с объектом (feature operation): Операция, которую может выполнить любой экземпляр некоторого типа пространственного объекта.

4.15 тип объекта (feature type): Класс объектов (4.11), имеющих общие характеристики.

4.16 пространственные данные (spatial data): Данные о пространственных объектах, включающие сведения об их форме, местоположении и свойствах, в том числе представленные с использованием координат.

4.17 метод косвенной оценки (indirect evaluation method): Метод оценки качества (4.21) набора данных (4.8), основанный на дополнительных знаниях.

Примечание - Примером дополнительных знаний служит происхождение набора данных, таких как метод производства или исходные данные.

4.18 элемент (item): To, что может быть описано и рассмотрено отдельно.

Примечание - Элемент может являться любой частью набора данных (4.8), такой как объект (4.11), отношения объектов, атрибут объекта (4.12) или их комбинация.

4.19 метаданные (metadata): Данные о данных.

4.20 метакачество (metaquality): Информация, описывающая качество (4.21) оценки качества данных.

4.21 качество (quality): Степень соответствия совокупности собственных характеристик заявленным требованиям.

4.22 реестр (register): Набор файлов, содержащий идентификаторы элементов (4.18) с описанием соответствующих элементов.

4.23 самостоятельный отчет о качестве (standalone quality report): Свободный текстовый документ, содержащий подробную информацию о примененных методах оценки качества данных (4.21), результатах и мерах.

4.24 предметная область (universe of discourse): Отображение реального или гипотетического мира, которое включает все, что представляет интерес.

     5 Сокращенные термины

5.1 Аббревиатуры

ADQR

(aggregated data quality results

- агрегированные результаты качества данных;

AQL

(acceptance quality limit)

- допустимый уровень качества;

RMSE

(root mean square error)

- среднеквадратическая ошибка;

UML

(Unified Modeling Language)

- унифицированный язык моделирования;

XML

(Extensible Markup Language)

- расширяемый язык разметки.

5.2 Пакетные аббревиатуры

Для обозначения пакета, содержащего класс, предусмотрено использование аббревиатур. Те сокращения, которые предшествуют именам класса, соединяются символом "_". Ниже приводится перечень таких аббревиатур:

CI

(Citation)

- ссылки;

CT

(Catalogues)

- каталоги;

DQ

(Data Quality)

- качество данных;

DQM

(Data Quality Measure)

- мера качества данных;

ЕХ

(Extent)

- пространственно-временная протяженность;

GF

(General Feature)

- основной объект;

MD

(Metadata)

- метаданные;

QE

(Quality Extanded)

- расширенное качество данных;

RE

(Registration)

- регистрация.

     

     6 Обзор качества данных

Работа с качеством данных включает:

- изучение концепций качества в отношении пространственных данных. В приложении В представлено описание концепций качества данных, применяемых при определении компонентов для описания качества пространственных данных;

- определение уровней соответствия качества данных спецификации информационного продукта или потребностям пользователя. Разработка спецификации информационного продукта описана в ГОСТ Р 57657;

- определение аспектов качества в схемах приложения;

- оценку качества данных;

- составление отчетности о качестве данных.

Примечание - Создание схем приложения описано в [1].


Оценка качества данных может быть применена к комплекту наборов данных, набору данных или поднабору данных в наборе данных, обладающих общими характеристиками, так что их качество может быть оценено.

Качество данных должно быть описано с помощью элементов качества данных. Элементы качества данных и их дескрипторы применяются для описания степени соответствия набора данных критериям, изложенным в спецификации информационного продукта или требованиях пользователя, и предоставляют количественную информацию о качестве.

Если информация о качестве описывает данные, которые были созданы без детальной спецификации информационного продукта или с наличием спецификации, но при отсутствии в ней количественных мер и дескрипторов, то оценка элемента данных может быть осуществлена посредством неколичественного субъективного подхода в виде описательного результата для каждого элемента.

Некоторая информация о качестве данных может быть получена на основе элементов назначения, использования и происхождения. Такая информация выдается в виде метаданных согласно ГОСТ Р 57668.

Примечание - Назначение описывает обоснование создания набора данных и содержит информацию о его предполагаемом использовании, которое может не совпадать с фактическим использованием набора данных. Использование описывает приложения, в которых использовался набор данных как разработчиком данных, так и другими пользователями данных. Происхождение описывает историю набора данных и производит подсчет жизненного цикла набора данных, начиная со сбора и приобретения, включая составление и преобразование к их текущему виду. Эта общая, неколичественная информация является наглядной для пользователей и может помочь в оценке качества набора данных, особенно в случаях особого применения, отличного от предполагаемого (см. также 9.2.3).


Настоящий стандарт определяет, что количественные элементы качества данных могут иметь ассоциативное качество, которое называется метакачеством. Метакачество описывает качество результатов оценки качества данных по определенным характеристикам.

Примечание - Концепция метакачества описана в 7.5.


На рисунке 1 представлен обзор информации по качеству данных.

     
Рисунок 1 - Концептуальная модель качества пространственных данных

     7 Компоненты качества данных

     7.1 Обзор компонентов

Компоненты качества данных описаны в разделе 7. На рисунке 2 представлен обзор компонентов и связей между ними. Подробнее о компонентах и их атрибутах см. в словаре данных в приложении С.

     
Рисунок 2 - Обзор компонентов качества данных

     7.2 Единица качества данных (data quality unit)

Для описания качества пространственных данных могут рассматриваться различные элементы качества и различные поднаборы данных, с целью описания которых используются единицы качества данных. Единица качества данных - это совокупность области определения и элементов качества данных (см. рисунок 3).

     
Рисунок 3 - Единица качества данных

Область определения единиц(ы) качества данных задает протяженность, пространственные, и/или временные, и/или общие характеристики, идентифицирующие данные, качество которых должно быть оценено.

Одна область определения качества данных должна быть предусмотрена для каждой единицы качества данных. Один отчет о качестве данных (метаданные или самостоятельный отчет по оценке качества) может включать несколько единиц качества данных, так как часто области для отдельных элементов качества данных различны. Эти различные области могут быть, например, пространственно разделены, перекрываться или даже совпадать.

Ниже приведены примеры того, что определяет область определения качества данных (см. также MD_Scope в ГОСТ Р 57656):

а) комплект наборов данных;

б) набор данных;

в) поднабор данных, определяемый одной или несколькими из следующих характеристик:

1) типы элементов (наборы типов объектов, атрибутов объектов, операций с объектами или отношений объектов);

2) конкретные элементы (наборы экземпляров объектов, значения атрибутов или экземпляры отношений объектов);

3) географическая протяженность;

4) временная протяженность (заданные временные рамки и точность временных рамок).

     7.3 Элементы качества данных (data quality elements)

7.3.1 Общие положения

Элемент качества данных - это компонент, описывающий определенный аспект качества пространственных данных, организованный по различным категориям. Данные категории представлены на рисунке 4.

     
Рисунок 4 - Обзор элементов качества данных

7.3.2 Полнота (completeness)

Полнота определяется наличием и отсутствием объектов, их атрибутов и отношений. Она состоит из двух элементов качества данных:

- присутствие (commission): избыточность данных в наборе данных;

- отсутствие (omission): отсутствие данных в наборе данных.

7.3.3 Логическая согласованность (logical consistency)

Под логической согласованностью понимают степень соответствия логических правил структуры данных, атрибутов и отношений (структура данных может быть концептуальной, логической или физической). Если эти логические правила документально оформлены в другом источнике (например, в спецификации на информационный продукт), то необходимо ссылаться на этот источник (например, при оценке качества данных). Логическая согласованность состоит из четырех элементов качества данных:

- концептуальная согласованность (conceptual consistency): соответствие правилам концептуальной схемы;

- доменная согласованность (domain consistency): соответствие значений атрибутов области допустимых значений;

- согласованность по формату (format consistency): степень, с которой данные хранятся в соответствии с физической структурой набора данных;

- топологическая согласованность (topological consistency): корректность представления закодированных топологических характеристик набора данных.

7.3.4 Позиционная точность (positional accuracy)

Под позиционной точностью понимают точность положения объектов внутри пространственной системы координат. Она состоит из трех элементов качества:

- абсолютная или внешняя точность (absolute or external accuracy): степень соответствия заявленных значений координат значениям координат, принятым в качестве правильных или являющимся правильными;

- относительная или внутренняя точность (relative or internal accuracy): степень соответствия относительного положения объектов в наборе данных их соответствующим исходным положениям, принятым в качестве правильных или являющимся правильными;

- позиционная точность матричных данных (gridded data positional accuracy): соответствие значений пространственного позиционирования матричных данных значениям, принятым в качестве правильных или являющимся правильными.

7.3.5 Тематическая точность (thematic accuracy)

Под тематической точностью понимают точность количественных атрибутов и корректность неколичественных атрибутов, классификаций объектов и их отношений. Она состоит из трех элементов качества:

- правильность классификации (classification correctness): соответствие классов объектов или их атрибутов предметной области (например, реальной ситуации или эталонному набору данных);

- правильность неколичественных атрибутов (non-quantitative attribute correctness): определение, является ли неколичественный атрибут правильным или неправильным;

- точность количественных атрибутов (quantitative attribute accuracy): степень соответствия значения количественного атрибута значению, принятому в качестве правильного или являющемуся правильным.

7.3.6 Временное качество (temporal quality)

Под временным качеством понимают качество временных атрибутов и временных отношений объектов. Оно состоит из трех элементов качества:

- точность измерения времени (accuracy of a time measurement): степень соответствия заявленных временных измерений значениям, принятым в качестве правильных или являющимся правильными;

- согласованность по времени (temporal consistency): правильность временного порядка событий;

- временная достоверность (temporal validity): достоверность данных по отношению ко времени.

Примечание - В качестве измерения времени может выступать определенный момент времени или период.


Пример - 33 марта - пример неверных данных.

7.3.7 Элемент применимости (usability element)

Применимость основана на требованиях пользователя. Все элементы качества могут быть использованы для оценки применимости. Оценка применимости может основываться на конкретных требованиях пользователей, которые не могут быть описаны с использованием элементов качества, описанных выше. В этом случае должен использоваться элемент применимости с целью предоставления конкретной информации о качестве в отношении пригодности определенного набора данных для конкретного приложения или удовлетворения набору требований.

При использовании элемента применимости рекомендуется использовать все приемлемые дескрипторы элементов качества (см. 7.4) и определять меры качества в соответствии с разделом 8 или приложением D в целях предоставления детальной информации по оценке.

Пример - С помощью данного элемента производитель данных может продемонстрировать, насколько набор данных пригоден для различных указанных способов использования. Данный элемент может быть применен для подтверждения соответствия набора данных конкретной спецификации.

     7.4 Дескрипторы элементов качества (descriptors of data quality elements)

7.4.1 Общие положения

Оценка элемента качества данных осуществляется с помощью:

- меры (measure): тип оценки;

- метода оценки (evaluation method): процедура, используемая для оценки меры;

- результата (result): итог оценки.

Данные дескрипторы представлены на рисунке 5 и описаны в 7.4.2, 7.4.3 и 7.4.4.

     
Рисунок 5 - Дескрипторы элементов качества

7.4.2 Мера (measure)

Элемент качества данных должен ссылаться только на одну меру посредством ссылки (см. рисунок 6), указывая идентификатор меры, полностью описанный в другом месте (DQM_Measure.measureldentifier, см. 8.6.1), и/или указывая имя и краткое описание меры.

Примечание - Полное описание можно найти в реестре или каталоге мер, которые могут образовывать часть спецификации информационного продукта или самостоятельного отчета по качеству.

     
Рисунок 6 - Ссылки на меры качества данных

Меры качества данных более подробно описаны в разделе 8 настоящего стандарта. В приложении D приведен список стандартизированных мер качества данных.

Пример - Процент значений атрибутов, которые являются верными.

Настоящий стандарт устанавливает, что для измерения качества набора данных используются различные методы. Одной меры качества данных может быть недостаточно для полной оценки качества данных, задаваемых областью определения качества данных, а также для предоставления мер качества для всевозможных вариантов использования набора данных. Комбинация мер качества данных может давать полезную информацию. Несколько мер качества данных могут быть описаны для данных, заданных одной областью определения качества данных. В этом случае отчет о качестве данных должен включать один экземпляр DQ_Element для каждой примененной меры.

7.4.3 Метод оценки (evaluation method)

Метод оценки качества данных описывает те процедуры и методы, которые применяются к пространственным данным для получения результата оценки качества данных (см. рисунок 7). Для различных элементов качества данных часто используются различные методы оценки.

Для каждой примененной меры качества должен быть включен метод оценки качества. Метод оценки качества данных используется для описания методологии, используемой для применения меры качества данных для данных, задаваемых некоторой областью их определения, или для описания документации, в которой такая методология описывается.

Примечание - Оценка качества данных подробнее описана в разделе 9.


Пример - Примерами такой документации являются спецификации на информационный продукт, опубликованные статьи или утвержденные отраслевые стандарты.

Для каждой оценки следует указывать дату или диапазон дат. Если оценка проводилась в непоследовательном временном порядке, то следует указывать каждую отдельную дату. Даты изложены в соответствии с требованиями [2].

     
Рисунок 7 - Метод оценки качества данных

7.4.4 Результат (result)

7.4.4.1 Общие положения

Для каждого элемента качества данных должно быть обеспечено не менее одной результирующей оценки качества. Это может быть количественный результат, результат соответствия, описательный результат или результат покрытия (см. также рисунок 8).

Примечание - Для одного элемента качества данных могут применяться различные типы результатов.


Для различных частей набора данных качество часто различается. Поэтому несколько оценок могут быть применены для одного элемента качества данных для более полного и более детального описания количественной информации о качестве. Чтобы избежать повторных описаний мер и процедур оценки для нескольких экземпляров элемента качества данных (DQ_Element), можно использовать несколько результатов с областью применения индивидуальных результатов.

     
Рисунок 8 - Результат оценки качества

Примечание - Результирующая область - это подгруппа области определения качества данных (см. 7.2).


Пример - Набор данных содержит объекты идентичного типа, положение которых было установлено с помощью отличающихся методов и с различной точностью определения местоположения. Однако для всего набора данных применяются одни и те же процедура* и мера* оценки качества, которые дают различные результаты в зависимости от метода сбора данных. В этом случае может быть желательно иметь несколько результатов с отдельными результирующими областями (зона, охватываемая каждым методом сбора данных) и одной областью определения качества данных (набор данных).

________________

* Текст документа соответствует оригиналу. - Примечание изготовителя базы данных.

7.4.4.2 Количественный результат (quantitative result)

Количественным результатом может быть одно или несколько значений, в зависимости от значений атрибутов valueType и valueStructure, определенных в описании применяемой меры.

Атрибут valueRecordType используется для описания того, как valueType и valueStructure, определенные данной мерой, реализованы для получения значения количественного результата.

Примечание - Атрибут valueRecordType принадлежит к типу RecordType, который является универсальным типом данных согласно [3]. Его значение меняется в зависимости от того, какое решение по реализации используется для получения количественного результата. Пример реализации XML для RecordType дан в [4].


Пример 1 - Использование XML: простой пример: value = 5, valueRecordType = gco:lnteger, valueUnit = "metre."

Пример 2 - В рамках описания меры, valueType - целочисленная переменная, a valueStructure: матрица (nn). Значение атрибута количественного результата обеспечивает результат самой матрицы в пределах числового кодирования, использующего определенный тип XML, называемый MatrixType (например). В XML атрибут valueRecordType обеспечивает описание типа MatrixType. Если применяется другая кодировка, то атрибут valueRecordType изменяется для обеспечения описания типа Matrix в другой кодировке, и, соответственно, изменяется реализация вычисления значения атрибута, но само значение остается прежним.

Для каждого результата должна быть установлена отдельная единица значения в соответствующих случаях.

Пример 3 - Возможные единицы расстояния: метр, сантиметр, миллиметр.

Пример 4 - Мера "уровень избыточных элементов" (см. таблицу D.3) используется для оценки количества избыточных элементов в наборе данных по отношению к количеству элементов, которые должны быть представлены. Результат количественного значения имеет тип значения Real. В этом случае единица значения указывается в процентах, значение умножается на 100. В этом примере единицей значения является "процент", "%".

7.4.4.3 Результат соответствия (conformance result)

Результат соответствия - это результат сравнения значения или набора значений, полученных в результате применения некоторой меры качества к данным, заданным областью определения качества, с учетом установленного приемлемого уровня соответствия качества.

Когда уровень соответствия качества определен, его сравнивают с полученным результатом с целью выявления того факта, что качество данных удовлетворяет заданному уровню качества.

Результат соответствия может быть установлен для каждой меры. Уровень соответствия качества определяется в соответствующей документации, такой как спецификация к информационному продукту или спецификация требований, определенных пользователем. При определении соответствия необходимо ссылаться на соответствующую нормативно-техническую документацию и указывать примененный уровень соответствия качества.

Для одной меры предусмотрено более одного результата соответствия качества данных, если процедура оценки противоречит уровню соответствия, установленного в различных источниках.

7.4.4.4 Описательный результат (descriptive result)

В некоторых случаях (например, при тематических и геонаучных исследованиях) проведение количественной результирующей оценки для элемента качества данных не представляется возможным. Тогда субъективная оценка элемента может быть выражена в текстовом формате в качестве описательного результата качества данных.

Пример - Относительная точность положения выше между геологическим объектом и соседним объектом на топографической карте (дороги, реки, озера и т.д.), чем абсолютная точность положения самого геологического объекта.

Данный описательный результат также может быть использован для проведения короткого синтетического описания результата оценки качества данных, сопровождения полного количественного результата или полной его замены в случае, если количественные значения не могут быть предоставлены.

7.4.4.5 Результат покрытия (coverage result)

Результат покрытия - это результат оценки качества данных, формализованных в виде покрытия. Он описан в ГОСТ Р 57656.

     7.5 Элементы метакачества (metaquality elements)

Элементы метакачества представляют собой набор количественных и качественных отчетных данных об оценке качества и его результате. Знания о качестве и пригодности метода оценки, примененных мерах и данном результате могут иметь такое же значение, как и сам результат.

Пример оценки метакачества см. в Е.5.3 приложения Е.

Метакачество может быть описано с использованием следующих элементов, представленных на рисунке 9:

- достоверность (confidence): надежность результата качества данных.

Примечание - Количественные показатели достоверности могут быть получены посредством статистических параметров, таких как стандартное отклонение или доверительный интервал с заданным уровнем достоверности.


Пример - Достоверность зависит в первую очередь от используемого метода и его надежности, а также в меньшей мере от соответствующей генеральной совокупности;

- репрезентативность (representativity): степень репрезентативности данных в пределах области определения качества данных в соответствии с результатом выборки.

Примечание - Статистический метод, основанный на выборке, может считаться таким же надежным, как и глобальный метод, когда охвачены все географические зоны и рассматриваемые временные диапазоны, а генеральная совокупность достаточно велика. Важен не только объем выборки, который имеет решающее значение, но и тот факт, насколько точно отражается текущее состояние данных. См. также 9.2.2 и приложение F;


- гомогенность (homogeneity): ожидаемая или тестируемая однородность результатов, полученных для оценки качества данных.

Примечание - Однородность заключается в сравнении результатов оценки нескольких сегментов глобального набора данных. Это сравнение может быть выражено, например, посредством среднеквадратических ошибок. Гомогенность невозможно оценить в случае общего процесса, так как результат носит глобальный характер.

Примечание - Такие тесты часто проводятся при сборе данных различными операторами в зависимости от зоны или времени сбора данных.

     
Рисунок 9 - Элементы метакачества

     7.6 Дескрипторы элемента метакачества (descriptors of a metaquality element)

Для описания элемента метакачества используются те же дескрипторы, что и для элемента качества [мера, метод оценки и результат (см. 7.4 и рисунок 10)]. Дополнительно должен применяться следующий дескриптор:

- связанный элемент качества.

Примечание - Связанный элемент качества - это элемент, к которому применяется элемент метакачества.


Пример оценки метакачества см. в Е.5.3 приложения E.

     
Рисунок 10 - Дескрипторы метакачества

     8 Меры качества данных (data quality measures)

     8.1 Общие положения

Для облегчения сравнения набора данных необходимо, чтобы результаты в отчетах по качеству данных представлялись в сравнительном виде, а также чтобы имелось общее представление об использованных мерах качества данных. Чтобы сделать оценки качества данных и отчеты о качестве данных (в виде метаданных или самостоятельного отчета по оценке качества) из различных источников сопоставимыми, должны использоваться по возможности стандартизированные меры качества данных, описанные в приложении D.

     8.2 Стандартизированные меры качества данных

Перечень стандартизированных мер качества данных приведен в приложении D. Каждая мера качества данных этого списка содержит все необходимые компоненты, указанные в разделе 8. Для каждого элемента качества данных предусмотрено применение нескольких мер. Какие из них использовать, зависит от типа данных и их предполагаемого назначения. Меры из этого перечня должны быть использованы в рамках реализации данного стандарта.

Любой реестр, установленный для управления стандартизированными мерами качества данных, приведен в [5].

     8.3 Создание определяемых пользователем мер качества данных

Вследствие природы качества и пространственных данных перечень стандартизированных мер качества данных не может быть полным. Возможны случаи, когда пользователь настоящего стандарта вынужден разрабатывать другие меры качества данных. По возможности эти меры должны быть определены с помощью базовых мер качества данных, описанных в приложении G, а сама мера - в соответствии со структурой, приведенной в разделе 8.

     8.4 Каталог мер качества данных

Для более полного описания мер, указанных в отчете по оценке качества данных, каталоги мер качества данных могут быть предоставлены совместно с метаданными или в онлайн-режиме.

Каталог может содержать набор мер, применяемых в одном или нескольких отчетах со всеми необходимыми компонентами для мер качества данных, указанных в настоящем стандарте.

Каталог (как и реестр) позволяет пользователю описывать меру и хранить информацию для того, чтобы иметь возможность ссылаться на него при каждой необходимости, вместо повторного описания меры в отчете по качеству данных.

Приложение H описывает структуру каталога мер. В [4] представлен XML-механизм для ассоциирования каталога с набором метаданных.

     8.5 Список компонентов

Каждая мера качества данных описывается следующими компонентами:

- идентификатор меры (8.6.1);

- название (8.6.2);

- краткое название (8.6.3);

- название элемента (8.6.4);

- базовая мера (8.6.5);

- определение (8.6.6);

- описание (8.6.7);

- параметр (8.6.8);

- тип значения (8.6.9);

- структура значения (8.6.10);

- ссылка на источник (8.6.11);

- пример (8.6.12).

На рисунке 11 представлены компоненты меры качества данных.

     
Рисунок 11 - Меры качества данных

     8.6 Подробное описание компонентов

8.6.1 Идентификатор меры (measure identifier)

Идентификатор - это значение, уникально идентифицирующее меру в пространстве имен.

Примечание - Данный идентификатор устанавливает ссылки на меру качества данных в элементах качества данных (см. 7.4.2).

8.6.2 Название (name)

Название - это название меры.

Примечание - Если мера уже имеет общепринятое название, то должно использоваться это название. Если же такого названия не существует, то следует выбрать такое название, которое отражает характер этой меры.

8.6.3 Условное название (alias)

Условное название - это другое отличительное наименование для той же меры качества данных. Им может быть иное общепринятое наименование либо аббревиатура или же краткое имя. Возможно использование более одного условного названия.

8.6.4 Название элемента (element name)

Название элемента - это название элемента качества данных (см. 7.3 и 7.5), к которым применяется некая мера. Возможно использование более одного имени элемента.

8.6.5 Базовая мера (basic measure)

Если какая-либо мера основана на одной из базовых мер, то она должна быть описана его именем, определением и типом значения. Базовые меры идентифицируются по своим именам.

Множество мер основано на подсчете ошибочных элементов. Существуют также некоторые меры, связанные с неопределенностью числовых значений. Для того чтобы избежать повторений, наиболее распространенные методы построения расчетных мер, а также общие статистические показатели для одно- и двумерных случайных величин должны быть установлены в виде базовых мер.

При необходимости создания новых мер необходимо также использовать базовые меры. Например, для выдачи информации по незамкнутой мозаичной поверхности или других мер в зависимости от приложения.

Примечание - В приложении G приведены базовые меры.

8.6.6 Определение (definition)

Определение является фундаментальным понятием меры.

Примечание - Если мера является производной от базовой меры, то такое определение основывается на определении базовой меры и специфицируется для этой меры.

8.6.7 Описание (description)

Описание - это описание меры, включающее методы подсчета с учетом всех формул и/или иллюстрации, необходимые для получения результата применения этой меры.

Если мера использует концепцию ошибок, то должно быть указано, каким образом элемент классифицируется как некорректный. В этом случае качество может быть описано только как корректное или некорректное.

8.6.8 Параметр (parameter)

Параметр - это вспомогательная переменная, используемая мерой. Она должна включать в себя имя, определение и тип значения. Может использоваться более одного параметра.

Примечание - Пример параметра см. в таблице D.66 приложения D.

8.6.9 Тип значения (value type)

Тип значения - это тип данных, используемый для представления результата меры. Должны использоваться типы данных, определенные в [3].

8.6.10 Структура значения (value structure)

Результат может состоять из множества значений. В таких случаях результат должен быть структурирован с использованием структуры значения, как указано в C.3.3 приложения C.

8.6.11 Ссылка на источник (source reference)

Ссылка на источник - это ссылка на документацию с описанием меры.

Когда мера, для которой предоставляется дополнительная информация из внешнего источника, добавляется в перечень стандартизированных мер, то здесь может быть указана ссылка на этот источник.

8.6.12 Пример (example)

Пример - это пример применения меры или результата, полученного при использовании этой меры. Может быть приведено более одного примера.

     9 Оценка качества данных (data quality evaluation)

     9.1 Процесс оценки качества данных

9.1.1 Введение

Процессы оценки качества используются на различных фазах жизненного цикла продукта, при этом в каждой фазе их задачи различаются. Здесь рассматриваются следующие фазы жизненного цикла: спецификация, производство, поставка, использование и обновление.

Процесс оценки качества данных представляет собой последовательность этапов для получения результата качества данных.

9.1.2 Последовательность выполнения процесса

Процесс оценки качества представляет собой последовательность шагов, выполняемых для получения результата оценки качества. Рисунок 12 иллюстрирует возможную последовательность действий для оценки качества данных. См. также приложение Е, в котором дано описание концепции оценки и составления отчетности по качеству данных.

Когда оцениваемые пространственные данные неоднородны и разные части имеют разное качество, то тесты должны быть выполнены соответственно для различных частей.

     
Рисунок 12 - Процесс оценки качества данных

9.1.3 Этапы процесса (process steps)

В таблице 1 представлены этапы процесса.


Таблица 1 - Этапы процесса

Этап процесса

Процесс

Описание

1

Указать единицу(ы) качества данных

Единица качества данных состоит из области определения и элемента (элементов) качества (см. 7.2). Следует использовать все элементы качества, релевантные данным, для которых будет описываться качество.

Примечание - Тестируемые элементы качества данных описаны в 7.3, в приложении I приведены рекомендации по использованию элементов качества

2

Указать меры качества данных

В случае применимости для каждого элемента качества данных следует определять меру. В приложении D приведен список мер качества данных

3

Указать процедуры оценки качества данных

Процедура оценки качества данных заключается в применении одного или более методов оценки

4

Определить итог оценки качества данных

Результатом является итог применения оценки

В случае невозможности определения мер возможно использование описательного результата


Оценка метакачества может осуществляться после получения итога оценки качества. Последовательность, описанная выше, также применима к оценке метакачества с учетом следующих этапов процесса: указать элемент метакачества и оценку качества, для которых оценивается метакачество, затем указать меру и метод оценки и определить итог оценки метакачества.

     9.2 Методы оценки качества данных (data quality evaluation methods)

9.2.1 Классификация методов оценки качества данных

Процедура оценки качества данных включает один или более методов оценки качества данных. Методы оценки качества данных можно разделить на два основных класса: прямая (direct) оценка и косвенная (indirect) оценка. Методы прямой оценки определяют качество данных путем сравнения данных с внутренней и/или внешней информацией. Методы косвенной оценки выводят или оценивают качество данных, используя информацию о данных, такую как происхождение. Применение методов прямой оценки предпочтительнее косвенной оценки. Методы прямой оценки, в свою очередь, классифицируются по источнику информации, необходимой для выполнения оценки внутренней или внешней.

На рисунке 13 представлены классы описываемых методов оценки.

Примечание - Происхождение описано в ГОСТ Р 57668.

     
Рисунок 13 - Методы оценки качества данных

9.2.2 Прямая оценка (direct evaluation)

Метод прямой оценки - это метод оценки качества набора данных, основанный на проверке элементов в наборе данных.

Методы прямой оценки могут быть классифицированы на внутренние и внешние. Внутренняя прямая (internal direct) оценка качества данных использует только те данные, которые содержатся в оцениваемом наборе данных. Внешняя прямая (external direct) оценка качества требует применения эталонных данных, внешних по отношению к тестируемому набору данных.

Примечание - Эталонные данные - это данные, принятые как представляющие предметную область.


Как для внешних, так и для внутренних методов оценки может использоваться один из следующих методов проверки:

- полный контроль (full inspection);

- выборочный контроль (sampling).

При полном контроле тестируется каждый элемент в генеральной совокупности, определенной областью качества данных.

Примечание - Полный контроль больше всего подходит для небольших генеральных совокупностей или для тестов, которые могут быть выполнены в автоматическом режиме.


Выборочный контроль выполняется для проверки поднаборов пространственных данных, заданных областью качества данных.

Примечание - Примеры методов выборочной оценки даны в приложении F.

9.2.3 Косвенная оценка (indirect evaluation)

Метод косвенной оценки - это метод оценки качества набора данных на основе внешних знаний или накопленного опыта работы с информационным продуктом и может быть субъективным.

Эти внешние знания могут включать (но не ограничиваться ими) неколичественную информацию по качеству, такую как использование, происхождение и назначение (см. ГОСТ Р 57668) или другую отчетную информацию о качестве набора данных или данных, использованных для набора данных. Качество данных может быть оценено, например, на основе знаний об источнике, инструментах и методах, использованных для сбора данных и оцененных по отношению к процедурам и спецификациям, разработанным для этого продукта. Косвенная оценка качества данных также может быть основана только на опыте. Если указывается, что выполнена косвенная оценка, то должно быть указано также, как эта оценка была осуществлена.

В некоторых случаях может быть затруднительно или даже невозможно описать косвенно оцененное качество данных в виде количественного результата. В таких случаях качество данных может быть описано в текстовой форме с использованием описательного результата (см. 7.4.4.4).

     9.3 Обобщение и преобразование (aggregation and derivation)

Дополнительные результаты можно получить посредством обобщения или преобразования существующих результатов без проведения новой оценки качества данных.

Обобщение объединяет результаты качества из проведенных оценок качества данных, основанных на различных элементах качества данных или различных областях определения качества данных.

Дополнительные результаты также могут быть выведены из существующих результатов, например, когда результат соответствия получен путем сравнения количественного результата с уровнем соответствия. Это полезно, например, если результат выражен не уровнем соответствия.

Примечания

1 Обобщение может быть применено для обобщения результатов различных элементов качества с целью описания их соответствия спецификации информационного продукта.

2 Подробнее об обобщении см. в приложении J. Как излагать информацию по обобщению, описано в 10.2.1 и приложении E.

3 Как излагать информацию по преобразованию, описано в 10.2.2 и приложении E.


Пример - Если уровень достоверности результата равен 95% и уровень достоверности уровня соответствия 99%, то результат может быть пересчитан, чтобы иметь такой же уровень достоверности уровня соответствия.

     10 Отчетность о качестве данных (data quality reporting)

     10.1 Общие положения

Качество данных должно быть представлено в виде метаданных в соответствии с разделом 7, разделом 10, приложением C, а также ГОСТ Р 57668 и ГОСТ Р 57656.

С целью предоставления более подробной информации, помимо метаданных, может быть дополнительно создан самостоятельный отчет по оценке качества. Его структура определяется в свободной форме. Однако самостоятельный отчет по оценке качества не должен подменять метаданные. Метаданные должны содержать ссылку на самостоятельный отчет по оценке качества, если таковой имеется (см. рисунок 14).

Примечания

1 Более подробную информацию о предоставлении отчета по качеству данных, а также дополнительной роли между метаданными и самостоятельными отчетами по качеству см. также в B.4.3.2 приложения B.

2 Примеры отчетности по качеству данных приведены в E.4 приложения E.

     
Рисунок 14 - Отчетность о качестве данных

     10.2 Частные случаи

10.2.1 Отчетность по обобщению (обобщенные результаты)

При обобщении результатов должен предоставляться самостоятельный отчет о качестве (standalone quality report) для дополнения информации, представленной в метаданных. В рамках этого самостоятельного отчета о качестве должна быть представлена детальная информация по исходному результату с мерой (мерами) и процедурой (процедурами) оценки, обобщенному результату и методу обобщения.

В метаданных:

- когда несколько показателей качества одного элемента качества объединяются в один показатель этого элемента, то этот показатель должен быть представлен в метаданных в виде результата этого элемента качества данных. Примеры представлены в E.4.1.2 и E.4.1.3 приложения E.

- когда несколько показателей качества различных элементов объединяются в один показатель, то это должно быть отражено в метаданных в виде результата элемента применения (DQ_UsabilityElement). Пример представлен в E.4.1.4 приложения E.

В обоих случаях в метаданных должна даваться по крайней мере ссылка на первоначальный результат проверки качества данных, также может быть представлена информация о мере обобщения и методе обобщения.

10.2.2 Отчетность по преобразованию (производные результаты)

Когда только производные результаты представляются в метаданных, то необходимо сгенерировать самостоятельный отчет по оценке качества, чтобы предоставить исходные результаты по качеству данных, из которых был получен производный результат. В метаданные должна быть включена ссылка на самостоятельный отчет по оценке качества и исходный результат качества данных.

Пример - Результат соответствия часто является производным из количественного результата. Если в метаданных указывается только результат соответствия, то тогда количественные результаты должны быть представлены в самостоятельном отчете по оценке качества.

10.2.3 Ссылка на результат проверки качества исходных данных

Когда производный или обобщенный результат(ы) представляются в метаданных, то ссылка на первоначальный результат проверки качества данных может быть дана с использованием двух атрибутов:

- атрибут derivedElement ссылается на элемент качества [и его результат(ы)], описанные в метаданных;

- атрибут standaloneQualityReportDetails ссылается на часть самостоятельного отчета о качестве, где описан исходный результат(ы).

Приложение A
(обязательное)

Комплекс проверок

A.1 Наименование проверки: Процесс оценки качества

a) Цель проверки: убедиться в правильности процесса оценки качества данных.

b) Метод проверки: проверить, включает ли процесс оценки качества все пункты, указанные в 9.1.3. Что предполагает:

1) определение положений спецификации на информационный продукт или требований пользователя, имеющих отношение к качеству данных, и их использование для идентификации применимых элементов качества данных и их соответствующей области. Сравнение применяемых элементов качества данных с оцениваемыми элементами качества данных для удостоверения в том, что все соответствующие элементы качества данных были идентифицированы и оценены по соответствующей области определения;

2) проверку того, что мера качества данных, применяемая для каждой оценки качества, уместна в соответствии с положениями спецификации на информационный продукт или требованиями пользователя;

3) проверка того, что процедура оценки качества, примененная для каждой оценки качества данных, уместна в соответствии с положениями спецификации информационного продукта или требованиями пользователя.

c) Ссылка: 9.1.

d) Тип проверки: предварительная.

A.2 Наименование проверки: Метаданные о качестве данных

a) Цель проверки: убедиться в том, что метаданные о качестве данных моделируются в соответствии с моделями UML и словарем данных.

b) Метод проверки: проверить, что метаданные содержат соответствующие компоненты качества данных и следуют правилам для каждого компонента.

c) Ссылка: раздел 7, раздел 10 и приложение C.

d) Тип проверки: предварительная.

A.3 Наименование проверки: Соответствие метаданных

a) Цель проверки: убедиться в том, что метаданные о качестве данных представлены в соответствии с ГОСТ Р 57668 и ГОСТ Р 57656.

b) Метод проверки: проверить тесты, представленные в ГОСТ Р 57668, в A.2.1, A.2.2, A.2.3, A.2.4, A.2.5 приложения A.

c) Ссылка: ГОСТ Р 57668, в A.2.1, A.2.2, A.2.3, A.2.4, A.2.5 приложения A.

d) Тип проверки: предварительная.

A.4 Наименование проверки: Независимый отчет по оценке качества

a) Цель проверки: убедиться в том, что самостоятельный отчет по оценке качества включает в себя разделы по всем соответствующим аспектам качества и что описание всех компонентов качества данных следует правилам, определенным в настоящем стандарте.

b) Метод проверки: проверить, содержит ли самостоятельный отчет по оценке качества все соответствующие компоненты.

c) Ссылка: раздел 7 и раздел 10.

d) Тип проверки: предварительная.

A.5 Наименование проверки: Меры качества данных

a) Цель проверки: убедиться в том, что мера качества данных структурно и семантически точно определена.

b) Метод проверки: проверить, описаны ли использованные меры качества, как это указано в разделе 8, и смоделированы ли в соответствии с моделью UML и словарем данных.

c) Ссылка: раздел 8 и приложение C.

d) Тип проверки: предварительная.

Приложение B
(справочное)

Концепции оценки качества данных и их применение

B.1 Концептуальные основы качества данных

Набор данных может быть создан для конкретного приложения или для нескольких возможных приложений. Качество набора данных может быть определено только при наличии информации об оценке элементов качества данных и в некоторых случаях косвенно - на основе неколичественной качественной информации по использованию, происхождению и назначению (см. ГОСТ Р 57668). Элементы качества данных оценивают расхождение между набором данных и предметной областью (т.е. правильным набором данных, который соответствует спецификации продукта). Неколичественная информация о качестве предоставляет общую информацию, из которой можно получить связанные с качеством знания.

Концепции оценки качества данных предоставляют важную основу для разработчиков, а также пользователей данных. Разработчик данных получает средства для проверки того, насколько набор данных отражает его предметную область согласно спецификации продукта. Пользователи данных могут оценить качество набора данных для удостоверения в том, что набор данных удовлетворяет требованиям пользовательского применения (см. рисунок В.1).

Заявленные результаты качества являются действительными в отношении спецификации информационного продукта или требований пользователей. Если они изменились, то оценка качества должна быть повторена в отношении измененной спецификации или требований. Следует проявлять осторожность при сравнении результатов качества там, где предметная область отличается. Типичным примером этого является преобразование модели в инфраструктурах пространственных данных или при генерализации. Например, при изменении геометрии типа объекта также изменяются результаты позиционной точности.

     
Рисунок B.1 - Концептуальные основы оценки качества данных

B.2 Структура наборов данных и компонентов для описания качества

Набор данных может принадлежать комплекту наборов данных, что означает, что все наборы данных комплекта основаны на одной и той же спецификации информационного продукта. Качество всех наборов данных, принадлежащих одному комплекту набора данных, может быть одинаковым.

Набор данных может рассматриваться как содержащий большое, хотя и конечное, число поднаборов данных. Поднаборы данных, объединенные принадлежностью к одному и тому же типу объекта, атрибуту объекта или отношению, критерию сбора или к одной и той же географической и временной протяженности, часто имеют одинаковое качество. Поднабор данных минимально может состоять из экземпляра объекта, значения атрибута или вида отношения. Концепция оценки качества данных позволяет каждому экземпляру объекта, значению атрибута и виду отношения объекта иметь собственное качество. Качество поднабора данных в наборе данных может не совпадать с качеством остальной части набора данных, к которому они принадлежат. Концепции оценки качества данных допускают выдачу информации о качестве набора данных и, кроме того, другой информации о качестве поднабора данных, идентифицируя эти группы как данные, которые определяются спецификой области определения качества данных. Информация о качестве, представленная для нескольких областей определения качества данных, меньше, чем та, что выводится для набора данных, но представляет более полную и подробную картину качества, чем общее качество полного набора данных.

Примечание - Для разработчика данных спецификация информационного продукта описывает предметную область и содержит правила для построения набора данных. Для пользователя данных требования описывают предметную область, которая может совпадать или не совпадать с предметной областью набора данных. Качество набора данных определяется тем, насколько хорошо он представляет предметную область. Качество одного и того же набора данных может отличаться в зависимости от предметной области, относительно которой он оценивается.


Качество набора данных описывается элементами качества данных и их дескрипторами. Некоторая информация, относящаяся к качеству, также может быть получена с помощью неколичественных элементов использования, происхождения и назначения.

Метакачество обеспечивает информацию по качеству в отношении оценки качества.

Элементы качества данных позволяют оценить, насколько набор данных соответствует критериям, изложенным в спецификации информационного продукта, или требованиям пользователя. Элементы качества данных оценивают различными способами и на различных этапах жизненного цикла набора данных. Концепция оценки качества данных подразумевает, что не все элементы качества данных применимы ко всем типам наборов данных. Помимо этого некоторые элементы качества данных являются применимыми к большим наборам данных, в то время как другие больше применимы к подмножеству данных в более крупном наборе данных. Некоторые элементы качества данных применимы как для единичных экземпляров данных, так и для большего количества, а некоторые применимы только для множества экземпляров.

Настоящий стандарт определяет элементы качества данных в первую очередь как средства идентификации и выдачи различных видов информации о качестве, также он подразумевает, что элементы качества данных часто взаимосвязаны. Например, ошибка в координатах может повлечь за собой по меньшей мере два типа ошибок - позиционную и топологическую (см. приложение I). Значение элементов качества данных с точки зрения продукта и способа, которым обрабатываются элементы качества данных, находится в компетенции оценщика качества.

B.3 Когда применять процедуры оценки качества

Процедуры оценки качества могут применяться на различных этапах жизненного цикла продукта. Оценка качества может быть применена на следующих стадиях жизненного цикла продукта:

- разработка спецификации информационного продукта или требований пользователя: при разработке спецификации или определении требований пользователя процедуры оценки качества могут быть использованы для установления уровней соответствия качества, которым должен отвечать конечный продукт. Спецификация информационного продукта или требования пользователя могут включать уровни соответствия качества для данных и процедуры оценки качества, которые должны применяться в процессе производства и обновления;

- контроль качества при создании набора данных: На стадии производства разработчик может применять процедуры оценки качества, которые явно установлены или же не включены в спецификацию информационного продукта, как часть процесса по контролю качества. Описание процедур оценки качества, применяемых для контроля качества продукции, рекомендуется представлять как метаданные происхождения, включая, в частности, оценку качества применяемых процедур, установленные уровни качества соответствия и результаты;

- проверка на соответствие спецификации информационного продукта: по завершении производства продукта рекомендуется использовать процесс оценки качества для формирования и представления результатов качества данных. По этим результатам можно определить, насколько набор данных соответствует или не соответствует спецификации информационного продукта. Если набор данных проходит проверку (состоящую из серии процедур оценки качества), то его считают готовым к использованию. Результаты по операции проверки следует выдавать в соответствии с разделом 10. Пример описания оценки и выдачи информации о качестве данных см. в приложении E. Итогом проверки будет принятие либо непринятие набора данных. Если набор данных будет отклонен, то после исправления данных необходимо будет провести новую проверку, и так до тех пор, пока продукт не будет соответствовать спецификации информационного продукта;

- оценка соответствия набора данных требованиям пользователя: процедуры оценки качества могут быть использованы для удостоверения в том, что набор данных отвечает уровням соответствия качества, установленным требованиями пользователя. При анализе соответствия набора данных требованиям пользователя могут применяться как косвенные, так и прямые методы;

- контроль качества при обновлении набора данных: процедуры оценки качества применяются к операциям обновления набора данных как для используемых элементов обновления, так и для сравнения качества набора данных до и после обновления.

B.4 Выдача информации о качестве

B.4.1 Зачем выдавать информацию о качестве

Необходимость выдавать информацию о качестве данных существует по ряду причин, включая следующие:

- способствовать обнаружению и поддерживать использование набора данных;

- показывать соответствие спецификации информационного продукта или требованиям пользователя;

- как часть инициатив менеджмента поставщика;

- уменьшить поток суждений о качестве информации, полученной из набора данных;

- обеспечить рациональное (оптимальное) принятие решения, когда известно, что все данные содержат дефекты.

B.4.2 Когда выдавать информацию о качестве

Наборы данных постоянно создают, обновляют и объединяют, в результате чего качество или компонент качества набора данных может изменяться. На информацию о качестве набора данных могут повлиять три условия:

- когда некоторый объем данных удаляется из набора данных, изменяется или добавляется к набору данных;

- когда изменяется спецификация набора данных или устанавливаются требования нового пользователя к качеству данных;

- когда изменяется реальный мир.

Первое условие - изменение набора данных - может происходить довольно часто. Многие наборы данных не являются статическими. Происходят увеличение обмена информацией, использование наборов данных в различных целях и обусловленное этим обновление и уточнение наборов данных для удовлетворения различных целей. Если информация о качестве некоторого набора данных изменяется в результате его модификации, то качество этого набора данных должно быть заново оценено и уточнено.

При создании набора данных необходимо обеспечить полное представление обо всех применяемых элементах качества данных. Первоначально могут сообщаться сведения об использовании набора данных его разработчиком (в предположении, что разработчик данных действительно использует такой набор данных). В дальнейшем пользователи данных должны предоставлять информацию об использовании набора данных, если оно отличается от его прямого предназначения. Благодаря таким сообщениям появится возможность постоянного обновления этого описательного элемента качества данных для отражения в нем непредвиденных вариантов использования.

Второе условие - изменение спецификации набора данных - чаще всего происходит перед созданием исходного набора данных и выпуском информации о качестве. Вполне вероятно, что по мере использования некоторого набора данных его спецификация будет обновляться для того, чтобы будущие изменения этого набора данных лучше отвечали фактическим потребностям. При изменении спецификации информационного продукта изменяется также и качество текущего набора данных. Информация о качестве набора данных всегда должна отражать текущий набор данных с учетом текущей спецификации информационного продукта.

Третье условие - изменение реального мира - происходит постоянно. Изменения могут быть вызваны природными явлениями, такими как движения земной коры или эрозия почвы, но чаще всего они являются результатом деятельности человека. Изменения, как правило, наступают очень быстро и внезапно. По этой причине время сбора данных, также как и время оценки качества, играют важную роль при оценке качества набора данных. В некоторых случаях даже скорость изменения данных представляет интерес. А в некоторых случаях интерес может также представлять и частота изменений набора данных. Тем не менее настоящий стандарт признает, что выпуск новой информации о качестве данных при каждых изменениях реального мира не представляется возможным.

B.4.3 Как следует выдавать информацию о качестве

B.4.3.1 Иерархический принцип

Данный стандарт устанавливает принцип иерархического уровня:

Качество данных, определяемое на верхнем уровне (например, комплект наборов данных), применимо и на более низком уровне (например, набор данных), см. таблицу В.1. Если качество данных отличается на верхнем и нижнем уровнях, то необходимо получить дополнительную информацию на более низком уровне.


Таблица B.1 - Иерархические уровни

Верхний уровень

Нижний уровень

Комплекты

Набор данных

Поднабор

Тип объекта

Тип атрибута

Экземпляр объекта

Экземпляр атрибута


Примечание - Информация о качестве экземпляра объекта, атрибута объекта или отношений между объектами может быть выдана как атрибут этого экземпляра согласно [1].

B.4.3.2 Метаданные и самостоятельный отчет по оценке качества

B.4.3.2.1 Общие положения

Информацию о качестве можно выпускать в виде метаданных и автономного отчета о качестве. Эти два механизма дополняют друг друга, позволяя выдавать информацию об оценке качества данных с различными уровнями детализации:

- метаданные направлены на предоставление краткой, синтетической и общеструктурированной информации для обеспечения операционной совместимости метаданных и использования веб-сервисов;

- самостоятельный отчет по оценке качества может быть использован для получения более подробной информации об оценке качества данных. Он должен прилагаться к набору данных или продукту для возможности непосредственного ознакомления с ним.

Например, в случае обобщения различных результатов качества самостоятельный отчет по оценке качества обеспечит полную информацию по исходным результатам (с применимыми процедурами оценки и мерами), результату обобщения и методу обобщения, в то время как метаданные могут только описать результат обобщения со ссылкой на исходные результаты, описанные в самостоятельном отчете по оценке качества.

B.4.3.2.2 Выдача информации о качестве в виде метаданных

Класс MD_Metadata, согласно ГОСТ Р 57668, обобщает ноль, одну или несколько единиц качества данных (экземпляры класса DQ_DataQuality, согласно настоящему стандарту) (см. рисунок В.2).

     
Рисунок В.2 - Информация о качестве данных

В.4.3.2.3 Выдача информации о качестве в самостоятельном отчете

Стандартизация терминологии элементов качества данных и структуры представления основной информации о качестве данных обеспечивают лучшее понимание и сравнение результатов оценки качества.

В самостоятельный отчет по оценке качества следует включать область применения для однозначного определения пространственно-временной протяженности оцениваемого набора данных.

Каждый отчет должен содержать достаточный объем информации для полного описания соответствующих аспектов качества данных и их результатов. Описание может быть представлено в форме ссылки на документы, такие как спецификация информационного продукта или каталог мер.

Полная структура такого самостоятельного отчета по оценке качества не была стандартизирована, чтобы каждая конкретная организация смогла адаптировать его для своих собственных нужд, методик и процедур оценки. Он может представлять собой свободный текст. Однако информация о качестве должна быть представлена в краткой, понятной и легкодоступной форме. Пример самостоятельного отчета по оценке качества приведен в приложении E.

Приложение C
(обязательное)

Словарь данных для оценки качества

C.1 Обзор словаря данных

C.1.1 Введение

Словарь данных описывает характеристики модели качества данных, определенной в разделах 7, 8, 9 и 10. Словарь состоит из таблиц с графами и строками в иерархии для установления отношений и организации информации.

Затемненные строки таблицы представляют классы. Незатемненные строки таблицы представляют атрибуты класса и ассоциации. Классы и атрибуты классов в таблицах словаря данных определяются шестью графами таблицы, описанной в C.1.2-C.1.7.

C.1.2 Имя/ролевое имя

Имя роли - это условное обозначение, относящееся к классу или атрибуту класса. Имена классов начинаются с прописной буквы. Пробелы не используются в имени класса. Вместо этого несколько слов соединяются, и каждое новое подслово начинается с заглавной буквы (например: XnnnYmmm). Имена классов уникальны в пределах всего словаря данных настоящего стандарта. Имена атрибутов класса уникальны в пределах класса, а не всего словаря данных настоящего стандарта. Имена атрибутов класса устанавливаются уникальными в пределах приложения посредством сочетания имени класса и имени атрибута класса. Ролевые имена используются для идентификации абстрактных моделей ассоциаций и начинаются с префикса "Role name", чтобы отличить их от других атрибутов класса. Имена и имена ролей могут быть на любом другом языке, отличающемся от используемого в настоящем стандарте.

C.1.3 Определение

Определение - это описание класса или атрибута класса.

C.1.4 Признак обязательности

C.1.4.1 Общие положения

Признак обязательности - это дескриптор, указывающий, подлежит ли класс или атрибут класса обязательному документированию или указывается (т.е. содержит значения) только иногда. Этот дескриптор может иметь следующие значения: О (обязательный), У (условный) или Н (необязательный).

C.1.4.2 Обязательный (О)

Признак "О" означает, что класс или атрибут класса должны быть указаны.

C.1.4.3 Условный (У)

Признак "У" определяет управляемое электронное условие, при котором хотя бы один класс, атрибут класса или ассоциация являются обязательными. Признак "У" используется в следующих трех ситуациях:

- представление выбора между двумя или несколькими параметрами. По крайней мере один из параметров является обязательным и должен быть задокументирован;

- документирование класса, атрибута класса или ассоциации, если другой класс был задокументирован;

- документирование атрибута класса или ассоциации, если конкретное значение другого атрибута класса уже задокументировано. Для облегчения чтения людьми конкретное значение используется в обычном тексте. Однако для проверки условия в электронном интерфейсе пользователя должен использоваться код.

Если ответ на условие положительный, то класс, атрибуты класса или ассоциация должны быть обязательными.

C.1.4.4 Необязательный (Н)

Признак "Н" означает, что класс, атрибут класса или ассоциация метаданных являются необязательными и могут как присутствовать, так и отсутствовать. В настоящем стандарте для обеспечения интероперабельности между пользователями пространственных данных и производителями определены необязательные классы метаданных и необязательные атрибуты метаданных. Если необязательный класс не используется, то элементы, содержащиеся в этом классе (включая обязательные элементы), тоже не используются.

Необязательные классы могут иметь обязательные элементы; эти элементы становятся обязательными, только если необязательный класс используется.

C.1.5 Максимум вхождений (MB)

Признак максимума вхождений определяет максимально допустимое количество экземпляров класса, атрибута класса или ассоциации. Единичное вхождение показано как "1"; повторяющееся, без ограничений, вхождение обозначено "N". Допускается фиксированное число вхождений, отличающееся от одного, которое будет обозначаться соответствующим числом (т.е. "2", "3" и т.д.).

C.1.6 Тип данных

Тип данных определяет множество различных значений для представления атрибутов класса: например, integer, real, string, DateTime и Boolean. Атрибут типа данных также используется для определения классов, стереотипов и ассоциаций классов.

Примечание - Типы данных определены в [3].

C.1.7 Область допустимых значений (домен)

Для класса (затемненные строки) домен указывает номера строк, относящихся к атрибутам классов и ассоциациям этого класса.

Для атрибута класса или ассоциации домен определяет допустимые значения или использование произвольного текста. Понятие "произвольный текст" (free text) означает, что никаких ограничений на содержание этого поля не накладывается. Целочисленные коды должны применяться для представления значений доменов, содержащих кодовые списки.

C.2 Словарь данных для пакетов качества данных

C.2.1 Качество данных

C.2.1.1 Общие положения

Глобальная модель UML для всего пакета качества данных представлена на рисунке 2. Модель UML приведена на рисунках 3 и 15.


Таблица C.1 - Качество данных



C.2.1.2 Элементы качества данных

Модель UML представлена на рисунках 4, 5, 10 и 14.


Таблица C.2 - Элементы качества данных



Продолжение таблицы C.2