Основные положения теории баз данных, хранилищ данных, баз знаний.
Цель: изучить основные положения теории баз данных, хранилищ данных, баз знаний
План занятия:
1. Рассмотреть основные положения теории БД
2. Рассмотреть классификацию видов данных
Основные положения
Для понимания организации данных в базе данных необходимо знание основных
положений теории баз данных. Рассмотрим некоторые положения этой теории.
База данных (Database) - это особым образом организованные и хранимые в электронном
виде данные.
Особым образом организованные означает, что данные организованы неким
конкретным способом, способным облегчить их поиск и доступ к ним для одного или
нескольких приложений. Также такая организация данных предусматривает наличие
минимальной избыточности данных.
Базы данных являются одной из разновидностей информационных технологий, а
также формой хранения данных.
Целью создания баз данных является построение такой системы данных, которая
бы не зависела от программного обеспечения, применяемых технических средств и
физического расположения данных в ЭВМ. Построение такой системы данных должно
обеспечивать непротиворечивую и целостную информацию. При проектировании базы
данных предполагается многоцелевое ее использование.
База данных в простейшем случае представляется в виде системы двумерных
таблиц.
Схема данных - описание логической структуры данных, специфицированное на
языке описания данных и обрабатываемое СУБД.
Схема пользователя - зафиксированный для конкретного пользователя один
вариант порядка полей таблицы.
Системы управления базами данных, СУБД
Система управления базой данных - это программное обеспечение,
контролирующее организацию, хранение, целостность, внесение изменений, чтение и
безопасность информации в базе данных.
СУБД (Database Management System, DBMS) представляет собой оболочку, с
помощью которой при организации структуры таблиц и заполнения их данными
получается та или иная база данных.
Система управления реляционными базами данных (Relational Database
Management System) - это СУБД, основанная на реляционной модели данных.
В реляционной модели данных любое представление данных сводится к
совокупности реляционных таблиц (двумерных таблиц особого типа). Системы
управления реляционными базами данных используются для построения хранилищ
данных.
СУБД имеет программные, технические и организационные составляющие.
Программные средства включают систему управления, обеспечивающую вводвывод, обработку и хранение информации, создание, модификацию и тестирование базы
данных. Внутренними языками программирования СУБД являются языки четвертого
поколения (C, C++, Pascal, Object Pascal). С помощью языков БД создаются приложения,
базы данных и интерфейс пользователя, включающий экранные формы, меню, отчеты.
Аналитику при необходимости работы с конкретной СУБД, в частности, при экспорте данных в среду инструмента Data Mining, следует изучить особенности этой СУБД. Так, например, в базе данных СУБД FoxPro все таблицы и представления базы данных физически хранятся в отдельных файлах, которые объединяются в одном проекте. В СУБД Access все таблицы базы данных хранятся в одном файле. Для работы с конкретной базой данных, в том числе с целью анализа, аналитику желательно знать описание всех таблиц и их структур (атрибутов, типов данных), количество записей в таблице, а также связи между таблицами. Иногда для этих целей используется словарь данных. К базам данных, а также к СУБД предъявляются такие требования:
высокое быстродействие;
простота обновления данных;
независимость данных;
возможность многопользовательского использования данных;
безопасность данных;
стандартизация построения и эксплуатации БД (фактически СУБД);
адекватность отображения данных соответствующей предметной области;
дружелюбный интерфейс пользователя.
Высокое быстродействие предусматривает малое время отклика, т.е. малый
промежуток времени от момента запроса к базе данных до момента реального получения
данных.
Независимость данных - это возможность изменения логической и физической
структуры базы данных без изменения представлений пользователей.
Независимость данных обеспечивает минимальные изменения структуры базы
данных при изменениях стратегии доступа к данным и структуры самих исходных
данных. Эти изменения должны быть предусмотрены на этапах концептуального и
логического проектирования базы данных с обеспечением минимальных изменений на
этапе физического ее проектирования.
Безопасность данных - это защита данных от преднамеренного или
непреднамеренного нарушения секретности, искажения или разрушения. Безопасность
включает два компонента: целостность и защиту данных от несанкционированного
доступа.
Целостность данных - устойчивость хранимых данных к разрушению и
уничтожению, связанным с неисправностями технических средств, системными
ошибками и ошибочными действиями пользователей.
Целостность данных - точность и валидность данных. Целостность данных
предполагает: отсутствие неточно введенных данных, защиту от ошибок при обновлении
баз данных; невозможность удаления (или каскадное удаление) связанных данных разных
таблиц; сохранность данных при сбоях техники (возможность восстановления данных) и
др.
Защита данных от несанкционированного доступа предполагает ограничение
доступа к определенным данным базы и достигается введением мер безопасности:
разграничение прав доступа к данным различных пользователей в зависимости от
выполняемых ими функций и/или должностных обязанностей; введением защиты в виде
паролей; использованием представлений, т.е. таблиц, которые являются производными от
исходных и предназначены для работы конкретных пользователей для решения
конкретных задач.
Стандартизация обеспечивает преемственность поколений конкретной СУБД,
упрощает взаимодействие баз данных одного поколения СУБД с одинаковыми и
различными моделями данных.
СУБД отвечает за обработку запросов к базе данных и получение ответа. Способы
хранения данных могут быть различными: модель данных может быть, как реляционной,
так и многомерной, сетевой или иерархической.
Предметной областью называют определенную часть реального мира,
представляющую интерес для конкретного исследования или планируемых действий и
соответственно для использования и отображения в информационной системе (в банке
данных или знаний).
Банк данных – это автоматизированная система, включающая базу данных,
лингвистические, программные, технические, организационно-методические средства,
обеспечивающие централизованное накопление и коллективное многоцелевое
использование информации в различных областях деятельности пользователей.
Классификация видов данных Какими могут быть данные? Ниже приведено несколько классификаций. Реляционные данные - это данные из реляционных баз (таблиц). Многомерные данные - это данные, представленные в кубах OLAP. Измерение (dimension) или ось - в многомерных данных - это собрание данных одного и того же типа, что позволяет структурировать многомерную базу данных. По критерию постоянства своих значений в ходе решения задачи данные могут быть:
переменными;
постоянными;
условно-постоянными.
Переменные данные - это такие данные, которые изменяют свои значения в
процессе решения задачи.
Постоянные данные - это такие данные, которые сохраняют свои значения в
процессе решения задачи (математические константы, координаты неподвижных
объектов) и не зависят от внешних факторов.
Условно-постоянные данные - это такие данные, которые могут иногда изменять
свои значения, но эти изменения не зависят от процесса решения задачи, а определяются
внешними факторами.
Данные, в зависимости от тех функций, которые они выполняют, могут быть
справочными, оперативными, архивными.
Следует различать данные за период и точечные данные. Эти различия важны при
проектировании системы сбора информации, а также в процессе измерений.
данные за период;
точечные данные.
Данные за период характеризуют некоторый период времени. Примером данных за
период могут быть: прибыль предприятия за месяц, средняя температура за месяц.
Точечные данные представляют значение некоторой переменной в конкретный
момент времени. Пример точечных данных: остаток на счете на первое число месяца,
температура в восемь часов утра.
Данные бывают первичными и вторичными. Вторичные данные - это данные,
которые являются результатом определенных вычислений, примененных к первичным
данным. Вторичные данные, как правило, приводят к ускоренному получению ответа на
запрос пользователя за счет увеличения объема хранимой информации.
Метаданные
В завершение лекции о данных рассмотрим понятие метаданных.
Метаданные (Metadata) - это данные о данных.
В состав метаданных могут входить: каталоги, справочники, реестры.
Метаданные содержат сведения о составе данных, содержании, статусе,
происхождении, местонахождении, качестве, форматах и формах представления, условиях
доступа, приобретения и использования, авторских, имущественных и смежных с ними
правах на данные и др.
Метаданные - важное понятие в управлении хранилищем данных.
Метаданные, применяемые при управлении хранилищем, содержат информацию,
необходимую для его настройки и использования. Различают бизнес-метаданные и
оперативные метаданные.
Бизнес-метаданные содержат бизнес-термины и определения, принадлежность
данных и правила оплаты услуг хранилища.
Оперативные метаданные - это информация, собранная во время работы
хранилища данных:
происхождение перенесенных и преобразованных данных;
статус использования данных (активные, архивированные или удаленные);
данные мониторинга, такие как статистика использования, сообщения об ошибках
и т.д.
Метаданные хранилища обычно размещаются в репозитории. Это позволяет
использовать метаданные совместно различным инструментам, а также процессам при
проектировании, установке, эксплуатации и администрировании хранилища.