DissertationMain/part2_tmp.tex at master · fedulity/DissertationMain · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
\chapter{Обзор особенностей онтологий, семантических технологий и Linked Data} \label{chapt2}

\section{Онтологии и формальное описание предметных областей} \label{sect2_1}
Онтология - термин, заимствованный из философии, который обозначает науку, описывающую формы бытия и то, как они относятся между собой. Иными словами онтология - это явное описание концептуализации. Web-онтология может включать описание классов, и их свойств, а также индивиды классов. Онтологии в состоянии сыграть критически важную роль в организации обработки знаний на базе Web, их совместного использования и обмена ими между приложениями. Онтологии в общем виде определяемые как совместно используемые формальные концептуализации конкретных предметных областей, дают общеее представление о темах, информацией по которым могут обмениваться люди и приложения.

Основными структурными элементами языка онтологий являются понятия класса, индивида и свойства. Класс - это простое название и совокупность свойств, которые описывают набор индивидов. Индивиды - это сущности, которые, если они удовлетворяют всем свойствам класса, являются его экземплярами. Таким образом, классы должны соответствовать естественно образованным наборам вещей в рассматриваемой области, а индивиды должны соответствовать реальным объектам, которые могут быть сгруппированы в эти классы. Свойства позволяют нам утверждать общие факты об экземплярах классов и особые факты об индивидах (Л. Д. Шумский, 2010).


\section{Экспертные системы, базы знаний и семантические сети} \label{sect2_2}

Семантика — это наука, устанавливающая отношения между символами и объектами, которые они обозначают, то есть наука, определяющая смысл знаков. Применение семантики в информационных технологиях наиболее ярко отражено в разделе разработке искусственного интеллекта. С помощью семантики разрабатываются различные экспертные системы.

Экспертная система, прежде всего, является программным продуктом, и ее назначение – автоматизация деятельности человека. Однако принципиальным отличием экспертной системы  от других программ является то, что она выступает не в роли «ассистента», выполняющего за человека часть работы, а в роли «компетентного партнера» – эксперта-консультанта в какой-либо конкретной предметной области. Экспертные системы аккумулируют в себе и тиражируют опыт и знания высококвалифицированных специалистов, позволяют пользоваться этими знаниями пользователям «неспециалистам» в данной предметной области. То есть, экспертные системы не призваны заменить собою эксперта в его непосредственной деятельности, а, напротив, расширяют возможную сферу применения знаний авторитетных специалистов. Кроме того, способности ЭС решать поставленные перед ними задачи не ослабевают со временем и не забываются при отсутствии практики, легко распространяются, так как являются компьютерной программой, прекрасно документированы, а значит и аргументированы, при многократном решении одной и той же задачи ЭС выдают одно и тоже решение в отличие от человека, который подвержен эмоциональным факторам \cite{mur2005intro}. Плюс ко всему эксплуатация ЭС значительно дешевле, чем оплата труда человека-эксперта.

Ядром экспертной системы является база знаний. База знаний является совокупностью  знаний предметной области, записанной на машинный носитель в форме, понятной эксперту и пользователю (обычно на некотором языке, приближенном к естественному). Параллельно такому «человеческому» представлению существуют базы знаний во внутреннем «машинном» представлении \cite{gavrilova2000db}.

В последнее десятилетие семантические технологии получили свое применение в сети Интернет. Одним из трендов данного симбиоза стала технология Semantic Web \cite{shadbolt2006semantic}. Семантическая Сеть является  методом представления знаний и позволяет описывать объекты, явления и понятия предметной области с помощью теории графов. Семантические сети первоначально были разработаны для использования их в качестве психологических моделей человеческой памяти, но в последствии с успехом стали применяться в экспертных системах.

Характерной особенностью семантических сетей является обязательное наличие трех типов отношений:

\begin{itemize}
\item класс — элемент класса;
\item свойство — значение;
\item пример элемента класса.
\end{itemize}

Данная модель представления знаний была предложена американским психологом Куиллианом. Основным ее преимуществом является то, что она более других соответствует современным представлениям об организации долговременной памяти человека. Проблема поиска решения в базе знаний типа семантической сети сводится к задаче поиска фрагмента сети, соответствующего некоторой подсети, отражающей поставленный запрос к базе. Недостатком этой модели является сложность организации процедуры поиска вывода на семантической сети.

Главной целью Semantic Web является хранение мировой информации в виде пригодном для машинной обработки \cite{berners2001semantic}. Данный подход к хранению информации основывается на науке семантике. Наука семантики оперирует тремя типами информации, пригодной для машинной обработки: онтологиями, определяющими словари, данными о наблюдениях в мире и теориями, с помощью которых делаются прогнозы, с использованием данных. Используя инструменты представления данных в семантической паутине, ученые смогут публиковать данные и теории, которые могут взаимодействовать друг с другом с использованием общих технологий \cite{hendler2003science}. С помощью опубликованных данных и теорий возможно получение прогнозов с использованием машинной обработки \cite{poole2008semantic}.

Причинами хранения данных с использованием онтологического подхода и Semantic Web являются:

\begin{itemize}
\item распространение знаний. Возможность использовать, изменять и дополнять открытые структуры данных в сети.
\item логический вывод. Логические механизмы причинности позволяют выводить факты о сущностях метолом дедукции.
\item повторное использование знаний. Полученные знания остаются в сети и могут быть использованы любым приложением. Данное свойство позволяет не тратить ресурсы на разработку баз данных с нуля \cite{wang2004ontology}.
\end{itemize}


\section{Основные стандарты, протоколы и форматы хранения данных в семантических технологиях} \label{sect2_3}

RDF расшифровывается как Resource Description Framework, что переводится как Среда Описания Ресурса. RDF - это язык общего назначения для представления информации в Вебе. RDF представляет утверждения о ресурсах в виде, пригодном для машинной обработки. Ресурсом в RDF может быть любая сущность, как информативная, так и неинформативная. Утверждения о ресурсах представлены в виде триплетов. Триплет состоит из субъекта, предиката и объекта. Субъект, объект и предикат определяются с помощью URI. Набор утверждений о ресурсах образует RDF-граф. Поддержка пространства имен и URI позволяет использовать сторонние ресурсы и создавать новые утверждения по отношению к данным ресурсам (G. Klyne, 2004).

Существует множество форматов представления и хранения данных RDF. Самыми распространенными являются форматы XML и N-Triples. В формате XML RDF описывается в структурном виде, в формате   N-Triples утверждения описываются с помощью триплетов URI (D. Beckett, 2004).

Важно подчеркнуть, что основная роль RDF - это предоставление модели "Объект - атрибут - значение" для мета-данных. RDF данные не поддерживают механизмов для обозначение имен свойств. RDF не обладает синтаксом для обозначения классов объектов (S. Decker, 2000).

OWL расшифровывается как Ontology Web Language, что переводится как Язык Веб Онтологий.  OWL разработан для приложений, которые не просто предоставляют информацию пользователю, но и производят осмысленные манипуляции над данными. OWL расширяет и дополняет технологии представления семантических данных, такие как XML, RDF и RDF Schema. OWL позволяет описывать значение терминов в словарях и отношения между ними. В отличии  от RDF, OWL позволяет явно описывать свойства и классы: наследование классов, характеристики свойств, мощность связей и эквивалентность. Существует три разновидности языка OWL, различающихся по сложности и уровню описательных возможностей: OWL Lite, OWL DL, OWL Full (D. L. McGuinness, 2004).

SPARQL  расшифровывается как SPARQL Protocol and RDF Query Language и является  языком запросов к данным, представленным по модели RDF, а также протоколом для передачи этих запросов и ответов на них(E. Prud’Hommeaux, 2008).

Данный протокол позволяет получать доступ к данным в формате RDF через стандартизированный интерфейс и запрашивать данные с помощью стандартного языка запросов. Организация SPARQL-точки доступа к данным позволяет пользователям и приложениям получать данные из базы знаний. SPARQL-точка доступа скрывает реальный формат хранения данных (J. Pérez, 2009). Данные могут храниться как в формате RDF/XML, так и реляционной базе данных. Точка доступа возвращает по запросу данные в формате RDF, конструируя триплеты "налету" (B. Quilitz, 2008).


\section{Принципы публикации данных в формате Linked Data} \label{sect2_4}

Linked Data - это концепция представления данных в Web, предложенная в 2006 году Тимом Бернерсом Ли, которая предполагает использование Web -технологий HTTP, RDF, и URI для публикации данных в Web и объединения данных из разных источников. Данная концепция позволяет данным из одного источника ссылаться на данные другого источника (T. Heath, 2011). Также поддержка Linked Data позволяет создавать Web -документы, которые могут быть не только прочитаны человеком, но и обработаны машиной (T. Berners-Lee, 2009).

Основными принципами публикации данных с использованием концепции Linked Data являются:

\begin{itemize}
\item все элементы определяются по средствам  URI(Uniform Resource Identifier);
\item для всех URI возможно их разыменование,  по URI возможно получение доступа к элементу;
\item переход по URI ведет к получению больших данных об элементе;
\item ссылки на другие источники данных необходимо включать в свои наборы для возможности проведения дальнейшей навигации по данным вне одного ресурса (Tim Berners-Lee. 2006).
\end{itemize}

Одним из значимых проектов использующих принципы Linked Data является Linked Data Open Project, основанный в январе 2007 года. Основная цель данного проекта – это преобразование открытых неструктурированных данных из различных источников в формат RDF и публикация полученных наборов данных в Сети.

В начале развития проекта в нем участвовали лишь разработчики из исследовательских лабораторий университетов и компаний небольшого размера. К 2009 году масштаб проекта значительно увеличился, и к нему присоединились крупные организации, такие как BBC, Thomson Reuters и Библиотека Конгресса.

В данный момент структурированные наборы данных охватывают информацию о географических локациях, людях, компаниях, книгах, научных публикациях, фильмах, музыке, телевидении и радио, лекарствах, генах и о многом другом (T. Berners-Lee, 2009).

Специальные Linked Data браузеры позволяют просматривать информацию по сущностям в HTML-разметке. Навигация по ссылкам производится с помощью переходов между различными ресурсами через RDF-ссылки. Это не привязывает пользователя к одному ресурсу, и позволяет с легкостью производить навигацию по всей Сети (C. Bizer, 2008). Примером браузера основанного на технологии Linked Data является Tabulator. Данный браузер позволяет производить навигацию по данным в формате RDF хранящимся в различных источниках. Помимо представления данных пользователь может производить их анализ (T. Berners-Lee, 2006).

При работе с Linked Data поисковые машины могу не просто производить поиск по тексту документа, но и производить сложные запросы похожие на те, что производятся в отношении реляционных баз данных. Полученные по поисковому запросу данные так же являются структурированными и соответственно могут быть обработаны в приложении по работе с Web-данными (C. Bizer, 2008).

Одним из крупнейших проектов использующих технологию Linked Data является проект DBpedia. Данный проект предоставляет данные из Web-энциклопедии Wikipedia. В Wikipedia данные хранятся в формате HTML-документов. Данная особенность хранения данных в сети, влечет за собой целый ряд проблем при функционировании ресурса Wikipedia.Основными проблемами являются:

\begin{itemize}
\item ограниченные возможности поиска по документам. В Wikipedia возможен только полнотекстовый поиск;
\item проблемы взаимодействия редакторов документов;
\item ошибки в документах и спам.
\end{itemize}

DBpedia разработана для представления данных Wikipedia в структурированной форме. Система производит запросы к Wikipedia и преобразует полученные данные в формат RDF (S. Auer, 2007). Наборы данных в системе DBpedia содержат более 103 миллионов RDF-триплетов. Разработанная система доменов для наборов данных позволяет использовать их при разработке пользовательских Web-приложений и использовании в новых онтологиях. Наборы данных DBpedia так же взаимодействуют с другими открытыми источниками структурированных данных. Включая внешние источники,  DBpedia образует сеть данных, насчитывающую в сумме около 2 миллиардов RDF-триплетов.

Одним из примеров приложений использующих открытые наборы структурированных данных из проекта DBpedia является приложение для мобильных устройств DBpedia Mobile(C. Becker, 2008). Данное приложение использует возможности GPS мобильного устройства для определения местоположения и структурированные данные, привязанные к географическим координатам для предоставления пользователю информации по окружающим его объектам. Данное приложение представляет собой карту окружающей местности с обозначением объектов представляющих интерес для пользователя. Каждый объект на карте это набор структурированных данных, как из DBpedia, так и из других связанных с системой источников открытых данных. Приложение получает данные с DBpedia и других источников через точки доступа SPARQL (O. Hartig, 2009). В основном приложение DBpedia Mobile предназначено для туристов и позволяет им получать информационную сводку об близлежащих объектах и достопримечательностях, просматривать мультимедиа контент связанный с данными объектами.

Приложение Faviki позволяет производить связывание тегов с сущностями из Wikipedia. При наведении на тег любого ресурса будет выведена короткая справка из Wikipedia о значении данного тега с ссылкой на полное описание.

Ресурс для навигации по музыкальным композициям и прикладным данным предоставила компания BBC. Приложение использует наборы данных по музыкальным композициям из Musicbrainz (M. Hausenblas, 2009) и связывает их с биографическими данным исполнителей из  DBpedia.
С ростом потребности в Web-приложениях в сфере разработке систем стали появляться инструменты для разработки приложений использующих технологию Linked Data. Одним из таких инструментов является платформа Information Workbench (P. Haase, 2009)  немецкой компании fluid Operations. Данная платформа позволяет создавать Web-приложения, использующие как структурированные, так и неструктурированные данные из различных открытых источников. Information Workbench позволяет загружать в систему структурированные данные следующими способами:

\begin{itemize}
\item из локального файла или через URL (форматы RDF/XML,N3,Turtle);
\item из репозитория;
\item из сервиса Google Refine.
\end{itemize}

Загруженные в систему данные формируются в определенном контексте позволяя получать статистику по этим данным и удалять данный контекст. Каждому загруженному набору данных соответствует определенный контекст с подробной информацией о данных. Возможен автоматический импорт и обновление данных с помощью предопределенных провайдеров.
Каждая сущность в системе имеет свою Web-страницу для просмотра информации о ней. Вид данной страницы может быть изменен и регулируется набором <<виджетов>> для отображения информации и SPARQL-запросов для получения наборов данных.

Платформа поддерживает возможность редактирования наборов данных с поддержкой истории изменений, гибридный поиск по данным и предоставляет встроенную точку доступа SPARQL.

Information Workbench позволяет расширять свой функционал путем внедрения дополнительных  модулей, провайдеров и <<виджетов>>. Information Workbench подходит для разработки Web-приложений и Web-сервисов для хранения онтологий и наборов данных из различных источников и поддержки многопользовательского редактирования наборов данных (P. Haase, 2011).


\clearpage