Лексико-синтаксические шаблоны для автоматического построения онтологий

_______________________________________________________

2007 Информационные системы и технологий Вып. 10(15)

Е.А.Рабчевский, Г.И.Булатова

Пермский государственный университет, 614990, Пермь, ул.Букирева, 15. evgeny@ranat.ru

Формулируются задачи интеграции информации в масштабе всего Интернета. Приводятся примеры использования технологий Semantic Web для решения задачи интеграции данных. Приводятся результаты оригинальных исследований, лексико-синтаксических шаблонов, предоставляющих средства для автоматизации построения онтологий.

1. Интеграция данных в масштабе всего Интернета

Для удовлетворения своих информационных потребностей каждый интернет-пользователь периодически посещает сайты профессиональных сообществ, подписывается и просматривает тематические рассылки и RSS подачи, ищет в поисковых системах неизвестные термины. Таким образом, у каждого профессионала выстроена, использующая различные интернет-технологии, своя система интеграции знаний в интересующей его предметной области.

Однако задачи пользователей требуют более систематизированного и настраиваемого ‘механизма интеграции распределенных и разнородных знаний в целостную картину предметной области.

Необходимо заметить, что оригинальная спецификация WWW [1] разрабатывалась именно для решения задачи интеграции научных материалов.

Под интеграцией знаний масштаба всей сети авторы понимают процесс, в результате которого, при наличии доступа к веб-пространству пользователь (или некое приложение) получает целостную картину определенной предметной области, притом, что отдельные знания потенциально содержатся в отдельных ресурсах, распределенных в сети.

Таким образом, интеграция предполагает определенные задачи, связанные с обработкой информации:

•проверка знаний, содержащихся в различных
•ресурсах, на противоречивость, актуальность;
•отслеживание появления новых ресурсов по соответствующей тематике;
•выявление в ресурсах новых знаний, и «вписывание» их в имеющуюся картину знаний;
•определение оригинального источника знаний, опубликованных в ресурсе;
•поиск веб-ресурсов с учетом семантики поискового запроса;
•объяснение в обучающей экспертной системе для данной предметной области [2].

Очевидно, что для эффективной интеграции данных некой предметной области из различных интернет-источников соответствующее приложение должно работать с семантикой веб-ресурсов. В связи с этим, в таких приложениях актуально. использование различных технологий Semantic Web [3].

2. Представление знаний в Веб

В Интернете стали популярными языки представления данных, основанные на XML. В частности, для представления данных, имеющих графовую структуру, на основе XML был разработан язык RDF [4] (Resourse Definition Framework — Среда Описания Ресурса). RDF предоставляет средства для записи триплетов, троек данных субъект — предикат — объект. Объект и субъект соответствуют узлам графа, а предикат или свойство — направленным дугам графа. Сегодня платформа RDF активно используется для представления различных данных, в частности RSS 3.0 [5], агрегаторы новостей собирают информацию в формате RDF.

Для машинного представления различных предметных областей, которое используется в Интернете, сейчас активно применяются онтологии. Онтология — явное, формальное описание предметной области, или спецификация концептуализации [6], состоящая из классов, их свойств и экземпляров, а также ограничений, накладываемых на свойства.

Поисковой системой SWOOGLE [7] на сегодня проиндексировано уже порядка 30 тыс. Онтологии и словарей, доступных в Веб. Онтологии используются научными сообществами -- для описания терминологии [8], в электронной коммерции -- для описания реестра товаров и услуг [9] и в других приложениях Интернета. Онтологии применяются и в качестве баз знаний локальных интеллектуальных систем [10].

Для описания онтологии, доступных через Веб, созданы языки RDFS [11] (RDF Schema) и OWL [12] (Ontology Web Language- Язык Системных Онтологий). В качестве своих базовых элементов данные языки используют RDF-ресурсы (элементы RDF-графов).

3. Использование онтологий для семантической разметки

Физически, ЕРЕ-графы и онтологии могут размещаться в отдельных веб-ресурсах или встраиваться прямо в НТМГ--код. Последний вариант наиболее востребован в процессе семантической разметке текста веб-ресурса.

Семантическая разметка или аннотация — явное описание семантики контента ресурса при помощи понятий семантической модели (онтологии или словаря). Такое явное описание семантики выполняется указанием четкого соответствия между определенной частью контента ресурса и его семантикой, описанной в семантической модели.

Для реализации семантической разметки одной из рабочих групп [13] \3 консорциума был разработана технология RDF /А [14], которая позволяет встраивать RDF-данные в НТМL-код. RDF /А является одним из множества микроформатов [15] или диалектов языков, расширений языка НТМL, в котором определяется, каким образом использовать конструкции языка НТМL, чтобы интерпретировать записанный таким образом НТМL код, как RDF-данные.

Существуют микроформаты для и популярных словарей (моделей данных), как vCard, DC, RDF Calendar, RSS, GeoInfo. Все указанные словари записываются в видео RDF-графов, RDF/A является микроформатом для записи непосредственно синтаксиса RDF и может быть использован для записи терминов любых RDF-словарей.

Ниже следует пример использования технологии RDF/A. Рассмотрим следующий HTML-код.

<html xmlns:contact=

"http://www.w3.org/2001/vcard

rdf/3.0#">

<p class="contactinfo"

about="http://www.ranat.ru/evgeny">

Меня зовут <meta property="contact:fn">Евгений</meta>.

Я - <meta property="contact:title"аспирант</meta>.

из "<a rel="contact:org"

href="http://www.psu.ru">ПГУ</a>.

Вы можете связаться со мной через

href="mailto:evgeny@ranat.ru">e-mail</a>

</p>

</html>

В браузере это будет выглядеть как текст «Меня зовут Евгений. Я —аспирант из "ПГУ". Вы можете связаться со мной через е-mail» с двумя гиперссылками.

Для извлечения RDF-данных из различных микроформатов W3 консорциум разработал технологию GRDDL [16] (Gleaning Resourse Descriptions from Dialects of Languages — Извлечение Описания Ресурса из Диалектов Языков). Для работы GRDDL-скреперов (программ, извлекающих RDF данные из ХНТМL) в ХНТМL-коде необходимо указать ссылку на механизм извлечения:

<head profile="http://www.w3.org/

2003/g/data-view">

Href=http://www-

Sop.inria.fr/acacia/soft/RDFa2R

DFXML.xsl/>

</head>

Механизм извлечения основан на технологии преобразования XML-документов XSLT [17], в данном случае ХНТМL, преобразуется в RDF.

Если применить механизмы GRDDL, к ХНТМL-- коду из последнего примера, то получим RDF-граф, состоящий из четырех триплетов. Субъект всех триплетов — это один и тот же ресурс http://www.ranat.ru/evgeny

Cвойства и объекты триплетов соответственно будут:

contact:fn "Евгений"^^XMLLiteral;

contact:title аспирант"^^XMLLiteral;

contact:org <http://www.ranat.ru>;

contact:email mailto:evgeny@ranat.ru

где contact — это RDF-словарь, описанный по адресу http://www.w3.org/2001/vcard-rdf/3.0#.

Данный пример показывает, каким образом можно создать семантическую аннотацию ресурса. В данном случае ресурс описывает контактную информацию, а семантическая модель, в терминах которой формулируется семантическое описание, представляет собой ЕРЕ словарь. В более сложных предметных областях для семантической аннотации целесообразно использовать термины из онтологий. Используя такое описание, соответствующие приложения могли бы эффективно решать задачи интеграции данных.

4. Автоматическое построение семантической карты ресурса

Интеллектуальные системы на основе онтологий показали на практике свою эффективность, однако построение онтологии требует экспертных знаний в исследуемой предметной области и занимает существенный объем времени, поэтому актуальной задачей является автоматизация процесса построения онтологии. Для этого предлагается использовать текстовое содержание массива веб-ресурсов описательного характера определенной тематики.

Базовой является задача разработки алгоритма автоматического построения семантической карты веб-ресурса с помощью анализа его текста. Семантической картой ресурса назовем отображение контента веб-ресурса в концептуализацию его содержания, представленную в виде OWL-онтологии.

Для решения данной задачи был сформирован корпус англоязычных текстов, относящихся к теме Semantic Web. Ресурсы корпуса представляют собой спецификации технологий Semantic Web с сайта №3 консорциума.

Алгоритм исследовался для определенной предметной области, что объясняется профессиональными интересами авторов, а также возможностью последующей оценки применяемого метода сравнением результатов с онтологией, полученной с помощью экспертных знаний (параллельно с этими исследованиями на основе того же корпуса создавался массив триплетов, описывающих данную область).

Семантическая карта ресурса строится на основе особенностей языка, которые позволяют «вытягивать» семантические конструкции из текста. Исследования проводились следующим образом:

•формировался набор пар «текст — соответствующая ему конструкция языка OWL»;
•по набору выявленных пар «текст - OWL-конструкция» выявлялись правила, позволяющие автоматизировать процесс отображения текста в соответствующую OWL-конструкцию;

Данный подход использовался в работе [18] и других. Метод носит название лексико-синтаксических шаблонов. Таким образом, было найдено несколько лексико-синтаксических шаблонов английского языка.

Шаблоны формулируются как конструкции из различных частей речи, частей предложения, предлогов и союзов, а также конкретных слов. Дополнительно вводится понятие предмета — сущности, о которой говорится в предложении, предмет может состоять из нескольких слов. Понятие предмета также используется для формулировки шаблонов.

Рассмотрим несколько шаблонов:

•«Сложный предмет» или «noun! + noun2» (два подряд идущих существительных), например словосочетание «ontology editor».

Проанализируем данный пример. Можно предположить, что существует целый класс абстрактных редакторов —Editor. Этот класс характеризуется тем, что все его экземпляры обладают Неким характерным для этого класса свойством. В данном случае это то, что они все что-либо редактируют. Назовем это характерное свойство mainPropertyOfEditor. Доменом этого свойства является класс Editor. Определим диапазон этого свойства как класс RangeOfMainPropertyOfEditor. Выделим класс OntologyEditor, который будет подклассом класса Editor. При этом значение свойства mainPropertyOfEditor для подкласса OntologyEditor имеет строго определенное значение — это экземпляр класса RangeOfMainPropertyOfEditor, индивид Ontology. Данные утверждения можно представить следующим OWL-кодом:

<owl:Class rdf: ID="Editor">

<rdfs:comment

rdf:datatype="http: //www.w3.org/2001

/XMLSchema#string"

>класс абстрактных редакторов</rdfs:comment>

</ow1l:Class>

<owl:Class

rdf: ID="RangeOfMainPropertyOfEditor"

<rdfs:comment

rdf:datatype="http: //www.w3.org/2001/XMLSchema#string"

>диапазон характерного свойства

редактора (редактируемый объект)</rdfs:comment>

</owl:Class>

<owl:Class

rdf:ID="OntologyEditor">

<rdfs:subClassOf>

<owl:Restriction>

<owl:onProperty>

<owl:ObjectProperty

rdf:ID="MainPropertyOfEditor"/>

</owl:onProperty>

<owl:hasValue>

<RangeOfMainPropert yOfEditor

rdf: ID="Ontology"/>

</owl:hasValue>

</owl:Restriction>

</rdfs:subClassOf>

<rdfs:comment

rdf:datatype="http: //www.w3.org/2001/XMLSchema#string"

>класс редакторов онтологии</rdfs:comment>

<rdfs:subClassOf

rdf: resource="#Editor"/>

</owl:Class>

<owl:ObjectProperty

rdf:about="#MainPropertyOfEditor"?

<rdfs:domain

rdf: resource="#Editor"/>

<rdfs: range

rdf:resource=" #RangeOfMainPropertyOfEditor"/>

<rdfs:comment

rdf:datatype="http: //www.w3- org/2004/XMLSchema#string"

>характерное свойство редактора
(редактирует) </rdfs: comment>

</owl: Object Property>

•“Предмет с определением” или “abjective + subject” например словосочетание “abstract syntax”. Для записи соответствующего OWL-кода необходимо провести рассуждения, аналогичные приведенным в предыдущем примере.
•“Простое предложение” или “subject1 + verb + preposition + subject2” (подлежащее, сказуемое, предлог, дополнение), например предложение “Ontology’s incorporate information about classes”, что можно представить следующим кодом:

<owl:Class rdf: ID="Ontology"/>

<owl:Class rdf: ID="Class"/>

<owl:ObjectProperty

rdf: 1D="incorporateInformationAbout"

<rdfs:range

rdf: resource="#Class"/>

<xrdfs:domain

rdf: resource="#Ontology"/>

</owl:ObjectProperty>

•subject1 + are + subject2 + that + verb + preposition + subject3 (подлежащее, are/is, дополнение, that, сказуемое, предлог, дополнение), например предложение “Decision Engineering is an emerging discipline that focuses on developing tools”. Что можно представить следующим OWL-кодом:

<owl:Class

rdf:ID="EmergingDiscipline"/>

<owl:Class

rdf: ID="DecisionEngineering">

<rdfs:subClassOf>

<owl:Restriction>

<owl:onProperty>

<owl:ObjectProperty

rdf: ID="focusesOn"/>

</owl:onProperty>

<owl:hasValue>

<RangeOfFocusesOnProperty

rdf: ID="DevelopingTools"/>

</owl:hasValue>

</owl:Restriction?

</rdfs:subClassOf>

<rdfs:subClassOf

rdf:resource="#EmergingDiscipline"/>

</owl:Class>

<owl:Class

rdf: ID="RangeOfFocusesOnProperty”/>

<owl:ObjectProperty

rdf:about="#focusesOn"

<rdfs:domain

rdf:resourse="#EmergingDiscipline"/>

<rdfs:range

rdf:resource="#RangeOfFocusesOnProperty"/>

</owl:0bject Property>

Помимо непосредственно шаблонов были выделены правила, которые определяют, каким образом и каким словам применять шаблоны. Например, правило “Если сложный предмет состоит из трех и более простых, то нужно применять правило “noun1 + noun2” начиная с конца”.

Рассмотрим более подробно правило “abjective + subject”, в котором введены свойство mainPropertyOfAbstract и класс RangeOfMainPropertyOfAbstract. Данные конструкции введены абсолютно формально, основываясь ишь на неких законах языка, однако данное свойство и класс имеют определенную семантику. Так, определение Abstract характеризует некую особенность предмета Syntax. В данном случае эту особенность можно назвать, например, “степень детализации”.

Если же подходить к анализу данного словосочетания с учетом семантики, то свойство mainPropertyOfAbstract и класс RangeOfMainPropertyOfAbstract назывались бы “имеетСтепеньДетализации” и “СтепеньДетализации” соответственно.

Задача преобразования формальных семантических конструкций в конструкции, привязанные к семантике конкретной предметной области, на данный момент авторами не решена, и, безусловно, актуальна в автоматическом построении онтологии.

Список литературы

1. Berners-Lee T. World Wide Web: Proposal for HyperText Project. 1990. http://www.w3.org/Proposal.html

2. Гадиатулин Р. Оболочка экспертных систем ХG} 1.0: Подход к автоматизированному извлечению онтологий и их применению в компоненте ‘объяснения // Интеллектуальные системы и компьютерные науки: матер. IХ междунар. Конф. (23-27 октября 2006 г., г. Москва). М.: Изд-во МГУ, 2006.

3. Сообщество Semantic Web //http://www.w3.org/2001/sw

4. Домашняя страничка RDF http://www.w3 .org/RDF/

5. Swartz A. Спецификация RSS 3.0 http://www.aaronsw.com/weblog/000574

6. Gruber A translation approach to portable ontology specifications. //Knowledge Acquisition. 1993 Vol.5.

7. Swoogle Semantic Web Search Engine http://swoogle.umbc.edu/

8. Бениаминов Е.М. "Алгебраические методы в теории без данных и представлении знаний". М.: Научный мир, 2003.

9. Терминология товаров и услуг ООH http://www.unspsc.org/.

10. Рабчевский Е.А., Архипов Е.С., Проектирование экспертных систем технической поддержки на основе онтологий // Интеллектуальные системы и компьютерные науки: матер. IХ междунар. конф.(23-27 октября 2006 г., г. Москва). М.: Изд-во МГУ, 2006.

11. RDF Schema 1.0 Язык описания RDF словарей. Рекомендация W3C. http://www.w3.org/TR/rdf-schema/

12. Домашняя страничка http://www.w3.org/2004/OWL/

13. Домашняя страничка Рабочей группы лучшей практики и развертывания Семантического Веба http://www.w3.org/2001/sw/BestPractices/

15. Домашняя страничка сообщества пользователей микроформатов http://microformats.org/

16. Домашняя страничка рабочей группы GRDDL http://www.w3.org/2001/sw/grddl-w

17. Домашняя страничка семейства Расширяемых Языков Таблиц Стилей (XSL) http://www.w3.org/Style/XSL/

18. Marti A. Hearst, Evans Hall, Automatic Acquisition of Hyponyms from Large Text Corpora // Proceedings of the Fourteenth International Conference on Computational Linguistics, Nantes France. 1992.

Lexico-syntactic patterns for automatic ontology building

E.A.Rabchevsky, G.I.Bulatova

Perm State University, 614990, Perm, Bukirev st., 15, evgeny@ranat.ru

In this paper we formulate tasks of Web scale data combining. We give an example for usage Semantic Web technologies for data combining. The results of original investigations for lexico-syntactic pattern that provide a way for of automatic ontology’s building are aplied.