Обработка слабоструктурированных веб-документов на основе облачных технологий

обработка слабоструктурированных веб-документов на основе облачных технологий Semantic Social Web

Яблонский Сергей Александрович

Санкт-Петербургский государственный университет

кафедра информационных технологий в менеджменте

Высшая школа менеджмента
Санкт-Петербург, Россия

[email protected]

Концепция Semantic Web (SW), предложенная Тимом Бернерс-Ли (Tim Berners-Lee), заключается в организации такого представления информации в сети, чтобы допускалась не только ее визуализация, как это происходит сейчас, но и эффективная автоматическая обработка. В настоящее время происходит все большее осознание важности поставленных в проекте SW задач.

Определены следующие этапы развития WWW:

Web 1.0 – объединение в информационные сети (этап пройден, информация постоянно пополняется);
Web 2.0 – объединение в социальные сети – Social Web;
Web 3.0 – объединение в семантические сети – Semantic Web;
Web 4.0 – Semantic Social Web – такое объединение информационных, социальных и семантических сетей, когда и люди, и компьютеры в сети смогут общаться и получать знания наравне друг с другом (перспектива).

При этом каждый новый этап интегрирует в себя все уже существующие на данный момент подходы и компоненты сети. Очевидно, что Web 3.0 и Web 4.0 основываются на технологиях SW.

Одновременно наблюдается определенный разрыв между современными технологиями обработки текстов на естественных языках (ЕЯ) и веб-документов c целью извлечения информации из них, существующими онтологическими ресурсами SW и уровнем автоматизации обработки слабоструктурированных документов порождаемых технологиями Web 2.0 в Интернете и корпоративных Интранет/Экстранет сетях.

В докладе приводится классификация ресурсов Web 2.0/3.0.

В то время как семантические ресурсы сети, в том числе онтологии, создаются все в больших объемах, гораздо медленнее идет обогащение существующих веб-документов в сети метаинформацией, необходимой для полноценного функционирования технологий SW.

Исследование методов формирования, хранения и обработки метаинформации для широкого класса слабоструктурированных веб-документов становится приоритетной задачей. Поэтому усилия специалистов сосредоточены на создании методов и средств автоматического и/или автоматизированного аннотирования веб-контента под управлением онтологий, причем в рассмотрение вовлекается не только статический веб-контент, представленный в Интернете, но и информация из баз данных и других RDF-источников Интернета (Wikipedia, DBPedia, LOD, WordNet и др.). Данный подход предполагает разработку инструментальных средств конвертирования существующего text/HTML-контента в RDF/OWL-метаданные, а также систем извлечения информации из текстов (Information Extraction – IE-систем) на основе технологий Теxt Mining, Social и Semantic Web.

Таким образом, целью обработки документов в сети становится не просто получение внутреннего представления его смысла, а представление результатов в форматах, удобных для эффективного хранения и извлечения знаний посредством мотивации пользователей сети (Social Web) создавать веб-документы для последующего использования в RDF/OWL-форматах.

Одновременно с развитием технологий Semantic Social Web происходят существенные изменения и в программно-аппаратной платформе Интернета на основе внедрения облачных вычислений (Cloud Computing), которые являются одним из наиболее перспективных инновационных направлений развития сервисных информационных технологий (ИТ).

Облачные сервисы рассматриваются в докладе как основа создания и обработки ресурсов Web 2.0/3.0.

Облачные сервисы (Cloud Services) – это товары, услуги и решения для потребителей и предпринимателей, которые поставляются и потребляются в режиме реального времени через Интернет.

Облачные вычисления (Cloud Computing) – это новая модель разработки, развертывания и доставки облачных сервисов.

Полная онтология облачных вычислений рассмотрена в [Yablonsky S., 2010] и частично приводится в докладе.

Современный этап развития исследований и разработок в области автоматической/автоматизированной обработки веб-документов характеризуется следующим:

для существующих больших и сверхбольших коллекции неструктурированных документов и веб-документов используются известные методы компьютерной обработки текстов на естественном языке для извлечения информации (Information Extraction - IE);
для неструктурированных и появившихся в социальных сетях, блогах, форумах, wiki слабоструктурированных веб-документов разрабатываются специальные методы аннотирования и извлечения информации с использованием онтологий (Ontology Based IE - OBIE).

Для извлечения RDF/OWL-данных из сети, их категоризации, хранения и обработки предложена общая архитектура программных средств на основе Oracle 11g, состоящая из следующих основных компонентов [Yablonsky S., 2009]:

RDF/OWL-хранилище;
подсистема для извлечения RDF/OWL-данных (Tools for information extraction);
подсистема для онтологического инжиниринга (Tools for Ontology Engineering Modeling Process);
подсистема для извлечения знаний на основе SPAROL/SQL-средств поиска и анализа (Knowledge mining, SPAROL/SQL search and analysis tools).

Учитывая большие и сверхбольшие объемы веб-документов из вышеприведенных коллекций, целесообразно перенесение такой системы в облако для использования всех преимуществ облачных вычислений. Описывается архитектура системы извлечения, категоризации, хранения и обработки RDF/OWL-данных на основе облачных сервисов Amazon Web Services (AWS).

Благодарности. Работа выполнена при финансовой поддержке РФФИ (грант РФФИ 10-07-90005).

Список литературы

[Yablonsky S., 2009] Yablonsky S. Semantic Web Framework for Development of Very Large Ontologies // POLIBITS, Issue 39, (January-June 2009), Special issue: Natural Language Processing and Knowledge Management, pp. 19–26.

[Yablonsky S., 2010] Yablonsky S.A. Cloud Service Innovation Ontology Development. – XXI ISPIM Conference - The Dynamics of Innovation - Bilbao, Spain, 6– 9 June 2010.

Санкт-Петербургский государственный университет

кафедра информационных технологий в менеджменте

Высшая школа менеджмента Санкт-Петербург, Россия

Высшая школа менеджмента
Санкт-Петербург, Россия