Flatik.ru

Перейти на главную страницу

Поиск по ключевым словам:

страница 1
обработка слабоструктурированных веб-документов на основе облачных технологий Semantic Social Web

Яблонский Сергей Александрович

Санкт-Петербургский государственный университет

кафедра информационных технологий в менеджменте

Высшая школа менеджмента
Санкт-Петербург, Россия


[email protected]

Концепция Semantic Web (SW), предложенная Тимом Бернерс-Ли (Tim Berners-Lee), заключается в организации такого представления информации в сети, чтобы допускалась не только ее визуализация, как это происходит сейчас, но и эффективная автоматическая обработка. В настоящее время происходит все большее осознание важности поставленных в проекте SW задач.

Определены следующие этапы развития WWW:


  • Web 1.0 – объединение в информационные сети (этап пройден, информация постоянно пополняется);

  • Web 2.0 – объединение в социальные сети – Social Web;

  • Web 3.0 – объединение в семантические сети – Semantic Web;

  • Web 4.0 – Semantic Social Web – такое объединение информационных, социальных и семантических сетей, когда и люди, и компьютеры в сети смогут общаться и получать знания наравне друг с другом (перспектива).

При этом каждый новый этап интегрирует в себя все уже существующие на данный момент подходы и компоненты сети. Очевидно, что Web 3.0 и Web 4.0 основываются на технологиях SW.

Одновременно наблюдается определенный разрыв между современными технологиями обработки текстов на естественных языках (ЕЯ) и веб-документов c целью извлечения информации из них, существующими онтологическими ресурсами SW и уровнем автоматизации обработки слабоструктурированных документов порождаемых технологиями Web 2.0 в Интернете и корпоративных Интранет/Экстранет сетях.

В докладе приводится классификация ресурсов Web 2.0/3.0.

В то время как семантические ресурсы сети, в том числе онтологии, создаются все в больших объемах, гораздо медленнее идет обогащение существующих веб-документов в сети метаинформацией, необходимой для полноценного функционирования технологий SW.

Исследование методов формирования, хранения и обработки метаинформации для широкого класса слабоструктурированных веб-документов становится приоритетной задачей. Поэтому усилия специалистов сосредоточены на создании методов и средств автоматического и/или автоматизированного аннотирования веб-контента под управлением онтологий, причем в рассмотрение вовлекается не только статический веб-контент, представленный в Интернете, но и информация из баз данных и других RDF-источников Интернета (Wikipedia, DBPedia, LOD, WordNet и др.). Данный подход предполагает разработку инструментальных средств конвертирования существующего text/HTML-контента в RDF/OWL-метаданные, а также систем извлечения информации из текстов (Information Extraction – IE-систем) на основе технологий Теxt Mining, Social и Semantic Web.

Таким образом, целью обработки документов в сети становится не просто получение внутреннего представления его смысла, а представление результатов в форматах, удобных для эффективного хранения и извлечения знаний посредством мотивации пользователей сети (Social Web) создавать веб-документы для последующего использования в RDF/OWL-форматах.

Одновременно с развитием технологий Semantic Social Web происходят существенные изменения и в программно-аппаратной платформе Интернета на основе внедрения облачных вычислений (Cloud Computing), которые являются одним из наиболее перспективных инновационных направлений развития сервисных информационных технологий (ИТ).

Облачные сервисы рассматриваются в докладе как основа создания и обработки ресурсов Web 2.0/3.0.

Облачные сервисы (Cloud Services) – это товары, услуги и решения для потребителей и предпринимателей, которые поставляются и потребляются в режиме реального времени через Интернет.

Облачные вычисления (Cloud Computing) – это новая модель разработки, развертывания и доставки облачных сервисов.

Полная онтология облачных вычислений рассмотрена в [Yablonsky S., 2010] и частично приводится в докладе.

Современный этап развития исследований и разработок в области автоматической/автоматизированной обработки веб-документов характеризуется следующим:



  • для существующих больших и сверхбольших коллекции неструктурированных документов и веб-документов используются известные методы компьютерной обработки текстов на естественном языке для извлечения информации (Information Extraction - IE);

  • для неструктурированных и появившихся в социальных сетях, блогах, форумах, wiki слабоструктурированных веб-документов разрабатываются специальные методы аннотирования и извлечения информации с использованием онтологий (Ontology Based IE - OBIE).

Для извлечения RDF/OWL-данных из сети, их категоризации, хранения и обработки предложена общая архитектура программных средств на основе Oracle 11g, состоящая из следующих основных компонентов [Yablonsky S., 2009]:

  • RDF/OWL-хранилище;

  • подсистема для извлечения RDF/OWL-данных (Tools for information extraction);

  • подсистема для онтологического инжиниринга (Tools for Ontology Engineering Modeling Process);

  • подсистема для извлечения знаний на основе SPAROL/SQL-средств поиска и анализа (Knowledge mining, SPAROL/SQL search and analysis tools).

Учитывая большие и сверхбольшие объемы веб-документов из вышеприведенных коллекций, целесообразно перенесение такой системы в облако для использования всех преимуществ облачных вычислений. Описывается архитектура системы извлечения, категоризации, хранения и обработки RDF/OWL-данных на основе облачных сервисов Amazon Web Services (AWS).

Благодарности. Работа выполнена при финансовой поддержке РФФИ (грант РФФИ 10-07-90005).

Список литературы

[Yablonsky S., 2009] Yablonsky S. Semantic Web Framework for Development of Very Large Ontologies // POLIBITS, Issue 39, (January-June 2009), Special issue: Natural Language Processing and Knowledge Management, pp. 19–26.

[Yablonsky S., 2010] Yablonsky S.A. Cloud Service Innovation Ontology Development. – XXI ISPIM Conference - The Dynamics of Innovation - Bilbao, Spain, 6– 9 June 2010.

Обработка слабоструктурированных веб-документов на основе облачных технологий

Ли (Tim Berners-Lee), заключается в организации такого представления информации в сети, чтобы допускалась не только ее визуализация, как это происходит сейчас, но и эффективная авт

51.09kb.

13 10 2014
1 стр.


Компьютерные технологии доу

Эд – информационная система, представляющая совокупность документов и функциональных задач, прохождение этих документов на основе использования информационных технологий на всех эт

211.28kb.

12 09 2014
1 стр.


Ит-образованиЕ: от Веб-технологий к Web science
47.46kb.

14 10 2014
1 стр.


Информационные системы при оценке педагогических технологий обучающимися О. Н. Уткина

И если раньше эти условия базировались на основе жизненного опыта ученых-педагогов, то сегодня считаем возможным алгоритмизировать процедуру формирования оптимальных условий исполь

66.05kb.

01 10 2014
1 стр.


Практическая работа. Форматирование текста на Веб-странице

Для того, чтобы отформатировать текст, который будет располагаться на вашей веб-странице, необходимо воспользоваться следующими тегами

73.08kb.

10 10 2014
1 стр.


Создание и обработка кривых

Применение: создавать объекты на основе кривых, используя различные виды инструментов графического редактора Corel Draw

113.81kb.

08 10 2014
1 стр.


Какой браузер лучше?

Браузер- программное обеспечение для просмотра веб-сайтов, то есть для запроса веб-страниц (преимущественно из Сети), их обработки, вывода и перехода от одной страницы к другой

45.04kb.

15 09 2014
1 стр.


Платформа интеграции и композиции saas-приложений

Веб, делает возможным композицию отдельных приложений — создание на их основе новых сервисов, обладающих новым функционалом. В данном докладе рассмотрен проект по разработке систем

33.7kb.

27 09 2014
1 стр.