Flatik.ru

Перейти на главную страницу

Поиск по ключевым словам:

страница 1
АНАЛИЗ МЕТОДОВ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ТЕКСТОВ

В настоящее время можно выделить два принципиально разных подхода к классификации текстов:



  • экспертный подход – правила отнесения документа к рубрике задаются экспертами;

  • подход, основанный на какой-либо математической модели.

Основное преимущество экспертного подхода состоит в очень высоком качестве классификации. Но при большом количестве информации данный метод перестает быть эффективным. Поэтому возникает необходимость в применении автоматической классификации документов.

В ходе изучения и анализа работ[дисс_агеев, абмс], я пришел к выводу о том, что для автоматической рубрикации документов применяется четыре основных подхода:



  • нейросетевой;

  • статистический;

  • векторный;

  • деревья решений.

  1. Нейронные сети.

  2. Статистический подход.

  3. Векторный подход.

Данный подход заключается в преобразовании документов в вектора. Координатами векторов являются веса термов. Согласно [дисс_агеев], вес терма вычисляется по следующей формуле:

(номер)

где - вес i-го слова, - частота встречаемости i-го слова в данном документе (term frequency), - логарифм отношения количества всех документов в коллекции к количеству документов, в которых встречается i-ое слово (inverse document frequency).

Кроме того, в [дисс_агеев] обоснован такой выбор формулы следующим образом:


  • множитель учитывает следующий факт: что чем чаще встречается слово в документе, тем оно важнее;

  • множитель учитывает следующий факт: если слово встречается в большей части документов, то оно не является существенным критерием принадлежности документа рубрике и его вес следует понизить;

  • для учета различной длины текстов в документах, веса слов нормализуются.

В данном подходе можно выделить два метода автоматической классификации:

  • метод k-ближайших соседей (k-nearest neighbors, k-NN);

  • классификатор Роше (Rocchio classifier).

При использовании метода k-ближайших соседей, каждый документ d сравнивается со всеми документами из обучающей выборки (в какой части написать, что это такое?). Согласно [дисс_агеев], для каждого документа e из обучающей выборки находится расстояние до документа d как косинус угла между векторами признаков:

(номер)

После вычисления расстояний, из обучающей выборки выбираются k документов, ближайших к документу d. В [дисс_агеев] значение параметра k предлагается выбирать в интервале от 1 до 100. В работе же [кт_лиф] значение параметра k предлагается выбирать в интервале от 20 до 50.

Далее для каждой рубрики вычисляется количество документов из k документов, отобранных на предыдущем шаге [дисс_агеев]:

(формула)

Рубрика, у которой величина s больше, чем у других, будет приписана документу d.

В работах [tj_tc] и [80] приводятся хорошие показатели данного метода. Однако в работе [ila_sd] приводятся результаты, которые хуже, чем у статистических методов и деревьев решений.

В [дисс_агеев] говорится о том, что данный метод требует больших вычислительных затрат на этапе рубрикации. Классификатор Роше – еще один из способов автоматической классификации текстов, основанный на векторном представлении документа. В нем используется профайл для каждой из категорий. Согласно [кт_лиф], профайл – это список термов, наличие или отсутствие которых наиболее хорошо отличают категорию от других категорий. Таким образом, новый документ сравнивается не с каждым документом из обучающей выборки, а с профайлом каждой категории. Профайл для категории рассчитывается по следующей формуле [кт_лиф]:



(номер)

где ….


Преимущество данного метода состоит в том, что, при необходимости, можно быстро пересчитать профайлы для категорий. В [tj_tc] показано, что качество классификации данного метода немного хуже, чем у k-ближайших соседей.

В ходе переписки с Михаилом Сергеевичем Агеевым, был выявлен тот факт, что для рубрикации текстов небольшой длины (например, текст объявления) может не хватить стандартного векторного представления по словам и придется учитывать какую-либо специфику: расширение по синонимам или учет контекст появления текста. Это может существенно усложнить реализацию поставленной задачи.

Анализ методов автоматической классификации текстов

В настоящее время можно выделить два принципиально разных подхода к классификации текстов

31.31kb.

08 10 2014
1 стр.


Метод автоматической экстракции новых терминов из текстов по физике магнитных явлений

В системах автоматического построения тематических коллекций текстов важнейшее значение имеет механизм, обеспечивающий расширение системы за счет автоматизированного поиска новых т

31.5kb.

04 09 2014
1 стр.


8. Краткая классификация методов npr

В последние годы область npr развивалась очень интенсивно, возникло множество методов, которые могут применяться в самых различных областях. Можно выделить два основных критерия кл

65.82kb.

10 10 2014
1 стр.


Разработка методов классификации и поиска в коллекциях графических документов и создание информационной системы

Целью данной работы является разработка методов классификации и поиска графической информации и создание информационной системы, позволяющей создавать, управлять и анализировать ко

104.52kb.

26 09 2014
1 стр.


Элементы общей теории навигации

Физические основы и классификации радиотехнических методов и средств навигации 38

34.16kb.

02 10 2014
1 стр.


Вега – компьютерная система классификации и анализа текстов

Обсуждаются особенности анализа текстовой информации, основанной на контент-анали­тическом сравнении фраз. Рассматриваются возможности системы и некоторые особенности ее функционир

146.91kb.

14 12 2014
1 стр.


Сборник текстов для домашнего чтения составители: соловьева т. И

Упражнения, предлагаемые после текстов, позволяют организовывать последовательную работу над лексикой, обеспечить контроль понимания текста и дальнейшее развитие умений говорения н

172.74kb.

01 10 2014
1 стр.


Анализ отдельно взятых отраслей на период с 1993 по 1998год

Целью этой курсовой работы является изучение и анализ проблем и методов их решений в России за период 1993 по 2002 годы

254.25kb.

09 10 2014
1 стр.