Data mining — Википедия

Содержание

Перспективные направления анализа данных: анализ текстовой информации, интеллектуальный анализ данных. Анализ структурированной информации, хранящейся в базах данных. Процесс анализа текстовых документов. Особенности предварительной обработки данных.

Технологии анализа данных (Text Mining, Data Mining)

Автор: Казьмина Анастасия, 4 курс.

Руководитель: Баяндин Николай Иванович.

Образовательноеучреждение: Федеральное государственное бюджетное учреждение высшего профессионального образования «Московский государственный университет экономики, статистики и информатики (МЭСИ)», г. Москва

Кто владеет информацией — тот владеет миром. В наше время трудно переоценить значение аналитики и мониторинга социальных медиа. Для быстрого и успешного развития бизнеса и эффективного продвижения в интернет, эти этапы просто необходимы.

На сегодняшний день, всё большую популярность приобретают задачи, связанные с получением и накоплением новых знаний путём анализа ранее полученной информации. Возникла необходимость в создании больших хранилищ данных и систем поддержки принятия решений.

Рассмотрим подробнее технологию анализа данных.

Наиболее перспективные направления анализа данных:

· анализ текстовой информации

· интеллектуальный анализ данных

1. Анализ текстовой информации Text Mining

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по определенным правилам, размещение ее в специальных структурах (например, реляционных таблицах) и т.п. Текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как текстовые поля (BLOB-поля). В это же время в тексте скрыто огромное количество информации, но ее неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста (Text Mining).

Определение Text Mining: Обнаружение знаний в тексте — это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных. «Неструктурированные текстовые данные» — набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру (web-страницы, электронная почта, нормативные документы).

Процесс анализа текстовых документов можно представить как последовательность нескольких шагов:

1. Поиск информации. В первую очередь необходимо понять, какие документы нужно подвергнуть анализу плюс обеспечить доступ. Пользователи могут определить набор анализируемых документов самостоятельно — вручную.

2. Предварительная обработка документов. Выполняются необходимые преобразования с документами для представления их в нужном виде. Удаление лишних слов и придание тексту более строгой формы.

3. Извлечение информации. Выделение ключевых понятий для анализа.

4. Применение методов Text Mining.

«data mining» — перевод на русский

Извлекаются шаблоны и отношения, имеющиеся в текстах.

5. Интерпретация результатов. Представлении результатов на естественном языке, или в их визуализации в графическом виде.

Предварительная обработка документа

Приемы удаления неинформативных слов и повышения строгости текстов:

Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа.

Стэмминг — морфологический поиск. Он заключается в преобразовании каждого слова к его нормальной форме.

Л-граммы это альтернатива морфологическому разбору и удалению стоп-слов. Позволяют сделать текст более строгим, не решают проблему уменьшения количества неинформативных слов;

Приведение регистра. Этот прием заключается в преобразовании всех символов к верхнему или нижнему регистру.

Наиболее эффективно совместное применение всех методов.

Задачи Text Mining

Классификация (classification) — определение для каждого документа одной или нескольких заранее заданных категорий, к которым этот документ относится, автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества

Автоматическое аннотирование (summarization) сокращение текста и сохранение его смысла. Результат включает в себя наиболее значимые предложения в тексте.

Извлечения ключевых понятий (feature extraction) — идентификация фактов и отношений в тексте (имена существительные и нарицательные: имена и фамилии людей, названия организаций и др.).

Навигация по тексту (text-base navigation) перемещение по документам по определённым темам и терминам. Это выполняется за счет идентификации ключевых понятий и некоторых отношений между ними.

Анализ трендов позволяет идентифицировать тренды в наборах документов на какой-то период времени.

Поиск ассоциаций. В заданном наборе документов идентифицируются ассоциативные отношения между ключевыми понятиями.

Существует достаточно большое количество разновидностей перечисленных задач, а также методов их решения. Это еще раз подтверждает значимость анализа текстов.

Примерысредстваанализатекстовойинформации:

Средства Oracle — Oracle Text2.

Средства от IBM — Intelligent Miner for Text1

Средства SAS Institute — Text Miner

Интеллектуальный анализ данных Data Mining

Интеллектуальный анализа данных (англ. Data mining, другие варианты перевода — «добыча данных», «раскопка данных») — обнаружение неявных закономерностей в наборах данных.

Интеллектуальный анализ данных может проводиться с помощью программных продуктов следующих классов:

· специализированных «коробочных» программных продуктов для интеллектуального анализа;

· математических пакетов;

· электронных таблиц (и различного рода надстроек над ними);

· средств интегрированных в системы управления базами данных (СУБД);

· других программных продуктов.

Задачиинтеллектуальногоанализаданных:

Задача классификации определение категории и класса каждому объекту.

Задача регрессии — поиск шаблонов для определения числового значения.

Задача прогнозирования новых значений на основании имеющихся значений числовой последовательности. Учитываются тренды.

анализ text data mining

Задача кластеризации — деление множества объектов на группы (кластеры) с похожими параметрами. При этом, в отличие от классификации, число кластеров и их характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров исходя из степени близости объединяемых объектов по совокупности параметров.

Задача определения взаимосвязей — определение часто встречающихся наборов объектов среди множества подобных наборов.

Анализ последовательностей — обнаружение закономерностей в последовательностях событий.

Анализ отклонений — поиск событий, отличающихся от нормы.

По способу решения задачи интеллектуального анализа можно разделить на два класса: обучение с учителем (от англ. supervisedlearning) и обучение без учителя (от англ. unsupervisedlearning). В первом случае требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа данных. Готовая модель тестируется и впоследствии используется для предсказания значений в новых наборах данных. Во втором случае целью является выявление закономерностей имеющихся в существующем наборе данных.

Вывод

Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения. Нужно извлекать максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. А главное, сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами.

Важно предохранить людей от информационной перегрузки, преобразовать оперативные данные в полезную информацию так, чтобы нужные действия могли быть приняты в нужное время.

Список используемой литературы и интернет — ресурсов

1. Л.М. Ермакова Методы классификации текстов и определения качества контента. Вестник пермского университета 2011. УДК 004.912

2. А.А. Барсегян, М.С. Куприянов, В.В.

Степаненко, И.И. Холод: Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP: БХВ-Петербург, 2007

3. http://megaputer.ru/data_mining.

4. http://www.compress.ru/

5. http://www.iteam.ru/

6. http://www.piter.com/

Размещено на stud.wiki

  • Современная технология обработки информационных данных Data Mining

    Совершенствование технологий записи и хранения данных. Специфика современных требований к переработке информационных данных. Концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных в основе современной технологии Data Mining.

    контрольная работа [565,6 K], добавлен 02.09.2010

  • Многомерная и реляционная модель хранилища. Кубы фактов. Схемы «звезда», «снежинка»

    OLAP как автоматизированные технологии сложного (многомерного) анализа данных, Data mining — извлечение данных, интеллектуальный анализ. Виды запросов к многомерной базе данных, их содержание и анализ полученных результатов. Схема «звезда», «снежинка».

    презентация [132,1 K], добавлен 19.08.2013

  • Методы Data Mining

    Описание функциональных возможностей технологии Data Mining как процессов обнаружения неизвестных данных. Изучение систем вывода ассоциативных правил и механизмов нейросетевых алгоритмов. Описание алгоритмов кластеризации и сфер применения Data Mining.

    контрольная работа [208,4 K], добавлен 14.06.2013

  • Анализ данных с помощью технологии Data Mining

    Создание структуры интеллектуального анализа данных. Дерево решений. Характеристики кластера, определение групп объектов или событий. Линейная и логистическая регрессии. Правила ассоциативных решений. Алгоритм Байеса. Анализ с помощью нейронной сети.

    контрольная работа [2,0 M], добавлен 13.06.2014

  • Технологии извлечения знаний из больших баз данных

    Data Mining как процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации). Его закономерности и этапы реализации, история разработки данной технологии, оценка преимуществ и недостатков, возможности.

    эссе [36,8 K], добавлен 17.12.2014

  • Классификация баз данных. Фактографические и документальные базы данных. Базы данных оперативной и ретроспективной информации. Хранилища данных. Соотношение основных требований и свойств систем управления базами данных: система компромиссов

    Формы представляемой информации. Основные типы используемой модели данных. Уровни информационных процессов. Поиск информации и поиск данных. Сетевое хранилище данных. Проблемы разработки и сопровождения хранилищ данных. Технологии обработки данных.

    лекция [15,5 K], добавлен 19.08.2013

  • Data mining

    Data mining, developmental history of data mining and knowledge discovery. Technological elements and methods of data mining. Steps in knowledge discovery. Change and deviation detection. Related disciplines, information retrieval and text extraction.

    доклад [25,3 K], добавлен 16.06.2012

  • Поиск кластеров сообществ Live Journal с помощью методов Data Mining в среде RapidMiner

    Анализ проблем, возникающих при применении методов и алгоритмов кластеризации. Основные алгоритмы разбиения на кластеры. Программа RapidMiner как среда для машинного обучения и анализа данных. Оценка качества кластеризации с помощью методов Data Mining.

    курсовая работа [3,9 M], добавлен 22.10.2012

  • Интеллектуальный анализ данных. Классификация и регрессия

    Классификация задач Data Mining. Задача кластеризации и поиска ассоциативных правил. Определению класса объекта по его свойствам и характеристикам. Нахождение частых зависимостей между объектами или событиями. Оперативно-аналитическая обработка данных.

    контрольная работа [26,1 K], добавлен 13.01.2013

  • Хранилища данных

    Концепции хранилищ данных для анализа и их составляющие: интеграции и согласования данных из различных источников, разделения наборов данных для систем обработки транзакций и поддержки принятия решений. Архитектура баз для хранилищ и витрины данных.

    реферат [1,3 M], добавлен 25.03.2013

  • Априорный алгоритм

    Это метод выбора кандидатов и тестов для частой разработки шаблонов в наборах данных. Есть две вещи, которые вы должны запомнить.

    Принцип обрезки Apriori — Если какой-либо набор предметов нечасто, то его надмножество не должно генерироваться/проверяться.

    Свойство Apriori — Данный является кандидатом , только если все его подмножества являются частыми.

    Теперь, вот алгоритм априори в 4 этапа.

    • Сначала сканируйте базу данных/набор данных один раз, чтобы получить частоту .
    • Создать длину кандидат набор элементов из длины частых наборов элементов.
    • Проверить кандидатов на базу данных/набор данных.
    • Завершить работу, если не может быть создан частый набор кандидатов.

    Решенный пример

    Предположим, что имеется база данных транзакций, следующая с 4 транзакциями, включая их идентификаторы транзакций и купленные с ними предметы. Предположим, что минимальная поддержка — равна .

    Что такое Data Mining?

    Термин «поддержка» — это количество транзакций, в которых присутствует/добавлен определенный набор элементов.

    DB транзакции

    Теперь создайте кандидата по 1-му сканированию БД. Он просто называется набором следующим образом.

    Если мы проверим это с помощью , мы можем видеть, что не удовлетворяет of . Таким образом, он не будет включен в частоту , которую мы просто называем набором следующим образом.

    Теперь сканируйте БД во второй раз и сгенерируйте кандидат , который мы просто вызываем как набор следующим образом.

    Как вы можете видеть, элементы и не удовлетворяют и, следовательно, они не будут включены в частые ,

    Теперь сделаем третье сканирование БД и получим кандидата , следующим образом.

    Вы можете видеть, что , и не удовлетворяют . Поэтому они не будут включены в частые , следующим образом.

    Теперь, наконец, мы можем вычислить значения , и Ассоциации/Корреляционных правил, которые могут быть сгенерированы с помощью набора элементов следующим образом.

    ответ дан Thilina Samiddhi 13 апр. '17 в 8:40

    источникподелиться

    В современном мире вычислительных технологий интеллектуальные системы распространены повсюду — от домашних бытовых приборов — микроволновок, печей и холодильников, до сложных  систем диагностики и жизнеобеспечения в больницах.

    Поисковые системы способных распознавать человеческую речь, тем самым упрощая выполнение запросов;  установленные компьютерные устройства в автомобилях «настраиваются» на стиль вождения и способны прогнозировать\оптимизировать расход топлива; интеллектуальные системы, интегрированные в медицинские приборы, помогают ставить вероятные диагнозы, основываясь на результатах анализов, а томографы уже способны самостоятельно определять размеры поражения тканей, а также дифференцировать характер таких поражений.

    Каким образом устроены все эти удивительные изобретения, значительно упрощающие жизнь человека?! Ответ на этот вопрос заключен в цепи последовательных этапов 1) накопления данных; 2) его анализа; 3) обобщений, оформленных в виде реализаций интеллектуальных систем. И хотя такая схема может показаться значительно упрощенной, поскольку в сложных системах могут быть интегрированы различные области науки и технологии, одной из центральных компонент таких систем являются эмпирические данные и результаты их анализа.

    Методы анализа данных — активно развивающаяся область, задачей которой является их представление, обработка, обнаружение скрытых зависимостей и построение теоретических обобщений.

    Как все это связано с интеллектуальными системами, позволяющими, например, предлагать вероятные диагнозы на основе анализов, или распознавать человеческую речь?

    Если говорить о постановке диагноза, то в общих чертах «интеллектуальная» система выглядит следующим образом: накопленные за годы  медицинской практики данные различных измерений (показатели клинического анализа крови, мочи и т.п.) включают также достоверно установленный диагноз,  т.е. фактически имеют вид (измерения, диагноз1)… (измерения2, диагноз2); Такого рода данные, проведя подробный их анализ, позволяют  выявить какие диагностические измерения ответственны за тот или иной диагноз, и когда появляется новый набор измерений (измеренияX)  и требуется предположить диагноз, такое предположение удается сделать и\или даже дать какой-либо прогноз. Для того, чтобы все это работало, данные должны быть обобщены до уровня моделей, описывающих связи внутри них. Именно это позволяет строить дальнейшие прогнозы и давать количественные оценки.

    Таким образом, построение аналитической (или статистической) модели обнаруженной зависимости, а также оценка ее согласованности с наблюдаемыми данными — представляют важнейшие этапы процесса анализа данных. На этих этапах могут в работу могут включаться самые разнообразные подходы и теоретические представления из различных областей научных знаний.

    В зависимости от конкретной задачи, используемый при анализе данных теоретический аппарат, может быть очень разнообразным.

    Все привыкли использовать среднее значение, и его вычисление уже не вызывает вопросов?! Не вдаваясь в подробности, что мы подразумеваем под средним значением и каким образом к понятию среднего можно прийти наиболее «естественным» путем (ведь «до конца не ясно», зачем нужно именно складывать все числа, а потом результат делить на их количество), обратим внимание на его основную роль — это сжатие данных.

    Data mining

    И это сжатие может быть очень полезным! Например, знание среднего веса мешка картошки, позволяет строить прогноз общего веса их большого числа, когда непосредственное измерение каждого мешка и сложение всех таких результатов представляет весьма трудную задачу. Здесь, безусловно, возникают вопросы о точности такого прогноза, подробный ответ на которые можно дать основываясь на теоретико-вероятностных представлениях и свойствах среднего. Основным является то, что сжатие данных является очень важной компонентой, позволяющей много упростить в решении прикладных задач; и эта компонента тесно связана с анализом данных и построением их моделей.

    В контексте проблемы анализа данных особенно выделяется задача принятия решений и распознавания образов. Примерами задач этого типа  в науке могут быть:

    • построение прогноза структуры растительного покрова на основе модели вероятных климатических изменений (для ее решения может использоваться установленная на основе данных наблюдений статистическая связь между факторами среды и категориями растительного покрова);
    • разработка автоматизированных систем диагностики заболеваний;
    • построения систематических классификаций видов;
    • выявление участков ДНК, ответственных за наличие каких-либо характеристик биологических объектов; и многие другие;

    Среди прикладных задач, наиболее выделяются:

    • маркетинговые исследования (в качестве простейшего примера — прогноз совершения покупки пользователем того или иного товара на основе его поведения и\или запросов);
    • распознавание речи, текста;
    • аутентификация по биометрическим показателям;

    и еще … множество различных задач.

    Большое количество практических задач, а также их предметная специфика определяют многообразие методов, используемых при анализе данных.

    На сегодня объемы данных таковы, что проведение их анализа немыслимо без использования компьютеризированных вычислительных сред. Нередко процесс сбора данных, их обработки  и формирования решения должен быть интегрирован в единую автоматизированную систему. Создание таких систем, предполагает разработку специализированных программ, ориентированных на эффективное решение конкретных задач. Этот аспект в контексте проблем анализа данных, а также всевозможные вычислительные алгоритмы, представляют основную тематику этого информационного ресурса.


    В разделе "Статьи" будут размещаться авторские материалы по вопросам анализа данных и различным аспектам прикладного программирования. Не все материалы связаны исключительно с анализом данных, некоторые – представляют собой некогда показавшиеся мне интересными задачки, или просто, упражнения, которые, чтобы «не забыть» были помещены в этот раздел.


    В разделе "Проекты"  представлены текущие проекты, связанные с вычислениями и разработкой web-приложений. (раздел находится в разработке)


    Добавить комментарий

    Закрыть меню