Перейти на главную страницу
Карта местности – это информационная графика, как и любой чертеж и схема метрополитена, а вот та же схема с обозначением объема пассажиропотока или карта мира с обозначенной для каждой страны или региона численностью населения – это еще и статистическая графика. Именно «статистическая графика», то есть изображения, являющиеся формой представления результатов анализа неких чисел, является предметом данной статьи. В качестве синонима статистической графики в работе будет также применяться и термин «диаграмма». Подробный обзор типологии видов информационной графики, основных функций, принципов формирования и применения можно найти, например, в работе [1].
При взгляде на хорошую информационную графику, созданную в любой исторический период, всегда понятно, зачем она создана, а хорошая статистическая графика, помимо этого, всегда отвечает на вопрос: в сравнении с чем? Иными словами, если в информационной графике имеются цифры, должно быть понятно, что с чем сравнивается и с какой целью [2, 3]. Эти традиционные вопросы остались актуальными и в XX, и в XXI веках, но новое время в силу неуёмного технического прогресса наложило свой отпечаток на развитие информационной и в частности статистической графики и поставило перед ее разработчиками новые вопросы.
Использование формата и структуры информации в качестве единственных метаданных для построения графических представлений привело к тому, что на основании одного и того же набора данных можно построить десятки типов диаграмм, хотя совершенно очевидно, что все они не могут быть одинаково эффективными в качестве средства коммуникации в каждом конкретном случае (порой они бывают совершенно неадекватными): круговая диаграмма не показывает динамику, обычная столбчатая не показывает структуру данных, лепестковая диаграмма бесполезна, если имеется всего один ряд данных, а если на графике всего 3 - 5 позиций, то лучше представить их в форме таблицы.
Компьютеры не обязаны задумываться над смыслом производимых действий, они не умеют этого делать и не для этого предназначены, но проблема не в этом. Проблема в том, что и люди привыкли создавать графику, в том числе для научных отчетов и статей, без учета контекста решаемой задачи. В результате часто получаются картинки, годные разве что для забивания места на слайдах презентаций (см. рРис. 1), а не для облегчения восприятия информации, для чего графика, вообще-то, в первую очередь и предназначена.
Рис. 1. Два примера плохих диаграмм: практически нулевая информативность (вверху) и сравнение того, что нельзя сравнивать (внизу)
Рис. 2. Основные и дополнительные цвета при преобразовании к шкале серого средствами Microsoft Word 2007
Считается, что одним из первых изображений информационной графики, размещенным в средствах массовой информации, была карта залива около города Кадиз в Испании с отображенным на ней ходом попытки оккупации британскими войсками. Карта была напечатана в английской газете «Daily Courant» в 1702 г. [8].
Сегодня графика вышла на массовый рынок, ее потребителями перестали быть только ученые. К сожалению, это также означает, что и ее создателями перестали быть только ученые, а остальные люди еще менее щепетильны в вопросах выбора шкал, нормирования и адекватности сравнения нескольких числовых рядов [9]. Даже слово «инфографика» перестало быть лишь сокращением от «информационной графики» и стало обозначать нечто особенное – выдержанное в весьма свободном стиле, часто лишенное научной строгости изображение с цифрами, рассчитанное на донесение неких фактов до массовой аудитории (картинки с поясняющими комментариями, способные заменить несколько страниц текста). Такая инфографика расцвела бурным цветом в конце 80-х – начале 90-х годов прошлого века в западных газетах и журналах («Daily Courant», «USA Today», «Esquire», «New Yorker» и др.), хотя образчики ее можно было найти и в «Правде» того же времени (см. р), и трансформировалась сегодня в гигантские цветные полотнища с цифрами на телевидении, на рекламных стендах, на персональных и корпоративных страницах в Интернете (причем, разумеется, эти полотнища бывают как удачными с точки зрения представления информации, так и неудачными во всех смыслах).
Рис. 3. Инфографика из номера газеты «Правда» от 24 мая 1982 г. [10]
Рис. 4. Инфографика с веб-сайта: продукты и доходы Google [11]
Рис. 5. Инфографика в рекламных целях [12]
Помимо цели доступного представления данных, эта «инфографика» преследует еще две:
С фундаментальными проблемами представления невозможно справиться, меняя цвета диаграммы, ее макет, перемещая или удаляя легенду, преобразуя изображение к объемному виду (3D) или действуя каким-либо другим образом, но в той же манере.
Скажем, классическая столбчатая диаграмма, как ее ни раскрашивай, не будет раскрывать структуру данных. Но если структуру показывать необходимо, можно воспользоваться «столбчатой диаграммой с накоплением» (Рис. 6).
Рис. 6. Пример столбчатой диаграммы с накоплением, с которой, помимо прочего, удалено все лишнее
Если единичные элементы данных плохо организуются в группы (по смыслу), или цель исследования не предполагает подобной группировки, или диаграмму просто хочется сделать еще более информативной, то сами элементы данных можно использовать в качестве строительных блоков для столбцов.
На Рис. 7 приводятся результаты опроса, который автор данной работы вместе с коллегами проводил в 2011 году. Целью опроса было выяснить, люди каких возрастов играют в компьютерные игры онлайн, в какие именно игры и по сколько часов в неделю. Преимуществом данной формы представления является то, что на ней видны все результаты опроса, включая кол-во отозвавшихся на призыв респондентов, точный возраст каждого из них, кол-во играющих от общего числа опрошенных, конкретные игры и кол-во часов, проводимое за игрой каждым респондентом. Иными словами, данная графическая форма представления данных является многомерной (многомерность вообще является одним из критериев хорошо проработанной статистической графики; в частности, обычно хороший результат дает отображение динамики одновременно в пространстве и во времени, конечно, когда природа данных это позволяет). Разумеется, если бы результатов было значительно больше (было бы больше респондентов), пришлось бы разрабатывать другую форму. В данном же случае легко на глаз определить соотношение играющих и неиграющих респондентов, в то время как отображение соотношения играющих ко всем респондентами в виде чисел дополнительно ничего бы не дало.
Рис. 7. Пример построения столбчатой диаграммы на основе результатов опроса (песочные часы с цифрами обозначают количество часов в неделю, проводимое за играми)
где - количество «чернил», потраченное целевым образом, то есть на отображение данных и необходимой сопутствующей информации (Эдвард Тафти называет эти «чернила» – «Data Ink» [3]),
- количество «чернил», потраченных на все остальное, а
- общее количество «чернил», затраченных на изображение.
Разумеется, понятие «чернил», применимо только для изображений, нарисованных вручную (технически оно также применимо к изображениям, распечатанным на струйных принтерах, но когда они напечатаны – их сложно анализировать). Поскольку большинство изображений информационной графики сегодня создается посредством компьютера, представляется логичным анализировать их в цифровом виде и использовать в качестве единицы измерения «зарисованной» площади пиксели или единицы измерения длины. Кроме того, бумага, ранее используемая для создания изображений вручную, зачастую была белой и все, что дополнительно на ней появлялось, было чернилами. В случае же с редактированием цифровых изображений часто имеет место цвет фона, отличный от белого, и его имеет смысл отфильтровывать, перед проведением вычислений.
Третья фундаментальная проблема, имеющая место с некоторыми образчиками графического представления числовых данных – это «диаграммная ложь», «диаграммная полуправда» или просто искажение данных в одной или нескольких формах кодирования. Форма кодирования информации в данном случае – способ передачи информации в изображении. Сами числовые данные в виде цифр – это форма кодирования, каковой является также и площадь сектора на круговой диаграмме или высота столбца – на столбчатой. Также формами кодирования могут быть цвета, уровни размещения по вертикали элементов данных, размеры шрифтов и многое другое. При создании информационной графики обычно используют сразу несколько форм кодирования. Искажение данных проявляется в том, что одна из форм сообщает информацию, отличающуюся от сообщаемой другими.
Рассмотрим еще раз р и проанализируем величины, изображенные на нем (первая форма кодирования), соотношение между ними, а также соотношение диаметров кругов, которые им сопоставлены (вторая форма кодирования). Соответствующие сведения представлены в тТаблица 1.
Таблица 1.
Анализ инфографики из газеты «Правда»
№ позиции |
1 |
2 |
3 |
4 |
5 |
Числовое значение |
1 |
24 |
279 |
514 |
537 |
Диаметр соответствующего круга (мм, при размере изображения 275 на 158 мм) |
22 |
33 |
49 |
64 |
76 |
где – размер эффекта, показанного в графике, а
– размер эффекта, отраженного в цифрах (на том же изображении или в других формах представления, например, в таблицах, в том же источнике). При этом размер эффекта (E) рассчитывается следующим образом:
где и
– это либо максимальное и минимальное значения величин в отображаемом наборе чисел (для случая
), либо (для случая
) максимум и минимум некой меры графического элемента, представляющего эти числа на изображении, при этом характер меры зависит от конкретного представления и формы кодирования (диаметр или площадь круга, диагональ прямоугольника, высота столбца, размер шрифта и т. д.)
Размер эффекта, показанный в данных на изображении выше, вычислим следующим образом:
,
а размер эффекта, показанный с помощью графики, составляет
В данном случае мера правдивости составляет . На указанной диаграмме верно показано лишь направление изменений.
Недалеко ушла в отношении «правдивости» и инфографика в нижней части Рис. 5. Топливо «Evolution», согласно изображению в верхней части того же рисунка и информации с сайта его производителя, не обязательно превосходит «98-ой бензин» октановым числом, как можно было бы подумать, глядя на размещение кругов, соответствующих элементам данных, и вряд ли дает такой прирост размера эффекта, какой показан за счет площадей этих кругов (что бы под этим эффектом ни подразумевалось). Впрочем, от инфографики, применяемой в рекламных целях, было бы наивно ожидать абсолютной искренности.
Если «диаграммная ложь» присутствует, то чаще всего лжет либо графическое представление, либо и цифровое, и графическое представления вместе. Если графика отражает истину, а цифры – нет, то возникает вопрос: как графика получена? Последний из представленных примеров относится, скорее, к категории курьезов, но в общем случае «диаграммная ложь» опасна тем, как она воспринимается. По определению человек понимает нарисованное лучше, чем то же самое, но в виде цифр, если цифр много. В случае, когда разные формы кодирования на изображении несут разную информацию, подсознательно или интуитивно человек ухватит графическую информацию быстрее, и в памяти она останется значительно дольше, чем цифры, иными словами, ложь в сознании будет превалировать над правдой.
Как было показано выше, изображение, отражающее числовую информацию, может быть количественно оценено с точки зрения доли диаграммного мусора и меры правдивости (можно предложить и другие критерии, например, соотношение количества числовых рядов, представленных на изображении, к количеству шкал). Действительно, автором данной работы была создана несложная программа для выполнения таких оценок, а кроме того, они могут быть выполнены в одном из популярных профессиональных редакторов изображений, например, в Adobe Photoshop (разумеется, при наличии навыка и данного программного обеспечения, приобретенного законным образом). Однако если с мерой правдивости все довольно просто, то процедура оценки с точки зрения доли диаграммного мусора формальна лишь на стадии вычислений, но не на стадии, их предваряющей, то есть во время определения того, что именно является мусором, а что – нет.
Еще сложнее дело обстоит с информативностью графики: как оценить ее количественно? А как быть с такими откровенно плохими приемами, как отражение на рисунке одномерных данных в виде двух или трехмерных элементов, использование неравномерного шкалирования, смещение точки отсчета с целью показать несуществующие тренды и зависимости? Такие вещи можно оценить лишь экспертным путем, возможно, посредством тестов с соответствующими вопросами, задаваемыми нескольким экспертам относительно одного или нескольких изображений. В конце концов, каким образом разрозненные показатели, как количественные, так и качественные собрать в некую единую методику?
Возможно, здесь будет полезен подход, используемый при проверке метрик качества изображений. В данном случае метрика качества – это оценка вычислительными средствами какого-либо файла цифрового изображения на предмет наличия и степени визуальных артефактов и искажений, это попытка без помощи человека поставить изображению диагноз, который человек выражает в форме «хорошее» / «удовлетворительное» / «плохое». Здесь речь идет о технической оценке – сюжет, изображенный на рисунке, никакого значения не имеет. Проблема в том, что в идеале метрика должна максимально коррелировать с оценками пользователей, которые увидят изображение, а последняя оценка является качественной, экспертной. То есть, как и в нашем случае, необходимо получить количественную оценку того, что обычно оценивается исключительно качественно.
Для тестирования и сравнения метрик качества изображений исследователями-энтузиастами было составлено несколько баз данных файлов (например, LIVE [13], TID2008 [14] и т. д.), которые можно бесплатно скачать в Интернете. В частности, база TID2008 состоит из 25 оригинальных изображений и 1700 искаженных (25 оригинальных изображений × 17-искажений × 4 уровня искажения). В TID2008 также входит информация о средней оценке каждого изображения наблюдателями по шкале от 0 до 9. Имея в распоряжении такой статичный набор файлов, можно определять степень корреляции между оценками изображений по метрике (в частности, новой, разработанной вами), и оценками, выданными наблюдателями. Также можно сравнивать между собой сами метрики, например, какая из них в большей степени коррелирует с пользовательскими оценками на подмножестве изображений со специфическими видами или степенью искажений [15].
Со статистической графикой дело обстоит несколько сложнее: речь идет о семантике, контексте, о передаче информации, сюжета, сложных идей. В данном случае достаточно трудно получить даже некие усредненные качественные оценки изображений на основе мнений наблюдателей. Вероятно, для получения таких оценок следует ориентироваться не на одностороннее мнение наблюдателей о том, что они видят, а на сопоставление мнений об изображении его создателя (какую именно информацию, факт, идею он хотел передать, что является главным?) и зрителей (что именно они поняли из изображения, на что обратили внимание?). Как и в случае с технической оценкой изображений, необходимо создать статичную базу файлов, на которой исследователи смогут «обкатывать» свои методики оценки диаграмм.
Автор данной работы не настаивает на том, что такая методика должна быть утверждена на государственном или отраслевом уровнях или в виде корпоративных стандартов, неукоснительно применяться к каждому изображению, на котором есть хотя бы одна цифра, а изображения, не прошедшие некий порог, установленный методикой, должны безжалостно уничтожаться и никогда не находить дороги к наблюдателю. Разработка изображений, представляющих численную информацию, или графическое моделирование – процесс во многом творческий, его невозможно уложить в ограниченный набор канонов. Однако проведение исследований в указанном направлении и их популяризация представляют большой научный (и художественный) интерес. Они позволили бы высвободить авторов из плена графических шаблонов, а потребителей этих шаблонных изображений освободить из тенёт непонимания того, что они видят, и дать им надежду на что-то более внятное. В перспективе такие исследования могли бы привести к модернизации производителями популярных пакетов обработки данных и к появлению нового программного обеспечения, построенного на базе новых концепций. Иными словами, исследования в данной области могли бы стимулировать развитие графической культуры и практики, которые можно было бы передавать через преподавание свежим поколениям ученых. Сегодня, чтобы удалить весь мусор с диаграммы, созданной в Microsoft Excel, иногда приходится потратить значительное время, а чтобы получить забитую им диаграмму, не нужно делать практически ничего.
2. Tufte E. R. Beautiful Evidence. – Graphics Press LLC, 1997.
3. Tufte E. R. The Visual Display of Quantitative Information. – Graphics Press LLC, 2001.
4. Report of the Presidential Commission on the Space Shuttle Challenger Accident [Электронный ресурс] : Kennedy Space Center. – Электрон. дан. – 1986. – Режим доступа : https://science.ksc.nasa.gov/shuttle/missions/51-l/docs/rogers-commission/table-of-contents.html, свободный. – Загл. с экрана. – Яз. англ.
5. Tufte Edward R. Visual Explanations. Images and Quantities, Evidence and Narrative / Edward F. Tufte. – Cheshire, Connecticut: Graphics Press LLC, 1997.
6. Иллюзии глубины [Электронный ресурс] : МГУ им. М. В. Ломоносова. – Электрон. дан. – 2003. – Режим доступа : https://www.psy.msu.ru/illusion/depth.html, свободный. – Загл. с экрана. – Яз. рус.
7. Леонардо да Винчи. Избранные произведения : в 2 т. / пер. А. А. Губера, В. П. Зубова, В. К. Шилейко, А. М. Эфроса ; под ред. А. К. Дживелегова, А. М. Эфроса – М. : Изд-во Студии Артемия Лебедева, 2010.
8. Myers S. A Quantitative Content Analysis of Errors and Inaccuracies in Missouri Newspaper Information Graphics [Электронный ресурс] : University of Missouri-Columbia. – Электрон. дан. – 2009. – Режим доступа : https://mospace.umsystem.edu/xmlui/bitstream/handle/10355/6570/research.pdf?sequence=3, свободный. – Загл. с экрана. – Яз. англ.
9. Артюхин В. В. Реальность 2.0b. Современная история информационного общества / В. В. Артюхин. – М. : 2011.
10. Рост продукции промышленности : Газета «Правда» от 24 мая 1982 г. – 1982.
11. Smarter Marketing to Smartphone Users [Электронный ресурс] : infographicworld.com – Электрон. дан. – 2003. – Режим доступа : https://infographicworld.com/wp-content/uploads/2011/02/GoogleMobile3D.jpg, свободный. – Загл. с экрана. – Яз. англ.
12. Топливо будущего [Электронный ресурс] : Нефтьмагистраль – Электрон. дан. – 2012. – Режим доступа : https://www.neftm.ru/, свободный. – Загл. с экрана. – Яз. рус.
13. LIVE Image Quality Assessment Database [Электронный ресурс] : Laboratory for Image & Video Engineering. – Электрон. дан. – 2012. – Режим доступа : https://live.ece.utexas.edu/research/quality/subjective.htm, свободный. – Загл. с экрана. – Яз. англ.
14. TAMPERE IMAGE DATABASE 2008 TID2008, version 1.0 [Электронный ресурс] – Электрон. дан. – 2010. – Режим доступа : https://www.ponomarenko.info/tid2008.htm, свободный. – Загл. с экрана. – Яз. англ.
Об актуальности задачи оценки качества изображений статистической графики и подходе к разработке соответствующей методики
11 10 2014
1 стр.
Валерий атанасов велчев – кандидат за „административен ръководител” на апелативна прокуратура пловдив
15 12 2014
1 стр.
11 10 2014
24 стр.
14 09 2014
1 стр.
14 09 2014
1 стр.
09 10 2014
1 стр.
10 10 2014
24 стр.
11 09 2014
6 стр.