Главная > Физика > Электромагнитное поле. Часть 1. Электричество и магнетизм
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

§ 82. ЭКСКУРС В ТЕОРИЮ ИНФОРМАЦИИ. ПОТОК ИНФОРМАЦИИ

Вернемся к определению информации сигнала. Если бы его величина была задана абсолютно точно, это привело бы к бесконечной информации (81.5). Реальная ситуация, на которую как раз и рассчитана теория информации, предполагает конечную точность, связанную с ошибками регистрации или помехами. Пусть мы по-прежнему работаем с дискретными сигналами в двоичном коде («телеграф»), а длительность импульса, соответствующего одному знаку (0 и 1), есть т. Тогда за время Т можно передать импульсов. Поскольку один импульс несет 1 бит информации, то за время Т можно передать информацию

Здесь — полоса частот, пропускаемых линией связи. Таким образом, поток информации в битах есть Для более, сложного языка, в котором каждый разряд имеет возможных состояний (например, амплитуда передаваемых импульсов может принимать возможных значений), очевидно, что . Казалось бы, можно повышать поток информации, увеличивая т. е. уменьшая разность соседних значений амплитуд импульсов . Однако в системе связи всегда присутствуют помехи — шумы, амплитуда которых и определяет минимально допустимое значение

Выше мы уже говорили, что шумовые (стохастические) сигналы характеризуются мощностью. Соответственно, — среднеквадратичная амплитуда. Максимально допустимое значение определяется максимальной амплитудой (мощностью) передаваемого сигнала и уровнем помех (шума):

где — мощность максимального уровня сигнала и шума. Соответственно поток информации описывается формулой

полученной Шенноном в 1949 г. и носящей его имя. Она является, по существу, основой теории информации.

Теперь обсудим вопрос о потоке информации в непрерывных сигналах. Согласно теореме Котельникова сигнал, передаваемый в пойосе частот может быть однозначно восстановлен с помощью дискретных измерений уровня сигнала в моменты (см. 81.2)). Если сигнал ограничен во времени то, очевидно, Таким образом, непрерывный сигнал длительностью Т, передаваемый в полосе частот эквивалентен набору импульсов с амплитудами Содержащаяся в них информация (в битах) есть

что для потока информации дает ту же формулу Шеннона (82.3).

К формуле Шеннона можно прийти и несколько иначе, основываясь на выражении (81.5) для информации. Пусть -суммарная помеха (шум). Тогда информация одного значения сигнала имеет порядок Уточним это выражение для случая, когда и шум, и суммарный сигнал распределены по гауссовому закону:

где так как сигнал и шум считаются статистически независимыми. Поскольку описывает начальное состояние системы (сигнал не фиксирован), а - конечное (сигнал фиксирован), информация на одно значение сигнала

Передача сигнала соответствует согласно (81.1) передаче чисел в единицу времени, причем каждое из них несет информацию (82.6). Поэтому общий поток информации в сигнале

что совпадает с (82.3).

Частный случай формулы Шеннона получен также Винером Любопытно, что общее доказательство Шеннона содержало две грубых, но взаимоисключающих ошибки, так что в конце концов результат оказался правильным. Последнее не удивительно, поскольку Шеннон наверняка знал ответ заранее из рассмотрения частных случаев. Заметим, что поток информации (82.3), (82.7) не

зависит от закона распределения сигнала и шума (82.5) и определяется только их средней мощностью.

Из основного закона (82.3) вытекает ряд интересных следствий. Прежде всего видно, что передача информации возможна даже тогда, когда мощность шума намного превышает мощность сигнала, при этом уменьшается лишь скорость передачи информации Как же практически выделить эту информацию? Один из приемов состоит в повторной передаче сообщения и суммировании принимаемых сигналов. В этом случае полезный сигнал растет пропорционально числу повторений к, тогда как шум — лишь пропорционально к (см. § 80). В результате после повторений мощность сигнала в приемнике превышает мощность шума, так что сигнал можно зарегистрировать. Такая процедура приводит к уменьшению скорости передачи в раз в соответствии с (82.3). Приведем простой пример метода исправления ошибок при передаче информации за счет снижения скорости передачи. Пусть нам нужно передать некоторый текст с помощью азбуки Морзе или, что то же самое, последовательность нулей и единиц, например: 1100010111. Пусть также при обычной передаче вследствие помех принимается искаженный текст 1101010011 со средней вероятностью ошибки на один переданный знак Один из методов исправления ошибок состоит в том, что каждый знак текста передается многократно, например, три раза. В результате принятая последовательность может иметь вид (с той же средней вероятностью ошибки

В нижней строчке приведена расшифровка текста по «методу большинства». В результате число ошибок уменьшилось вдвое за счет уменьшения скорости передачи втрое. Вероятность ошибки на один знак текста (на три переданных знака) в этом методе можно подсчитать следующим образом. Ошибка возникает, если два любых из трех знаков группы переданы неправильно. Вероятность этого равна где — число сочетаний из трех по два, — вероятность правильной передачи третьего знака. Кроме того, нужно еще учесть, что все три знака могут быть переданы неправильно с вероятностью . В результате вероятность ошибки равна .

Далее, закон (82.3) показывает, что значительное увеличение отношения сигнал шум к чему так часто стремятся, почти не повышает скорости передачи информации. Более того, с энергетической точки зрения оптимальным режимом передачи информации является как раз условие Действительно, энергия, затрачиваемая на передачу единицы информации

стремится при к минимуму:

Конечно, при этом усложняется детектирование (регистрация) сигнала, так что практический оптимум зависит от конкретной ситуации. Скажем, при сверхдальней космической связи решающими являются энергетические требования; например, мощность передатчика на американском искусственном спутнике Марса составляла всего около 100 Вт.

Интересно отметить, что минимальная энергетическая «цена» информации (82.9) обычно не зависит и от полосы так как мощность шумов пропорциональна последней (см. (80.5)). Например, для тепловых шумов, т. е. для теплового электромагнитного излучения в одном направлении и с одной поляризацией,

где Т — температура излучения. Это выражение, полученное Найквистом (1928 г.), непосредственно следует из закона равнораспределения в классической термодинамике и формулы (81.1) для числа степеней свободы поля. В рассматриваемом случае цена единицы информации равна просто температуре (ср. § 80, задача 4). В общем случае можно говорить об эффективной «температуре» шума.

Отметим, что основной закон (82.3) о потоке информации относится не только к передаче информации, но и к ее обработке (в частности, к получению информации). Это видно хотя бы из того, что все процессы обработки информации включают ее передачу.

Формула Шеннона (82.3) определяет максимально возможную скорость передачи информации. Практически эта скорость может быть значительно меньше, особенно если используется простое кодирование. Даже при полном отсутствии шумов когда теоретически скорость передачи информации на самом деле она остается ограниченной. Так, при передаче информации по азбуке Морзе, т. е. в виде коротких и длинных импульсов фиксированной амплитуды, скорость передачи в битах за секунду определяется просто числом независимых импульсов в единицу времени, которое в свою очередь равно числу степеней свободы сигнала в единицу времени, или (81.1):

Приведем некоторые типичные примеры информационных систем. Начнем с оптических схем. Одним из наиболее совершенных устройств является, как мы уже знаем (см. § 61), человеческий глаз. Он разрешает элементов изображения и около 600 степеней яркости. Это соответствует информации Мбит на одно изображение. Учитывая, что оба глаза воспринимают несколько разные изображения и притом около 10 раз в секунду, получим максимальный поток зрительной информации . В действительности этот поток существенно меньше, так как последовательные изображения обычно незначительно

отличаются друг от друга. Средний поток зрительной информации оценивается величиной Мбит/с и составляет около 70% общего количества информации, получаемого человеком.

Информационная емкость одного кинокадра разрешение линий на миллиметр и около 100 степеней яркости) Мбит, что соответствует максимальному потоку информации в кино Это еще сравнимо с работой глаза, однако поток информации в самых совершенных современных приборах (например, ЭОП, § 63) неизмеримо больше (до Поток здесь столь велик, что такие приборы могут быть использованы лишь в коротких импульсах, так как возникает очень сложная проблема запоминания всей этой информации. С другой стороны, например, поток радиоинформации со спутника Марса Маринер-9 составлял всего что соответствует передаче одной фотографии примерно за 10 мин.

Сравним теперь самое удивительное создание природы — человеческий мозг — с современной вычислительной машиной (ЭВМ), которая пытается его моделировать. Мозг человека содержит нейронов, значительная часть которых, вероятно, связана с памятью. Это, однако, существенно меньше, чем полная информация, получаемая человеком за всю его жизнь ( бит). Дж. фон Нейман считал, что вся эта информация как-то запоминается и поэтому механизм памяти человека не может быть связан с работой нейрона как двоичной ячейки. Но такая оценка, по-видимому, очень завышена, так как человек может усвоить лишь незначительную часть зрительной информации. Говорят, что Айвазовский мог запомнить с одного взгляда до 700 деталей. Это соответствует, вероятно, нескольким килобитам информации, что составляет ничтожную долю полной зрительной картины (~1 Мбит). Но даже такие случаи являются исключительными. В обычных условиях непрерывного потока информации мы едва ли усваиваем а запоминаем надолго и того меньше, скажем, Таким образом, полный объем памяти человека, например, за 40 лет составит бит, что согласуется с числом нейронов. Вероятно, даже эта оценка сильно завышена.

Оперативная, или «быстрая», память лучших образцов современных ЭВМ достигает бит. «Медленная» память, например, на магнитных лентах или дисках, может быть значительно больше, однако скорость поиска нужной информации в такой памяти остается пока весьма низкой. Очень заманчивым является использование фотографической памяти Мбит на кадр, см. выше). Еще более интересные перспективы сулят эмульсионные камеры — сплошные массивы фотоэмульсии объемом до нескольких литров, способные «запомнить» до бит информации. Такие камеры применяются для регистрации следов заряженных частиц. Однако выборка информации из них находится пока на примитивном уровне.

Скорость обработки информации в ЭВМ достигает Это кажется очень большой величиной, и принято подчеркивать неизмеримое превосходство в скорости работы ЭВМ по сравнению с

человеком. Это однако правильно только для простейших логических операций, проходящих через сознание, в которых мозг используется крайне неэффективно. Подсознательная деятельность мозга, в которой участвует, по-видимому, значительная доля нейронов, характеризуется скоростью обработки информации масштаба бит/с (каждый нейрон возбуждается около 10 раз в секунду). Причина такой эффективности мозга, несмотря на значительно более медленную работу отдельного нейрона (примерно в раз по сравнению с ЭВМ), заключается, очевидно, в параллельной работе огромного числа различных участков мозга.

Интересно отметить, что мозг тратит на свою работу всего около мощности (приблизительно 10% полного тепловыделения организма при сидячей работе). Однако даже эта мизерная энергия оказывается в раз больше минимальной (82.9), определяемой тепловыми шумами. Эта разница слишком велика, чтобы ее можно было объяснить требованием надежности работы или чем-то подобным. Возможно, это связано с высоким уровнем нетепловых шумов в организме. А может быть дело совсем в другом — ведь нейрон — это клетка, т. е. довольно высокоорганизованная структурная единица живой материи, обладающая значительной автономией, для чего необходим некоторый минимальный размер системы, отсюда и «огромное» по атомным масштабам потребление энергии. В этом смысле использование нейрона для запоминания одного бита информации кажется невероятно расточительным, что неоднократно подчеркивал фон Нейман. Он сравнивал это с искусственной памятью на электронных лампах в первых ЭВМ.

С энергетической точки зрения наиболее совершенной системой памяти является ДНК (дезоксирибонуклеиновая кислота), молекулы которой хранят генетическую информацию у всех без исключения живых организмов на Земле. Полимерная молекула ДНК представляет собой двойную спираль с шагом 34 А и диаметром 20 А, соединенную через 3,4 А парами специальных химических веществ — оснований, последовательность которых и определяет генетическую информацию. Так как всего имеется четыре различных основания, то каждая пара содержит два бита информации. Это соответствует объемной плотности информации бит/см (для мозга эта величина составляет всего лишь бит/см). Полное количество информации в молекуле ДНК человека бит. Интересно, что только около 10% этого количества является собственно генетической информацией, т. е. описанием «устройства» человека, точнее, рецепта «изготовления» (химического синтеза) человека. Любопытно отметить, что записанный на обычном языке этот «рецепт» занял бы около 10 тыс. страниц среднего формата. Остальное составляет «административно-управленческий аппарат», организующий передачу информации и распределение ее между различными клетками. Сравнение относительно скромного объема генетической информации бит) с объемом памяти человека бит) приводит к любопытному выводу о том, что жизненный опыт

человека значительно богаче его наследственности. Интересно отметить, что у простейшего живого существа — вируса, объем генетической информации всего в несколько сот раз меньше.

Передача одного бита информации ДНК требует около что приблизительно в 10 раз больше нормальной температуры , т. е. минимальной затраты энергии при тепловых шумах (см. выше). Таким образом, в энергетическом отношении информационная система ДНК близка к идеалу, остающийся множитель почти наверняка служит для обеспечения надежности работы системы (защита от тепловых флуктуаций).

Если сравнить живой организм с современной кибернетической машиной, то функционирование ДНК во многом напоминает запись информации на магнитную ленту. В обоих случаях — это очень емкая память, однако поиск, считывание и передача информации являются весьма медленным процессом с громоздкой организацией. В случае ДНК к этому добавляется еще и значительная неопределенность при передаче информации, которая связана со свободными химическими реакциями в окружающей среде. Словом, такая система не годится для оперативной обработки информации. В последнем случае необходимы строго фиксированные каналы информации, для которых природа не смогла придумать ничего проще, чем клетка — нейрон со всеми вытекающими отсюда последствиями в отношении объема и затрат энергии.

Перейдем теперь к совершенно другой области и приведем некоторые результаты анализа информационной структуры английского языка [14]. Можно считать, что в английском языке 27 символов (26 букв и промежуток между словами). Если бы все эти символы употреблялись одинаково часто и независимо, то информация на букву составила бы бит. Путем различных хитроумных расчетов и экспериментов было выяснено, что в действительности эта информация составляет всего лишь 1,4 бит. Эта разница характеризует очень важное понятие избыточности информации. Отчасти избыточность в языке объясняется его несовершенством с точки зрения теории информации, а именно тем, что вероятности употребления различных букв и различных слов отличаются на много порядков. Так, например, распределение вероятности слов описывается приближенно выражением , где — номер слов, расположенных в порядке убывания их вероятности. С точки зрения теории информации такое «кодирование» сообщения не является оптимальным — оно содержит слишком много знаков. Возможно, что такая структура языка отражает процесс его исторического развития. Остаток избыточности объясняется тем, что одна и та же информация передается многократно. Так, различные буквы в слове скоррелированы между собой таким образом, что каждая буква (точнее, ее информация) как бы повторяется в среднем примерно 2 раза. Различные слова также связаны между собой так, что информационное содержание каждого слова повторяется в среднем 1,5 раза. Итого, в английском языке имеется троекратная избыточность, т. е. троекратное повторение

сообщения. Мы уже знаем, что это позволяет уменьшить влияние различных помех, приводящих к ошибкам при передаче информации. Сносная передача обычной языковой информации возможна при отношении сигнал/шум Вполне возможно, что такой уровень «помех» является «нормальным» для человека, который сформировался в условиях коллективного труда. Если это действительно так, то приведенная выше оценка показывает, что элементарная структурная ячейка творческого коллектива может быть лишь очень небольшой.

Интересно отметить, что современные требования к грамотности учащихся находятся в резком противоречии с подобной информационной оценкой. Допустимый уровень ошибок составляет сейчас всего (одна ошибка на ~1000 букв). С учетом троекратной избыточности языка это соответствует потере одного бита информации на 105 печатных страниц Столь низкий уровень помех едва ли может быть оправдан даже эстетическими соображениями. Следует, однако, иметь в виду, что значительная часть языковых «ошибок» содержит в себе в действительности дополнительную информацию о социальном положении, культурном уровне, профессии автора и пр., как это, например, прекрасно отражено Бернардом в его бессмертном «Пигмалионе». Стремление к предельной безукоризненности языка можно поэтому рассматривать как попытку скрыть эту дополнительную информацию. Быть может, главной причиной нашего отвращения к безграмотному, хотя бы и совершенно понятному, тексту является очень глубокое, почти неистребимое стремление человека к совершенству, пусть даже чисто условному. Возможно также, что упомянутое требование «безошибочности» является естественной защитой от неконтролируемого изменения языка.

Задача, Найти уменьшение информации на одно слово в реальном языке по сравнению с идеальным кодированием.

Пусть в языке имеется различных слов. Идеальное кодирование соответствует равновероятному употреблению всех слов, что дает информацию на одно слово. В действительности частота слов подчиняется закону Цапфа: При суммирование можно заменить интегрированием, и тогда из условия нормировки . При этом информация на слово

При это соответствует потере около половины информации по сравнению с равновероятным употреблением слов.

<< Предыдущий параграф Следующий параграф >>
Оглавление