Форматы файлов: Форматы файлов

Справочник по форматам файлов Word, Excel и PowerPoint — Deploy Office

Twitter LinkedIn Facebook Адрес электронной почты

  • Статья
  • Чтение занимает 13 мин

Область применения:Приложения Microsoft 365 для предприятий, Office 2019 и Office 2016

Поддерживаемые форматы файлов и их расширения указаны в следующих таблицах для Word, Excel и PowerPoint.

Форматы файлов, поддерживаемые в Word

В следующей таблице перечислены форматы файлов, поддерживаемые в Word, с сортировкой по расширению.

РасширениеИмя формата файловОписание
DOC
Документ Word 97–2003
Двоичный формат файлов Word 97–2003.
DOCM
Документ Word с поддержкой макросов
Формат файлов на основе XML с поддержкой макросов для Word 2019, Word 2016, Word 2013, Word 2010 и Office Word 2007. Сохраняет макрокод Visual Basic для приложений (VBA).
DOCX
Документ Word
Формат файлов по умолчанию на основе XML для Word 2019, Word 2016, Word 2013, Word 2010 и Office Word 2007.
DOCX
Документ Strict Open XML
Соответствует профилю Strict стандарта Open XML (ISO/IEC 29500). В этом профиле Open XML не допускается использование набора компонентов, разработанных специально для обеспечения обратной совместимости с существующими двоичными документами, как указано в части 4 стандарта ISO/IEC 29500.
DOT
Шаблон Word 97–2003
Шаблон для файлов Word 97–Word 2003.
DOTM
Шаблон Word с поддержкой макросов
Шаблон для создания новых файлов Word 2019, Word 2016, Word 2013, Word 2010 и Office Word 2007, содержащих макросы. Этот формат файлов следует использовать пользователям, которые хотят включить настройки пользовательского интерфейса или макросы в шаблон.
DOTX
Шаблон Word
Шаблон для создания новых файлов Word 2019, Word 2016, Word 2013, Word 2010 и Office Word 2007, не содержащих макросы.
HTM, HTML
Веб-страница
Веб-страница, которая сохраняется в виде папки, содержащей файл HTM и все вспомогательные файлы, такие как изображения, звуковые файлы, каскадные таблицы стилей, сценарии и другие. Хорошо подходит для публикации на сайте или редактирования в Microsoft Office FrontPage или другом HTML-редакторе.
HTM, HTML
Веб-страница с фильтром
При сохранении данных в формате файлов «Веб-страница с фильтром» удаляются теги, связанные с Microsoft Office. Если пользователь сохраняет данные в формате HTML с фильтром, а затем повторно открывает этот файл в приложении Office, текст и внешний вид содержимого сохраняются. Однако некоторые компоненты могут работать иначе.
MHT, MHTML
Веб-страница в одном файле
Веб-страница в виде одного файла, содержащего файл HTM и все вспомогательные файлы, такие как изображения, звуковые файлы, каскадные таблицы стилей, сценарии и другие.
ODT
Текст OpenDocument
Формат файлов для сохранения файлов Word 2019, Word 2016 и Word 2013, чтобы их можно было открыть в приложениях для работы с документами, использующих формат OpenDocument. Пользователи также могут открывать документы формата ODT в Word 2019, Word 2016 и Word 2013. После сохранения и открытия файлов ODT форматирование может быть потеряно.
PDF
PDF
PDF (Portable Document Format) — основанный на PostScript электронный формат файлов, разработанный компанией Adobe Systems. В этом формате сохраняется форматирование документов и можно обмениваться файлами с другими пользователями.

Файлы в формате PDF можно сохранять и открывать с помощью Word 2019, Word 2016 и Word 2013.

Важно! PDF-файлы могут соответствовать оригиналу не полностью. Например, разрывы страниц могут находиться в других местах.

RTF
Форматированный текст
Формат RTF управляет представлением и форматированием документа как на экране, так и при печати. Документы в формате RTF, созданные в разных операционных системах и приложениях, можно переносить между ними.
TXT
Обычный текст
Когда пользователи сохраняют документ в виде TXT-файла, все форматирование теряется.

.wps
Документ Works 6-9
Это формат по умолчанию для файлов Microsoft Works версии с 6.0 по 9.0.
XML
XML-документ Word 2003
Формат XML, поддерживаемый в Office Word 2003.
XML
XML-документ Word
Формат файлов XML, поддерживаемый в Word 2019, Word 2016, Word 2013, Word 2010 и Office Word 2007 (Open XML).
XPS
Документ XPS
XPS (XML Paper Specification) — формат файлов, который сохраняет форматирование документа и обеспечивает совместное использование файлов. Когда XPS-файл просматривается в Интернете или печатается, он сохраняет именно тот формат, который пользователи планировали, и данные в файле не могут быть легко изменены.

Для сохранения документов в формате XPS можно использовать Word 2019, Word 2016 или Word 2013, но такие документы невозможно открывать с помощью Word 2019, Word 2016 или Word 2013.


Форматы файлов, поддерживаемые в Excel

В следующих таблицах описываются форматы файлов, поддерживаемые в Excel.

РасширениеИмя формата файловОписание
CSV
CSV (разделители — запятые)
Сохраняет книгу в виде текстового файла с разделителями-запятыми для использования в другой операционной системе Windows и гарантирует правильное распознавание знаков табуляции, разрывов строки и других знаков. Сохраняет только активный лист.
CSV
CSV (Macintosh)
Сохраняет книгу в виде текстового файла с разделителями-запятыми для использования в операционной системе Macintosh и гарантирует правильное распознавание знаков табуляции, разрывов строки и других знаков. Сохраняет только активный лист.
CSV
CSV (MS-DOS)
Сохраняет книгу в виде текстового файла с разделителями-запятыми для использования в операционной системе MS-DOS и гарантирует правильное распознавание знаков табуляции, разрывов строки и других знаков. Сохраняет только активный лист.
DBF
DBF 3, DBF 4
dBase III и IV. Пользователи могут открывать файлы этих форматов в Excel 2019, Excel 2016 и Excel 2013, но не могут сохранять файлы Excel в формате dBase.
DIF
DIF (Data Interchange Format)
Сохраняет только активный лист.
HTM, HTML
Веб-страница
Веб-страница, которая сохраняется в виде папки, содержащей файл HTM и все вспомогательные файлы, такие как изображения, звуковые файлы, сценарии и другие.
MHT, MHTML
Веб-страница в одном файле
Веб-страница, которая сохраняется в виде одного файла, содержащего файл HTM и все вспомогательные файлы, такие как изображения, звуковые файлы, каскадные таблицы стилей, сценарии и другие.
ODS
Электронная таблица OpenDocument
Формат файлов для сохранения файлов Excel 2019, Excel 2016 и Excel 2013, чтобы их можно было открывать в приложениях для работы с электронными таблицами, использующих формат электронной таблицы OpenDocument, таких как «Документы Google» и OpenOffice. org Calc. Пользователи также могут открыть электронные таблицы формата ODS в Excel 2019, Excel 2016 и Excel 2013. После сохранения и открытия файлов ODS форматирование может быть потеряно.
PDF
PDF
Формат PDF сохраняет форматирование документов и позволяет обмениваться файлами с другими пользователями. При просмотре PDF-файла в Интернете и выводе на печать сохраняется его исходное оформление. Данные в файле не могут быть легко изменены. Формат PDF также полезен для документов, предназначенных для промышленной печати.
PRN
Форматированный текст (разделители — пробелы)
Формат Lotus с разделителями-пробелами. Сохраняет только активный лист.
SLK
SYLK (формат символьной ссылки)
Сохраняет только активный лист.
TXT
Текст (разделитель — табуляция)
Сохраняет книгу в виде текстового файла с разделителями в виде табуляции для использования в другой операционной системе Windows и гарантирует правильное распознавание знаков табуляции, разрывов строки и других знаков.
Сохраняет только активный лист.
TXT
Текст (Macintosh)
Сохраняет книгу в виде текстового файла с разделителями в виде табуляции для использования в операционной системе Macintosh и гарантирует правильное распознавание знаков табуляции, разрывов строки и других знаков. Сохраняет только активный лист.
TXT
Текст (MS-DOS)
Сохраняет книгу в виде текстового файла с разделителями в виде табуляции для использования в операционной системе MS-DOS и гарантирует правильное распознавание знаков табуляции, разрывов строки и других знаков. Сохраняет только активный лист.
TXT
Текст в кодировке Unicode
Сохраняет книгу в виде текста Юникода, это стандарт кодировки, разработанный компанией Unicode Consortium. Сохраняет только активный лист.
XLA
Надстройка Excel 97–2003
Надстройка Excel 97–2003 — вспомогательная программа, выполняющая дополнительный код и поддерживающая проекты VBA.
XLAM
Надстройка Microsoft Excel
Формат надстроек на основе XML с поддержкой макросов для Excel 2019, Excel 2016, Excel 2013, и Office Excel 2007. Надстройка — это вспомогательная программа, выполняющая дополнительный код. Она поддерживает проекты VBA и листы макросов Excel 4.0 (XLM).
XLS
Книга Excel 97–2003
Формат двоичных файлов Excel 97– Excel 2003.
XLS
Книга Microsoft Excel 5.0/95
Формат двоичных файлов Excel 5.0/95.
XLSB
Двоичная книга Excel
Двоичный формат файлов Excel 2019, Excel 2016, Excel 2013 и Excel 2010 и Office Excel 2007. Этот формат файлов, обеспечивающий быструю загрузку и быстрое сохранение, подходит пользователям, которым требуется добиться наибольшей скорости загрузки файла данных. Этот формат поддерживает проекты VBA, листы макросов Excel 4.0 и все новые функции Excel. Но это не формат XML-файла, поэтому он не является оптимальным для доступа к содержимому и управления ими без использования Excel 2019, Excel 2016, Excel 2013, Excel 2010 или Excel 2007 и объектной модели.
XLSM
Книга Excel с поддержкой макросов
Формат файлов на основе XML с поддержкой макросов для Excel 2019, Excel 2016, Excel 2013, Excel 2010 и Office Excel 2007. Сохраняет макрокод VBA или листы макросов Excel 4.0 (XLM).
XLSX
Книга Excel
Формат файлов по умолчанию на основе XML для Excel 2019, Excel 2016, Excel 2013, Excel 2010 и Office Excel 2007. Не позволяет сохранять макрокод VBA и листы макросов Microsoft Excel 4.0 (XLM).
XLSX
Книга Strict Open XML
Версия ISO Strict формата файла книги Excel (XLSX).
XLT
Шаблон Excel 97–2003
Формат двоичных файлов Excel 97—Excel 2003 для шаблонов Excel.
XLTM
Шаблон Excel с поддержкой макросов
Формат файлов шаблонов с поддержкой макросов для Excel 2019, Excel 2016, Excel 2013, Excel 2010 и Office Excel 2007. Сохраняет макрокод VBA и листы макросов Excel 4.0 (XLM).
XLTX
Шаблон Excel
Формат файлов шаблонов по умолчанию для Excel 2019, Excel 2016, Excel 2013, Excel 2010 и Office Excel 2007. Не сохраняет макрокод VBA и листы макросов Excel 4.0 (XLM).
XLW
Книга Excel 4.0
Формат файлов Excel 4.0, в котором сохраняются только листы, листы диаграмм и листы макросов. Пользователи могут открывать книги в этом формате в Excel 2019, Excel 2016 и Excel 2013. При этом пользователи не смогут сохранять файлы Excel в этом формате.
XML
Таблица XML 2003
Формат файлов таблицы XML 2003.
XML
Данные XML
Формат данных XML.
XPS
Документ XPS
XPS (XML Paper Specification) — формат файлов, который сохраняет форматирование документа и обеспечивает совместное использование файлов. Когда XPS-файл просматривается в Интернете или печатается, он поддерживает именно тот формат, который намеревался пользователями, и данные в файле не могут быть легко изменены.

Форматы файлов, поддерживаемые в PowerPoint

В следующих таблицах описываются форматы файлов, поддерживаемые в PowerPoint.

РасширениеИмя формата файловОписание
BMP
Аппаратно-независимый рисунок
Слайд, сохраняемый в виде графического элемента для использования на веб-страницах.
EMF
Расширенный метафайл Windows
Слайд, сохраняемый в виде 32-разрядного графического элемента (для использования в операционных системах Microsoft Windows 95 и более поздних версий).
GIF
Рисунок в формате GIF
Слайд, сохраняемый в виде графического элемента для использования на веб-страницах.
JPG
Рисунок в формате JPG
Слайд, сохраняемый в виде графического элемента для использования на веб-страницах.
.mp4
Видео MPEG-4
Презентация, сохраненная в виде видеозаписи.
ODP
Презентация OpenDocument
Формат файлов, который можно открывать в приложениях для работы с презентациями, использующих формат презентации OpenDocument, таких как «Документы Google» и OpenOffice.org Impress. Пользователи также могут открыть презентации формата ODP в PowerPoint. После сохранения и открытия файлов ODP часть информации может быть потеряна.
PDF
PDF
PDF (Portable Document Format) — основанный на PostScript электронный формат файлов, разработанный компанией Adobe Systems. В этом формате сохраняется форматирование документов и можно обмениваться файлами с другими пользователями.
PNG
Рисунок в формате Portable Network Graphics
Слайд, сохраняемый в виде графического элемента для использования на веб-страницах.
POT
Шаблон PowerPoint 97–2003
Шаблон для презентаций PowerPoint 97–Office PowerPoint 2003.
POTM
Шаблон PowerPoint с поддержкой макросов
Шаблон для презентаций PowerPoint 2019, PowerPoint 2016, PowerPoint 2013, PowerPoint 2010 и Office PowerPoint 2007, содержащих макросы.
POTX
Шаблон PowerPoint
Шаблон для создания новых презентаций PowerPoint 2019, PowerPoint 2016, PowerPoint 2013, PowerPoint 2010 и Office PowerPoint 2007.
PPA
Надстройка PowerPoint 97–2003
Надстройка PowerPoint 97–Office PowerPoint 2003.
PPAM
Надстройка PowerPoint
Надстройка, сохраняющая настраиваемые команды, код Visual Basic для приложений (VBA) и специализированные компоненты.
PPS
Демонстрация PowerPoint 97–2003
Презентация, которая всегда открыта в режиме слайд-шоу вместо обычного режима.
PPSM
Демонстрация PowerPoint с поддержкой макросов
Слайд-шоу, включающее в себя макросы.
PPSX
Демонстрация PowerPoint (PPSX)
Презентация, которая всегда открыта в режиме слайд-шоу вместо обычного режима.
PPT
Презентация PowerPoint 97–2003
Формат файлов по умолчанию для PowerPoint 97–Office PowerPoint 2003.
PPTM
Презентация PowerPoint с поддержкой макросов
Презентация, содержащая код Visual Basic для приложений (VBA).
PPTX
Презентация PowerPoint
Формат файлов по умолчанию на основе XML для PowerPoint 2019, PowerPoint 2016, PowerPoint 2013, PowerPoint 2010 и Office PowerPoint 2007.
PPTX
Нередактируемая презентация PowerPoint
Презентация PowerPoint 2019, PowerPoint 2016, PowerPoint 2013, PowerPoint 2010 или PowerPoint 2007, в которой каждый слайд преобразован в рисунок. При сохранении файла в виде нередактируемой презентации PowerPoint размер файла снижается, но некоторая информация утрачивается.
PPTX
Презентация Strict Open XML
Версия формата файлов презентации PowerPoint (PPTX), строго соответствующая стандарту ISO.
RTF
Структура, RTF
Структура презентации, которая сохраняется в виде текстового документа, что обеспечивает меньшие размеры файлов и возможность использования файлов без макросов совместно с другими пользователями, которые могут использовать другую версию PowerPoint или операционной системы. Любой текст в области заметок не сохраняется в этом формате файла.
THMX
Тема Office
Таблица стилей, включающая в себя определения цветовой темы, темы шрифтов и темы эффектов.
TIF
Рисунок в формате TIFF
Слайд, сохраняемый в виде графического элемента для использования на веб-страницах.
WMF
Метафайл Windows
Слайд, сохраняемый в виде 16-разрядного графического элемента (для использования в операционных системах Microsoft Windows 3.x и более поздних версий).
WMV
Видео в формате Windows Media
Презентация, сохраненная в виде видеозаписи. Презентации PowerPoint 2019, PowerPoint 2016, и PowerPoint 2013 можно сохранять с высоким качеством (1024 x 768, 30 кадров в секунду), средним качеством (640 x 480, 24 кадра в секунду) и низким качеством (320 X 240, 15 кадров в секунду).

Файлы формата WMV воспроизводятся во многих медиапроигрывателях, таких как проигрыватель Windows Media.

XML
Презентация PowerPoint XML
Формат файлов XML, поддерживаемый в PowerPoint 2019, PowerPoint 2016, PowerPoint 2013, PowerPoint 2010 и Office PowerPoint 2007.
XPS
Документ XPS
XPS (XML Paper Specification) — электронный формат для обмена документами в их окончательной форме.

Форматы файлов, которые не поддерживаются в Office

Приложения Office не поддерживают форматы файлов, описанные в следующей таблице.

ПриложениеНеподдерживаемый формат файлов
Excel
— Диаграмма Excel (форматы файлов Excel 2.0, 3.0 и 2.x) (XLC)
— Форматы файлов Lotus 1-2-3 (все версии) (WK1, WK2, WK3, WK4, WKS)
— Microsoft Works (все версии) (WKS)
— Формат файлов DBASE II (DBF)
— Формат файлов Quattro Pro для MS-DOS (WQ1)
— Quattro Pro 5.0 и 7.0 для Windows (WB1, WB3)
PowerPoint
— Открытие форматов файлов PowerPoint 95 (или более ранних версий) или сохранение в эти форматы
— Файлы мастера упаковки (PPZ)
— Файлы веб-страниц (HTM, HTML)

В этом разделе приведены дополнительные форматы файлов и сведения о том, поддерживаются ли они в приложениях Office.

Форматы файлов буфера обмена Microsoft Office

Пользователи могут вставлять данные из буфера обмена Office в Word, Excel и PowerPoint, если данные буфера обмена Office имеют один из форматов, указанных в следующей таблице.

Формат файловРасширениеОписание
Изображение
WMF или EMF
Рисунки в формате метафайла Windows (WMF) или расширенного метафайла Windows (EMF).

Примечание. При копировании метафайла Windows (WMF) из другой программы Microsoft Excel вставляет элемент в виде расширенного метафайла (EMF).

Точечный рисунок
BMP
Рисунки, хранящиеся в формате BMP.
Форматы файлов Excel
XLS
Форматы двоичных файлов для Excel 5.0/95, Excel 97–2003, Excel 2013, Excel 2016 и Excel 2019.
SYLK
SLK
Формат символьной ссылки.
DIF
DIF
Формат Data Interchange Format.
Текст (разделитель — табуляция)
TXT
Текстовый формат со знаками табуляции в качестве разделителей.
CSV (разделители — запятые)
CSV
Текстовый формат с разделителями-запятыми.
Форматированный текст (разделитель — пробел)
RTF
Форматированный текст (RTF). Только из Excel.
Внедренный объект
GIF, JPG, DOC, XLS или BMP
Объекты Excel и Excel 2013, объекты из правильно зарегистрированных программ, поддерживающих OLE 2.0 (OwnerLink), а также рисунок или другой формат презентации.
Связанный объект
GIF, JPG, DOC, XLS или BMP
OwnerLink, ObjectLink, Link, Picture или другой формат.
Объект-рисунок Office
EMF
Формат рисованного объекта Office или Picture (EMF)
Текст
TXT
Отображаемый текст, текст ПВТ.
HTML
HTM, HTML
Формат HTML (Hypertext Markup Language).

Примечание. При копировании текста из другой программы Microsoft Excel вставляет этот текст в формате HTML независимо от формата исходного текста.

Веб-страница в одном файле
MHT, MHTML
Этот формат файлов интегрирует в себе встроенные графические объекты, приложения, связанные документы и другие вспомогательные элементы, на которые ссылается документ.

Открытие и просмотр неподдерживаемых форматов файлов

Если формат файла, который пользователи хотят использовать, не поддерживается, они могут попробовать следующие методы, чтобы открыть файл.

  • Найдите в Интернете компанию, которая создает конвертеры форматов файлов, чтобы найти форматы файлов, которые не поддерживаются в приложении.

  • Сохраните файл в формате, который поддерживается другой программой. Например, пользователи могут импортировать свои файлы Word, Excel или PowerPoint в другую программу, которая не поддерживает собственный формат файла приложения. При этом другая программа может поддерживать импорт файлов в другом поддерживаемом формате, например, в текстовом формате. В этом случае пользователи могут сохранить свою работу в формате текстового файла, а затем импортировать этот текстовый файл в другую программу.

  • Справочная информация по расширениям имен файлов XML в Office
  • Руководство по ресурсам панели мониторинга телеметрии Office

Как устроены файлы? Разбор / Хабр

Файлы… что вообще может быть проще? Мы все привыкли создавать, удалять, редактировать, перекидываться файлами.

Но можем ли мы заглянуть внутрь каждого файла и понять как он устроен? Конечно можем, поэтому сегодня мы немного покопаемся в бинарном коде и пощупаем метаданные.

Заодно узнаем, почему iPhone зависает от SMS и распотрошим PowerPoint.

Почему форматов файлов так много?

Если бы мы просто могли взглянуть на сырые данные, которые хранятся внутри жесткого диска или SSD, то мы бы не увидели никаких файлов: мы бы увидели только нолики и единички. Потому как, в любом случае, в памяти компьютера всё хранится в виде сплошного потока двоичного кода.

Но как же тогда понять, где заканчивается один файл и начинается другой?

Поначалу эту проблему человечество решало брутально. Люди записывали один файл на один жесткий диск, чтобы уж точно не ошибиться. Поэтому раньше словом файл называли не отдельную область на жестком диске, а прям целое устройство. К примеру IBM 305.


CTSS (Compatible Time-Sharing System)

Но потом, люди придумали файловые системы. Если очень упростить, это такое оглавление в котором указано имя файла, где он начинается и его длина. А также всякие метаданные, типа время создания, изменения, и можно ли его перезаписывать.

Но для того чтобы прочитать файл, знать его местоположение и границы на жестком диске недостаточно, ведь нам нужно как-то расшифровать бинарный код.

Для этого и существуют различные форматы файлов. В большинстве операционных систем форматы файлов указываются в виде расширения, которое отделяется точкой от имени файла. А если вы не видите расширения, это нормально. Потому что, по умолчанию, современные ОС их скрывают, но можно поставить галочку в настройках.

Расширение даёт подсказку операционной системе и программам, о том какой тип данных он содержит и как это всё структурировано. Например, увидев файл droider.jpg операционная система и мы, люди, сразу понимаем, что это картинка в формате JPEG.

Естественно, для типов данных и разных задач оптимальной будет разная структура файла. Поэтому и форматов файлов существует огромная масса.

Поэтому давайте разберем, как устроены наиболее популярные форматы файлов от более простых к более сложным.

TXT

Один из самый простых форматов — это TXT. Это текстовый формат. Знаменитое приложение «Блокнот» в Windows работает как раз с этим форматом.

TXT — формат незамысловатый. Он может хранить в себе только простой неформатированный текст, то есть в нем нет никаких выделений, подчеркиваний, курсивов, отступов, разных шрифтов. Только голый текст, а точнее просто символы.

Каждый символ в TXT-формате хранится в виде бинарного кода.

Hello, world!

То что мы с вами видим как осмысленный текст, операционная система видит вот так:

01001000 01100101 01101100 01101100 01101111 00101100 00100000 01110111 01101111 01110010 01101100 01100100 00100001

Каждые 8 цифр, то есть 8 бит этого кода — это отдельный символ.

Например, 01001000 — это “H”, 01100101 — это “e”, и так далее.

01001000 — H

01100101 — e

01101100 — l

01101100 — l

01101111 — o

Но как операционная система расшифровывает эти данные? Всё просто. Операционной системе требуется загрузить таблицу, в которой описано соответствие бинарного кода конкретному символу. Таких таблиц много, самые известные сегодня — CP1251 (Windows), UTF-8 (Android, Mac) и так далее. Такие таблицы, часто называют кодировками. В данном файле используется кодировка UTF-8, то есть 8-битный Юникод.

Unicode Transformation Format, 8-bit — «формат преобразования Юникода, 8-бит»

Подобрав правильную кодировку остается дело техники. Система сопоставляет бинарный код с таблицей кодировки UTF-8 и готово! Но что будет если система подберет кодировку неправильно? Вариантов не много, скорее всего мы увидим крякозябры:

çÁ%%?Œ€Ï?Ê%À (кодировка EBCDIC).

И такое часто случается, так как TXT-файл не содержит никакой дополнительной информации о кодировке. И это большой недостаток формата.

Еще интересный момент. Исторически, компьютеры «знали» только латиницу, которая используется в большинстве европейских языков. И тут произошла проблема: 8-бит — это всего лишь 256 возможных значений. Это немного, но этого было достаточно, чтобы закодировать все базовые символы + латинские буквы.

И вдобавок, эту таблицу нужно было загрузить в оперативную память при загрузке компьютера, а у типового ПК в начале 80-х годов редко было больше 640 килобайт оперативки. А использовать 16-битные таблицы (65536 вариантов) было просто невозможно, такая таблица просто не влезла бы в память.

Но мощность компьютеров росла и проблема ушла. К таблицам с латинскими символами добавились кириллические, которые занимали уже не по 8 бит, а по 16 бит каждый. Поэтому текст на русском занимает в два раза больше памяти, при том же количестве символов.

11010000 10011111 11010001 10000000 11010000 10111000 11010000 10110010 11010000 10110101 11010001 10000010 00101100 00100000 11010000 10111100 11010000 10111000 11010001 10000000 00100001

11010000 10011111 — П

11010001 10000000 — р

10111000 11010000 — и

11010000 10110010 — в

Привет, мир!

Старики помнят лайфхак, если писать SMS на латинице, то влезет в два раза больше текста. Всё это как раз из-за кодировки.

Кстати, помните все эти случаи, когда iPhone умирал от присланного сообщения со странными символами или картинки? Это как раз связано с тем, что система не могла правильно распознать присланные символы и правильно определить их длину.

Например, вот такое сообщение в своё время заставляло любой айфон уйти в цикличный ребут:

Power
لُلُصّبُلُلصّبُررً ॣ ॣh ॣ ॣ

WAV

Так вот, чтобы у операционной системы не было проблем с пониманием как прочитать файл. Помимо самих данных, в разные форматы стали добавлять данные о данных. То есть метаданные, которые хранятся прямо внутри файла и содержат дополнительную информацию о том, как этот файл прочитать.

К примеру, возьмём файл в формате WAV.

Это простой аудиоформат, который содержит несжатый. Всё CD диски записаны в формате WAV.

Первые 44 байта классического WAV-файла содержат заголовок, к котором указывается полезнейшая информация:

  • количество аудио каналов;
  • частота дискретизации;
  • битовая глубина;
  • и многое другое.

Все эти данные позволяют быть уверенным, что аудио будет воспроизведено корректно.

Открытые и проприетарные форматы

Структура WAV хорошо известна и наверное такой файл сможет прочитать практически любой плеер. Всё потому, что WAV-файл — это пример открытого формата.

Есть и другие открытые форматы, которыми вы ежедневно пользуетесь. Например:

  • язык разметки web-страниц — HTML;
  • картинки — PNG;
  • аудио в формате — OGG;
  • архива — ZIP;
  • видео — MKV;
  • электронной книги — EPUB;
  • и другие…

Но бывают и закрытые форматы файлов, а точнее проприетарные. Открытие и редактирование таких файлов сторонним софтом часто либо вообще запрещено, либо распространяется по лицензиям.

Проприетарные форматы всем прекрасны, но в отдельных случаях они препятствуют конкуренции в сфере программного обеспечения, так как приводят к замыканию на поставщике. Есть даже такой термин Vendor lock-in.

Старый офис

Например, раньше такая ситуация была с форматами Microsoft Office: DOC, XLS, PPT.

Мало того, что это были проприетарные форматы компании Microsoft и работали только с фирменным ПО. Так еще Microsoft постоянно меняли свою структуру файлов от одной версии MS Office к другой. И в результате? при выходе новой версии офисного пакета? файлы из старого редактора уже не читались новым, а наоборот — и подавно.

Такая ситуация не очень нравилась Европейскому Союзу. Поэтому, ЕС взъелся на тему ограничения конкуренции. В итоге, форматы файлов опубличили, и все научились хотя бы их читать, но для записи в старые форматы, по-прежнему, нужна лицензия Microsoft. И параллельно этому начали разрабатываться открытые форматы.

ODF и OOXML

1 мая 2006 года на свет появился формат формат ODF, что буквально расшифровывается как открытый формат документов для офисных приложений. Он был разработан консорциумом OASIS и Sun Microsystems.

  • ODF — Open Document Format for Office Application.
  • OASIS — Organization for the Advancement of Structured Information Standards.

Формат основан на универсальном языке разметки XML. А сам файл ODF представляет из себя ZIP-архив с папками, XML-файлами и всякими вложениями в виде картинок, видео и прочим. Иными словами, если открыть такой файл через архиватор мы можем спокойно увидеть все внутренности. Вот так пример открытости!

Microsoft тоже не спал. Под давлением Европейского суда они объединились с рядом компаний в ассоциацию ECMA и разработали свой открытый формат Office Open XML, который появился на свет чуть позже в 2006 году.

OOXML стандартизирован European Computer Manufacturers Association. Standard ECMA-376

К привычным форматом конце добавилась буква X и мы получили: DOCX, XLSX, PPTX.

OOXML — Office Open XML (DOCX, XLSX, PPTX)

OOXML, в целом, очень похож на ODF. Он также основан на XML-разметке и также представляет из себя ZIP-архив. Поэтому вы также можете заглянуть внутрь офисных файлов при помощи любого архиватора. Можно даже вытащить картинки и даже подменить их, что бывает особенно удобно при работе с презентациями или когда вам присылают текстовый документ с картинками внутри файла.

Несмотря на кажущуюся простоту, формат реально сложный. Только основная документация — это 5 тысяч страниц. И это практически без картинок.

Тем не менее, кто-то всё таки смог прочитать всю эту документацию и поэтому на свет появились классные офисные пакеты, например МойОфис, которые умеют работать и ODF форматом, и с Office Open XML, и даже с устаревшими форматами типа DOC.

Но есть важная ремарка про старые форматы. Как правило, современный софт умеет их только читать, но не записывать, потому как это действие требует приобретение лицензии Microsoft. Впрочем, в наше время это действие, мягко говоря, бессмысленно.

Итого

Что мы в итоге узнали? Файлы бывают нескольких типов:

Самые базовые — бинарные. Такие форматы любят придумывать компании, чтобы никто не понял, как их программы хранят данные.

Более открытый вариант — xml-контейнеры. К счастью, большинство популярных офисных форматов сейчас такие. Если хотите работать со всеми этими файлами хоть дома, хоть на бегу, скачивайте программы МойОфис! На этом у нас сегодня всё.

Форматы файлов

Языки: де Эль en эс фр он час я бы является Это да ко л lv мой пе nl_BE pt_BR Ро RU zh_CN zh_TW

Обзор форматов файлов

JSON

JSON — это простой формат файла, который легко читается на любом языке программирования. Его простота означает, что компьютерам обычно легче обрабатывать его, чем другие, такие как XML.

XML

XML является широко используемым форматом для обмена данными, поскольку он дает хорошие возможности для сохранения структуры данных и способа построения файлов, а также позволяет разработчикам записывать части документации вместе с данными, не мешая их чтению. .

РДФ

Рекомендованный W3C формат, называемый RDF, позволяет представлять данные в форме, упрощающей объединение данных из нескольких источников. Данные RDF могут храниться в XML и JSON, помимо других сериализаций. RDF поощряет использование URL-адресов в качестве идентификаторов, что обеспечивает удобный способ прямого взаимодействия существующих инициатив открытых данных в Интернете. RDF все еще не получил широкого распространения, но он стал тенденцией среди инициатив «Открытое правительство», включая проекты открытых данных, связанных с правительствами Великобритании и Испании. Изобретатель Интернета Тим Бернерс-Ли недавно предложил пятизвездочную схему, включающую связанные данные RDF, в качестве цели, которую следует искать для инициатив по открытым данным.

Электронные таблицы

Во многих органах информации осталась информация в электронной таблице, например Microsoft Excel. Эти данные часто можно использовать сразу же с правильным описанием того, что означают разные столбцы.

Однако в некоторых случаях в электронных таблицах могут быть макросы и формулы, с которыми может быть сложнее работать. Поэтому рекомендуется документировать такие расчеты рядом с электронной таблицей, так как она, как правило, более доступна для чтения пользователями.

Файлы, разделенные запятыми

Файлы CSV

могут быть очень полезным форматом, поскольку они компактны и поэтому подходят для передачи больших наборов данных с одинаковой структурой. Однако формат настолько спартанский, что данные часто бесполезны без документации, поскольку почти невозможно угадать значение различных столбцов. Поэтому для форматов с разделителями-запятыми особенно важно, чтобы документация отдельных полей была точной.

Кроме того, очень важно, чтобы структура файла была соблюдена, так как пропуск одного поля может нарушить чтение всех оставшихся данных в файле без какой-либо реальной возможности исправить это, потому что невозможно определить, как остальные данные должны интерпретироваться.

Текстовый документ

Классических документов в таких форматах, как Word, ODF, OOXML или PDF, может быть достаточно для отображения определенных типов данных, например, относительно стабильных списков рассылки или их эквивалентов. Демонстрация может быть дешевой, так как часто это формат, в котором рождаются данные. Формат не поддерживает согласованность структуры, что часто означает, что ввод данных с помощью автоматизированных средств затруднен. Обязательно используйте шаблоны в качестве основы документов, которые будут отображать данные для повторного использования, чтобы по крайней мере можно было вытащить информацию из документов.

Он также может поддерживать дальнейшее использование данных для максимально возможного использования типографской разметки, чтобы машине было легче отличать заголовки (любой указанный тип) от содержимого и так далее. Обычно рекомендуется не выставлять в формате текстового процессора, если данные существуют в другом формате.

Обычный текст

Текстовые документы (. txt) очень легко читаются компьютерами. Однако они, как правило, исключают структурные метаданные из документа, а это означает, что разработчикам потребуется создать синтаксический анализатор, который сможет интерпретировать каждый документ так, как он выглядит.

Некоторые проблемы могут быть вызваны переключением текстовых файлов между операционными системами. MS Windows, Mac OS X и другие варианты Unix по-своему сообщают компьютеру, что они достигли конца строки.

Отсканированное изображение

Вероятно, наименее подходящая форма для большинства данных, но и TIFF, и JPEG-2000 могут как минимум разметить их документацией того, что на картинке — вплоть до разметки изображения документа полнотекстовым содержимым документа. Это может иметь отношение к их отображению данных в виде изображений, данные которых не рождаются в электронном виде — очевидным примером являются старые церковные записи и другие архивные материалы — а изображение лучше, чем ничего.

Собственные форматы

Некоторые специализированные системы и т. д. имеют свои собственные форматы данных, в которых они могут сохранять или экспортировать данные. Иногда может быть достаточно предоставить данные в таком формате, особенно если ожидается, что дальнейшее использование будет в аналогичной системе. из которого они исходят. Всегда следует указывать, где можно найти дополнительную информацию об этих проприетарных форматах, например, путем предоставления ссылки на веб-сайт поставщика. Как правило, рекомендуется отображать данные в непатентованных форматах, где это возможно.

HTML

В настоящее время большое количество данных доступно в формате HTML на различных сайтах. Этого вполне может быть достаточно, если данные очень стабильны и ограничены по объему. В некоторых случаях может быть предпочтительнее иметь данные в форме, которую легче загружать и манипулировать, но поскольку это дешево и легко ссылаться на страницу веб-сайта, это может быть хорошей отправной точкой для отображения данных.

Как правило, наиболее целесообразно использовать таблицы в HTML-документах для хранения данных, а затем важно, чтобы различные поля данных отображались и имели идентификаторы, упрощающие поиск данных и управление ими. Yahoo разработала инструмент (http://developer.yahoo.com/yql/), который может извлекать структурированную информацию с веб-сайта, и такие инструменты могут делать гораздо больше с данными, если они тщательно помечены.

Форматы открытых файлов

Даже если информация предоставляется в электронном, машиночитаемом формате и подробно, могут возникнуть проблемы, связанные с форматом самого файла.

Форматы, в которых публикуется информация, т. е. цифровая база, в которой хранится информация, могут быть либо «открытыми», либо «закрытыми». Открытый формат — это формат, в котором спецификации программного обеспечения доступны любому бесплатно, так что каждый может использовать эти спецификации в своем собственном программном обеспечении без каких-либо ограничений на повторное использование, налагаемых правами интеллектуальной собственности.

Если формат файла является «закрытым», это может быть связано либо с тем, что формат файла является собственностью, а спецификация не является общедоступной, либо с тем, что формат файла является собственностью, и даже если спецификация была обнародована, повторное использование ограничено. . Если информация выпускается в формате закрытого файла, это может создать значительные препятствия для повторного использования закодированной в нем информации, вынуждая желающих использовать информацию покупать необходимое программное обеспечение.

Преимущество открытых форматов файлов заключается в том, что они позволяют разработчикам создавать несколько программных пакетов и услуг, используя эти форматы. Это сводит к минимуму препятствия для повторного использования содержащейся в них информации.

Использование проприетарных форматов файлов, спецификация которых не является общедоступной, может создать зависимость от стороннего программного обеспечения или держателей лицензий на формат файлов. В худшем случае это может означать, что информацию можно прочитать только с помощью определенных программных пакетов, которые могут быть непомерно дорогими или могут устареть.

Таким образом, с точки зрения открытых правительственных данных предпочтение отдается тому, чтобы информация публиковалась в открытых форматах файлов, которые являются машиночитаемыми.

Пример: данные трафика Великобритании

Эндрю Николсон — разработчик программного обеспечения, участвовавший в (в конечном итоге успешной) кампании против строительства новой дороги, Восточной объездной дороги Вестбери, в Великобритании. Эндрю интересовался доступом и использованием данных о дорожном движении, которые использовались для обоснования предложений. Ему удалось получить некоторые из соответствующих данных с помощью запросов о свободе информации, но местное правительство предоставило данные в закрытом формате, который можно прочитать только с помощью программного обеспечения, разработанного компанией Saturn, которая специализируется на моделировании и прогнозировании дорожного движения. Версия программного обеспечения «только для чтения» не предусмотрена, поэтому у группы Эндрю не было другого выбора, кроме как приобрести лицензию на программное обеспечение, в конечном итоге заплатив 500 фунтов стерлингов (600 евро) при использовании образовательной скидки. Основные пакеты программного обеспечения в прайс-листе Saturn на апрель 2010 года начинаются от 13 000 фунтов стерлингов (более 15 000 евро), что недоступно большинству обычных граждан.

Хотя закон о доступе к информации не дает права доступа к информации в открытых форматах, инициативы по открытым правительственным данным начинают сопровождаться политическими документами, которые предусматривают, что официальная информация должна быть доступна в открытых форматах файлов. Золотой стандарт установила администрация Обамы, выпустив в декабре 2009 года Директиву об открытом правительстве, в которой говорится:

Насколько это практически возможно и с учетом действующих ограничений, агентства должны публиковать информацию в Интернете в открытом формате, который может быть найден, загружен, проиндексирован и найден с помощью широко используемых приложений веб-поиска. Открытый формат — это формат, не зависящий от платформы, машиночитаемый и общедоступный без ограничений, препятствующих повторному использованию этой информации.

Как использовать заданный формат?

Когда органу власти необходимо представить новые данные — данные, которые ранее не представлялись, — следует выбрать формат, обеспечивающий наилучший баланс между стоимостью и пригодностью для цели. Для каждого формата есть некоторые вещи, о которых вы должны знать, и этот раздел призван объяснить их.

В этом разделе основное внимание уделяется тому, как лучше всего расположить поверхности разреза, чтобы машины могли получить к ним прямой доступ. Советы и рекомендации по проектированию веб-сайтов и веб-решений можно найти в другом месте.

Веб-сервисы

Для данных, которые часто изменяются, и когда каждое извлечение ограничено по размеру, очень уместно раскрывать данные через веб-службы. Существует несколько способов создания веб-службы, но наиболее часто используемыми являются SOAP и REST. Как правило, SOAP поверх REST, службы REST, но их очень легко разрабатывать и использовать, поэтому это широко используемый стандарт.

База данных

Как и веб-службы, базы данных динамически обеспечивают прямой доступ к данным. Преимущество баз данных в том, что они позволяют пользователям собирать только то извлечение, которое им интересно.

Существуют некоторые проблемы с безопасностью, связанные с возможностью удаленного извлечения из базы данных, и доступ к базе данных полезен только в том случае, если структура базы данных и важность отдельных таблиц и полей хорошо задокументированы. Часто относительно просто и недорого создать веб-службы, предоставляющие данные из базы данных, что может быть простым способом решения проблем безопасности.

File Format Docs

Microsoft Visio позволяет создавать ряд макетов документов, которые могут содержать текст, растровую и векторную графику. Подробнее »

Игровые файлы могут включать файлы, необходимые для успешного запуска игры на поддерживаемых устройствах, таких как ноутбуки, мобильные устройства, XBox и Play Stations. Подробнее »

Разные типы файлов включают файлы, принадлежащие к разным категориям форматов файлов, но их собственный формат файлов отличается от этих. Примеры включают формат файла ODF, который представляет собой файл XML, сжатый ZIP, но фактически не принадлежит к форматам файлов сжатия. Подробнее »

Системный файл — это компьютерный файл, который содержит всю системную информацию об устройстве. Подробнее »

Исполняемые файлы используются для указания компьютеру выполнять определенные операции в виде закодированного набора инструкций; написано в этих файлах Подробнее »

Файл образа диска или файл мультимедиа — это компьютерный файл, который содержит содержимое и структуру тома диска. Подробнее »

Файлы отчетов принадлежат определенным программам для создания отчетов и содержат структуру проекта для отображения данных из типичного источника данных. Подробнее »

Файлы шрифтов содержат информацию о различных типах шрифтов. Общие форматы файлов шрифтов включают CFF, CFF2, TTF, FNT, FON и PFA. Подробнее »

Файлы ГИС содержат информацию о географических данных, включая пространственную информацию. Форматы файлов ГИС включают файлы SHP, KML, KMZ, GeoJSON, FileGDB и OpenStreetMap. Подробнее »

Форматы файлов CAD представляют собой цифровое представление файлов автоматизированного проектирования. Для этого используются различные форматы, такие как DXF, DWG, IFC, STL, PLT и другие. Подробнее »

Аудиофайлы хранят цифровые аудиоданные в компьютерной системе. Научитесь открывать такие форматы аудиофайлов, как MP3, WAV, WMV, PCM, AAC, WMA и другие популярные типы аудиофайлов. Подробнее »

Сжатые файлы — это цифровые архивы, в которых файлы хранятся за счет уменьшения их размера. Популярные форматы сжатых файлов включают ZIP, 7Z, BZ2, GZ, RAR и TAR. Подробнее »

Файлы изображений хранят изображения в виде цифровых носителей на устройствах хранения. Научитесь открывать файлы форматов растровых и векторных изображений, включая BMP, PNG, JPEG, GIF и другие. Подробнее »

3D-файлы представляют собой цифровое представление трехмерных объектов. Научитесь открывать форматы 3D-файлов, включая GLB, FBX, GLTF, OBJ, PLY, JT, 3DS и другие. Подробнее »

Финансовые файлы содержат информацию о форматах файлов, связанных с финансовыми транзакциями. Научитесь открывать форматы 3D-файлов, включая XRBL, iXRBL и ABA. Подробнее »

Файлы презентаций содержат слайды, содержащие такие данные, как текст, изображения, фигуры, анимацию, видео и аудио. Научитесь открывать форматы файлов презентаций, включая PPTX, PPT, PPTM и некоторые другие. Подробнее »

Файлы электронных таблиц содержат данные в строках и столбцах и могут быть открыты в приложениях для работы с электронными таблицами. Форматы файлов электронных таблиц включают XLSX, XLS, CSV, XLSB, XLSM, XLT, XLTX и другие. Подробнее »

Файлы базы данных используются для цифрового хранения данных на компьютерах и содержат записи в виде записей, которыми часто управляет СУБД. Подробнее »

Файлы электронных книг — это электронные файлы, которые можно открывать и читать на цифровых устройствах, известных как электронные книги. Распространенные расширения файлов электронных книг и их форматы файлов включают EPUB, FB2 и Mobi. Подробнее »

Язык описания страниц описывает внешний вид печатной страницы на языке более высокого уровня. Общие форматы файлов PDL включают XPS, CGM, EPS, SVG, PS, XSLFO и PCL. Подробнее »

Файлы электронной почты — это цифровые контейнеры, которые содержат текст, вложения, информацию об отправителе и получателе. Распространенные форматы файлов электронной почты включают EML, MSG, EMLX, TNEF, ICS, OFT, PST и OST. Подробнее »

Файлы заметок содержат пользовательские данные в свободной форме, такие как снимки, загруженные файлы, рисунки и заметки. Распространенные форматы файлов для создания заметок включают ONE и ONETOC2 от Microsoft OneNote. Подробнее »

Portable Document Format (PDF) — это стандартное представление документов, независимое от программного обеспечения, оборудования и операционной системы. Стандарты PDF включают PDF/A, PDF/E, PDF/UA, PDF/VT и PDF/X. Подробнее »

Файлы программирования содержат исходный код для написания приложений. Популярные форматы файлов программирования включают C++, CS (CSharp), VB (Visual Basic), CSPROJ и SLN (Solution). Подробнее »

Файлы проекта содержат набор задач и действий, которые необходимо выполнить для завершения проекта. Узнайте о распространенных форматах файлов Project, таких как MPP, XER, MPT и MPX. Подробнее »

Micrsoft Publisher позволяет создавать ряд макетов документов, которые могут содержать текст, растровую и векторную графику. Подробнее »

Видеофайлы хранят цифровые видеоданные в компьютерной системе и в действительности представляют собой последовательность изображений. Научитесь открывать распространенные форматы видеофайлов, такие как AVI, M4V, MOV и WMV. Подробнее »

Веб-файлы содержат данные для создания веб-страниц, которые объединяются для создания веб-сайта. Научитесь работать и открывать различные форматы веб-файлов, такие как ASP, CHM, HTM, HTML, MHTML и XHTML.

Форматы файлов: Форматы файлов

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Пролистать наверх