Справочник по форматам файлов Word, Excel и PowerPoint — Deploy Office
Twitter LinkedIn Facebook Адрес электронной почты
- Статья
- Чтение занимает 13 мин
Область применения:Приложения Microsoft 365 для предприятий, Office 2019 и Office 2016
Поддерживаемые форматы файлов и их расширения указаны в следующих таблицах для Word, Excel и PowerPoint.
Форматы файлов, поддерживаемые в Word
В следующей таблице перечислены форматы файлов, поддерживаемые в Word, с сортировкой по расширению.
Расширение | Имя формата файлов | Описание |
---|---|---|
DOC | Документ Word 97–2003 | Двоичный формат файлов Word 97–2003. |
DOCM | Документ Word с поддержкой макросов | Формат файлов на основе XML с поддержкой макросов для Word 2019, Word 2016, Word 2013, Word 2010 и Office Word 2007. Сохраняет макрокод Visual Basic для приложений (VBA). |
DOCX | Документ Word | Формат файлов по умолчанию на основе XML для Word 2019, Word 2016, Word 2013, Word 2010 и Office Word 2007. |
DOCX | Документ Strict Open XML | Соответствует профилю Strict стандарта Open XML (ISO/IEC 29500).![]() |
DOT | Шаблон Word 97–2003 | Шаблон для файлов Word 97–Word 2003. |
DOTM | Шаблон Word с поддержкой макросов | Шаблон для создания новых файлов Word 2019, Word 2016, Word 2013, Word 2010 и Office Word 2007, содержащих макросы. Этот формат файлов следует использовать пользователям, которые хотят включить настройки пользовательского интерфейса или макросы в шаблон. |
DOTX | Шаблон Word | Шаблон для создания новых файлов Word 2019, Word 2016, Word 2013, Word 2010 и Office Word 2007, не содержащих макросы. |
HTM, HTML | Веб-страница | Веб-страница, которая сохраняется в виде папки, содержащей файл HTM и все вспомогательные файлы, такие как изображения, звуковые файлы, каскадные таблицы стилей, сценарии и другие.![]() |
HTM, HTML | Веб-страница с фильтром | При сохранении данных в формате файлов «Веб-страница с фильтром» удаляются теги, связанные с Microsoft Office. Если пользователь сохраняет данные в формате HTML с фильтром, а затем повторно открывает этот файл в приложении Office, текст и внешний вид содержимого сохраняются. Однако некоторые компоненты могут работать иначе. |
MHT, MHTML | Веб-страница в одном файле | Веб-страница в виде одного файла, содержащего файл HTM и все вспомогательные файлы, такие как изображения, звуковые файлы, каскадные таблицы стилей, сценарии и другие. |
ODT | Текст OpenDocument | Формат файлов для сохранения файлов Word 2019, Word 2016 и Word 2013, чтобы их можно было открыть в приложениях для работы с документами, использующих формат OpenDocument.![]() |
PDF | PDF | Файлы в формате PDF можно сохранять и открывать с помощью Word 2019, Word 2016 и Word 2013. Важно! PDF-файлы могут соответствовать оригиналу не полностью. Например, разрывы страниц могут находиться в других местах. |
RTF | Форматированный текст | Формат RTF управляет представлением и форматированием документа как на экране, так и при печати. Документы в формате RTF, созданные в разных операционных системах и приложениях, можно переносить между ними. |
TXT | Обычный текст | Когда пользователи сохраняют документ в виде TXT-файла, все форматирование теряется.![]() |
.wps | Документ Works 6-9 | Это формат по умолчанию для файлов Microsoft Works версии с 6.0 по 9.0. |
XML | XML-документ Word 2003 | Формат XML, поддерживаемый в Office Word 2003. |
XML | XML-документ Word | Формат файлов XML, поддерживаемый в Word 2019, Word 2016, Word 2013, Word 2010 и Office Word 2007 (Open XML). |
XPS | Документ XPS | XPS (XML Paper Specification) — формат файлов, который сохраняет форматирование документа и обеспечивает совместное использование файлов. Когда XPS-файл просматривается в Интернете или печатается, он сохраняет именно тот формат, который пользователи планировали, и данные в файле не могут быть легко изменены. Для сохранения документов в формате XPS можно использовать Word 2019, Word 2016 или Word 2013, но такие документы невозможно открывать с помощью Word 2019, Word 2016 или Word 2013. |
Форматы файлов, поддерживаемые в Excel
В следующих таблицах описываются форматы файлов, поддерживаемые в Excel.
Расширение | Имя формата файлов | Описание |
---|---|---|
CSV | CSV (разделители — запятые) | Сохраняет книгу в виде текстового файла с разделителями-запятыми для использования в другой операционной системе Windows и гарантирует правильное распознавание знаков табуляции, разрывов строки и других знаков. Сохраняет только активный лист. |
CSV | CSV (Macintosh) | Сохраняет книгу в виде текстового файла с разделителями-запятыми для использования в операционной системе Macintosh и гарантирует правильное распознавание знаков табуляции, разрывов строки и других знаков. Сохраняет только активный лист. |
CSV | CSV (MS-DOS) | Сохраняет книгу в виде текстового файла с разделителями-запятыми для использования в операционной системе MS-DOS и гарантирует правильное распознавание знаков табуляции, разрывов строки и других знаков.![]() |
DBF | DBF 3, DBF 4 | dBase III и IV. Пользователи могут открывать файлы этих форматов в Excel 2019, Excel 2016 и Excel 2013, но не могут сохранять файлы Excel в формате dBase. |
DIF | DIF (Data Interchange Format) | Сохраняет только активный лист. |
HTM, HTML | Веб-страница | Веб-страница, которая сохраняется в виде папки, содержащей файл HTM и все вспомогательные файлы, такие как изображения, звуковые файлы, сценарии и другие. |
MHT, MHTML | Веб-страница в одном файле | Веб-страница, которая сохраняется в виде одного файла, содержащего файл HTM и все вспомогательные файлы, такие как изображения, звуковые файлы, каскадные таблицы стилей, сценарии и другие. |
ODS | Электронная таблица OpenDocument | Формат файлов для сохранения файлов Excel 2019, Excel 2016 и Excel 2013, чтобы их можно было открывать в приложениях для работы с электронными таблицами, использующих формат электронной таблицы OpenDocument, таких как «Документы Google» и OpenOffice.![]() |
PDF | PDF | Формат PDF сохраняет форматирование документов и позволяет обмениваться файлами с другими пользователями. При просмотре PDF-файла в Интернете и выводе на печать сохраняется его исходное оформление. Данные в файле не могут быть легко изменены. Формат PDF также полезен для документов, предназначенных для промышленной печати. |
PRN | Форматированный текст (разделители — пробелы) | Формат Lotus с разделителями-пробелами. Сохраняет только активный лист. |
SLK | SYLK (формат символьной ссылки) | Сохраняет только активный лист. |
TXT | Текст (разделитель — табуляция) | Сохраняет книгу в виде текстового файла с разделителями в виде табуляции для использования в другой операционной системе Windows и гарантирует правильное распознавание знаков табуляции, разрывов строки и других знаков.![]() |
TXT | Текст (Macintosh) | Сохраняет книгу в виде текстового файла с разделителями в виде табуляции для использования в операционной системе Macintosh и гарантирует правильное распознавание знаков табуляции, разрывов строки и других знаков. Сохраняет только активный лист. |
TXT | Текст (MS-DOS) | Сохраняет книгу в виде текстового файла с разделителями в виде табуляции для использования в операционной системе MS-DOS и гарантирует правильное распознавание знаков табуляции, разрывов строки и других знаков. Сохраняет только активный лист. |
TXT | Текст в кодировке Unicode | Сохраняет книгу в виде текста Юникода, это стандарт кодировки, разработанный компанией Unicode Consortium. Сохраняет только активный лист. |
XLA | Надстройка Excel 97–2003 | Надстройка Excel 97–2003 — вспомогательная программа, выполняющая дополнительный код и поддерживающая проекты VBA.![]() |
XLAM | Надстройка Microsoft Excel | Формат надстроек на основе XML с поддержкой макросов для Excel 2019, Excel 2016, Excel 2013, и Office Excel 2007. Надстройка — это вспомогательная программа, выполняющая дополнительный код. Она поддерживает проекты VBA и листы макросов Excel 4.0 (XLM). |
XLS | Книга Excel 97–2003 | Формат двоичных файлов Excel 97– Excel 2003. |
XLS | Книга Microsoft Excel 5.0/95 | Формат двоичных файлов Excel 5.0/95. |
XLSB | Двоичная книга Excel | Двоичный формат файлов Excel 2019, Excel 2016, Excel 2013 и Excel 2010 и Office Excel 2007. Этот формат файлов, обеспечивающий быструю загрузку и быстрое сохранение, подходит пользователям, которым требуется добиться наибольшей скорости загрузки файла данных. Этот формат поддерживает проекты VBA, листы макросов Excel 4.0 и все новые функции Excel.![]() |
XLSM | Книга Excel с поддержкой макросов | Формат файлов на основе XML с поддержкой макросов для Excel 2019, Excel 2016, Excel 2013, Excel 2010 и Office Excel 2007. Сохраняет макрокод VBA или листы макросов Excel 4.0 (XLM). |
XLSX | Книга Excel | Формат файлов по умолчанию на основе XML для Excel 2019, Excel 2016, Excel 2013, Excel 2010 и Office Excel 2007. Не позволяет сохранять макрокод VBA и листы макросов Microsoft Excel 4.0 (XLM). |
XLSX | Книга Strict Open XML | Версия ISO Strict формата файла книги Excel (XLSX). |
XLT | Шаблон Excel 97–2003 | Формат двоичных файлов Excel 97—Excel 2003 для шаблонов Excel.![]() |
XLTM | Шаблон Excel с поддержкой макросов | Формат файлов шаблонов с поддержкой макросов для Excel 2019, Excel 2016, Excel 2013, Excel 2010 и Office Excel 2007. Сохраняет макрокод VBA и листы макросов Excel 4.0 (XLM). |
XLTX | Шаблон Excel | Формат файлов шаблонов по умолчанию для Excel 2019, Excel 2016, Excel 2013, Excel 2010 и Office Excel 2007. Не сохраняет макрокод VBA и листы макросов Excel 4.0 (XLM). |
XLW | Книга Excel 4.0 | Формат файлов Excel 4.0, в котором сохраняются только листы, листы диаграмм и листы макросов. Пользователи могут открывать книги в этом формате в Excel 2019, Excel 2016 и Excel 2013. При этом пользователи не смогут сохранять файлы Excel в этом формате. |
XML | Таблица XML 2003 | Формат файлов таблицы XML 2003. |
XML | Данные XML | Формат данных XML.![]() |
XPS | Документ XPS | XPS (XML Paper Specification) — формат файлов, который сохраняет форматирование документа и обеспечивает совместное использование файлов. Когда XPS-файл просматривается в Интернете или печатается, он поддерживает именно тот формат, который намеревался пользователями, и данные в файле не могут быть легко изменены. |
Форматы файлов, поддерживаемые в PowerPoint
В следующих таблицах описываются форматы файлов, поддерживаемые в PowerPoint.
Расширение | Имя формата файлов | Описание |
---|---|---|
BMP | Аппаратно-независимый рисунок | Слайд, сохраняемый в виде графического элемента для использования на веб-страницах. |
EMF | Расширенный метафайл Windows | Слайд, сохраняемый в виде 32-разрядного графического элемента (для использования в операционных системах Microsoft Windows 95 и более поздних версий).![]() |
GIF | Рисунок в формате GIF | Слайд, сохраняемый в виде графического элемента для использования на веб-страницах. |
JPG | Рисунок в формате JPG | Слайд, сохраняемый в виде графического элемента для использования на веб-страницах. |
.mp4 | Видео MPEG-4 | Презентация, сохраненная в виде видеозаписи. |
ODP | Презентация OpenDocument | Формат файлов, который можно открывать в приложениях для работы с презентациями, использующих формат презентации OpenDocument, таких как «Документы Google» и OpenOffice.org Impress. Пользователи также могут открыть презентации формата ODP в PowerPoint. После сохранения и открытия файлов ODP часть информации может быть потеряна. |
PDF | PDF | PDF (Portable Document Format) — основанный на PostScript электронный формат файлов, разработанный компанией Adobe Systems.![]() |
PNG | Рисунок в формате Portable Network Graphics | Слайд, сохраняемый в виде графического элемента для использования на веб-страницах. |
POT | Шаблон PowerPoint 97–2003 | Шаблон для презентаций PowerPoint 97–Office PowerPoint 2003. |
POTM | Шаблон PowerPoint с поддержкой макросов | Шаблон для презентаций PowerPoint 2019, PowerPoint 2016, PowerPoint 2013, PowerPoint 2010 и Office PowerPoint 2007, содержащих макросы. |
POTX | Шаблон PowerPoint | Шаблон для создания новых презентаций PowerPoint 2019, PowerPoint 2016, PowerPoint 2013, PowerPoint 2010 и Office PowerPoint 2007. |
PPA | Надстройка PowerPoint 97–2003 | Надстройка PowerPoint 97–Office PowerPoint 2003.![]() |
PPAM | Надстройка PowerPoint | Надстройка, сохраняющая настраиваемые команды, код Visual Basic для приложений (VBA) и специализированные компоненты. |
PPS | Демонстрация PowerPoint 97–2003 | Презентация, которая всегда открыта в режиме слайд-шоу вместо обычного режима. |
PPSM | Демонстрация PowerPoint с поддержкой макросов | Слайд-шоу, включающее в себя макросы. |
PPSX | Демонстрация PowerPoint (PPSX) | Презентация, которая всегда открыта в режиме слайд-шоу вместо обычного режима. |
PPT | Презентация PowerPoint 97–2003 | Формат файлов по умолчанию для PowerPoint 97–Office PowerPoint 2003. |
PPTM | Презентация PowerPoint с поддержкой макросов | Презентация, содержащая код Visual Basic для приложений (VBA). |
PPTX | Презентация PowerPoint | Формат файлов по умолчанию на основе XML для PowerPoint 2019, PowerPoint 2016, PowerPoint 2013, PowerPoint 2010 и Office PowerPoint 2007.![]() |
PPTX | Нередактируемая презентация PowerPoint | Презентация PowerPoint 2019, PowerPoint 2016, PowerPoint 2013, PowerPoint 2010 или PowerPoint 2007, в которой каждый слайд преобразован в рисунок. При сохранении файла в виде нередактируемой презентации PowerPoint размер файла снижается, но некоторая информация утрачивается. |
PPTX | Презентация Strict Open XML | Версия формата файлов презентации PowerPoint (PPTX), строго соответствующая стандарту ISO. |
RTF | Структура, RTF | Структура презентации, которая сохраняется в виде текстового документа, что обеспечивает меньшие размеры файлов и возможность использования файлов без макросов совместно с другими пользователями, которые могут использовать другую версию PowerPoint или операционной системы. Любой текст в области заметок не сохраняется в этом формате файла. |
THMX | Тема Office | Таблица стилей, включающая в себя определения цветовой темы, темы шрифтов и темы эффектов.![]() |
TIF | Рисунок в формате TIFF | Слайд, сохраняемый в виде графического элемента для использования на веб-страницах. |
WMF | Метафайл Windows | Слайд, сохраняемый в виде 16-разрядного графического элемента (для использования в операционных системах Microsoft Windows 3.x и более поздних версий). |
WMV | Видео в формате Windows Media | Презентация, сохраненная в виде видеозаписи. Презентации PowerPoint 2019, PowerPoint 2016, и PowerPoint 2013 можно сохранять с высоким качеством (1024 x 768, 30 кадров в секунду), средним качеством (640 x 480, 24 кадра в секунду) и низким качеством (320 X 240, 15 кадров в секунду). Файлы формата WMV воспроизводятся во многих медиапроигрывателях, таких как проигрыватель Windows Media. |
XML | Презентация PowerPoint XML | Формат файлов XML, поддерживаемый в PowerPoint 2019, PowerPoint 2016, PowerPoint 2013, PowerPoint 2010 и Office PowerPoint 2007.![]() |
XPS | Документ XPS | XPS (XML Paper Specification) — электронный формат для обмена документами в их окончательной форме. |
Форматы файлов, которые не поддерживаются в Office
Приложения Office не поддерживают форматы файлов, описанные в следующей таблице.
Приложение | Неподдерживаемый формат файлов |
---|---|
Excel | — Диаграмма Excel (форматы файлов Excel 2.0, 3.0 и 2.x) (XLC) — Форматы файлов Lotus 1-2-3 (все версии) (WK1, WK2, WK3, WK4, WKS) — Microsoft Works (все версии) (WKS) — Формат файлов DBASE II (DBF) — Формат файлов Quattro Pro для MS-DOS (WQ1) — Quattro Pro 5.0 и 7.0 для Windows (WB1, WB3) |
PowerPoint | — Открытие форматов файлов PowerPoint 95 (или более ранних версий) или сохранение в эти форматы — Файлы мастера упаковки (PPZ) — Файлы веб-страниц (HTM, HTML) |
В этом разделе приведены дополнительные форматы файлов и сведения о том, поддерживаются ли они в приложениях Office.
Форматы файлов буфера обмена Microsoft Office
Пользователи могут вставлять данные из буфера обмена Office в Word, Excel и PowerPoint, если данные буфера обмена Office имеют один из форматов, указанных в следующей таблице.
Формат файлов | Расширение | Описание |
---|---|---|
Изображение | WMF или EMF | Рисунки в формате метафайла Windows (WMF) или расширенного метафайла Windows (EMF). Примечание. При копировании метафайла Windows (WMF) из другой программы Microsoft Excel вставляет элемент в виде расширенного метафайла (EMF). |
Точечный рисунок | BMP | Рисунки, хранящиеся в формате BMP. |
Форматы файлов Excel | XLS | Форматы двоичных файлов для Excel 5.0/95, Excel 97–2003, Excel 2013, Excel 2016 и Excel 2019. |
SYLK | SLK | Формат символьной ссылки.![]() |
DIF | DIF | Формат Data Interchange Format. |
Текст (разделитель — табуляция) | TXT | Текстовый формат со знаками табуляции в качестве разделителей. |
CSV (разделители — запятые) | CSV | Текстовый формат с разделителями-запятыми. |
Форматированный текст (разделитель — пробел) | RTF | Форматированный текст (RTF). Только из Excel. |
Внедренный объект | GIF, JPG, DOC, XLS или BMP | Объекты Excel и Excel 2013, объекты из правильно зарегистрированных программ, поддерживающих OLE 2.0 (OwnerLink), а также рисунок или другой формат презентации. |
Связанный объект | GIF, JPG, DOC, XLS или BMP | OwnerLink, ObjectLink, Link, Picture или другой формат. |
Объект-рисунок Office | EMF | Формат рисованного объекта Office или Picture (EMF) |
Текст | TXT | Отображаемый текст, текст ПВТ.![]() |
HTML | HTM, HTML | Формат HTML (Hypertext Markup Language). Примечание. При копировании текста из другой программы Microsoft Excel вставляет этот текст в формате HTML независимо от формата исходного текста. |
Веб-страница в одном файле | MHT, MHTML | Этот формат файлов интегрирует в себе встроенные графические объекты, приложения, связанные документы и другие вспомогательные элементы, на которые ссылается документ. |
Открытие и просмотр неподдерживаемых форматов файлов
Если формат файла, который пользователи хотят использовать, не поддерживается, они могут попробовать следующие методы, чтобы открыть файл.
Найдите в Интернете компанию, которая создает конвертеры форматов файлов, чтобы найти форматы файлов, которые не поддерживаются в приложении.
Сохраните файл в формате, который поддерживается другой программой.
Например, пользователи могут импортировать свои файлы Word, Excel или PowerPoint в другую программу, которая не поддерживает собственный формат файла приложения. При этом другая программа может поддерживать импорт файлов в другом поддерживаемом формате, например, в текстовом формате. В этом случае пользователи могут сохранить свою работу в формате текстового файла, а затем импортировать этот текстовый файл в другую программу.
- Справочная информация по расширениям имен файлов XML в Office
- Руководство по ресурсам панели мониторинга телеметрии Office
Как устроены файлы? Разбор / Хабр
Файлы… что вообще может быть проще? Мы все привыкли создавать, удалять, редактировать, перекидываться файлами.
Но можем ли мы заглянуть внутрь каждого файла и понять как он устроен? Конечно можем, поэтому сегодня мы немного покопаемся в бинарном коде и пощупаем метаданные.
Заодно узнаем, почему iPhone зависает от SMS и распотрошим PowerPoint.
Почему форматов файлов так много?
Если бы мы просто могли взглянуть на сырые данные, которые хранятся внутри жесткого диска или SSD, то мы бы не увидели никаких файлов: мы бы увидели только нолики и единички. Потому как, в любом случае, в памяти компьютера всё хранится в виде сплошного потока двоичного кода.
Но как же тогда понять, где заканчивается один файл и начинается другой?
Поначалу эту проблему человечество решало брутально. Люди записывали один файл на один жесткий диск, чтобы уж точно не ошибиться. Поэтому раньше словом файл называли не отдельную область на жестком диске, а прям целое устройство. К примеру IBM 305.
CTSS (Compatible Time-Sharing System)
Но потом, люди придумали файловые системы. Если очень упростить, это такое оглавление в котором указано имя файла, где он начинается и его длина. А также всякие метаданные, типа время создания, изменения, и можно ли его перезаписывать.
Но для того чтобы прочитать файл, знать его местоположение и границы на жестком диске недостаточно, ведь нам нужно как-то расшифровать бинарный код.
Для этого и существуют различные форматы файлов. В большинстве операционных систем форматы файлов указываются в виде расширения, которое отделяется точкой от имени файла. А если вы не видите расширения, это нормально. Потому что, по умолчанию, современные ОС их скрывают, но можно поставить галочку в настройках.
Расширение даёт подсказку операционной системе и программам, о том какой тип данных он содержит и как это всё структурировано. Например, увидев файл droider.jpg операционная система и мы, люди, сразу понимаем, что это картинка в формате JPEG.
Естественно, для типов данных и разных задач оптимальной будет разная структура файла. Поэтому и форматов файлов существует огромная масса.
Поэтому давайте разберем, как устроены наиболее популярные форматы файлов от более простых к более сложным.
TXT
Один из самый простых форматов — это TXT. Это текстовый формат. Знаменитое приложение «Блокнот» в Windows работает как раз с этим форматом.
TXT — формат незамысловатый. Он может хранить в себе только простой неформатированный текст, то есть в нем нет никаких выделений, подчеркиваний, курсивов, отступов, разных шрифтов. Только голый текст, а точнее просто символы.
Каждый символ в TXT-формате хранится в виде бинарного кода.
Hello, world!
То что мы с вами видим как осмысленный текст, операционная система видит вот так:
01001000 01100101 01101100 01101100 01101111 00101100 00100000 01110111 01101111 01110010 01101100 01100100 00100001
Каждые 8 цифр, то есть 8 бит этого кода — это отдельный символ.
Например, 01001000 — это “H”, 01100101 — это “e”, и так далее.
01001000 — H
01100101 — e
01101100 — l
01101100 — l
01101111 — o
Но как операционная система расшифровывает эти данные? Всё просто. Операционной системе требуется загрузить таблицу, в которой описано соответствие бинарного кода конкретному символу. Таких таблиц много, самые известные сегодня — CP1251 (Windows), UTF-8 (Android, Mac) и так далее. Такие таблицы, часто называют кодировками. В данном файле используется кодировка UTF-8, то есть 8-битный Юникод.
Unicode Transformation Format, 8-bit — «формат преобразования Юникода, 8-бит»
Подобрав правильную кодировку остается дело техники. Система сопоставляет бинарный код с таблицей кодировки UTF-8 и готово! Но что будет если система подберет кодировку неправильно? Вариантов не много, скорее всего мы увидим крякозябры:
çÁ%%?Ï?Ê%À (кодировка EBCDIC).
И такое часто случается, так как TXT-файл не содержит никакой дополнительной информации о кодировке. И это большой недостаток формата.
Еще интересный момент. Исторически, компьютеры «знали» только латиницу, которая используется в большинстве европейских языков. И тут произошла проблема: 8-бит — это всего лишь 256 возможных значений. Это немного, но этого было достаточно, чтобы закодировать все базовые символы + латинские буквы.
И вдобавок, эту таблицу нужно было загрузить в оперативную память при загрузке компьютера, а у типового ПК в начале 80-х годов редко было больше 640 килобайт оперативки. А использовать 16-битные таблицы (65536 вариантов) было просто невозможно, такая таблица просто не влезла бы в память.
Но мощность компьютеров росла и проблема ушла. К таблицам с латинскими символами добавились кириллические, которые занимали уже не по 8 бит, а по 16 бит каждый. Поэтому текст на русском занимает в два раза больше памяти, при том же количестве символов.
11010000 10011111 11010001 10000000 11010000 10111000 11010000 10110010 11010000 10110101 11010001 10000010 00101100 00100000 11010000 10111100 11010000 10111000 11010001 10000000 00100001
11010000 10011111 — П
11010001 10000000 — р
10111000 11010000 — и
11010000 10110010 — в
…
Привет, мир!
Старики помнят лайфхак, если писать SMS на латинице, то влезет в два раза больше текста. Всё это как раз из-за кодировки.
Кстати, помните все эти случаи, когда iPhone умирал от присланного сообщения со странными символами или картинки? Это как раз связано с тем, что система не могла правильно распознать присланные символы и правильно определить их длину.
Например, вот такое сообщение в своё время заставляло любой айфон уйти в цикличный ребут:
Power
لُلُصّبُلُلصّبُررً ॣ ॣh ॣ ॣ
冗
WAV
Так вот, чтобы у операционной системы не было проблем с пониманием как прочитать файл. Помимо самих данных, в разные форматы стали добавлять данные о данных. То есть метаданные, которые хранятся прямо внутри файла и содержат дополнительную информацию о том, как этот файл прочитать.
К примеру, возьмём файл в формате WAV.
Это простой аудиоформат, который содержит несжатый. Всё CD диски записаны в формате WAV.
Первые 44 байта классического WAV-файла содержат заголовок, к котором указывается полезнейшая информация:
- количество аудио каналов;
- частота дискретизации;
- битовая глубина;
- и многое другое.
Все эти данные позволяют быть уверенным, что аудио будет воспроизведено корректно.
Открытые и проприетарные форматы
Структура WAV хорошо известна и наверное такой файл сможет прочитать практически любой плеер. Всё потому, что WAV-файл — это пример открытого формата.
Есть и другие открытые форматы, которыми вы ежедневно пользуетесь. Например:
- язык разметки web-страниц — HTML;
- картинки — PNG;
- аудио в формате — OGG;
- архива — ZIP;
- видео — MKV;
- электронной книги — EPUB;
- и другие…
Но бывают и закрытые форматы файлов, а точнее проприетарные. Открытие и редактирование таких файлов сторонним софтом часто либо вообще запрещено, либо распространяется по лицензиям.
Проприетарные форматы всем прекрасны, но в отдельных случаях они препятствуют конкуренции в сфере программного обеспечения, так как приводят к замыканию на поставщике. Есть даже такой термин Vendor lock-in.
Старый офис
Например, раньше такая ситуация была с форматами Microsoft Office: DOC, XLS, PPT.
Мало того, что это были проприетарные форматы компании Microsoft и работали только с фирменным ПО. Так еще Microsoft постоянно меняли свою структуру файлов от одной версии MS Office к другой. И в результате? при выходе новой версии офисного пакета? файлы из старого редактора уже не читались новым, а наоборот — и подавно.
Такая ситуация не очень нравилась Европейскому Союзу. Поэтому, ЕС взъелся на тему ограничения конкуренции. В итоге, форматы файлов опубличили, и все научились хотя бы их читать, но для записи в старые форматы, по-прежнему, нужна лицензия Microsoft. И параллельно этому начали разрабатываться открытые форматы.
ODF и OOXML
1 мая 2006 года на свет появился формат формат ODF, что буквально расшифровывается как открытый формат документов для офисных приложений. Он был разработан консорциумом OASIS и Sun Microsystems.
- ODF — Open Document Format for Office Application.
- OASIS — Organization for the Advancement of Structured Information Standards.
Формат основан на универсальном языке разметки XML. А сам файл ODF представляет из себя ZIP-архив с папками, XML-файлами и всякими вложениями в виде картинок, видео и прочим. Иными словами, если открыть такой файл через архиватор мы можем спокойно увидеть все внутренности. Вот так пример открытости!
Microsoft тоже не спал. Под давлением Европейского суда они объединились с рядом компаний в ассоциацию ECMA и разработали свой открытый формат Office Open XML, который появился на свет чуть позже в 2006 году.
OOXML стандартизирован European Computer Manufacturers Association. Standard ECMA-376
К привычным форматом конце добавилась буква X и мы получили: DOCX, XLSX, PPTX.
OOXML — Office Open XML (DOCX, XLSX, PPTX)
OOXML, в целом, очень похож на ODF. Он также основан на XML-разметке и также представляет из себя ZIP-архив. Поэтому вы также можете заглянуть внутрь офисных файлов при помощи любого архиватора. Можно даже вытащить картинки и даже подменить их, что бывает особенно удобно при работе с презентациями или когда вам присылают текстовый документ с картинками внутри файла.
Несмотря на кажущуюся простоту, формат реально сложный. Только основная документация — это 5 тысяч страниц. И это практически без картинок.
Тем не менее, кто-то всё таки смог прочитать всю эту документацию и поэтому на свет появились классные офисные пакеты, например МойОфис, которые умеют работать и ODF форматом, и с Office Open XML, и даже с устаревшими форматами типа DOC.
Но есть важная ремарка про старые форматы. Как правило, современный софт умеет их только читать, но не записывать, потому как это действие требует приобретение лицензии Microsoft. Впрочем, в наше время это действие, мягко говоря, бессмысленно.
Итого
Что мы в итоге узнали? Файлы бывают нескольких типов:
Самые базовые — бинарные. Такие форматы любят придумывать компании, чтобы никто не понял, как их программы хранят данные.
Более открытый вариант — xml-контейнеры. К счастью, большинство популярных офисных форматов сейчас такие. Если хотите работать со всеми этими файлами хоть дома, хоть на бегу, скачивайте программы МойОфис! На этом у нас сегодня всё.
Форматы файлов
Языки: де Эль en эс фр он час я бы является Это да ко л lv мой пе nl_BE pt_BR Ро RU zh_CN zh_TW
Обзор форматов файлов
JSON
JSON — это простой формат файла, который легко читается на любом языке программирования. Его простота означает, что компьютерам обычно легче обрабатывать его, чем другие, такие как XML.
XML
XML является широко используемым форматом для обмена данными, поскольку он дает хорошие возможности для сохранения структуры данных и способа построения файлов, а также позволяет разработчикам записывать части документации вместе с данными, не мешая их чтению. .
РДФ
Рекомендованный W3C формат, называемый RDF, позволяет представлять данные в форме, упрощающей объединение данных из нескольких источников. Данные RDF могут храниться в XML и JSON, помимо других сериализаций. RDF поощряет использование URL-адресов в качестве идентификаторов, что обеспечивает удобный способ прямого взаимодействия существующих инициатив открытых данных в Интернете. RDF все еще не получил широкого распространения, но он стал тенденцией среди инициатив «Открытое правительство», включая проекты открытых данных, связанных с правительствами Великобритании и Испании. Изобретатель Интернета Тим Бернерс-Ли недавно предложил пятизвездочную схему, включающую связанные данные RDF, в качестве цели, которую следует искать для инициатив по открытым данным.
Электронные таблицы
Во многих органах информации осталась информация в электронной таблице, например Microsoft Excel. Эти данные часто можно использовать сразу же с правильным описанием того, что означают разные столбцы.
Однако в некоторых случаях в электронных таблицах могут быть макросы и формулы, с которыми может быть сложнее работать. Поэтому рекомендуется документировать такие расчеты рядом с электронной таблицей, так как она, как правило, более доступна для чтения пользователями.
Файлы, разделенные запятыми
Файлы CSVмогут быть очень полезным форматом, поскольку они компактны и поэтому подходят для передачи больших наборов данных с одинаковой структурой. Однако формат настолько спартанский, что данные часто бесполезны без документации, поскольку почти невозможно угадать значение различных столбцов. Поэтому для форматов с разделителями-запятыми особенно важно, чтобы документация отдельных полей была точной.
Кроме того, очень важно, чтобы структура файла была соблюдена, так как пропуск одного поля может нарушить чтение всех оставшихся данных в файле без какой-либо реальной возможности исправить это, потому что невозможно определить, как остальные данные должны интерпретироваться.
Текстовый документ
Классических документов в таких форматах, как Word, ODF, OOXML или PDF, может быть достаточно для отображения определенных типов данных, например, относительно стабильных списков рассылки или их эквивалентов. Демонстрация может быть дешевой, так как часто это формат, в котором рождаются данные. Формат не поддерживает согласованность структуры, что часто означает, что ввод данных с помощью автоматизированных средств затруднен. Обязательно используйте шаблоны в качестве основы документов, которые будут отображать данные для повторного использования, чтобы по крайней мере можно было вытащить информацию из документов.
Он также может поддерживать дальнейшее использование данных для максимально возможного использования типографской разметки, чтобы машине было легче отличать заголовки (любой указанный тип) от содержимого и так далее. Обычно рекомендуется не выставлять в формате текстового процессора, если данные существуют в другом формате.
Обычный текст
Текстовые документы (. txt) очень легко читаются компьютерами. Однако они, как правило, исключают структурные метаданные из документа, а это означает, что разработчикам потребуется создать синтаксический анализатор, который сможет интерпретировать каждый документ так, как он выглядит.
Некоторые проблемы могут быть вызваны переключением текстовых файлов между операционными системами. MS Windows, Mac OS X и другие варианты Unix по-своему сообщают компьютеру, что они достигли конца строки.
Отсканированное изображение
Вероятно, наименее подходящая форма для большинства данных, но и TIFF, и JPEG-2000 могут как минимум разметить их документацией того, что на картинке — вплоть до разметки изображения документа полнотекстовым содержимым документа. Это может иметь отношение к их отображению данных в виде изображений, данные которых не рождаются в электронном виде — очевидным примером являются старые церковные записи и другие архивные материалы — а изображение лучше, чем ничего.
Собственные форматы
Некоторые специализированные системы и т. д. имеют свои собственные форматы данных, в которых они могут сохранять или экспортировать данные. Иногда может быть достаточно предоставить данные в таком формате, особенно если ожидается, что дальнейшее использование будет в аналогичной системе. из которого они исходят. Всегда следует указывать, где можно найти дополнительную информацию об этих проприетарных форматах, например, путем предоставления ссылки на веб-сайт поставщика. Как правило, рекомендуется отображать данные в непатентованных форматах, где это возможно.
HTML
В настоящее время большое количество данных доступно в формате HTML на различных сайтах. Этого вполне может быть достаточно, если данные очень стабильны и ограничены по объему. В некоторых случаях может быть предпочтительнее иметь данные в форме, которую легче загружать и манипулировать, но поскольку это дешево и легко ссылаться на страницу веб-сайта, это может быть хорошей отправной точкой для отображения данных.
Как правило, наиболее целесообразно использовать таблицы в HTML-документах для хранения данных, а затем важно, чтобы различные поля данных отображались и имели идентификаторы, упрощающие поиск данных и управление ими. Yahoo разработала инструмент (http://developer.yahoo.com/yql/), который может извлекать структурированную информацию с веб-сайта, и такие инструменты могут делать гораздо больше с данными, если они тщательно помечены.
Форматы открытых файлов
Даже если информация предоставляется в электронном, машиночитаемом формате и подробно, могут возникнуть проблемы, связанные с форматом самого файла.
Форматы, в которых публикуется информация, т. е. цифровая база, в которой хранится информация, могут быть либо «открытыми», либо «закрытыми». Открытый формат — это формат, в котором спецификации программного обеспечения доступны любому бесплатно, так что каждый может использовать эти спецификации в своем собственном программном обеспечении без каких-либо ограничений на повторное использование, налагаемых правами интеллектуальной собственности.
Если формат файла является «закрытым», это может быть связано либо с тем, что формат файла является собственностью, а спецификация не является общедоступной, либо с тем, что формат файла является собственностью, и даже если спецификация была обнародована, повторное использование ограничено. . Если информация выпускается в формате закрытого файла, это может создать значительные препятствия для повторного использования закодированной в нем информации, вынуждая желающих использовать информацию покупать необходимое программное обеспечение.
Преимущество открытых форматов файлов заключается в том, что они позволяют разработчикам создавать несколько программных пакетов и услуг, используя эти форматы. Это сводит к минимуму препятствия для повторного использования содержащейся в них информации.
Использование проприетарных форматов файлов, спецификация которых не является общедоступной, может создать зависимость от стороннего программного обеспечения или держателей лицензий на формат файлов. В худшем случае это может означать, что информацию можно прочитать только с помощью определенных программных пакетов, которые могут быть непомерно дорогими или могут устареть.
Таким образом, с точки зрения открытых правительственных данных предпочтение отдается тому, чтобы информация публиковалась в открытых форматах файлов, которые являются машиночитаемыми.
Пример: данные трафика Великобритании
Эндрю Николсон — разработчик программного обеспечения, участвовавший в (в конечном итоге успешной) кампании против строительства новой дороги, Восточной объездной дороги Вестбери, в Великобритании. Эндрю интересовался доступом и использованием данных о дорожном движении, которые использовались для обоснования предложений. Ему удалось получить некоторые из соответствующих данных с помощью запросов о свободе информации, но местное правительство предоставило данные в закрытом формате, который можно прочитать только с помощью программного обеспечения, разработанного компанией Saturn, которая специализируется на моделировании и прогнозировании дорожного движения. Версия программного обеспечения «только для чтения» не предусмотрена, поэтому у группы Эндрю не было другого выбора, кроме как приобрести лицензию на программное обеспечение, в конечном итоге заплатив 500 фунтов стерлингов (600 евро) при использовании образовательной скидки. Основные пакеты программного обеспечения в прайс-листе Saturn на апрель 2010 года начинаются от 13 000 фунтов стерлингов (более 15 000 евро), что недоступно большинству обычных граждан.
Хотя закон о доступе к информации не дает права доступа к информации в открытых форматах, инициативы по открытым правительственным данным начинают сопровождаться политическими документами, которые предусматривают, что официальная информация должна быть доступна в открытых форматах файлов. Золотой стандарт установила администрация Обамы, выпустив в декабре 2009 года Директиву об открытом правительстве, в которой говорится:
Насколько это практически возможно и с учетом действующих ограничений, агентства должны публиковать информацию в Интернете в открытом формате, который может быть найден, загружен, проиндексирован и найден с помощью широко используемых приложений веб-поиска. Открытый формат — это формат, не зависящий от платформы, машиночитаемый и общедоступный без ограничений, препятствующих повторному использованию этой информации.
![]()
Как использовать заданный формат?
Когда органу власти необходимо представить новые данные — данные, которые ранее не представлялись, — следует выбрать формат, обеспечивающий наилучший баланс между стоимостью и пригодностью для цели. Для каждого формата есть некоторые вещи, о которых вы должны знать, и этот раздел призван объяснить их.
В этом разделе основное внимание уделяется тому, как лучше всего расположить поверхности разреза, чтобы машины могли получить к ним прямой доступ. Советы и рекомендации по проектированию веб-сайтов и веб-решений можно найти в другом месте.
Веб-сервисы
Для данных, которые часто изменяются, и когда каждое извлечение ограничено по размеру, очень уместно раскрывать данные через веб-службы. Существует несколько способов создания веб-службы, но наиболее часто используемыми являются SOAP и REST. Как правило, SOAP поверх REST, службы REST, но их очень легко разрабатывать и использовать, поэтому это широко используемый стандарт.
База данных
Как и веб-службы, базы данных динамически обеспечивают прямой доступ к данным. Преимущество баз данных в том, что они позволяют пользователям собирать только то извлечение, которое им интересно.
Существуют некоторые проблемы с безопасностью, связанные с возможностью удаленного извлечения из базы данных, и доступ к базе данных полезен только в том случае, если структура базы данных и важность отдельных таблиц и полей хорошо задокументированы. Часто относительно просто и недорого создать веб-службы, предоставляющие данные из базы данных, что может быть простым способом решения проблем безопасности.
File Format Docs
Microsoft Visio позволяет создавать ряд макетов документов, которые могут содержать текст, растровую и векторную графику. Подробнее »
Игровые файлы могут включать файлы, необходимые для успешного запуска игры на поддерживаемых устройствах, таких как ноутбуки, мобильные устройства, XBox и Play Stations. Подробнее »
Разные типы файлов включают файлы, принадлежащие к разным категориям форматов файлов, но их собственный формат файлов отличается от этих. Примеры включают формат файла ODF, который представляет собой файл XML, сжатый ZIP, но фактически не принадлежит к форматам файлов сжатия. Подробнее »
Системный файл — это компьютерный файл, который содержит всю системную информацию об устройстве. Подробнее »
Исполняемые файлы используются для указания компьютеру выполнять определенные операции в виде закодированного набора инструкций; написано в этих файлах Подробнее »
Файл образа диска или файл мультимедиа — это компьютерный файл, который содержит содержимое и структуру тома диска. Подробнее »
Файлы отчетов принадлежат определенным программам для создания отчетов и содержат структуру проекта для отображения данных из типичного источника данных. Подробнее »
Файлы шрифтов содержат информацию о различных типах шрифтов. Общие форматы файлов шрифтов включают CFF, CFF2, TTF, FNT, FON и PFA. Подробнее »
Файлы ГИС содержат информацию о географических данных, включая пространственную информацию. Форматы файлов ГИС включают файлы SHP, KML, KMZ, GeoJSON, FileGDB и OpenStreetMap. Подробнее »
Форматы файлов CAD представляют собой цифровое представление файлов автоматизированного проектирования. Для этого используются различные форматы, такие как DXF, DWG, IFC, STL, PLT и другие. Подробнее »
Аудиофайлы хранят цифровые аудиоданные в компьютерной системе. Научитесь открывать такие форматы аудиофайлов, как MP3, WAV, WMV, PCM, AAC, WMA и другие популярные типы аудиофайлов. Подробнее »
Сжатые файлы — это цифровые архивы, в которых файлы хранятся за счет уменьшения их размера. Популярные форматы сжатых файлов включают ZIP, 7Z, BZ2, GZ, RAR и TAR. Подробнее »
Файлы изображений хранят изображения в виде цифровых носителей на устройствах хранения. Научитесь открывать файлы форматов растровых и векторных изображений, включая BMP, PNG, JPEG, GIF и другие. Подробнее »
3D-файлы представляют собой цифровое представление трехмерных объектов. Научитесь открывать форматы 3D-файлов, включая GLB, FBX, GLTF, OBJ, PLY, JT, 3DS и другие. Подробнее »
Финансовые файлы содержат информацию о форматах файлов, связанных с финансовыми транзакциями. Научитесь открывать форматы 3D-файлов, включая XRBL, iXRBL и ABA. Подробнее »
Файлы презентаций содержат слайды, содержащие такие данные, как текст, изображения, фигуры, анимацию, видео и аудио. Научитесь открывать форматы файлов презентаций, включая PPTX, PPT, PPTM и некоторые другие. Подробнее »
Файлы электронных таблиц содержат данные в строках и столбцах и могут быть открыты в приложениях для работы с электронными таблицами. Форматы файлов электронных таблиц включают XLSX, XLS, CSV, XLSB, XLSM, XLT, XLTX и другие. Подробнее »
Файлы базы данных используются для цифрового хранения данных на компьютерах и содержат записи в виде записей, которыми часто управляет СУБД. Подробнее »
Файлы электронных книг — это электронные файлы, которые можно открывать и читать на цифровых устройствах, известных как электронные книги. Распространенные расширения файлов электронных книг и их форматы файлов включают EPUB, FB2 и Mobi. Подробнее »
Язык описания страниц описывает внешний вид печатной страницы на языке более высокого уровня. Общие форматы файлов PDL включают XPS, CGM, EPS, SVG, PS, XSLFO и PCL. Подробнее »
Файлы электронной почты — это цифровые контейнеры, которые содержат текст, вложения, информацию об отправителе и получателе. Распространенные форматы файлов электронной почты включают EML, MSG, EMLX, TNEF, ICS, OFT, PST и OST. Подробнее »
Файлы заметок содержат пользовательские данные в свободной форме, такие как снимки, загруженные файлы, рисунки и заметки. Распространенные форматы файлов для создания заметок включают ONE и ONETOC2 от Microsoft OneNote. Подробнее »
Portable Document Format (PDF) — это стандартное представление документов, независимое от программного обеспечения, оборудования и операционной системы. Стандарты PDF включают PDF/A, PDF/E, PDF/UA, PDF/VT и PDF/X.
Подробнее »
Файлы программирования содержат исходный код для написания приложений. Популярные форматы файлов программирования включают C++, CS (CSharp), VB (Visual Basic), CSPROJ и SLN (Solution). Подробнее »
Файлы проекта содержат набор задач и действий, которые необходимо выполнить для завершения проекта. Узнайте о распространенных форматах файлов Project, таких как MPP, XER, MPT и MPX. Подробнее »
Micrsoft Publisher позволяет создавать ряд макетов документов, которые могут содержать текст, растровую и векторную графику. Подробнее »
Видеофайлы хранят цифровые видеоданные в компьютерной системе и в действительности представляют собой последовательность изображений. Научитесь открывать распространенные форматы видеофайлов, такие как AVI, M4V, MOV и WMV. Подробнее »
Веб-файлы содержат данные для создания веб-страниц, которые объединяются для создания веб-сайта. Научитесь работать и открывать различные форматы веб-файлов, такие как ASP, CHM, HTM, HTML, MHTML и XHTML.