Преобразование между DOCX / DOC / RTF и легкой разметкой
-
26-09-2019 - |
Вопрос
Я ищу инструмент или набор инструментов для преобразования между форматами файлов d и m где
- D - формат, обрабатываемый Msword, в порядке предпочтения, DOCX, DOC, RTF
- M - легкая разметка, такая как arddown, Textile, TXT2TAGS, это может быть эзотерическим
- Есть способ генерировать HTML от M
- Преобразование - это двустороннее, это сделано как из d до m, так и от m до d
- Кодировка UTF-8 обрабатывается правильно
- Контент прост, абзацы, некоторые простые форматирования, такие как смелый и курсив, может быть, списки
- Инструменты не зависит от платформы
Что я нашел до сих пор
- Tex, латекс - слишком тяжелый вес
- docx2txt. - Слишком легкий, он не поддерживает форматирование вообще
- HTML - Msword производит раздутый HTML
- несколько односторонних преобразований, как Док в Медиавики,
ОБНОВИТЬ:
Часовой процесс использования - это рабочий процесс документа между техническими и не техническими людьми
- Я, Технический парень отредактируют документ в простом тексте, положите его в управление версиями и т. Д.
- Я отправляю его своему менеджеру или другим не техническим людям
- Они добавляют комментарии, вносят изменения в нее, используя свое слово, затем они отправляют его обратно ко мне
- Я хочу просто осваивать свои изменения, вносить мои изменения, поместите его в управление версиями, не используя слово
Решение
Адам, я использовал DOCX4J, чтобы преобразовать DOCX в HTML, отредактируйте HTML в CKEDITOR, а затем использовать docx4j для преобразования html обратно в docx. Мой процесс сделал некоторые предположения о CSS (т. Е. Это было разработано для обработки чистого HTML HTML DOCX4J, а редактирование в Ckeditor).
Вы не говорите, есть ли способ генерировать m из HTML?
Другие советы
Это, вероятно, трудно делать двустороннее, так как у вас будет несоответствия импеданса между различными форматами.
Лучший мир, который я могу думать о том, что будет своего рода вики / слово гибрид: может быть, вы можете получить Google Wave, чтобы сделать это для вас?
Другим решением, которое может работать, является CMS, такой как Plone (они когда-либо добавляли возможности WYSIWIG? Я перестал заваривать после версии 1). Держите ваши документы там. Пусть система обрабатывает систему, аннотации и т. Д. Вы можете автоматизировать поиск источника (должен быть реструктурированным текстом) и зафиксировать это вашему контролю источника, если вы должны.
Этот скрипт, который я написал, может помочь вам в вашем рабочем процессе:
https://github.com/matb33/docx2md.
Это сценарий командной строки PHP, который будет работать только с .docx
файлы. Он извлечет XML, запустите некоторые преобразования XSL и обеспечивают результат в формате Markdown.
Я призываю вас отправить мне .docx
Файлы, которые не конвертируют точно. Я хотел бы сделать этот сценарий надежным и надежным максимально возможным.
Я думаю, что Pandoc гораздо больше, чем удовлетворение всех требований.