Преобразование между DOCX / DOC / RTF и легкой разметкой

StackOverflow https://stackoverflow.com/questions/3815535

Вопрос

Я ищу инструмент или набор инструментов для преобразования между форматами файлов d и m где

  • D - формат, обрабатываемый Msword, в порядке предпочтения, DOCX, DOC, RTF
  • M - легкая разметка, такая как arddown, Textile, TXT2TAGS, это может быть эзотерическим
  • Есть способ генерировать HTML от M
  • Преобразование - это двустороннее, это сделано как из d до m, так и от m до d
  • Кодировка UTF-8 обрабатывается правильно
  • Контент прост, абзацы, некоторые простые форматирования, такие как смелый и курсив, может быть, списки
  • Инструменты не зависит от платформы

Что я нашел до сих пор

  • Tex, латекс - слишком тяжелый вес
  • docx2txt. - Слишком легкий, он не поддерживает форматирование вообще
  • HTML - Msword производит раздутый HTML
  • несколько односторонних преобразований, как Док в Медиавики,

ОБНОВИТЬ:

Часовой процесс использования - это рабочий процесс документа между техническими и не техническими людьми

  • Я, Технический парень отредактируют документ в простом тексте, положите его в управление версиями и т. Д.
  • Я отправляю его своему менеджеру или другим не техническим людям
  • Они добавляют комментарии, вносят изменения в нее, используя свое слово, затем они отправляют его обратно ко мне
  • Я хочу просто осваивать свои изменения, вносить мои изменения, поместите его в управление версиями, не используя слово
Это было полезно?

Решение

Адам, я использовал DOCX4J, чтобы преобразовать DOCX в HTML, отредактируйте HTML в CKEDITOR, а затем использовать docx4j для преобразования html обратно в docx. Мой процесс сделал некоторые предположения о CSS (т. Е. Это было разработано для обработки чистого HTML HTML DOCX4J, а редактирование в Ckeditor).

Вы не говорите, есть ли способ генерировать m из HTML?

Другие советы

Это, вероятно, трудно делать двустороннее, так как у вас будет несоответствия импеданса между различными форматами.

Лучший мир, который я могу думать о том, что будет своего рода вики / слово гибрид: может быть, вы можете получить Google Wave, чтобы сделать это для вас?

Другим решением, которое может работать, является CMS, такой как Plone (они когда-либо добавляли возможности WYSIWIG? Я перестал заваривать после версии 1). Держите ваши документы там. Пусть система обрабатывает систему, аннотации и т. Д. Вы можете автоматизировать поиск источника (должен быть реструктурированным текстом) и зафиксировать это вашему контролю источника, если вы должны.

Этот скрипт, который я написал, может помочь вам в вашем рабочем процессе:

https://github.com/matb33/docx2md.

Это сценарий командной строки PHP, который будет работать только с .docx файлы. Он извлечет XML, запустите некоторые преобразования XSL и обеспечивают результат в формате Markdown.

Я призываю вас отправить мне .docx Файлы, которые не конвертируют точно. Я хотел бы сделать этот сценарий надежным и надежным максимально возможным.

Я думаю, что Pandoc гораздо больше, чем удовлетворение всех требований.

http://pandoc.org.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top