Curl or Lynx: возможно ли снятие Javascript?

Я делаю corpus поколения через завиток или рысь некоторых веб-страниц. Я написал программу в bash, чтобы удалить html-код (например, когда я делаю lynx -source myurl), но проблема в том, что на некоторых страницах есть JavaScript, который не удаляется.

Есть ли способ использовать завиток или рысь, чтобы не получить Javascript? Я хочу, чтобы html-кодирование в первом экземпляре получало мои данные основного тела, поэтому я не использовал параметр lynx -dump (и вместо этого использовал lynx-source).

Я думаю, что я прошу слишком много здесь. Если вы знаете о каком-либо приложении для удаления JavaScript, которое может работать в среде Cygwin, сообщите мне об этом. Спасибо за прочтение!

Я не вижу упоминания об исходном преобразовании на странице руководства для curl . Поэтому я думаю, что ответ «нет».

Для lynx вы получаете тот же ответ: он обрабатывает теги <script> как почти такие же, как комментарии (с некоторой специальной обработкой для закрывающего тега). Он сделал это с 2000 года (со ссылкой на журнал изменений ).

Но у lynx нет (пока) возможности для удаления комментариев (и скриптов) из загрузки.

Возможно, вы сможете использовать tidy для форматирования файла, чтобы упростить создание сценария для удаления скриптов. Например, использование -wrap с большим значением (например, размер файла) помещает все теги HTML в первый столбец, позволяя простому скрипту анализировать результат и отбрасывать <script> через </script> и т. Д. ,