Сведения о вопросе

Pytdev

04:40, 15th August, 2020

Теги

JavaScript    

Как сохранить HTML-страницу сгенерированную на JavaScript?

Просмотров: 415   Ответов: 5

Встречаются страницы, на которых есть динамические части получаемые Ajax или попросту какими-то функция Javascript (например, шаблонизаторами).
Так вот как сохранить скомпилированную страницу, т.е. со всеми выполненными js-функциями? В случае с Ajax скачивание может происходить через некоторое время после загрузки DOM-модели.
Решение желательно на ЯВУ (лучше C#) или через консоль Windows/Linux.
Например, нужно скачать вот эту forexite: Календарь на неделю.



  Сведения об ответе

+-*/

22:23, 12th August, 2020

Самый хакерский вариант — вбить javascript:alert(document.documentElement.innerHTML); в браузере… потом Ctrl+A ;)

а для сервера есть htmlunit.sourceforge.net/


  Сведения об ответе

JUST___

03:57, 20th August, 2020

Загляните в этот топик, есть несколько ссылок по теме.
habrahabr.ru/blogs/webdev/87705/

Для явы смотрите в эту сторону: download.oracle.com/javase/6/docs/technotes/guides/scripting/programmer_guide/index.html


  Сведения об ответе

screen

00:25, 4th August, 2020

У меня тот же вопрос, но для анализа результатов выдачи Google.
Если дело в ajax и только — можно отсылать доп. запрос, и в респонсе получать сгенеренный
html…

P. S. догадываюсь, что на вопрос не ответил, но эта тема мне тоже интересна и я надеюсь, что на нее кто-то ответит поподробней.


  Сведения об ответе

pumpa

19:12, 8th August, 2020

Уточните вопрос: вам html сгенерённый нужно посмотреть или чтобы вот прям сохранить можно было на диск?

Если просто посмотреть, то в FF поможет выделение всей страницы с помощью Ctrl+A и далее в контекстном меню view Selection Source или можно даже установить WebDeveloper экстеншн, у него есть View Generated Source


  Сведения об ответе

DO__IT

23:30, 14th August, 2020

на c#?
положи webBrowser на форму, прицепись на всякие обработчики загрузки, и выжидай пока не пройдет некоторое время с момента последнего срабатывания обработчиков загрузки. потом вытягивай innerHTML из document и сохраняй.

точнее не скажу, сейчас под рукой негде экспериментировать. знаю что ничего сложного в доступе к DOM через него нет, да и со слеением за процессами загрузки тоже проблем не было.

как вариант, если точно знаешь структуру сайта который будешь грабить можно подменить исходный HTML еще до рендеринга. в него вставить ссылку на свой JS в котором переопределяешь одну из оригинальных функций вызов которых можно считать маркером окончания загрузки. в переопределенных функциях вызываешь оригинальную а затем через window.external вызываешь метод контейнера(c#) который и сохранит все что нужно.


Ответить на вопрос

Чтобы ответить на вопрос вам нужно войти в систему или зарегистрироваться