Список вопросов
Как зайти в Даркнет?!
25th January, 01:11
4
0
Как в tkinter из поля ввода Entry получить значение в одну переменную и обновить строку кнопкой, затем получить ещё одно введённое значение и затем сложить их. Ниже пример кода
21st July, 19:00
892
0
Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam
21st March, 17:43
948
0
Очень долго работает Update запрос Oracle
27th January, 09:58
912
0
не могу запустить сервер на tomcat HTTP Status 404 – Not Found
21st January, 18:02
905
0
Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?
2nd December, 09:48
938
0
Разработка мобильной кроссплатформенной военной игры
16th July, 17:57
1724
0
период по дням
25th October, 10:44
3955
0
Пишу скрипты для BAS только на запросах
16th September, 02:42
3720
0
Некорректный скрипт для закрытия блока
14th April, 18:33
4613
0
прокидывать exception в блоках try-catch JAVA
11th March, 21:11
4380
0
Помогите пожалуйста решить задачи
24th November, 23:53
6084
0
Не понимаю почему не открывается детальное описание продукта
11th November, 11:51
4350
0
Нужно решить задачу по программированию на массивы
27th October, 18:01
4395
0
Метода Крамера С++
23rd October, 11:55
4308
0
помогите решить задачу на C++
22nd October, 17:31
4002
0
Помогите решить задачу на python с codeforces
22nd October, 11:11
4492
0
Python с нуля: полное руководство для начинающих
18th June, 13:58
2598
0
Android парсинг HTML?
Просмотров: 420
 
Ответов: 6
Добрый день, разбирал вот этот пример habrahabr.ru/blogs/android/91815/, кусок кода, где парсится профиль пользователя для нахождения аватарки. Там всё реализовано через работу со строкой — один substring().
Возник вопрос: Можно ли пробежаться по DOM полученного документа, как, например, с jQuery, опираясь на классы и идентификаторы элементов?
Или, может, подскажите более гуманный метод получения данных со страницы.
Спасибо!
Скажите, какая стоит задача? Ведь можно использовать регулярки.
Вот, например, как я вытягивал значения с html-странички:
public String GetTemper(String urlsite) // фукция загрузки температуры
{
String matchtemper = "";
try
{
// загрузка страницы
URL url = new URL(urlsite);
URLConnection conn = url.openConnection();
InputStreamReader rd = new InputStreamReader(conn.getInputStream());
StringBuilder allpage = new StringBuilder();
int n = 0;
char[] buffer = new char[40000];
while (n >= 0)
{
n = rd.read(buffer, 0, buffer.length);
if (n > 0)
{
allpage.append(buffer, 0, n);
}
}
// работаем с регулярками
final Pattern pattern = Pattern.compile
("<span style=\"color:#[a-zA-Z0-9]+\">[^-+0]+([-+0-9]+)[^<]+</span>[^(а-яА-ЯёЁa-zA-Z0-9)]+([а-яА-ЯёЁa-zA-Z ]+)");
Matcher matcher = pattern.matcher(allpage.toString());
if (matcher.find())
{
matchtemper = matcher.group(1);
}
return matchtemper;
}
catch (Exception e)
{
}
return matchtemper;
};
public String GetTemper(String urlsite) // фукция загрузки температуры
{
String matchtemper = "";
try
{
// загрузка страницы
URL url = new URL(urlsite);
URLConnection conn = url.openConnection();
InputStreamReader rd = new InputStreamReader(conn.getInputStream());
StringBuilder allpage = new StringBuilder();
int n = 0;
char[] buffer = new char[40000];
while (n >= 0)
{
n = rd.read(buffer, 0, buffer.length);
if (n > 0)
{
allpage.append(buffer, 0, n);
}
}
// работаем с регулярками
final Pattern pattern = Pattern.compile
("<span style=\"color:#[a-zA-Z0-9]+\">[^-+0]+([-+0-9]+)[^<]+</span>[^(а-яА-ЯёЁa-zA-Z0-9)]+([а-яА-ЯёЁa-zA-Z ]+)");
Matcher matcher = pattern.matcher(allpage.toString());
if (matcher.find())
{
matchtemper = matcher.group(1);
}
return matchtemper;
}
catch (Exception e)
{
}
return matchtemper;
};
Тема интересная, погуглил немного и понял, что парсинг делают с помощью разбора Xml, правда подход спорный, т.к. html не всегда является валидным Xml, что касается библиотек для работы с Dom, то на сегодняшний день, я так понимаю, ничего подобного нет.
Ссылки, которые могут быть полезны:
Android HTML Dom (ссылка в ответе)
Android parsing HTML entities using DOM parser for RSS feed
Для ваших целей можно использовать, например, htmlcleaner. Простенькая библиотека для дом-парсинга.
Еще есть Html Parser, он довольно громоздкий, но зато поддерживает CSS селекторы.
В плане скорости, конечно же лучше всего будет воспользоваться SAX xml парсером.
Чтобы ответить на вопрос вам нужно войти в систему или зарегистрироваться