Как зайти в Даркнет?!
25th January, 01:11
5
0
Как в tkinter из поля ввода Entry получить значение в одну переменную и обновить строку кнопкой, затем получить ещё одно введённое значение и затем сложить их. Ниже пример кода
21st July, 19:00
893
0
Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam
21st March, 17:43
948
0
Очень долго работает Update запрос Oracle
27th January, 09:58
912
0
не могу запустить сервер на tomcat HTTP Status 404 – Not Found
21st January, 18:02
905
0
Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?
2nd December, 09:48
938
0
Разработка мобильной кроссплатформенной военной игры
16th July, 17:57
1724
0
период по дням
25th October, 10:44
3955
0
Пишу скрипты для BAS только на запросах
16th September, 02:42
3720
0
Некорректный скрипт для закрытия блока
14th April, 18:33
4613
0
прокидывать exception в блоках try-catch JAVA
11th March, 21:11
4381
0
Помогите пожалуйста решить задачи
24th November, 23:53
6086
0
Не понимаю почему не открывается детальное описание продукта
11th November, 11:51
4350
0
Нужно решить задачу по программированию на массивы
27th October, 18:01
4396
0
Метода Крамера С++
23rd October, 11:55
4309
0
помогите решить задачу на C++
22nd October, 17:31
4002
0
Помогите решить задачу на python с codeforces
22nd October, 11:11
4492
0
Python с нуля: полное руководство для начинающих
18th June, 13:58
2599
0
Regex парсить ссылки и описания
C#: что такое хороший Regex для разбора гиперссылок и их описания?
Пожалуйста, обратите внимание на нечувствительность к регистру, пробелы и использование одинарных кавычек (вместо двойных кавычек) вокруг тега HREF.
Пожалуйста, также рассмотрите возможность получения гиперссылок, которые имеют другие теги в пределах <a> тегов, таких как <b> и <i> .
Пока нет вложенных тегов (и разрывов строк), хорошо работает следующий вариант:
<a\s+href=(?:"([^"]+)"|'([^']+)').*?>(.*?)</a>
Как только в игру вступают вложенные теги, регулярные выражения становятся непригодными для синтаксического анализа. Однако вы все еще можете использовать их, применяя более продвинутые функции современных интерпретаторов (в зависимости от вашей машины regex). E.g. .NET регулярные выражения используют стек; я нашел это:
(?:<a.*?href=[""'](?<url>.*?)[""'].*?>)(?<name>(?><a[^<]*>(?<DEPTH>)|</a>(?<-DEPTH>)|.)+)(?(DEPTH)(?!))(?:</a>)
Источник: http://weblogs.asp.net/scottcate/archive/2004/12/13/281955.aspx
Смотрите этот пример из StackOverflow: регулярное выражение для разбора ссылок с веб-страницы?
С помощью пакета HTML Agility Pack вы можете разобрать html и извлечь детали, используя семантику HTML, вместо сломанного regex.
Я нашел это , но, по-видимому, у этих парней были некоторые проблемы с этим.
Edit: (это работает!)
Теперь я сделал свое собственное тестирование и обнаружил, что оно работает, я не знаю C#, поэтому я не могу дать вам ответ C#, но я знаю PHP, и вот массив совпадений, который я получил от запуска его на этом:
<a href="pages/index.php" title="the title">Text</a>
array(3) { [0]=> string(52) "Text" [1]=> string(15) "pages/index.php" [2]=> string(4) "Text" }
У меня есть regex , который обрабатывает большинство случаев, хотя я считаю, что он соответствует HTML в многострочном комментарии.
Он написан с использованием синтаксиса .NET, но должен быть легко переводимым.
Просто собираюсь выбросить этот фрагмент теперь, когда у меня есть working..this-это менее жадная версия одного из предложенных ранее. Оригинал не будет работать, если входные данные содержат несколько гиперссылок. Этот код ниже позволит вам перебирать все гиперссылки:
static Regex rHref = new Regex(@"<a.*?href=[""'](?<url>[^""^']+[.]*?)[""'].*?>(?<keywords>[^<]+[.]*?)</a>", RegexOptions.IgnoreCase | RegexOptions.Compiled);
public void ParseHyperlinks(string html)
{
MatchCollection mcHref = rHref.Matches(html);
foreach (Match m in mcHref)
AddKeywordLink(m.Groups["keywords"].Value, m.Groups["url"].Value);
}