Форум программистов

Regex: чтобы вытащить подстроку между двумя тегами в строке

У меня есть файл в следующем формате:

Data Data
Data
[Start]
Data I want
[End]
Data

Я хотел бы захватить Data I want из промежутка между тегами [Start] и [End] , используя Regex. Может ли кто-нибудь показать мне, как это можно сделать?

regex parsing

482 9 16:03, 1st July, 2020

Как я могу получить совпадения при использовании preg_replace в PHP?

Я пытаюсь схватить заглавные буквы нескольких слов и обернуть их в теги span. Я использую preg_replace для извлечения и упаковки, но он ничего не выводит.

preg_replace("/[A-Z]/", "<span class=\"initial\">$1</span>", $str)

php regex html-parsing preg-replace

494 4 16:03, 1st July, 2020

Варианты для HTML выскабливания?

Я подумываю попробовать прекрасный суп, пакет Python для HTML выскабливания. Есть ли еще какие-нибудь HTML выскабливающие пакеты, на которые я должен смотреть? Python-это не требование, мне действительно интересно услышать и о других языках.

История так далеко зашла:

Python

Прекрасный Суп

lxml

HTQL

Scrapy

Механизировать

Ruby

Nokogiri по

Hpricot

Механизировать

scrAPI

scRUBYt!

вомбат

Watir

.NET

Html Аджилити Пакет

WatiN

Perl

WWW::Mechanize

Полотно-Скребок

Java

Суп Из Пятнашек

HtmlUnit

Веб-Сбора Урожая

джарвест

jsoup

Парсер Джерико HTML

JavaScript

запрос

привет

арту

узел-всадник

phantomjs

PHP

Подагра

htmlSQL

PHP Простой HTML DOM Парсер

PHP выскабливание с CURL

ScarletsQuery

Большинство из них

Грохот-Скребок

html web-scraping html-parsing html-content-extraction

633 25 16:03, 1st July, 2020

Разбор строк с разделителями?

Я смотрю на разбор разделенной строки, что-то в порядке

а,б,c

Но это очень простой пример, и разбор разделенных данных может стать сложным; например

1,"Ваш простой алгоритм, он терпит неудачу", правда

это разнесло бы вашу наивную реализацию string.Split в пух и прах. Есть ли что-нибудь, что я могу свободно use/steal/copy и вставить, что предлагает относительно пуленепробиваемое решение для разбора разделенного текста? .NET, плокс.

Update: я решил пойти с TextFieldParser, который является частью VB.NET's кучи лакомств, спрятанных в Microsoft.VisualBasic.DLL.

c# text-parsing delimited-text

440 9 19:31, 22nd August, 2020

Как разобрать XML с помощью vba

Я работаю в VBA, и хотите, чтобы разобрать строку, например

<PointN xsi:type='typens:PointN' 
xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' 
xmlns:xs='http://www.w3.org/2001/XMLSchema'>
    <X>24.365</X>
    <Y>78.63</Y>
</PointN>

и получите значения X & Y в две отдельные целочисленные переменные.

Я новичок, когда дело доходит до XML, так как я застрял в VB6 и VBA, из-за области, в которой я работаю.

Как мне это сделать?

xml vba parsing xml-parsing

1051 8 03:12, 8th August, 2020

Как получить только имя каталога из SaveFileDialog.FileName

Каков был бы самый простой способ отделить имя каталога от имени файла при работе с `SaveFileDialog.FileName` в C#?

c# string parsing

426 4 22:23, 12th August, 2020

Разбор полезного адреса улицы, города, штата, Zip из строки

Проблема: у меня есть поле адреса из базы данных Access, которая была преобразована в Sql Server 2005. В этом поле есть все, что находится в одном поле. Мне нужно разобрать отдельные разделы адреса на соответствующие поля в нормализованной таблице. Мне нужно сделать это примерно для 4000 записей, и это должно быть повторяемо.

Предубеждения:

Предположим, что адрес в US (на данный момент)

предположим, что входная строка иногда будет содержать адресата (лицо, к которому обращаются) и/или второй адрес улицы (например, номер B)

государства могут быть сокращены

Код zip может быть стандартным 5-значным или zip+4

в некоторых случаях есть опечатки

UPDATE: в ответ на поставленные вопросы, стандарты не были соблюдены повсеместно, мне нужно хранить индивидуальные значения, а не только геокод и ошибки означает опечатку (исправлено выше)

выборочные данные:

А. П. Кролл & Сын 2299 Льюис-Джорджтаун Hwy, Джорджтаун, DE 19947

11522 Шони-Роуд, Гринвуд DE 19950

144 Кингс-Хайвей, S.W. Дувр, DE 19901

Интегрированная Константа. Услуги 2 Penns Way Suite 405 New Castle, DE 19720

Humes Realty 33 Bridle Ridge Court, Льюис, DE 19958

Раскопки Николса 2742 Pulaski Hwy Newark, DE 19711

2284 Брин Сион Роуд, Смирна, DE 19904

VEI Dover Crossroads, LLC 1500 Serpentine Road, Suite 100 Baltimore MD 21

580 North Dupont Highway Dover, DE 19901

P.O. Вставка 778 Дувр, DE 19903

string parsing sql-server-2005 street-address

596 24 17:53, 16th August, 2020

Как я могу узнать о парсер-комбинаторах?

Я нашел несколько источников по этому вопросу , но все они требуют глубокого понимания SmallTalk или Haskell, ни одного из которых я не знаю.

parsing monads

505 10 05:57, 8th August, 2020

.Чистая разбора против преобразования

В .Net вы можете прочитать строковое значение в другой тип данных, используя либо `<datatype>.parse` , либо `Convert.To<DataType>` .

Я не знаком с основами parse versus convert, поэтому всегда теряюсь, когда меня спрашивают, какой из них подходит better/faster/more.

Итак - какой путь лучше всего выбрать в каких обстоятельствах?

.net parsing

477 5 18:43, 29th August, 2020

Лучший подход к разбору для SQL в PHP файлов?

Для моей старшей диссертации я разработал программу, которая будет автоматически обнаруживать и предлагать исправления уязвимостей SQL инъекций с использованием подготовленных инструкций. В частности, расширение mysqli для PHP. Мой вопрос для сообщества SO заключается в следующем: каков ваш предпочтительный подход к обнаружению SQL в исходном коде PHP?

Я использовал перечисление, содержащее `SQL keywords (SELECT, INSERT, ...)` , и в основном анализировал каждую строку, повторяя перечисление, чтобы определить, присутствует ли какой-либо SQL. Кроме того, я должен был убедиться, что синтаксический анализатор не ошибочно обнаруживает html (например <\select>).

Для меня это решение работало нормально, но теперь у меня есть немного больше времени на руках и я подумал о рефакторинге кода, чтобы использовать более элегантное (и эффективное) решение. Пожалуйста, ограничьте свои решения использованием C# , поскольку это то, в чем я написал свою программу.

c# .net php sql parsing

444 6 10:37, 16th August, 2020

Разрешение конфликта reduce / reduce в yacc / ocamlyacc

Я пытаюсь разобрать grammar в ocamlyacc (почти то же самое, что и обычный yacc), который поддерживает приложение функций без операторов (например, в Ocaml или Haskell) и обычный набор двоичных и унарных операторов. Я получаю конфликт reduce/reduce с оператором' -', который может использоваться как для вычитания, так и для отрицания. Вот пример grammar, который я использую:

%token <int> INT
%token <string> ID
%token MINUS

%start expr
%type <expr> expr

%nonassoc INT ID
%left MINUS
%left APPLY

%%

expr: INT
    { ExprInt $1 }
| ID
    { ExprId $1 }
| expr MINUS expr
    { ExprSub($1, $3) }
| MINUS expr
    { ExprNeg $2 }
| expr expr %prec APPLY
    { ExprApply($1, $2) };

Проблема заключается в том, что когда вы получаете выражение типа "a - b", парсер не знает, следует ли его уменьшить как "a (-b)" (отрицание b, а затем применение) или "a - b" (вычитание). Уменьшение вычитания является правильным. Как мне разрешить конфликт в пользу этого правила?

parsing ocaml grammar yacc

400 2 16:08, 5th August, 2020

Где я могу получить задачу Antlr Ant?

Я пытаюсь вызвать задачу Antlr в моем Ant build.xml следующим образом:

<path id="classpath.build">
  <fileset dir="${dir.lib.build}" includes="**/*.jar" />
</path>

...

<target name="generate-lexer" depends="init">
  <antlr target="${file.antlr.lexer}">
    <classpath refid="classpath.build"/>
  </antlr>
</target>

Но Ant не может найти определение задачи. Я поставил все следующее в этом dir.lib.build :

антлр-3.1.jar
антлр-2.7.7.jar
antlr-время выполнения-3.1.jar
stringtemplate-3.2.jar

Но ни один из них, похоже, не имеет определения задачи. (Я также попытался поместить эти банки в мой Ant classpath; та же проблема.)

ant antlr parsing

487 6 05:26, 22nd August, 2020

Какие библиотеки парсинга HTML вы рекомендуете в Java

Я хочу разобрать некоторые HTML, чтобы найти значения некоторых атрибутов / тегов и т. д.

Какие HTML Парсеры вы рекомендуете? Есть плюсы и минусы?

java html parsing html-content-extraction

454 3 22:42, 24th August, 2020

Парсер уравнений (выражений)с приоритетом?

Я разработал анализатор уравнений с использованием простого алгоритма стека, который будет обрабатывать двоичные файлы (+, -, |, &, , /, etc) операторы, унарные (!) операторы и скобки.

Использование этого метода, однако, оставляет мне все, что имеет одинаковый приоритет - он вычисляется слева направо независимо от оператора, хотя приоритет может быть применен с помощью скобок.

Так что прямо сейчас "1+115" возвращает 60, а не 56, как можно было бы ожидать.

Хотя это подходит для текущего проекта, Я хочу иметь рутину общего назначения, которую можно использовать для последующих проектов.

Отредактировано для ясности:

Что такое хороший алгоритм для разбора уравнений с приоритетом?

Я заинтересован в чем-то простом для реализации и понимаю, что я могу кодировать сам, чтобы избежать проблем лицензирования с доступным кодом.

Grammar:

Я не понимаю вопроса grammar - я написал это от руки. Это достаточно просто, чтобы я не видел необходимости в YACC или Bison. Мне просто нужно вычислить строки с такими уравнениями, как "2+3 * (42/13)".

Язык:

Я делаю это в C, но меня интересует алгоритм, а не конкретное языковое решение. C-это достаточно низкий уровень, чтобы его можно было легко перевести на другой язык, если возникнет такая необходимость.

пример кода

Я опубликовал тестовый код для простого синтаксического анализатора выражений , о котором я говорил выше. Требования к проекту изменились, и поэтому мне никогда не нужно было оптимизировать код для производительности или пространства, поскольку он не был включен в проект. Он написан в оригинальной многословной форме и должен быть легко понятен. Если я сделаю что-нибудь еще с ним в плане приоритета операторов, я, вероятно, выберу макрос hack , потому что он соответствует rest программы в простоте. Если я когда-нибудь использую это в реальном проекте, я буду использовать более компактный/быстрый парсер.

Смежный вопрос

Умный дизайн математического анализатора?

-Adam

algorithm parsing equation

777 22 23:00, 2nd August, 2020

Парсинг XML с использованием unix terminal

Иногда мне нужно быстро извлечь некоторые произвольные данные из файлов XML, чтобы поместить их в формат CSV. Каковы ваши лучшие практики для этого в Unix terminal? Я хотел бы получить некоторые примеры кода, так например, как я могу решить следующую проблему?

Пример ввода XML:

<root>
<myel name="Foo" />
<myel name="Bar" />
</root>

Мой желаемый результат CSV :

Foo,
Bar,

xml unix parsing shell csv

429 7 03:58, 13th August, 2020

Как зайти в Даркнет?! 25th January, 01:11 5 0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam 21st March, 17:43 948 0

Очень долго работает Update запрос Oracle 27th January, 09:58 912 0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found 21st January, 18:02 905 0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе? 2nd December, 09:48 938 0

Разработка мобильной кроссплатформенной военной игры 16th July, 17:57 1724 0

период по дням 25th October, 10:44 3955 0

Пишу скрипты для BAS только на запросах 16th September, 02:42 3720 0

Некорректный скрипт для закрытия блока 14th April, 18:33 4613 0

прокидывать exception в блоках try-catch JAVA 11th March, 21:11 4381 0

Помогите пожалуйста решить задачи 24th November, 23:53 6086 0

Не понимаю почему не открывается детальное описание продукта 11th November, 11:51 4350 0

Нужно решить задачу по программированию на массивы 27th October, 18:01 4396 0

Метода Крамера С++ 23rd October, 11:55 4309 0

помогите решить задачу на C++ 22nd October, 17:31 4002 0

Помогите решить задачу на python с codeforces 22nd October, 11:11 4492 0

Python с нуля: полное руководство для начинающих 18th June, 13:58 2599 0

Все вопросы

Результаты поиска

Regex: чтобы вытащить подстроку между двумя тегами в строке

Как я могу получить совпадения при использовании preg_replace в PHP?

Варианты для HTML выскабливания?

Разбор строк с разделителями?

Как разобрать XML с помощью vba

Как получить только имя каталога из SaveFileDialog.FileName

Каков был бы самый простой способ отделить имя каталога от имени файла при работе с SaveFileDialog.FileName в C#?

Разбор полезного адреса улицы, города, штата, Zip из строки

Как я могу узнать о парсер-комбинаторах?

Я нашел несколько источников по этому вопросу , но все они требуют глубокого понимания SmallTalk или Haskell, ни одного из которых я не знаю.

.Чистая разбора против преобразования

Лучший подход к разбору для SQL в PHP файлов?

Разрешение конфликта reduce / reduce в yacc / ocamlyacc

Где я могу получить задачу Antlr Ant?

Какие библиотеки парсинга HTML вы рекомендуете в Java

Я хочу разобрать некоторые HTML, чтобы найти значения некоторых атрибутов / тегов и т. д. Какие HTML Парсеры вы рекомендуете? Есть плюсы и минусы?

Парсер уравнений (выражений)с приоритетом?

Парсинг XML с использованием unix terminal

Как зайти в Даркнет?!

25th January, 01:11

5

0

Программа, которая создает фейковые сервера в поиске игровых серверов CS 1.6 Steam

21st March, 17:43

948

0

Очень долго работает Update запрос Oracle

27th January, 09:58

912

0

не могу запустить сервер на tomcat HTTP Status 404 – Not Found

21st January, 18:02

905

0

Где можно найти фрилансера для выполнения поступающих задач, на постоянной основе?

2nd December, 09:48

938

0

Разработка мобильной кроссплатформенной военной игры

16th July, 17:57

1724

0

период по дням

25th October, 10:44

3955

0

Пишу скрипты для BAS только на запросах

16th September, 02:42

3720

0

Некорректный скрипт для закрытия блока

14th April, 18:33

4613

0

прокидывать exception в блоках try-catch JAVA

11th March, 21:11

4381

0

Помогите пожалуйста решить задачи

24th November, 23:53

6086

0

Не понимаю почему не открывается детальное описание продукта

11th November, 11:51

4350

0

Нужно решить задачу по программированию на массивы

27th October, 18:01

4396

0

Метода Крамера С++

23rd October, 11:55

4309

0

помогите решить задачу на C++

22nd October, 17:31

4002

0

Помогите решить задачу на python с codeforces

22nd October, 11:11

4492

0

Python с нуля: полное руководство для начинающих

18th June, 13:58

2599

0

Каков был бы самый простой способ отделить имя каталога от имени файла при работе с `SaveFileDialog.FileName` в C#?

Я хочу разобрать некоторые HTML, чтобы найти значения некоторых атрибутов / тегов и т. д.

Какие HTML Парсеры вы рекомендуете? Есть плюсы и минусы?