Регулярные выражения. Всё проще, чем кажется / forpes.ru

Главная
Регулярные выражения. Всё проще, чем кажется

Регулярные выражения. Всё проще, чем кажется +38

11.07.2021 09:14

NikitaPozdeyev 70 17000 Источник

Всем доброго времени суток. Сегодня хочу рассказать максимум о регулярных выражениях: что они из себя представляют, как их писать, для чего нужны и т.д.

Информации о регулярках много, они разбросаны по разным сайтам и я решил собрать всё, касательно регулярок, в одну статью. Ну что-ж, приступим поскорее к делу :)

Содержание

Что такое регулярка и с чем ее едят?
Где писать регулярки?
Самые простые регулярки
Квантификаторы
Специальные символы квантификаторов
Специальные символы
Lookahead и lookbehind (опережающая и ретроспективная проверки)
Регулярные выражения в разных языках программирования
Заключение

Что такое регулярка и с чем ее едят?

Если по простому, регулярка- это некий шаблон, по которому фильтруется текст. Мы можем написать нужный нам шаблон (регулярку) и таким образом искать в тексте необходимые нам символы, слова и т.д. Также их используют, например, при заполнении поля E-mail на различных сайтах, т.е. создают шаблон по типу: someEmail@gmail.com. Это я взял как пример, не более. Теперь, разобравшись, что это, приступим к изучению. Обещаю, скучно не будет)

Где писать регулярки?

Регулярки мы можем писать как на специальных сайтах, так и используя какой-либо язык программирования. Синтаксис (правила написания регулярок) не привязан к какому-то отдельному языку программирования. Поэтому, изучив регулярные выражения, вы сможете пользоваться ими где захотите. Сначала, в рамках изучения, воспользуемся отличным сайтом, а как писать регулярные выражения в различных языках программирования, рассмотрим чуточку позже.

Сразу дам ссылку на сайт, чтобы вы могли уже писать вместе со мной https://www.regextester.com/

Коротко о том, как пользоваться сайтом. Сверху, в графе Regular Expression вы пишете само регулярное выражение, а под ним, в графе Test String вы пишете строку, которую вы хотите фильтровать. Если были найдены соответствия между регулярным выражением и текстом, в тексте эти соответствия будут помечены синим цветом, вы их сразу увидите, даже не сомневайтесь.

Самые простые регулярки

Перед тем, как писать регулярку, возьмем некоторый текст, чтобы мы не фильтровали пустоту. Допустим, у нас будет строка some text. И допустим мы хотим найти слово text. Для этого в саму регулярку мы должны написать просто слово text и он найдет его.

Вот и всё, надеюсь вы поняли регулярные выражения, спасибо за внимание...

Шутка конечно, это далеко не всё. Например, мы можем написать одну букву t, и он найдет все буквы t в тексте.

Таким образом вы можете просто указывать какие-то символы, но нам не всегда даются конкретные символы, а нужно написать какой-то шаблон. Сейчас этим и займемся.

Квантификаторы

Понимаю, звучит страшно, но на деле все просто. Сейчас разберемся.

С помощью квантификаторов мы можем указывать сколько раз должен повторяться тот или иной символ (ну или группа символов). Ниже приведу список квантификаторов с пояснением, а дальше попрактикуемся с ними.

{n} - символ повторяется ровно n раз
{m,n} - символ повторяется в диапазоне от m до n раз
{m,} - символ повторяется минимум m раз (от m и более)

Теперь посмотрим на примерах. Допустим у нас есть строка s ss sss ssss. И мы хотим выбрать слово, где буква s повторяется ровно 3 раза. Для этого мы можем написать так: s{3} - то есть пишем символ s, тем самым говоря, что хотим выбрать именно его, и рядом пишем {3}, говоря, что он должен повторяться ровно 3 раза. В результате будет найдено слово sss

Почему же он взял еще ssss? Он взял не совсем его, а лишь его часть, так как в нем тоже есть 3 буквы s подряд. Дело в том, что регулярка не будет учитывать, отдельное это слово или нет. Пробелы тоже идут как символы! Поэтому будет выбран любой фрагмент, которому соответствует 3 идущие подряд буквы s

Едем дальше, допустим мы хотим выбрать фрагмент, где символ s будет от одного до трех раз. Для этого мы можем написать s{1,3} - опять же указываем s и пишем {1,3}, говоря, что нам нужно, чтобы этот символ повторялся от одного до трех раз.

Интересный момент получается, он выбрал все. Почему же? Ответ: та же ситуация, что и в прошлый раз. Он увидел ssss, взял 3 идущие подряд s вместе и еще одну s, которая рядом, ведь она тоже соответствует регулярку (а ведь мы помним, что мы указали диапазон от одного до трех раз)

Ну и напоследок, давайте напишем шаблон, где символ s будет повторяться минимум три раза. Для этого напишем следующее: s{3,} ({3,} обозначает, что символ s будет повторяться от трех раз и до бесконечности).

Специальные символы квантификаторов

Есть уже готовые квантификаторы, которые обозначаются спец. символами. Вот они:

? ({0,1}) - символ повторяется 0 или 1 раз
* ({0,}) - символ повторяется от 0 раз и более
+ ({1,}) - символ повторяется от 1 и более раз

Давайте разбираться. Начнем со знака вопроса. Допустим у нас есть строка colour color и мы хотим найти либо colour, либо color. Мы можем написать так: colou?r.

Что произошло? Мы указали, что идет последовательность символов colo, потом написали u? (тоже самое, что и u{0,1}). Это значит, что символ u повторяется 0 или 1 раз (то есть либо его нет вовсе (он не повторяется, то есть повторяется 0 раз), либо он есть, но только один (повторяется один раз)). Ну а потом указали, что после должен идти символ r. Поэтому colour соответствует, так как буква u повторяется 1 раз, а color - так как u вообще отсутствует (повторяется 0 раз). Видите, все просто :)

Давайте изменим строку и напишем что-то по типу colouuuuur color. И допустим мы хотим указать, что u должен либо не быть, либо быть сколько угодно раз. Для этого мы можем написать colou*r.

То есть либо u у нас нет, либо повторяется много раз.

Символ + работает почти также, за исключением того, что символ должен повторяться минимум 1 раз. То есть в данном случае слово color не будет соответствовать, так как там u не присутствует (то есть повторяется 0 раз, а у нас символ должен повторяться минимум 1 раз)

Специальные символы

Теперь поговорим о специальных символах, которые используются в регулярках. Тут все очень просто, так что можете сильно не переживать. Скрины прикреплять буду здесь не везде (тогда статья разрастется до безумных размеров). Так что заранее прошу меня понять и простить и попробовать сами.

. - одиночный символ
[] - набор символов, например [A-Z] обозначает все символы от A до Z
^ - начало строки
$ - конец строки
\ - экранирование
\d - любая цифра
\D - все, кроме цифр
\s - пробелы
\S - все, кроме пробелов
\w - буква
\W - все, кроме букв
[^someSymbol] - отрицание символа, соответсвие всем символам, кроме выбранного

Поговорим об одиночном символе. Это значит, что будет выбираться любой символ, который повторяется только один раз. Например, вернемся к нашей строке Some text и выберем букву t, после которой идет любой символ. Для этого напишем t.

Выберется te, так как после t идет один любой символ (в данном случае е)

Едем дальше. Допустим, у нас есть строка Some text12345 и мы хотим выбрать все буквы (только буквы, числа нам не нужны). Для этого мы можем написать следующее [A-Z,a-z] . Что же это значит? Это значит, что мы указали, что мы хотим выбрать все символы в диапазоне от A до Z (это мы выбираем все заглавные буквы) и, затем, через запятую, мы говорим о том, что хотим выбрать все символы от a до z (здесь мы выбираем все строчные символы).

Теперь давайте возьмем слово test и выделим в нем первую букву t. Для этого мы можем написать ^t. То есть мы написали символ t и указали, что он должен находиться в самом начале строки. Важно поставить символ ^ перед нужным нам символом.

Теперь давайте сделаем наоборот и возьмем последнюю букву t. Для этого напишем t$. Важно, чтобы символ $ стоял после нужного нам символа.

Перейдем к экранированию. Звучит страшно, но на деле все проще простого. Например, в тексте some text. мы хотим выделить точку. Но ведь точка у нас уже зарезервирована как специальный символ (напоминаю, точка обозначает любой одиночный символ). И чтобы сделать так, чтобы точка на считалась как спец. символ мы можем написать \. и тем самым говоря, что точка у нас будет как обычный символ.

Теперь идут, простые вещи. \d у нас обозначает любую цифру. Например в тексте some text123, если написать \d у нас будут выделяться только цифры.

\D делает все наоборот: берутся все символы, кроме цифр. То есть, если написать \D будет браться все, кроме цифр (и пробелы, кстати, тоже).

\s берет все пробелы, которые есть в строке, а \S - наоборот, все, кроме пробелов.

\w берет буквы, а \W берет, все, кроме букв (в том числе и пробелы).

Теперь расскажу про еще одно применение символа ^. Его можно использовать как отрицание, тем самым исключая символ или группу символов. Например, в слове test мы хотим выбрать все, кроме буквы t и для этого мы можем написать так: [^t]

Именно в такой последовательности символ ^ будет обозначать отрицание.

Lookahead и lookbehind (опережающая и ретроспективная проверки)

Давайте разберемся, что это такое. Lookahead или же опережающая проверка позволяет выбрать символ или группу символов, если после него идет идет какой-либо символ или группа символов. Lookbehind или же ретроспективная проверка позволяет выбрать символ или группу символов, если до них идет какой-то символ или группа символов.

lookahead - опережающая проверка - X(?=Y) - найти Х, при условии, что после него идет Y
негативная опрережающая проверка - Х(?!Y)
lookbehind - ретроспективная проверка - (?<=Y)X - найти Х, при условии, что до него идет Y
негативная ретроспективная проверка - (?<!Y)Xo

Например, дана строка s sw sd st se и мы хотим выбрать букву s, после которой будет идти символ d. Для этого мы можем написать следующее: s(?=d). Таким образом мы как бы проверяем, будет ли идти после символ s символ d.

Также мы можем сделать наоборот и выбрать символ s, если после него НЕ идет символ d. Для этого вместо знака равно мы должны поставить восклицательный знак (!), т.е. написать вот так: s(?!d)

Теперь поговорим о lookbehind. Допустим, у нас есть строка s ws ds ts es и мы хотим выбрать символ s, до которого будет символ d. Для этого мы можем написать так: (?<=d)s

Почему же lookbehind подчеркивается красной линией? Дело в том, что lookbehind не всегда поддерживается и не везде такая регулярка будет работать. Нужно искать способ заменить этот lookbehind, но это зависит от поставленной задачи, поэтому нельзя сказать, как именно ее заменять. Будем надеяться, что в скором временем будет полная поддержка этой возможности.

Чтобы сделать наоборот, то есть выбрать все символы s, до которых НЕ будет идти символ d, нужно опять же поменять знак равно на восклицательный знак: (?<!d)s

Регулярные выражения в разных языках программирования

Здесь я приведу примеры использования регулярных выражений в различных языках программирования. Заранее говорю, я не буду заострять внимание на синтаксисе языка программирования, так как это уже не касается данной темы

string str = "some text";
Regex regex = new Regex(@"t$");
MatchCollection matches = regex.Matches(str);

Здесь мы создаем строку с текстом, который хотим проверить, создаем объект класса Regex и в конструктор пишем нашу регулярку (как я и говорил, я не буду заострять внимание на том, что такое объект класса и конструктор). Потом создаем объект класса MatchCollection и от объекта regex вызываем метод Matches и в параметры передаем нашу строку. В результате все сопоставления будут добавляться в коллекцию matches.

Java

Pattern pattern = Pattern.compile("some text", Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher("t$");

Здесь похожая ситуация. Создаем объект класса Pattern и записываем нашу строку. CASE_INSENSITIVE означает, что он не привязан к регистру (то есть нет разницы между заглавными и строчными символами). Создаем объект класса Matcher и пишем туда регулярку.

JavaScript

var regex = /d(b+)d/g;
var matches = regex.exec("cdbbdbsbz");

Здесь тоже все просто. Вы создаете объект regex и пишете туда регулярку. И затем просто создаете объект matches, который будет являться коллекцией и вызываете метод exec и в параметры передаете строку.

Заключение

Итак, мы разобрали, что такое регулярные выражения, где они используются, как их писать и использовать в контексте языков программирования. Скажу сразу, написание регулярок приходит с опытом. Практикуйтесь, и я уверен: все у вас получится! А на этом я с вами прощаюсь. Спасибо за внимание и приятного всем дня)

P.S. Прошу строго не судить, это самая первая статья, которую я написал. Любая критика приветствуется.

Комментарии (70)

Tyusha
11.07.2021 12:21
#23248586
+1
Это конечно 1001 статья про регулярки. Ну ок, лайк, написано неплохо. Про себя замечу, что когда-то я боялась регулярных выражений, но в какой-то момент сделала усилие над собой, и после этого прям затащилась от них, и теперь "вижу" их применение везде (где может и не надо). Вплоть до того, что решаю алгоритмические задачи через регулярные выражения. Например преобразую массив в строку, проворачиваю нужные операции на базе регулярных выражений и возвращаю обратно массив. (Если конечно производительность не критична).
1. NikitaPozdeyev Автор
  11.07.2021 13:01
  #23248664
  Спасибо за отзыв. Я тоже не любил регулярки, но когда в них разобрался, решил простым языком объяснить их и помочь людям в них разобраться.
1. dcoder_mm
  11.07.2021 13:55
  #23248808
  +2
  и теперь "вижу" их применение везде (где может и не надо)
  Это важное уточнение. После того как перестал бояться и полюбил регулярки, очень важно их немедленно разлюбить до приемлемого уровня и использовать только там где они оптимальны
1. tyomitch
  11.07.2021 14:10
  #23248842
  +1
  Some people, when confronted with a problem, think «I know, I'll use regular expressions.» Now they have two problems.
  --Jamie Zawinski
1. KvanTTT
  11.07.2021 16:56
  #23249132
  С учётом lookahead и lookbehind они вроде бы тьюринг-полные. Так что в теории с помощью них можно решить любую задачу, но не следует. Попробуйте теперь кс-грамматики и генераторы парсеров - с помощью них можно тоже не только языки парсить.
1. fishHook
  12.07.2021 11:29
  #23251148
  Например преобразую массив в строку, проворачиваю нужные операции на базе регулярных выражений и возвращаю обратно массив.
  
  И ваш код проходит ревью? Как вы, собственно, объясняете коллегам своё алгоритмическое решение?

Serge78rus
11.07.2021 13:05
#23248684
Синтаксис (правила написания регулярок) не привязан к какому-то отдельному языку программирования. Поэтому, изучив регулярные выражения, вы сможете пользоваться ими где захотите.
Это не совсем так, существуют разные диалекты регулярных выражений. В том же sed, например, чтобы + воспринимался как квантификатор, его необходимо предварять символом \. И этим различия не заканчиваются, я привел это только как пример.
1. NikitaPozdeyev Автор
  11.07.2021 13:07
  #23248692
  Спасибо за информацию. Теперь буду знать

Bellerogrim
11.07.2021 13:09
#23248698
> Информации о регулярках много, они разбросаны по разным сайтам

И сведены воедино в книге Фридла Mastering Regular Expressions.
1. NikitaPozdeyev Автор
  11.07.2021 13:14
  #23248704
  Я просто решил написать всю основу в одну статью, чтобы люди смогли быстро усвоить основы и дальше развиваться в этом направлении. Разумеется, книга даст гораздо больше знаний и информации, но на книгу и времени больше уйдет.
  1. perfect_genius
    11.07.2021 17:49
    #23249282
    Чем не устроили другие статьи на Хабре?

ainoneko
11.07.2021 13:37
#23248756
Интересно, что `/s{3}/g` не сопоставляется с последними `sss`: s ss sss ssss.
Так и должно быть?
1. tyomitch
  11.07.2021 14:24
  #23248868
  Да, потому что жадно. Чтобы найти последние sss в каждой последовательности, понадобится negative lookahead: /s{3}(?!s)/g

Doc_x800
11.07.2021 13:39
#23248768
У Васи была проблема с сортировкой электронной почты. Он решил использовать регулярные выражения. Теперь у него 2 проблемы.) Не в упрек регуляркам, просто когда-то улыбнуло).

apachik
11.07.2021 13:57
#23248810
+3
куча статей про то, как писать регулярки, но ни одной про то, как их потом читать ))
1. tmin10
  11.07.2021 14:56
  #23248922
  Несколько лет, как для написания и чтения использую сайт https://regex101.com/(есть похожие, мне просто этот понравился). Там и шпаргалка есть и описание введённого выражения и сразу протестировать можно. Но мои выражения были довольно простыми, возможно для сложных случаев не подойдёт.
  1. dimaaannn
    11.07.2021 15:23
    #23248958
    Отлично подходит и для сложных. Тоже этот сайт использую.
1. vdudouyt
  11.07.2021 17:06
  #23249156
  Все верно, ведь этот вопрос напрямую проистекает из того, как их написать.

Evengard
11.07.2021 15:35
#23248986
+1
Для этого мы можем написать следующее [A-Z,a-z] . Что же это значит? Это значит, что мы указали, что мы хотим выбрать все символы в диапазоне от A до Z (это мы выбираем все заглавные буквы) и, затем, через запятую, мы говорим о том, что хотим выбрать все символы от a до z
Запятая тут не нужна, и даже лишняя. Запятая выберет в тексте собственно запятые, кроме букв, то есть "text,text" будет выбран полностью. Писать надо слитно [A-Za-z]. А ещё есть аналогичный для кириллицы [А-Яа-я], но он не захватывает букву ё, и её надо отдельно указывать: [А-Яа-яЁё].
А ещё в статье не описан наверное самый сложный концепт регулярок, это lazy/greedy квантификаторы. При этом описаны достаточно экзотические lookahead/lookbehind.
1. NikitaPozdeyev Автор
  11.07.2021 16:21
  #23249054
  Согласен, виноват, учту свои ошибки. Спасибо
1. Notevil
  12.07.2021 15:20
  #23252200
  А почему нельзя писать `[A-z]`? Оно же вроде тоже самое, что и `[A-Za-z]`
  1. NikitaPozdeyev Автор
    12.07.2021 15:20
    #23252202
    Можно и так :)
  1. tyomitch
    12.07.2021 16:22
    #23252432
    Потому что [A-z] эквивалентно [A-Z[\\\]^_`a-z]
    
    Notevil
    13.07.2021 06:22
    #23254422
    Спасибо, буду знать

ReinRaus
11.07.2021 17:44
#23249266
Для тестирования регулярных выражений лучше подходит https://regex101.com
1. NikitaPozdeyev Автор
  11.07.2021 18:31
  #23249352
  Возможно, но это просто чисто субъективный аспект, кому как удобнее.

karabas_b
11.07.2021 18:33
#23249358
\w означает не букву, а word character — буквы, цифры и подчеркивание.
1. Tatikoma
  11.07.2021 18:57
  #23249402
  Всякий раз когда вижу \w — появляются вопросы кодировки и локали )

Aleksandr-JS-Developer
11.07.2021 20:42
#23249636
Ещё один крутой инструмент для написания, тестирования и разработки регулярных выражений: https://regexr.com/

Пользуюсь только им
1. alan008
  12.07.2021 09:04
  #23250594
  Имхо http://regex101.com/ лучше всех
1. alan008
  12.07.2021 09:26
  #23250642
  Имхо http://regex101.com/ лучше всех

0xf331d34d
12.07.2021 08:03
#23250446
Существует много сайтов где можно проверить регулярки, а существуют ли сайты с заданиями на эти самые регулярки и проверкой результата? Обучение бы пошло в разы эффективнее
1. NikitaPozdeyev Автор
  12.07.2021 08:06
  #23250452
  Конкретных сайтов нет. Но можно найти некоторые задания. Например, вот ссылка: http://old.code.mu/tasks/javascript/regular/rabota-s-regulyarnymi-vyrazeniyami-v-javascript-glava-1.html
  Там несколько частей, можете просто перейти на след страницу
1. vadim_bv
  13.07.2021 15:31
  #23256348
  regexone.com

tolik_breathless
12.07.2021 08:07
#23250454
Много опечаток, а различные примеры в тексте нужно как-то выделять среди обычного текста, t. в конце строки может сбить с толку.
Стоит добавить хотя бы пару конкретных примеров из практики.
И ещё, скрины тяжело читать на мобильной версии, можно сделать скрины менее вытянутыми горизонтально.
1. NikitaPozdeyev Автор
  12.07.2021 08:08
  #23250456
  Хорошо, все это я учту при написании последующих статей. Спасибо за отзыв

Alexus819
12.07.2021 09:07
#23250602
и ни слова про ReDoS.
https://en.wikipedia.org/wiki/ReDoS#Evil_regexes
https://owasp.org/www-community/attacks/Regular_expression_Denial_of_Service_-_ReDoS
Может так получится что ваша простая регулярка для проверки того же email'а в форме валидации веб приложения, не завершится в обозримом будущем. подвешивая ваше приложение.
на regex101 удобно показывает количество шагов для вычисления регулярки. И есть дебаг вычисления.

ef_end_y
12.07.2021 09:26
#23250650
20 лет пишу регулярки (т.к поддерживаю несколько проектов на perl, хотя основной язык python) и могу дать один совет, который облегчит восприятие и логику регулярок: не пользутесь фичами с заглядывания вперед/назад. Да, призыв не использовать функционал звучит странно. Но столько людей спотыкаются в них и регулярно обращаются к документации чтобы освежить в памяти именно этот момент.
Чем же их заменить? почти все случаи заменяются на такие приемы:
1) захватить в (блаблаблла) то, что должно присутствовать в тексте и не должно быть изменено, после чего этот же фрагмент вставить в результат как $1 ($2 и тд)
2) использовать [^чего_не_должно_быть]
все это читается на раз-два, в отличие от всяких (?<=Y)X
1. NikitaPozdeyev Автор
 12.07.2021 12:32
 #23251476
 Согласен. У самого такое было. Про них я написал для того, чтобы было представление о них. Спасибо за совет
1. KvanTTT
 12.07.2021 13:11
 #23251642
 А что вы думаете про использование КС грамматик и генераторы парсеров?
1. tyomitch
 12.07.2021 15:12
 #23252176
 Эквивалентом (?<!foo)(bar) без использования lookbehind будет (?:^|[^o]|^o|[^o]o|^oo|[^f]oo)(bar).
 Читается на раз-два?!?
 1. ef_end_y
 12.07.2021 16:54
 #23252598
 Я же написал "почти все случаи". И перед тем как нажать на сабмит, подумал "но все равно отпишется человек, который найдёт контр пример". Очевидно, что раз фича есть, значит скорее всего от неё будет польза. Мой совет основан на опыте. Причём не только личном. Это и личные обращения" помоги составить регулярку, влом доки читать" и код ревью. Я лишь советую как облегчить себе жизнь. 99% практических регулярок оно покрывает
 
 tyomitch
 12.07.2021 16:56
 #23252620
 Хорошо, приведите хоть один пример, где замена negative lookahead/-behind по вашему способу упрощает чтение выражения.
 
 «но все равно отпишется человек, который найдёт контр пример»
 
 Вы так говорите, как будто я какой-то каверзный редкий случай запостил, а не самый примитивный из возможных пример использования negative lookbehind.
 
 ef_end_y
 12.07.2021 17:11
 #23252698
 Повторю: я дал совет исходя из своего и опыта коллег. Я и они решали практические задачи. Вот эти сотни практических задач подходят под мой принцип. Если у кого-то много регулярок с отрицаниями, которые надо исключить из поиска, тогда прошу прощения, мой совет не для вас. Но, повторюсь, в большинстве случаев он работает и позволяет не отвлекаться на чтение в доках постоянно забываемой фичи и обнаруживания, что у неё есть свой отдельный синтаксис для (не) жадности
 
 tyomitch
 12.07.2021 17:30
 #23252802
 Сотни практических задач, но ни одного конкретного примера? Всё понятно.
 
 ef_end_y
 12.07.2021 17:53
 #23252916
 Хорошо, сегодня буду за компом, напишу. С мобилы не очень удобно регулярки писать
 
 ef_end_y
 12.07.2021 21:52
 #23253760
 Приведу на perl, поскольку (внезапно) на нем лаконичнее. Самое простое, когда необходимо найти фрагмент, перед и/или после которого стоит определенный фрагмент:
 $s = "This is a test!"; $s =~ m|(.*?)|; print $1; # печатает test
 
 Здесь, как я говорил, лучше не использовать сущность "найденный фрагмент" и заглядывания вперед/назад, а проще применить группировку ($1). Пример простой, а вот с заменой немногие, не имея опыта, догадатся сделать так:
 # заменим "test" или "bug" на "code" только если впереди стоит фраза # "this is a " или "that is a " $s =~ s/(this|that) is a (test|bug)/$1 is a code/; # или так $s =~ s/(this is a|that is a) (test|bug)/$1 code/; # добавим пробелы вокруг text в <любой tag>text</любой tag> $s =~ s|(<[^>]+>)(.*?)(</[^>]+>)|$1 $2 $3|;
 Если человек понимает больше чем час изучения регулярных выражений, во втором примере я ему еще и предложу использовать \1. За "более боевыми" примерами надо лезть в код проектов и находить такие пограниченые варианты, но мне кажется этого итак достаточно, чтобы понять о чем речь. Если кому-то мой вариант менее понятный чем заглядывания - ради бога, я не расстроюсь, что кому-то он не подходит.
 
 tyomitch
 12.07.2021 22:58
 #23253924
 Спасибо, но я просил
 
 хоть один пример, где замена negative lookahead/-behind по вашему способу упрощает чтение выражения.

Scf
12.07.2021 09:38
#23250694
Прочитал название, удивился, зашел почитать статью. Увы, это не регулярки проще, это статья для начинающих...
1. NikitaPozdeyev Автор
  12.07.2021 12:34
  #23251486
  Дело в том, что в основном для новичков и написана статья, так как я сам когда только начал изучать регулярные выражения, мне было очень тяжело и я решил помочь таким людям
  1. perfect_genius
    12.07.2021 14:54
    #23252088
    Статьи на Хабре не помогли?
    
    NikitaPozdeyev Автор
    12.07.2021 15:18
    #23252194
    Как я и говорил в начале статьи, во время изучения регулярок информация была разбросана везде по частям. Вот я и решил в одну статью вписать основы, которые помогут новичкам лучше разобраться
    
    perfect_genius
    12.07.2021 15:41
    #23252286
    Самая первая строка в поиске: habr.com/ru/post/545150 (Регулярные выражения (regexp) — основы)
    Предельно наглядно для новичка. Настолько наглядно и в одном месте, что ваш материал — шаг назад. Что в ней не было так?

shyneko
12.07.2021 11:51
#23251268
Хорошая, годная статья. Особенно для первой! Добро пожаловать на хабр.
Вот еще ресурсы для проверки регулярок.
- https://regexr.com
- https://regex101.com
Все они +- одинаковые, но тут уже, как говорится, на вкус и цвет фломастеры разные (красные не очень).
1. NikitaPozdeyev Автор
  12.07.2021 12:34
  #23251482
  Спасибо большое за отзыв, рад, что статья понравилась. Да, кому какие сайты нравятся. И, как вы уже сказали, они действительно приблизительно одинаковые

gdt
12.07.2021 13:10
#23251632
Всё круто, как маленькая придирка - вместо примера с email вначале лучше взять что-нибудь попроще, на тему как правильно валидировать email адреса сломано немало копий, и по факту способа лучше, чем отправить туда письмо - до сих пор никто не придумал.
1. shyneko
  12.07.2021 14:08
  #23251862
  И так мы убьем двух зайцев - проверим, что мыло валидное и существует, и что оно пользователя
1. NikitaPozdeyev Автор
  12.07.2021 14:46
  #23252052
  +1
  Спасибо за отзыв. Рад, что понравилась статья. Да, согласен с вами.

lamer84
12.07.2021 23:12
#23253970
Осмелюсь предложить ещё regexper.com
Позволяет представлять регулярные выражения в графическом виде. Может быть кому-то пригодится для анализа регулярок, особенно если они написаны не вами и давно. Мне в свое время очень сильно помогло.
Правда, я не помню, все ли функции регулярок он поддерживает. Например, lookahead и lookbehind я не помню точно, так как не сталкивался с ними тогда.

PsiFlame
13.07.2021 07:12
#23254474
Здравствуйте, может тогда подскажите мне, а то я никак справиться не могу :(
Есть у меня слова и словосочетания (огромное кол-во, порядка 70К). Их нужно удалить из текста в рамках тегов
****
если они там присутствуют. Я так понял нужно использовать знак | Но как…
1. NikitaPozdeyev Автор
 13.07.2021 07:16
 #23254482
 Насколько я понял, нужно удалить слова, которые находятся между тегами? Ну тогда ситуация такая: допустим есть такая вещь: Some text. Получается, что если словосочетание находится между символами > и символом <, то его нужно удалить. Выбрать данное словосочетание можно с помощью ретроспективной и опережающей проверки, про которые я говорил в статье. Если же lookahead не поддерживается, то можно попробовать заменить его. Я просто не знаю подробностей вашего задания. Возможно я неправильно понял описанную вами проблему, но это первое, что мне пришло в голову
 1. Wyrd
 13.07.2021 10:44
 #23255004
 +1
 https://stackoverflow.com/a/1732454/14227156
1. KvanTTT
 13.07.2021 18:00
 #23256962
 Почему бы не использовать полноценный парсер (у вас же что-то вроде HTML) или хотя бы лексер?

Lynnfield
13.07.2021 10:51
#23255034
+1
Коллега, спасибо за статью!
Обратите внимание, что регулярное выражение - это механизм, который определяет какие последовательности символов входят в язык, а какие - нет. Он изначально не привязан к тексту. Хотя текстовые строки и являются частным случаем строк, с которыми работает регулярка, но также она может быть задана для строк, состоящих из emoji, например, или бинарных символов.
Также коллеги выше правильно заметили, что синтаксис регулярных выражений может меняться в зависимости от имплементации.
Вы можете ознакомиться с курсом "теория автоматов" на edx, там хорошо рассказано про регулярные выражения, на мой взгляд. Кстати, для меня было большим откровением узнать, что конечные автоматы и регулярные выражения - это одно и то же, с точки зрения решаемой задачи.
1. NikitaPozdeyev Автор
  13.07.2021 11:28
  #23255218
  Учту, спасибо вам большое!
  1. Lynnfield
    13.07.2021 17:03
    #23256728
    Пожалуйста! Продолжайте писать!

dbalabanov
13.07.2021 11:19
#23255160
Сразу дам ссылку на сайт, чтобы вы могли уже писать вместе со мной www.regextester.com

ошибка 503
1. NikitaPozdeyev Автор
  13.07.2021 11:27
  #23255214
  Видимо у них проблемы на сервере

perlestius
14.07.2021 07:46
#23258438
Я бы ещё про нюансы работы регулярок с многострочным текстом добавил и сделал акцент на регистрозависимость по умолчанию.

Katenk
14.07.2021 08:09
#23258472
+1
Спасибо за статью

Регулярные выражения. Всё проще, чем кажется +38

Содержание

Что такое регулярка и с чем ее едят?

Где писать регулярки?

Самые простые регулярки

Квантификаторы

Специальные символы квантификаторов

Специальные символы

Lookahead и lookbehind (опережающая и ретроспективная проверки)

Регулярные выражения в разных языках программирования

Заключение

Комментарии (70)

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор

NikitaPozdeyev Автор