بایگانی خرداد ۱۳۹۸ :: مجله خبری برنامه‌نویسی پایتون

درس سوم (متاکارکترها)

❇️ متاکارکترها - انطباق کارکترها

1️⃣ . (نقطه) : تنها یک کارکتر (هر نوع کارکتری) میتواند ظاهر گردد.

2️⃣ ^ : این علامت در داخل یک کروشه به معنی این است که کارکترهای بعد از آن نباید ظاهر گردند.

3️⃣ $ : این علامت در پایان یک رشته به این معنی که عبارت مورد جستجو باید با عبارتی که قبل از $ می آید شروع شود.

4️⃣ [ ] : انطباق با مجموعه از کارکترهای درون کروشه

5️⃣ متاکارکتر [a-z] : مطابقت با یکی از رشته های a,b,...,z

6️⃣ متاکارکتر [abc^] : مطابقت با کارکترهای که a,b,c نیستند.

7️⃣ متاکارکتر a|b : مطابقت میکند با کارکتری که a یا b باشد. در جاییکه a و b رشته هستند.

8️⃣ ( ) : محدوده ای برای عملگرها

9️⃣ \ : کارکترهای خاص (t , \n , \b\)

❇️ متاکارکترها - نمادهای کارکتری

1️⃣ متاکارکتر b\ : انطباق مرز کلمات

2️⃣ متاکارکتر d\ : رقم ها ، همه اعداد شامل [0-9]

3️⃣ متاکارکتر D\ : غیر از رقم، هر موردی جز اعداد [9-0^]

4️⃣ متاکارکتر s\ : تمام فضاهای خالی، مانند [t\n\r\f\v\ ]

5️⃣ متاکارکتر S\ : عدم فضاهای خالی، مانند [t\n\r\f\v\ ^]

6️⃣ متاکارکتر w\ : تمام کارکترهای الفبایی و عددی، شامل [ _a-zA-Z0-9]

7️⃣ متاکارکتر W\ : تمام کارکترهای غیر الفبایی و عددی، شامل [ _a-zA-Z0-9 ^]

❇️ متاکارکترها - تکرار

1️⃣ * : تکرار صفر یا بیشتر

2️⃣ + : تکرار یک بار یا بیشتر

3️⃣ ؟ : تکرار صفر یا یک عبارت قبل از علامت سوال

4️⃣ متاکارکتر {n} : دقیقا n بار تکرار که n بزرگتر و مساوی صفر خواهد بود.

5️⃣ متاکارکتر { ,n} : حداقل n بار تکرار

6️⃣ متاکارکتر {n, } : حداکثر n بار تکرار

7️⃣ متاکارکتر {m,n} : حداقل m بار و حداکثر n بار تکرار

🔵 اگر متاکارکتری رو متوجه نشدید نگران نباشید، در بخش های بعدی مثالهای خواهیم زد که کاملا متوجه گردید. و اگر دوست داشتید اطلاعات بیشتری در مورد این متاکارکترها داشته باشید لینک زیر رو میتونید مشاهده کنید:

http://www.rexegg.com/regex-quickstart.html

❇️ مثالهای بخش متاکارکترها

مثال های این بخش رو، در ادامه همان مثال قبلیمان انجام خواهیم داد. و اگر یادتون باشه اومدیم گفتیم از re.search برای مشخص کردن عبارتهای منظم استفاده میکنیم.که عبارت منظم ما بصورت زیر بود.

@[A-Za-z0-9_]+

🔹متاکارکتر w\ و +

>>> [w for w in text13 if re.search('@\w+', w)]

['@UN', '@UN_Women']

همانطور که مشاهده میکنید این متاکارکتر کل حروف الفبایی، اعداد و آندرلاین رو شامل خواهد شد و لازم نیست دیگر مثل قبل بنویسیم.

❇️ مثالهای کاربردی

فرض کنید میخواهیم در یک رشته حروف صدادار انگلیسی(a,e,i,o,u) رو پیدا کنیم. بعنوان مثال رشته زیر رو در نظر خواهیم گرفت.

»> text14 = 'ouagadougou'

با استفاده از متد findall و مشخص کرن حروف صدا دار، تمام کارکترهای صدادار را بعنوان خروجی برمیگردانیم.

»> re.findall(r'[aeiou]', text14)

['o', 'u', 'a', 'a', 'o', 'u', 'o', 'u']

اگر بخواهیم حروف غیرصدادار (در واقع حروف بیصدا) را استخراج کنیم کافیه از علامت ^ بدین منظور استفاده کنیم

»> re.findall(r'[^aeiou]', text14)

['g', 'd', 'g']

۰ نظر
۰ ۰
۰۳ خرداد ۹۸ ، ۱۰:۴۴

مجله خبری برنامه‌نویسی پایتون

مجله خبری برنامه‌نویسی پایتون

مرکز آموزش و رقابت برنامه نویسی پایتون

برنامه نویسی

اخبار

جشنواره تخفیف

استخدام

یادگیری ماشین با پایتون

مطالب آموزشی

متن کاوی

چالش

کتاب

کتابچه

وبینار

۱ مطلب در خرداد ۱۳۹۸ ثبت شده است

درس سوم (متاکارکترها)