데이터 과학 Data Science/자연어처리 NLP
[NLP] 정규표현식 re 간단한 예제
허니비 honeybee
2022. 12. 29. 10:31
RegEx 를 적용하는 방법이 두가지 있다.
1. Text Editor 를 이용해 interactive 하게 로그를 보고 바로바로 결과를 보면서 하는 방법
2. 전용 모듈을 이용하는 방법
당연히 전자가 더 쉽다. 텍스트 에디터를 지원하는 프로그램은 Sblime Text, VScode, EmEditor 가 있는데 전자 두개는 무료이나 데이터 양이 크면 버벅거린다고 한다. 기가단위의 대용량 코퍼스를 정제해야 한다면 그냥 후자를 이용해보자
정규식을 적용하는 법의 주된 원리는 "규칙을 찾아내는 것" 이다. 내가 정제하고픈 불용어가 들어가있는 규칙을 찾아내어 이 표현을 이용해 보도록 하자
1. 꺽쇄 이용 []
#23,4,5 중 하나거나 cde 중 하나면 걸림
[2-5c-e]
#23,4,5 중 하나가 아니거나 cde 중 하나가 아니면 걸림
[^2-5c-e]
2. 소괄호 이용 ()
위치를 지정하는 것임.
#양 끝에 알파벳 소문자가 붙은 bc 제거하기
#abcd
([a-z])bc([a-z])
#ad
3. 반복되는 패턴 찾기
#x 또는 y 가 나타남, 그리고 1에 지정
(x|y)
# x 가 0번 혹은 1번 나타남
x?
# x 가 1번 이상 나타남
x+
#x가 나타나지 않을 수도, 반복될수도 있음
#강력한 표현이니 유의해 사용
x*
4. 반복되는 패턴 (~번) 지정하기
#n 번 반복
x{n}
# n번 이상 반복
x{n,}
#n번부터 m 번까지 반복
x{n,m}
#어떤 character 이던
.
#문장의 시작과 끝을 표시
^x$
728x90
반응형