728x90
ahocorasick 알고리즘은 문자열 검색 알고리즘 중 하나로, 다중 문자열 검색(multiple pattern matching)을 수행하는 알고리즘입니다.
문자열들을 Trie 자료구조로 생성하고, 이를 기반으로 탐색하여 문자열 검사를 실시합니다.
핵심 사항은 검색 하고자하는 문자열을 입력으로 받은 후에 검색이 끝나기전에 검색결과가 나온후에는 다시 앞으로 돌아가는것는 과정이 포함됩니다. 실패 링크
https://ko.wikipedia.org/wiki/%EC%95%84%ED%98%B8_%EC%BD%94%EB%9D%BC%EC%8B%9D_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98
class Node:
def __init__(self,text):
self.text = text
self.last = 0
self.output = ""
self.child = {}
self.fail = None
self.rank = 0
def show(self):
print( "text:", self.text, "output:",self.output, "fail:", self.fail.text if self.fail is not None else "None","rank:",self.rank)
if self.last:
print( "LAST OUTPUT : ", self.output)
for k in self.child.keys():
s = self.child[k]
s.show()
class AhocorasickTrie:
def __init__(self):
self.no = 0
self.root = Node(None)
def add(self,text):
rank = 0
currentNode = self.root
for t in text:
if t not in currentNode.child:
self.no +=1
currentNode.child[t] = Node(t)
print(f"ADD : {t} || Current No. : {self.no}")
currentNode.rank = rank
rank+=1
currentNode = currentNode.child[t]
currentNode.output = text
currentNode.last = 1
currentNode.rank = rank
print(f"TOTAL : {self.no}")
def set_failur(self):
queue = []
for c,node in self.root.child.items():
node.fail = self.root
queue.append(node)
while queue:
currentNode = queue.pop(0)
for t,node in currentNode.child.items():
fail_node = currentNode.fail
while fail_node and t not in fail_node.child:
fail_node = fail_node.fail
if fail_node:
node.fail = fail_node.child[t]
else:
node.fail = self.root
queue.append(node)
def show(self):
self.root.display()
def find(self,text):
result = []
currentNode = self.root
for t in text:
while currentNode is not None and t not in currentNode.child:
print("fail",currentNode.text)
currentNode = currentNode.fail
if t in currentNode.child:
currentNode = currentNode.child[t]
if currentNode.output != "":
result += [currentNode.output]
print(result,t,currentNode.output,currentNode.last,currentNode.output)
return result
728x90
'programming language > Python' 카테고리의 다른 글
[Python] datetime 연도 계산 (0) | 2023.03.21 |
---|---|
[Python] 문자열 알고리즘 - Trie (0) | 2023.03.15 |
[Python] Colab Selenium - 코랩 셀리니움 사용법 (0) | 2020.11.26 |
[Python] 파이썬 넘파이 (Numpy) - numpy.log1p() / numpy.expm1() (0) | 2020.10.22 |
[Python] 넘파이 (Numpy) - 공부하기_Numpy.c_ .2 (0) | 2020.10.20 |