-
Notifications
You must be signed in to change notification settings - Fork 15
Validation périodique de urls.txt #29
Comments
Merci @JulienPalard d'avoir créé cette issue ! Dans Gitlab, on peut programmer des Jobs CI (p. ex. toutes les nuits), j'imagine qu'on doit pouvoir faire pareil dans Github, et a minima faire la verif (vert = OK ; rouge = traitement manuel à faire). J'étends la réflexion sur les entrées à supprimer : est-ce qu'on en conserve une trace quelques part, genre dans un fichier |
Matthieu FAURE ***@***.***> writes:
J'étends la réflexion sur les entrées à supprimer : est-ce qu'on en conserve une trace quelques part, genre dans un fichier -cimetiere.txt ? Je n'arrive pas à savoir si cette idée à de la valeur. Vos avis ?
Sur ce point particulier, je pense qu'il ne faut se charger de garder trace des entrées supprimées. Le fait de les lister constitue une réutilisation possible du dépôt, et la trace est dans l'historique.
|
Si un jour on en a besoin on pourra reconstruire la liste à partir de l'historique git. |
J'ai mené une expérience durant mes vacances :
C'était : from sys import executable
from time import sleep
from subprocess import run as _run
def run(command):
_run(command, shell=True, check=False)
run(f"{executable} scripts/http_checker.py -s --limit 1000")
run("git add urls.txt domains.csv")
run("git commit -m 'Refreshing 1k domains'.")
sleep(60)
run(f"{executable} scripts/http_checker.py -s --grep $(git show urls.txt | grep ^- | sed 1d | cut -d/ -f3)")
run("git add urls.txt domains.csv")
run("git commit -m 'Fix last refresh 1mn later'.")
sleep(60 * 15)
run(f"{executable} scripts/http_checker.py -s --grep $(git log -p urls.txt | grep ^-http | head -n 100 | cut -d/ -f3)")
run("git add urls.txt domains.csv")
run("git commit -m 'Recheck last 100 removals'.") Pas de git push, ça m'a permis de relire en rentrant de vacances pour voir à quel point une exécution automatique peut remonter des faux positifs et faire "clignotter" des domaines dans urls.txt. En conclusion :
Je viens donc de mettre en place : Je ne pense pas qu'il faille faire comme mon script (de gros Peut-être via quelque chose comme :
ou plus élaboré, le problème du - http://data.gouv.fr
+ https://data.gouv.fr ^ là le |
Les actions github en place font correctement leur travail, je ferme cette issue. Elles actualisent 1000 domaines par jour, ce qui "boucle" actuellement en 85 jours. |
Aujourd’hui,
scripts/consolidate.py
s’assure que chaque URL ajoutée dansurls.txt
répond 200 OK.Cependant, comme indiqué dans #6, on a rien pour vérifier que ça reste vrai.
Il faudrait donc un script qui repasse sur
urls.txt
pour en retirer les URL qui ne répondent plus, et peut être en faire un commit avec la raison du retrait (échec DNS, échec TLS, échec HTTP, redirection, …).The text was updated successfully, but these errors were encountered: