Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

MD5 計算時に LF 込みの文字列が入力値になってしまっている #223

Open
kobake opened this issue May 1, 2020 · 0 comments

Comments

@kobake
Copy link
Collaborator

kobake commented May 1, 2020

MD5 ハッシュ計算時に LF が混入している個所がたくさんある。というかたぶん全てそうなっているかもしれない。

後々混乱することになりそうなので、どこかのタイミングで見直したほうが良いかもしれない。(既に集計済みのデータがたくさんあるから今の時点から後戻りするのは難しいかもしれないけど)

データ例

$ head urls-md5.csv
....
ceba9b3c956119ab5db9cfe5c61bc564,https://betsukai.jp/anzen/index.html
....

このハッシュ値は "https://betsukai.jp/anzen/index.html" ではなく "https://betsukai.jp/anzen/index.html\n" のハッシュ値になってしまっている。

参考:LF を混入させない方法

LF が混ざるコマンド

$ echo https://betsukai.jp/anzen/index.html | md5sum
ceba9b3c956119ab5db9cfe5c61bc564  -

LF が混ざらないコマンド

$ echo -n https://betsukai.jp/anzen/index.html | md5sum
ffd2414e0209e2f2b6b2c90ba0a74815  -

こっちが本来の "https://betsukai.jp/anzen/index.html" の MD5 ハッシュ値。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant