Da li je vreme da se uci aarch64 asembler?

bmaxa · 19.03.2021. u 05:17

Ja sam ljubitelj x86 asemblera, iako u praksi nemam primene osim sa hobi projekte,
ali asembler je nesto sto mislim da svaki programer mora znati ako sebe hoce
da zove programerom. Tu je znaci ucenje procesora i njegove specificnosti.
Dakle ono lako je sad iskompajlirati, ali napravi nesto i znaj nesto.
ARM64 se probio na scenu, pa mozda sad osim sto ljudi znaju x86,
mozda ce on za koju godinu biti bas aktuelan kao sada x86?

bmaxa · 30.05.2021. u 22:40

Lep primer za ucenje ARM64(aarch64) asemblera.
Asembler koji se koristi je takodje moj omiljeni flat assembler, u sledecoj generaciji koja se ne vezuje za arhitekturu
nego se instrukcije za odrejenu arhitekturu inkluduju.
https://github.com/lucabrivio/asmFish-fasmg

Introduction

Welcome to the project of translating Stockfish into assembly language. This project now uses the new assembler engine fasmg from Tomasz Grysztar. The includes in arm/includes/ or x86/include/ contain instruction and formatting macros for the four popular targets in the Building section. The hello world examples in these directories should provide enough to grasp the syntax.

bmaxa · 20.06.2021. u 14:40

Zbog ovoga sam kupio macbook,da se pripremim za budućnost

Evo ga hello world na aarch64 mac OS-u, asembler je GNU gas, jedini koliko znam izbor za ARM:

Kod:

msg:
    .ascii        "Hello, ARM64!\n"
len = . - msg

.globl _main ; osx linker traži ovaj simbol za ulaz
.align 4        ; f-je moraju na 4 bajta da se alajnuju

_main:

    mov     x0,#1 ; standardni izlaz, stdout
    adr     x1,msg ; adresa poruke
    mov     x2,len    ; duzina
    mov     x16, #4    ; syscall broj 4 je write
    svc     #0        ; poziv sistemskog servisa

   mov     x0, #0      ; povratni kod
   mov     x16, #1     ; 1 je izlaz
   svc     #0   ; jasno
; kraj

i idemo:

Kod:

bmaxa@Branimirs-MacBook-Air assembler % as hello.s -o hello.o                                                                     
bmaxa@Branimirs-MacBook-Air assembler % ld -o hello hello.o -lSystem -L/Library/Developer/CommandLineTools/SDKs/MacOSX.sdk/usr/lib
bmaxa@Branimirs-MacBook-Air assembler % ./hello
Hello, ARM64!

I to bi bilo to za početak

bmaxa · 20.06.2021. u 15:53

A sada to isto ali sa kooperacijom sa C bibliotekom:

Kod:

        .text
msg:
        .ascii "Zdravo Svete!\0"
        .globl _main
        .align 4
_main:
        stp     x29, x30, [sp, -16]!
        adr     x0, msg
        mov     x29, sp
        bl      _puts
        ldp     x29, x30, [sp], 16
        mov     x0, 0
        ret

x29 je frejm, a x30 link pointer, tj onaj koji cuva return adresu. Ova dva se moraju
sacuvati i to se radi na pocetku sa stp instrukcijom koja ih smesta na stek.
potom se frejm podesi da pokauzuje na vrh steka da ih puts ne pregazi.
x0 drzi pointer na string za puts. I poziv f-je sledi. Nakon povratka vraca
se vrednost x29 i x30 registara. potom sledi izlaz sa ret. (ret koristi adresu
u x30 a x29 je frejm koji je nasetovala pozivna f-ja. I to je to.

Kod:

bmaxa@Branimirs-MacBook-Air assembler % as helloc.s -o hello.o                                                                    
bmaxa@Branimirs-MacBook-Air assembler % ld -o hello hello.o -lSystem -L/Library/Developer/CommandLineTools/SDKs/MacOSX.sdk/usr/lib
bmaxa@Branimirs-MacBook-Air assembler % ./hello

Toliko za danas

jolemisa · 20.06.2021. u 16:01

Sigurno,ko se bavi tim stvarima,da treba da prati i novije stvari.U programesrstvu,uvek nesto ispadne da zatreba.

Bren · 21.06.2021. u 13:46

Stvari kojim bih se bavio u programiranju ima za tri života. Šteta što imam samo jedan.

bmaxa · 21.06.2021. u 14:23

Bren:
Stvari kojim bih se bavio u programiranju ima za tri života. Šteta što imam samo jedan.

Тачно, ѕато се само бавим Ц Ц;++ и ассемблером

bmaxa · 23.06.2021. u 00:05

Sad sam krenuo da pretabam, merge i radix sort listi u asm_u koji su trenutno za x86.
Zahvaljujuci rozeti tj jit-u koji prevodi x86 kod u ARM kod mogu ovo da vozim na Mac-u.
Evo recimo 2700x isti program i na Mac-u.

Kod:

list radix elapsed 1.071881 seconds
list merge elapsed 0.308731 seconds
size of node 12, length 1000000

a gle na Macu:

Kod:

list radix elapsed 0.090691 seconds
list merge elapsed 0.048341 seconds
size of node 16, length 1000000

I jednom i drugom milion noda staje u cache, ali je M1 drasticno brzi

Kad pretabam objavim.

bmaxa · 24.06.2021. u 13:37

Evo ga full blown asm program za M1, sto je retkost naci

Zezao sam se najvise sa stekom, zato sto ARM ne da nonaligned pristup steku, za razliku
od x86, pa sam tu imao pretumbacija. Osim toga nasao sam lep nacin da se meri vreme
izvrsavanja a to je mrs instrukcija koja cita sistemske registre od kojih su dva interesantna:
cntfrq_el0 koji daje frekvenciju sa kojom se deli takt tako da se dobiju sekunde i drugi
je CNTPCT_EL0 koji daje sam brojac.
Progi je ovde kao sto sam obecao: https://github.com/bmaxa/asmsort

bmaxa · 24.06.2021. u 23:33

A sada primer koriscenja SIMD instrukcija.

Kod:

    .text
    .globl _main
    .align 4
    .arch armv8a
_main:
    stp    x29, x30, [sp, -16]!
    adrp x1,simd1@PAGE
    ldr q0,[x1,simd1@PAGEOFF]
    adrp x2,simd2@PAGE
    ldr q1,[x2,simd2@PAGEOFF]
    add.4s v0,v1,v0
    sub sp,sp,32
    mov.s w8,v0[0]
    str x8,[sp]
    mov.s w8,v0[1]
    str x8,[sp,8]
    mov.s w8,v0[2]
    str x8,[sp,16]
    mov.s w8,v0[3]
    str x8,[sp,24]
    adrp x0,msgsimd@PAGE
    add  x0,x0,msgsimd@PAGEOFF
    bl _printf
    add sp,sp,32
    ldp    x29, x30, [sp], 16
    eor     x0,x0,x0
    ret
    .data
msgsimd:
    .asciz "%d %d %d %d!\n"
.align 16
simd1:
.long 1
.long 2
.long 3
.long 4
simd2:
.long 10
.long 20
.long 30
.long 40

E sad na ARM postoji SIMD koji se zove Neon i najblizi je SSE2 na x86. Dakle koriscenje je prilicno slicno
sa time da su naravno instrukcije drugacije.
1. ucitavanje iz memorije. Kada se ovo radi koristi se oznaka q0-31 za registar, dakle
ldr q0,[x1,simd1@PAGEOFF] ucitava u registar q0 4 32 bitna inta.
2. operacija
add.4s v0,v1,v0 oznacava celobrojno sabiranje 4 worda (word je 32 bitni na ARM za razliku od x86 gde je to dword).
v0 i v1 su oznake da se radi o vektorskoj operaciji. Ovo isto moze da se napise i kao add v0.4s,v1.4s,v0.4s sto je verboznije.
Potom zelimo da isprintamo rezultat.
mov.s w8,v0[0] znaci extraktuj prvi element iz vektora, velicine word i smesti u 32-bitni int registar w8.
printf na macOS u x0 uzima format string, a parametri idu na stek sa leva na desno, tj odozdo na gore.
i to bi bilo to.

bmaxa · 27.06.2021. u 01:50

Evo ga jos jedan primer za ARMV8 ovoga puta moj nbody bench, koji se ovde nije proslavio

Izgleda da M1 vise voli razmotane petlje od Neona, pa se moj program izvrsava dosta sporije.
Ali je odlican primer ARMV8 asemblera pa koga zanima, moze da pita.
Proggy je ovde: https://github.com/bmaxa/shootout/blob/main/nbody/nbody2.gas

bmaxa · 27.06.2021. u 13:44

I kao sto se dalo pretpostaviti:

Kod:

.L1main:
    cmp x20,20
    blt lo
    advance A
    advance B
    advance C
    advance D
    advance E
    advance F
    advance G
    advance H
    advance I
    advance J
    advance 01
    advance 02
    advance 03
    advance 04
    advance 05
    advance 06
    advance 07
    advance 08
    advance 09
    advance 10
    subs x20,x20,20
    bgt .L1main
    b Lskip
lo:
    advance K
    subs x20,x20,1
    bgt lo
Lskip:

Ovo mi je dalo 10% na performansama

Nemoguća Могућност · 07.12.2022. u 21:35

bmaxa:
Ja sam ljubitelj x86 asemblera, iako u praksi nemam primene osim sa hobi projekte,
ali asembler je nesto sto mislim da svaki programer mora znati ako sebe hoce
da zove programerom. Tu je znaci ucenje procesora i njegove specificnosti.
Dakle ono lako je sad iskompajlirati, ali napravi nesto i znaj nesto.
ARM64 se probio na scenu, pa mozda sad osim sto ljudi znaju x86,
mozda ce on za koju godinu biti bas aktuelan kao sada x86?

Uf, asembler - velika tema. Danas pomalo zapostavljena. Nisam je primetio ranije. Hvala, ima vidim za citanje

Da li vredi uciti konkretno arm. Verujem da - da.

prelazak sa x86 na arm je prelazak sa CISC procesora na RISC procesor. Koliko primecujem, arm je za nijansu slabije podrzan, ali menja se, ima ga puno.

Bren:
Stvari kojim bih se bavio u programiranju ima za tri života. Šteta što imam samo jedan.

Zivot je kratak za programiranje u asembleru

bmaxa · 08.12.2022. u 03:23

Nemoguća Могућност:
prelazak sa x86 na arm je prelazak sa CISC procesora na RISC procesor. Koliko primecujem, arm je za nijansu slabije podrzan, ali menja se, ima ga puno.

x86 ima kompleksne instrukcije i ne moras toliko da pazis na alignment. No x86 je interno risc jer sve te instrukcije razbija
na mikrooperacije koje su u principu risc instrukcije. Na pr mozes da sabiras sa sadrzajem memorije na cisc u jednoj
instrukciji, dok na risc prvo moras da povuces u registar...
sto se tice podrzanosti ima ga na telefonima, ruterima, raspberi pie, a m1 je prvi koji ima performanse desktopa...

Nemoguća Могућност · 08.12.2022. u 19:42

bmaxa:
pa mozda sad osim sto ljudi znaju x86,
mozda ce on za koju godinu biti bas aktuelan kao sada x86?

Nikad se nisam dovoljno svrteo da naucim detaljno x86 - nista me tu kod tog procesora nije privuklo - bio mi je nekako dosadan. Tako da ne tvrdim da ga bas znam.

Kad je u pitanju x86 koliko se secam, samo jednom, za samo taj jedan projekat (na PC) sam sisao na asembler jer nije bilo moguce drugacije, A i taj kod je radio u limitiranoj varijanti jer je bio zavistan od konstrukcije kompa tacnije od frekvencije na kom radi procesor. trebale su mi mikro sekunde za neko precizno merenje.

I na kraju sad vidim da i poslednji bastion x86-ce - windows - preti s prelaskom na arm. Cudo 21vog veka.

Apple je vec 5 puta menjao arhitekture CISC-RISC-CISC-RISC vec su uverzirani.

Britanci izgleda odneli RISC snjur.

Nemoguća Могућност · 08.12.2022. u 22:09

bmaxa:
Тачно, ѕато се само бавим Ц Ц;++ и ассемблером

malo si skroman, znam ja da se bavis i drugim jezicima i stvarima, uvek me iznenadis s necim

bmaxa · 12.08.2023. u 05:11

oho, ljudi provalili amx instrukcije m1/m2 procesora: https://github.com/corsix/amx
Malo cu da istrazim, pa onda nastavljam temu sa apdejtovanim benchmarcima sa AMX instrukcijama :>P

Nemoguća Могућност · 12.08.2023. u 22:51

bmaxa:
oho, ljudi provalili amx instrukcije m1/m2 procesora: https://github.com/corsix/amx
Malo cu da istrazim, pa onda nastavljam temu sa apdejtovanim benchmarcima sa AMX instrukcijama :>P

sta su sad amx instrukcije?

bmaxa · 12.08.2023. u 23:32

Nemoguća Могућност:
sta su sad amx instrukcije?

matricni simd ima i intel to, isto se zove AMX, to ti oni reklamiraju kao neural engine. Nedokumentovano totalno kod Apple, moras da kodiras binarno
jer nema asembler, planiram gas da prosirim prvo sa makroima :>P

Nemoguća Могућност · 12.08.2023. u 23:56

bmaxa:
matricni simd ima i intel to, isto se zove AMX, to ti oni reklamiraju kao neural engine. Nedokumentovano totalno kod Apple, moras da kodiras binarno
jer nema asembler, planiram gas da prosirim prvo sa makroima :>P

A to, ovo to sto na apple pice neuralne mreze ko blesave.
Ako sam dobro shvatio.
Ode ai na cip

bmaxa · 12.08.2023. u 23:59

Nemoguća Могућност:
A to, ovo to sto na apple pice neuralne mreze ko blesave.
Ako sam dobro shvatio.
Ode ai na cip

Da, ali Apple hoce da koristis preko biblioteka, ne direktno :>P
ihace mocna stvar, ne mora samo za neuralne mreze :>P

bmaxa · 13.08.2023. u 07:39

Apple nista ne pravi sto im nije u interesu. Mislim ono, nema asembler za m1/m2 nego koriste gas... sramota, da nisu dokumentovali
ove instrukcije, al ajde...

bmaxa · 18.08.2023. u 02:19

brate malo instrukcija, al brdo varijanti ovaj Apple AMX
mora da su uradili reverse engineering Apple biblioteka
video sam kako se prosiruje GAS

bmaxa · 19.08.2023. u 05:24

Na raspolaganju je 8 registara X, koji su svaki 8*64 bita, i 8 registara Y, i Z. U Z idu rezultati matricnih operacija.
U principu matricni oblik AVX 512.
Glavna operacija je fused multiply add, koja se koristi za izracunavanje, neuralnih mreza...

bmaxa · 19.08.2023. u 14:21

registar z je zapravo matrica koja je akumulator operacija iz x i y registara. Kako je ovaj lik sve to provalio,
nemoguce, a da nije imao Apple insider dokumentaciju. Ovo ne moze samo reverse engineeringom da se
provali. Mislim ono svaki bit instrukcije zna cemu sluzi....

Da li je vreme da se uci aarch64 asembler?

Legenda

Legenda

Introduction​

Legenda

Legenda

Buduća legenda

Elita

Legenda

Legenda

Legenda

Legenda

Legenda

Legenda

Iskusan

Legenda

Iskusan

Iskusan

Legenda

Iskusan

Legenda

Iskusan

Legenda

Legenda

Legenda

Legenda

Legenda

Slične teme

Introduction