[fb-exchange] Re: talking Tech: Brian Hartgen blog site - Using 'Jaws' with 'Gemini' and ''ChatGPT' for your 'OCR' detective work !

  • From: Joan Ann Brosnan <joanannbrosnan9@xxxxxxxxx>
  • To: fb-exchange@xxxxxxxxxxxxx
  • Date: Thu, 7 Mar 2024 12:35:27 +0000

Hi Garth
Thanks for sharing this. It looks very interesting. I am still on Jaws 2023 
also but I would definitely consider upgrading for this feature.

Joan Ann.

ent from my iPhone

On 7 Mar 2024, at 12:31 p.m., garthlong50@xxxxxxxxx wrote:


Wow!  Pushing back the inky darkness!
Guys,
Greetings from cobh, Ireland.
I sourced this blog on Brian Hartgen training site.
This mainly deals with the issue of ‘OCR’ and how we have moved quickly forward 
to overcome the enormous difficulty in reading them or even deciphering them?
As you know Brian is one of the ‘top’ experienced ‘Jaws’ trainers in the 
business of helping all of us folk who cannot see.
I love his passion and his personal drive.
Yet, on this same story I am lagging behind as I am on Jaws 2023, but will have 
an ‘SMA’ very soon.
Oh, yes, I myself do not personally bother with popular blogging sites.
This goes for ‘X’ or any other micro site.
I did a ‘Mastodon’ course a year or two ago, but I still find it too convoluted 
and essentially difficult and I hate spending most of my day in front of the 
computer.
Besides, we still have the whole of the world-wide web to scour?
Oh, yes, I do use Brian’s scripts for ‘Zoom’ and for ‘MS Teams’ and soon he 
will have a new set for ‘WhatsApp’?
Do enjoy:
Latest Brian Blog Site
Here we go:
The March update of JAWS contains considerable new enhancements to the Picture 
Smart functions. In my view this is one of the very best feature enhancements 
within JAWS for some time. The system uses both Gemini and Chat GPT services so 
as to provide descriptions of images from web sites, files or perhaps a 
screen-shot of an application.
You don't need a special account to use it. You can just enjoy it.

I have been using this for a few weeks now. Here are some practical use cases I 
frequently work through.
1. I am a very heavy user of X/Twitter as it contains a great deal of content 
in which I am interested and keeps me up-to-date with events. Many posts on X 
contain images. I am easily able to focus on the image and get an excellent 
description in return.
It also works very well on social media sites where, for example, a user has 
scanned in a page from a TV listings magazine of long ago as the text is 
rendered correctly.

For anyone who has my JAWS scripts for X/Twitter, an update will be available 
shortly where you can press a keystroke to more easily obtain a description of 
an image relating to the post.
The script will identify if there is an image for the post and if so will scan 
it and present you with the results. If there is no image for that post, JAWS 
will let you know. If you don't have the scripts, you can still use the 
function of course by using the keystrokes listed here.
Here is a description of an image from X:
The image is a collage of four photos of the Swedish pop group ABBA.

The first photo shows the group in a recording studio, with Benny Andersson, 
Anni-Frid  Lyngstad, Björn Ulvaeus, and Agnetha Fältskog all standing around
a microphone.

The second photo shows the group in a more candid moment, with Björn and 
Agnetha sitting on a couch and Benny and Anni-Frid standing behind them.

The third photo shows the group at a press conference, with all four members 
sitting at a table and answering questions from reporters.

The fourth photo shows the group at an awards ceremony, with all four members 
holding awards.
The Chat GPT output gives more descriptions of the outfits they are waring.

2. In order to prepare videos for upload to my wife's YouTube channel, I use a 
program called Handbreak. When the video is loaded into Handbreak, I can do a 
quick scan of the window. If it gives me a good description of the video then I 
know the visual appeal is of a high standard. I can also carry out the same 
action when the video is uploaded to YouTube and this gives me confidence since 
I know it has been uploaded correctly and is looking good.

Descriptions are like this:
The image shows an indoor setting with two individuals. On the left, there is a 
woman who appears to be smiling and has short, light-colored hair. She
is wearing a bright red top and is seated on a dark-coloured couch. The woman 
has her head slightly tilted and is laughing or speaking. She is holding a
baby with both hands.

The baby, on the right side of the image, is lying on a cushion or support that 
is partially visible. The baby appears relaxed and is dressed in a white
onesie with various animal prints on it. The onesie has full sleeves, and the 
baby's left hand is resting on the onesie, showing only the fingers. The
baby has a pale complexion and eyes partially closed, possibly sleeping or 
resting comfortably.

3. We have a large library of pictures taken over the years and scanning these 
and obtaining descriptions brings back memories.

In the image, you see a person dressed elegantly in a red outfit with a tiara 
on their head, indicating a festive or formal occasion. This individual is
wearing jewelry like earrings, a necklace, and a bracelet, all showing a 
glittering appearance. They seem to be biting into a piece of red and white 
dessert,
possibly red velvet cake with cream cheese frosting or a similarly styled 
cupcake, given the size and how it's held.

In the background, you can see a table laid out with drinks, such as wine and 
champagne, and it seems there is a gathering or celebration taking place.
There's another person visible in the background, sitting at the table, looking 
towards the camera with a glass in front of them. The room has a warm and
joyous atmosphere, with a vibrant red wall that adds to the festive ambiance. 
The setting appears to be a home dining area, indicated by the presence of
bookshelves and domestic furnishings.

Useful tips:
By default, JAWS will just give you a brief description of the image. You need 
to activate the More Results link to obtain description from both services.
The Gemini summary is presented initially because the response time is faster 
and you may just want a brief picture description.

The list of keystrokes is:
JAWS Key+Space then P then:
C for control.
F for file, to be used in File Explorer as an example.
W for window.
S for screen.

It is important to note that when using this feature with social media sites, 
when the analysis is retrieved the Results Viewer does not always gain focus. 
This is a concern. You need to ALT+Tab over to it and possibly press Down Arrow 
afterwards for the description to read. It does not always happen but it 
frequently can.

Apart from Picture Smart, the function to list the running applications, JAWS 
Key+F10, has a new enhancement. Find the name of an application which is 
running and press Delete. The application is closed. A nice enhancement to that 
tool.

Brian Hartgen
Hartgen Consultancy.
Our usual opening Hours are 9 AM to 5 PM UK time, Monday to Friday.
Telephone (in the UK) 02921-051325.
Telephone (in the United States of America) 239-256-77Garth Long
 

Other related posts: